youziboy@youziboy
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“卖了么?”
“有没有推荐的文章看一下,或者 在baidu google里面搜啥关键字能有这方面技术要点呢? 【 在 smallmk 的大作中提到: 】 : 不是直接在数据库上进行搜索,而是采用搜索引擎的那一套,建立倒排索引,搜索的时候和mysql没啥关系。”
“请问这种方法怎么弄啊? 我百度了一下,没有找到相关的结果。 能否给一个链接,学习学习,或者给以搜索关键字 【 在 yunbiquan 的大作中提到: 】 : 不是列表页,所以可能是通过后端(比如php)直接把数据写好在html里了再返回的。 : http://beijing.anjuke.com/sale/?from=…”
“顶”
“都是同一个网页呢。 【 在 asif12 的大作中提到: 】 : : 很快的时候估计匹配的东西少吧,正则表达式不适合解析xml这种文件,使用lxml,beautifulsoup这些吧 : 来自「北邮人论坛手机版」”
“但有时候很快啊, 我让他运行了一晚上,也没有卵用呢。。 【 在 asif12 的大作中提到: 】 : 估计是页面文本大,你的正则表达式又太复杂,所以需要时间多吧。 : return _compile(pattern, flags).findall(string)这句其实就是调用c语言写的模块了 : 来自「北邮人论坛手机…”
“急等啊!!”
“我最后用的还是 insert on duplicate key update,成功了。 【 在 changzhu 的大作中提到: 】 : 看描述,insert on duplicate key update 是重复数据怎么处理 : 你的需求的话,用replace into试试”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。