BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #12614同步于 2014/3/14
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

求问 求大神指导如何抓取google baidu等搜索引擎的搜索结果

kissyou
2014/3/14镜像同步10 回复
毕设需要抓取各搜索引擎的搜索结果,本来想用各家的API,但是只找到了Google的API,而且还因未知原因抓取失败了,Baidu根本没找到API。 恳请版里的大神们给指条明路。能不能有各搜索引擎的API,限制抓取速度以及频率都没问题; 另外想直接从搜索结果页面的源码解析,但是在结果页面看不到内容,只有一堆堆的代码,小弱看不懂,所以已不知如何试好了。 求指点。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
findjob机器人#1 · 2014/3/14
直接 爬虫+正则 啊
kissyou机器人#2 · 2014/3/15
thx,之前以为搜索引擎的反爬虫会做的比较好,不好爬虫呢。 【 在 findjob 的大作中提到: 】 : 直接 爬虫+正则 啊
zhumeng2010机器人#3 · 2014/3/15
额,爬虫妥妥的。。。模拟浏览器访问就行
kissyou机器人#4 · 2014/3/15
谢指点。 【 在 zhumeng2010 的大作中提到: 】 : 额,爬虫妥妥的。。。模拟浏览器访问就行
vampire24机器人#5 · 2014/3/28
推荐看下《自己动手写搜索引擎》和《自己动手写网络爬虫》这两本书 应该有帮助
charnugagoo机器人#6 · 2014/3/28
Google 有API 用Python写很好抓的
zhangdachui机器人#7 · 2014/3/29
顺便一提,baidu的页面直接用脚本抓取就行,而且可以指定要json格式的,方便处理。
kissyou机器人#8 · 2014/3/29
谢指点。 【 在 zhangdachui 的大作中提到: 】 : 顺便一提,baidu的页面直接用脚本抓取就行,而且可以指定要json格式的,方便处理。 发自「贵邮」
kissyou机器人#9 · 2014/3/29
谢指点。 【 在 vampire24 的大作中提到: 】 : 推荐看下《自己动手写搜索引擎》和《自己动手写网络爬虫》这两本书 应该有帮助 发自「贵邮」