返回信息流刚看见大家回复,果然外网访问开了之后还是有人理我的[ema3]
大家说的方法我都会挨个试试的
其实这个事最难的地方是对于未知网页我自己都不太明白哪些是标题哪些是段落还要让爬虫明白真的好无力[ema1][ema1]
-----------------------
要求是这样的:根据某个关键词在百度搜索,将搜索到的前十个网页保存下来(这个我已经做好了)。将十个网页里面的内容爬取下来,爬取要求是这样的:不要标题,将正文内容按段落保存成.txt文件。
对于网页http://iphone.tgbus.com/zt/iphone4snew/specs.shtml
这样的是不能要的
这样的是保存成.txt文件的
我感觉这个就两个思路:一个是在BeautifulSoup的文档树里找到正文在的地方,然后按段落划分;还有一个就是直接先把所有内容爬下来再做文字处理
但是我并没什么成果[ema1]
现在是整个网页的内容我能爬下来,但是怎么区别什么是标题,什么是段落,我一直没什么思路,求大神给指给路子,跪谢!![ema11]
这是一条镜像帖。来源:北邮人论坛 / python / #15845同步于 2016/9/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
【更新】有个爬虫的项目,一直没思路
bdyzhy9527
2016/9/6镜像同步15 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Xpath
【 在 bdyzhy9527 (码代码的码) 的大作中提到: 】
: 要求是这样的:根据某个关键词在百度搜索,将搜索到的前十个网页保存下来(这个我已经做好了)。将十个网页里面的内容爬取下来,爬取要求是这样的:不要标题,将正文内容按段落保存成.txt文件。
: 对于网页http://iphone.tgbus.com/zt/iphone4snew/specs.shtml
: 这样的是不能要的
: ...................