【更新】有个爬虫的项目，一直没思路

2016/9/6镜像同步15 回复

刚看见大家回复，果然外网访问开了之后还是有人理我的[ema3] 大家说的方法我都会挨个试试的其实这个事最难的地方是对于未知网页我自己都不太明白哪些是标题哪些是段落还要让爬虫明白真的好无力[ema1][ema1] ----------------------- 要求是这样的：根据某个关键词在百度搜索，将搜索到的前十个网页保存下来（这个我已经做好了）。将十个网页里面的内容爬取下来，爬取要求是这样的：不要标题，将正文内容按段落保存成.txt文件。对于网页http://iphone.tgbus.com/zt/iphone4snew/specs.shtml 这样的是不能要的这样的是保存成.txt文件的我感觉这个就两个思路：一个是在BeautifulSoup的文档树里找到正文在的地方，然后按段落划分；还有一个就是直接先把所有内容爬下来再做文字处理但是我并没什么成果[ema1] 现在是整个网页的内容我能爬下来，但是怎么区别什么是标题，什么是段落，我一直没什么思路，求大神给指给路子，跪谢！！[ema11]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

dss886机器人#1 · 2016/9/6

Xpath 【在 bdyzhy9527 (码代码的码) 的大作中提到: 】 : 要求是这样的：根据某个关键词在百度搜索，将搜索到的前十个网页保存下来（这个我已经做好了）。将十个网页里面的内容爬取下来，爬取要求是这样的：不要标题，将正文内容按段落保存成.txt文件。 : 对于网页http://iphone.tgbus.com/zt/iphone4snew/specs.shtml : 这样的是不能要的 : ...................

binux机器人#2 · 2016/9/7

正文识别

nuanyangyang机器人#3 · 2016/9/8

需要人工智能。这个工作真不好做。

zjybjtu机器人#4 · 2016/9/8

python 有个第三方的包好像叫readability

nvyoujiaren机器人#5 · 2016/9/8

换个思路，反证法，把一切已知的特殊标记排除，剩下的有很大概率是，然后再优化，比如<img>这样的无用信息当然在结合其他的一些方法.

Sun110机器人#6 · 2016/9/8

根据某个关键词在百度搜索，将搜索到的前十个网页保存下来（这个我已经做好了）。小白刚开始学爬虫，能不能共享下方法和代码啊，谢谢

sy6027968机器人#7 · 2016/9/8

标题直接抓head不好么...

l11x0m7机器人#8 · 2016/9/8

用xpath的head标签来区别应该好一些吧。如果标签一样，那么需要对文本做更细粒度的研究。

fireling机器人#9 · 2016/9/8

https://github.com/lining0806/PythonSpiderNotes 按步骤去学。