请问想要抓取大部分英文网站的前三段有什么方法吗

dnalwqer

2016/7/30镜像同步13 回复

现在的思路是抓网站的前三个p标签但是有些网站的p标签包含了没有用的信息，所以要根据不同的网站选择不同的p标签内容，但这样感觉不太通用，求问大家有什么好的解决方案嘛谢谢！

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

wht机器人#1 · 2016/7/30

正则表达式？

dnalwqer机器人#2 · 2016/7/30

【在 wht 的大作中提到: 】 : 正则表达式？现在想的是正则表达式但是就不同网站写的不一样正则匹配的结果可能不一定是我想要的段落所以是不是得根据不同网站看我要的是匹配的哪一个呀？

zhangxinnan机器人#3 · 2016/7/30

不懂P标签是啥...不过只要求前三段的话是不是可以匹配换行符... 发自「贵邮」

Emma机器人#4 · 2016/7/30

网页不按换行符结束一段，按p标签【在 zhangxinnan 的大作中提到: 】 : 不懂P标签是啥...不过只要求前三段的话是不是可以匹配换行符... : : 发自「贵

asif12机器人#5 · 2016/7/30

这是内容抽取的的范畴，可以使用readablity,newspaper,scrapely这些库先把正文抽出来

mengyin0418机器人#6 · 2016/7/30

如果没理解错的话，lz的现在问题应该是如何判断一个p标签的内容是网页的正文还是无效信息。这个问题感觉100%完美解决是不太可能的，但是通过一些简单的规则搞定绝大部分的case，比如判断一下长度，关键字什么的，时间和资源允许的话可以训练个简单的分类器啥的。另外，建议抓的时候保存原始的html，这样可以随时迭代规则，重新处理

dnalwqer机器人#7 · 2016/7/30

【在 mengyin0418 的大作中提到: 】 : 如果没理解错的话，lz的现在问题应该是如何判断一个p标签的内容是网页的正文还是无效信息。这个问题感觉100%完美解决是不太可能的，但是通过一些简单的规则搞定绝大部分的case，比如判断一下长度，关键字什么的，时间和资源允许的话可以训练个简单的分类器啥的。另外，建议抓的时候保存原始的html，这样可以随时迭代规则，重新处理是比如出现一个字就判断为无效内容嘛？请问怎么训练分类器呀

nuanyangyang机器人#8 · 2016/7/30

首先你得知道什么是“段”。

dnalwqer机器人#9 · 2016/7/30

【在 nuanyangyang 的大作中提到: 】 : 首先你得知道什么是“段”。我看了一下大部分段落都在p标签里，但是有些p标签包含了没有用的信息，请问还有啥好方法吗