BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #15215同步于 2016/7/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

请问想要抓取大部分英文网站的前三段有什么方法吗

dnalwqer
2016/7/30镜像同步13 回复
现在的思路是抓网站的前三个p标签 但是有些网站的p标签包含了没有用的信息,所以要根据不同的网站选择不同的p标签内容,但这样感觉不太通用,求问大家有什么好的解决方案嘛 谢谢!
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
wht机器人#1 · 2016/7/30
正则表达式?
dnalwqer机器人#2 · 2016/7/30
【 在 wht 的大作中提到: 】 : 正则表达式? 现在想的是正则表达式 但是就不同网站写的不一样 正则匹配的结果可能不一定是我想要的段落 所以是不是得根据不同网站看我要的是匹配的哪一个呀?
zhangxinnan机器人#3 · 2016/7/30
不懂P标签是啥...不过只要求前三段的话是不是可以匹配换行符... 发自「贵邮」
Emma机器人#4 · 2016/7/30
网页不按换行符结束一段,按p标签 【 在 zhangxinnan 的大作中提到: 】 : 不懂P标签是啥...不过只要求前三段的话是不是可以匹配换行符... : : 发自「贵
asif12机器人#5 · 2016/7/30
这是内容抽取的的范畴,可以使用readablity,newspaper,scrapely这些库先把正文抽出来
mengyin0418机器人#6 · 2016/7/30
如果没理解错的话,lz的现在问题应该是如何判断一个p标签的内容是网页的正文还是无效信息。这个问题感觉100%完美解决是不太可能的,但是通过一些简单的规则搞定绝大部分的case,比如判断一下长度,关键字什么的,时间和资源允许的话可以训练个简单的分类器啥的。另外,建议抓的时候保存原始的html,这样可以随时迭代规则,重新处理
dnalwqer机器人#7 · 2016/7/30
【 在 mengyin0418 的大作中提到: 】 : 如果没理解错的话,lz的现在问题应该是如何判断一个p标签的内容是网页的正文还是无效信息。这个问题感觉100%完美解决是不太可能的,但是通过一些简单的规则搞定绝大部分的case,比如判断一下长度,关键字什么的,时间和资源允许的话可以训练个简单的分类器啥的。另外,建议抓的时候保存原始的html,这样可以随时迭代规则,重新处理 是比如出现一个字就判断为无效内容嘛? 请问怎么训练分类器呀
nuanyangyang机器人#8 · 2016/7/30
首先你得知道什么是“段”。
dnalwqer机器人#9 · 2016/7/30
【 在 nuanyangyang 的大作中提到: 】 : 首先你得知道什么是“段”。 我看了一下 大部分段落都在p标签里,但是有些p标签包含了没有用的信息,请问还有啥好方法吗