返回信息流现在的思路是抓网站的前三个p标签 但是有些网站的p标签包含了没有用的信息,所以要根据不同的网站选择不同的p标签内容,但这样感觉不太通用,求问大家有什么好的解决方案嘛 谢谢!
这是一条镜像帖。来源:北邮人论坛 / python / #15215同步于 2016/7/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
请问想要抓取大部分英文网站的前三段有什么方法吗
dnalwqer
2016/7/30镜像同步13 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 wht 的大作中提到: 】
: 正则表达式?
现在想的是正则表达式 但是就不同网站写的不一样 正则匹配的结果可能不一定是我想要的段落 所以是不是得根据不同网站看我要的是匹配的哪一个呀?
网页不按换行符结束一段,按p标签
【 在 zhangxinnan 的大作中提到: 】
: 不懂P标签是啥...不过只要求前三段的话是不是可以匹配换行符...
:
: 发自「贵
如果没理解错的话,lz的现在问题应该是如何判断一个p标签的内容是网页的正文还是无效信息。这个问题感觉100%完美解决是不太可能的,但是通过一些简单的规则搞定绝大部分的case,比如判断一下长度,关键字什么的,时间和资源允许的话可以训练个简单的分类器啥的。另外,建议抓的时候保存原始的html,这样可以随时迭代规则,重新处理
【 在 mengyin0418 的大作中提到: 】
: 如果没理解错的话,lz的现在问题应该是如何判断一个p标签的内容是网页的正文还是无效信息。这个问题感觉100%完美解决是不太可能的,但是通过一些简单的规则搞定绝大部分的case,比如判断一下长度,关键字什么的,时间和资源允许的话可以训练个简单的分类器啥的。另外,建议抓的时候保存原始的html,这样可以随时迭代规则,重新处理
是比如出现一个字就判断为无效内容嘛?
请问怎么训练分类器呀
【 在 nuanyangyang 的大作中提到: 】
: 首先你得知道什么是“段”。
我看了一下 大部分段落都在p标签里,但是有些p标签包含了没有用的信息,请问还有啥好方法吗