返回信息流爬虫需要处理一些资讯,但是资讯里含有图片,部分资讯的图片含有下标题,下标题有的用p标签标注,有的是i标签标注,如这篇资讯http://robot.ofweek.com/2016-02/ART-8321203-8500-29063993_3.html
求问如何将资讯正文(对应字段content)与这个图片标题(对应字段image_title)分离存储呢,现在我可以提取image_title这个字段,但感觉把这个字段连同标签从content里删除比较麻烦.不知有没有前辈处理过这种问题,求指点.
这是一条镜像帖。来源:北邮人论坛 / python / #14094同步于 2016/5/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
爬虫图片问题
solosseason
2016/5/12镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
【 在 Vampire 的大作中提到: 】
: beautifulsoup 之类处理 html 的模块应该支持修改页面的树结构吧?页面抓下来先改再存可以吗?
我是用scrapy处理的,这种思路还没试过,但是我觉得还是会遇到和我先前一样的难题吧,先改后存的话,如何改呢?我需要把content里的图片标题提取出来,然后连同这个标签从content里删除。我遇到的难题是,如何判断img标签后面的标签一定是图片标题,万一不是图片标签而是资讯内容标签,删除的话就滥杀无辜了。
不懂 scrapy。大概看了下,楼主给的那个链接里面,貌似 <img> 都是包含在一个 <p> 里面的,都是外面一个大 <p> 包含图片 <img> 和标题 <p>。所以,即使没有图片标题,也可以通过删掉所有“包含了 <img> 的 <p>”来去除图片吧?
【 在 solosseason 的大作中提到: 】
: 我是用scrapy处理的,这种思路还没试过,但是我觉得还是会遇到和我先前一样的难题吧,先改后存的话,如何改呢?我需要把content里的图片标题提取出来,然后连同这个标签从content里删除。我遇到的难题是,如何判断img标签后面的标签一定是图片标题,万一不是图片标签而是资讯内容标签,删除的话就滥杀无辜了。
【 在 Vampire 的大作中提到: 】
: 不懂 scrapy。大概看了下,楼主给的那个链接里面,貌似 <img> 都是包含在一个 <p> 里面的,都是外面一个大 <p> 包含图片 <img> 和标题 <p>。所以,即使没有图片标题,也可以通过删掉所有“包含了 <img> 的 <p>”来去除图片吧?
:
恩,这个思路应该还挺好的。话说正则匹配img标签左右的p标签,然后re.sub掉,应该行的通吧?感谢提供思路啊
可以试一下。
不清楚你用 scrapy 的话该怎么处理,但最好不要用正则表达式匹配 html,比较恶心。找个 beautifulsoup 之类的库比较好做。
【 在 solosseason 的大作中提到: 】
: 恩,这个思路应该还挺好的。话说正则匹配img标签左右的p标签,然后re.sub掉,应该行的通吧?感谢提供思路啊
【 在 Vampire 的大作中提到: 】
: 可以试一下。
: 不清楚你用 scrapy 的话该怎么处理,但最好不要用正则表达式匹配 html,比较恶心。找个 beautifulsoup 之类的库比较好做。
:
我的整个爬虫都是基于scrapy的,我去结合一下 beautifulsoup试试,多谢了