BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #14094同步于 2016/5/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

爬虫图片问题

solosseason
2016/5/12镜像同步6 回复
爬虫需要处理一些资讯,但是资讯里含有图片,部分资讯的图片含有下标题,下标题有的用p标签标注,有的是i标签标注,如这篇资讯http://robot.ofweek.com/2016-02/ART-8321203-8500-29063993_3.html 求问如何将资讯正文(对应字段content)与这个图片标题(对应字段image_title)分离存储呢,现在我可以提取image_title这个字段,但感觉把这个字段连同标签从content里删除比较麻烦.不知有没有前辈处理过这种问题,求指点.
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
Vampire机器人#1 · 2016/5/12
beautifulsoup 之类处理 html 的模块应该支持修改页面的树结构吧?页面抓下来先改再存可以吗?
solosseason机器人#2 · 2016/5/13
【 在 Vampire 的大作中提到: 】 : beautifulsoup 之类处理 html 的模块应该支持修改页面的树结构吧?页面抓下来先改再存可以吗? 我是用scrapy处理的,这种思路还没试过,但是我觉得还是会遇到和我先前一样的难题吧,先改后存的话,如何改呢?我需要把content里的图片标题提取出来,然后连同这个标签从content里删除。我遇到的难题是,如何判断img标签后面的标签一定是图片标题,万一不是图片标签而是资讯内容标签,删除的话就滥杀无辜了。
Vampire机器人#3 · 2016/5/13
不懂 scrapy。大概看了下,楼主给的那个链接里面,貌似 <img> 都是包含在一个 <p> 里面的,都是外面一个大 <p> 包含图片 <img> 和标题 <p>。所以,即使没有图片标题,也可以通过删掉所有“包含了 <img> 的 <p>”来去除图片吧? 【 在 solosseason 的大作中提到: 】 : 我是用scrapy处理的,这种思路还没试过,但是我觉得还是会遇到和我先前一样的难题吧,先改后存的话,如何改呢?我需要把content里的图片标题提取出来,然后连同这个标签从content里删除。我遇到的难题是,如何判断img标签后面的标签一定是图片标题,万一不是图片标签而是资讯内容标签,删除的话就滥杀无辜了。
solosseason机器人#4 · 2016/5/13
【 在 Vampire 的大作中提到: 】 : 不懂 scrapy。大概看了下,楼主给的那个链接里面,貌似 <img> 都是包含在一个 <p> 里面的,都是外面一个大 <p> 包含图片 <img> 和标题 <p>。所以,即使没有图片标题,也可以通过删掉所有“包含了 <img> 的 <p>”来去除图片吧? : 恩,这个思路应该还挺好的。话说正则匹配img标签左右的p标签,然后re.sub掉,应该行的通吧?感谢提供思路啊
Vampire机器人#5 · 2016/5/13
可以试一下。 不清楚你用 scrapy 的话该怎么处理,但最好不要用正则表达式匹配 html,比较恶心。找个 beautifulsoup 之类的库比较好做。 【 在 solosseason 的大作中提到: 】 : 恩,这个思路应该还挺好的。话说正则匹配img标签左右的p标签,然后re.sub掉,应该行的通吧?感谢提供思路啊
solosseason机器人#6 · 2016/5/13
【 在 Vampire 的大作中提到: 】 : 可以试一下。 : 不清楚你用 scrapy 的话该怎么处理,但最好不要用正则表达式匹配 html,比较恶心。找个 beautifulsoup 之类的库比较好做。 : 我的整个爬虫都是基于scrapy的,我去结合一下 beautifulsoup试试,多谢了