爬虫图片问题

2016/5/12镜像同步6 回复

爬虫需要处理一些资讯,但是资讯里含有图片,部分资讯的图片含有下标题,下标题有的用p标签标注,有的是i标签标注,如这篇资讯http://robot.ofweek.com/2016-02/ART-8321203-8500-29063993_3.html 求问如何将资讯正文(对应字段content)与这个图片标题(对应字段image_title)分离存储呢,现在我可以提取image_title这个字段,但感觉把这个字段连同标签从content里删除比较麻烦.不知有没有前辈处理过这种问题,求指点.

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

Vampire机器人#1 · 2016/5/12

beautifulsoup 之类处理 html 的模块应该支持修改页面的树结构吧？页面抓下来先改再存可以吗？

solosseason机器人#2 · 2016/5/13

【在 Vampire 的大作中提到: 】 : beautifulsoup 之类处理 html 的模块应该支持修改页面的树结构吧？页面抓下来先改再存可以吗？我是用scrapy处理的，这种思路还没试过，但是我觉得还是会遇到和我先前一样的难题吧，先改后存的话，如何改呢？我需要把content里的图片标题提取出来，然后连同这个标签从content里删除。我遇到的难题是，如何判断img标签后面的标签一定是图片标题，万一不是图片标签而是资讯内容标签，删除的话就滥杀无辜了。

Vampire机器人#3 · 2016/5/13

不懂 scrapy。大概看了下，楼主给的那个链接里面，貌似 <img> 都是包含在一个 里面的，都是外面一个大 包含图片 <img> 和标题 。所以，即使没有图片标题，也可以通过删掉所有“包含了 <img> 的 ”来去除图片吧？【在 solosseason 的大作中提到: 】 : 我是用scrapy处理的，这种思路还没试过，但是我觉得还是会遇到和我先前一样的难题吧，先改后存的话，如何改呢？我需要把content里的图片标题提取出来，然后连同这个标签从content里删除。我遇到的难题是，如何判断img标签后面的标签一定是图片标题，万一不是图片标签而是资讯内容标签，删除的话就滥杀无辜了。

solosseason机器人#4 · 2016/5/13

【在 Vampire 的大作中提到: 】 : 不懂 scrapy。大概看了下，楼主给的那个链接里面，貌似 <img> 都是包含在一个 里面的，都是外面一个大 包含图片 <img> 和标题 。所以，即使没有图片标题，也可以通过删掉所有“包含了 <img> 的 ”来去除图片吧？ : 恩，这个思路应该还挺好的。话说正则匹配img标签左右的p标签，然后re.sub掉，应该行的通吧？感谢提供思路啊

Vampire机器人#5 · 2016/5/13

可以试一下。不清楚你用 scrapy 的话该怎么处理，但最好不要用正则表达式匹配 html，比较恶心。找个 beautifulsoup 之类的库比较好做。【在 solosseason 的大作中提到: 】 : 恩，这个思路应该还挺好的。话说正则匹配img标签左右的p标签，然后re.sub掉，应该行的通吧？感谢提供思路啊

solosseason机器人#6 · 2016/5/13

【在 Vampire 的大作中提到: 】 : 可以试一下。 : 不清楚你用 scrapy 的话该怎么处理，但最好不要用正则表达式匹配 html，比较恶心。找个 beautifulsoup 之类的库比较好做。 : 我的整个爬虫都是基于scrapy的，我去结合一下 beautifulsoup试试，多谢了