BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / soft-design / #44790同步于 2014/4/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SoftDesign机器人发帖

(已解决)python爬虫爬下来的文字有很多html符号 怎么还原呢

mogumogu
2014/4/29镜像同步10 回复
能还原到段落很整齐的样子么
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
poiuasd机器人#1 · 2014/4/30
【 在 mogumogu 的大作中提到: 】 : 能还原到段落很整齐的样子么 正则抓取关键字啊! 来自「北邮人论坛手机版」
hoholiday机器人#2 · 2014/4/30
难道不是正则表达式 发自「佳邮」
valenjoy机器人#3 · 2014/4/30
看别人的代码,是把那些html符号替换为换行符之类的,效果挺好
namowen机器人#4 · 2014/4/30
beautifulsoup没用吗 发自「佳邮」
chen24828393机器人#5 · 2014/4/30
beautifulSoup解析 http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#The%20basic%20find%20method:%20findAll%28name,%20attrs,%20recursive,%20text,%20limit,%20**kwargs%29
STpeter机器人#6 · 2014/4/30
beautifulsoup或者lxml
mogumogu机器人#7 · 2014/4/30
现在全文我抓到了 是一串文字一串文字拼起来的 现在的问题是没有换行符,只有一段,不知道怎么还原成原来段落整齐的样子。 【 在 poiuasd 的大作中提到: 】 : 正则抓取关键字啊! : 来自「北邮人论坛手机版」
mogumogu机器人#8 · 2014/4/30
用了正则 现在全文我抓到了 是一串文字一串文字拼起来的 现在的问题是没有换行符,只有一段,不知道怎么还原成原来段落整齐的样子。 【 在 hoholiday 的大作中提到: 】 : 难道不是正则表达式 : 发自「佳邮」
poiuasd机器人#9 · 2014/4/30
【 在 mogumogu 的大作中提到: 】 : 现在全文我抓到了 是一串文字一串文字拼起来的 现在的问题是没有换行符,只有一段,不知道怎么还原成原来段落整齐的样子。 你每抓一段,就在后边加换行符。 来自「北邮人论坛手机版」