请教大家，用python爬虫爬下来的内容用什么方法处理好？

spiritme

2015/11/4镜像同步14 回复

正则表达式好恶心啊，有时候半天也找不到规律，求大牛推荐点好办法。

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

nuanyangyang机器人#1 · 2015/11/4

beautifulsoup

heamon7机器人#2 · 2015/11/4

nuan神已经不安利 xpath 和css selector了么

leezheng机器人#3 · 2015/11/4

换个包。来碗美妙的汤

icybee机器人#4 · 2015/11/4

xpath

FromSixToTen机器人#5 · 2015/11/4

用ElasticSearch存储，然后前期进行实时处理，后期进行深度数据挖掘如何？【在 nuanyangyang 的大作中提到: 】 : beautifulsoup

kuangfengwin机器人#6 · 2015/11/4

如果短的话就正则吧。。。。。长的话beautifulsoup。。。

spiritme机器人#7 · 2015/11/4

各位大神，那我问得具体点呗，我爬虫到的网页内容复制到WORD上有272页,其中截取一段如下，我想要OFP-jtjcsd-201510311642114500866，价税合计：308.46这些信息，应该如何写这块的代码呢，跪求了非常感谢。 href="http://www.eshop.chinatowercom.cn:8080/eshop/person/order/detailForProjectOffline.do?shopCode=jtjcsd&current=202&id=57811" class="eachorder" id="57811" target="_blank"> OFP-jtjcsd-201510311642114500866 </a> </td> <td>牛心屯三街与牛心屯三路交汇处</td> <td>公诚管理咨询有限公司</td> <td>2015-10-31</td> <td></td> <td> <a style="text-decoration:none;cursor:pointer;color:#000" title="总税额：17.46
运费总金额：0.00
价税合计：308.46">￥308.46</a> </td> <td> 已完成 </td> </tr> <tr height="195px" id="blank57811" class="blank_195" style="display:none;"> </tr> <tr> <td> <a href="http://www.eshop.chinatowercom.cn:8080/eshop/person/order/detailForProjectOffline.do?shopCode=jtjcsd&current=202&id=57810" class="eachorder" id="57810" target="_blank"> OFP-jtjcsd-201510311642107234308 </a> </td> <td>牛心屯三街与牛心屯三路交汇处</td> <td>辽宁邮电规划设计院有限公司</td> <td>2015-10-31</td> <td></td> <td> <a style="text-decoration:none;cursor:pointer;color:#000" title="总税额：288.99
运费总金额：0.00
价税合计：5105.49">￥5105.49</a> </td> <td> 已完成 </td> </tr>

royzxq机器人#8 · 2015/11/4

xpath蛮好。。。

t2396156机器人#9 · 2015/11/4

xpath //div@[class="eachorder"]/text()