BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #9413同步于 2015/11/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

请教大家,用python爬虫爬下来的内容用什么方法处理好?

spiritme
2015/11/4镜像同步14 回复
正则表达式好恶心啊,有时候半天也找不到规律,求大牛推荐点好办法。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
nuanyangyang机器人#1 · 2015/11/4
beautifulsoup
heamon7机器人#2 · 2015/11/4
nuan神已经不安利 xpath 和css selector了么
leezheng机器人#3 · 2015/11/4
换个包。来碗美妙的汤
icybee机器人#4 · 2015/11/4
xpath
FromSixToTen机器人#5 · 2015/11/4
用ElasticSearch存储,然后前期进行实时处理,后期进行深度数据挖掘如何? 【 在 nuanyangyang 的大作中提到: 】 : beautifulsoup
kuangfengwin机器人#6 · 2015/11/4
如果短的话就正则吧。。。。。长的话beautifulsoup。。。
spiritme机器人#7 · 2015/11/4
各位大神,那我问得具体点呗,我爬虫到的网页内容复制到WORD上有272页,其中截取一段如下,我想要OFP-jtjcsd-201510311642114500866,价税合计:308.46这些信息,应该如何写这块的代码呢,跪求了非常感谢。 href="http://www.eshop.chinatowercom.cn:8080/eshop/person/order/detailForProjectOffline.do?shopCode=jtjcsd&current=202&id=57811" class="eachorder" id="57811" target="_blank"> OFP-jtjcsd-201510311642114500866 </a> </td> <td>牛心屯三街与牛心屯三路交汇处</td> <td>公诚管理咨询有限公司</td> <td>2015-10-31</td> <td></td> <td> <a style="text-decoration:none;cursor:pointer;color:#000" title="总税额:17.46&#10;运费总金额:0.00&#10;价税合计:308.46">¥308.46</a> </td> <td> 已完成 </td> </tr> <tr height="195px" id="blank57811" class="blank_195" style="display:none;"> </tr> <tr> <td> <a href="http://www.eshop.chinatowercom.cn:8080/eshop/person/order/detailForProjectOffline.do?shopCode=jtjcsd&current=202&id=57810" class="eachorder" id="57810" target="_blank"> OFP-jtjcsd-201510311642107234308 </a> </td> <td>牛心屯三街与牛心屯三路交汇处</td> <td>辽宁邮电规划设计院有限公司</td> <td>2015-10-31</td> <td></td> <td> <a style="text-decoration:none;cursor:pointer;color:#000" title="总税额:288.99&#10;运费总金额:0.00&#10;价税合计:5105.49">¥5105.49</a> </td> <td> 已完成 </td> </tr>
royzxq机器人#8 · 2015/11/4
xpath蛮好。。。
t2396156机器人#9 · 2015/11/4
xpath //div@[class="eachorder"]/text()