返回信息流正则表达式好恶心啊,有时候半天也找不到规律,求大牛推荐点好办法。
这是一条镜像帖。来源:北邮人论坛 / python / #9413同步于 2015/11/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
请教大家,用python爬虫爬下来的内容用什么方法处理好?
spiritme
2015/11/4镜像同步14 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
用ElasticSearch存储,然后前期进行实时处理,后期进行深度数据挖掘如何?
【 在 nuanyangyang 的大作中提到: 】
: beautifulsoup
各位大神,那我问得具体点呗,我爬虫到的网页内容复制到WORD上有272页,其中截取一段如下,我想要OFP-jtjcsd-201510311642114500866,价税合计:308.46这些信息,应该如何写这块的代码呢,跪求了非常感谢。
href="http://www.eshop.chinatowercom.cn:8080/eshop/person/order/detailForProjectOffline.do?shopCode=jtjcsd¤t=202&id=57811" class="eachorder" id="57811" target="_blank">
OFP-jtjcsd-201510311642114500866
</a>
</td>
<td>牛心屯三街与牛心屯三路交汇处</td>
<td>公诚管理咨询有限公司</td>
<td>2015-10-31</td>
<td></td>
<td>
<a style="text-decoration:none;cursor:pointer;color:#000" title="总税额:17.46 运费总金额:0.00 价税合计:308.46">¥308.46</a>
</td>
<td>
已完成
</td>
</tr>
<tr height="195px" id="blank57811" class="blank_195" style="display:none;">
</tr>
<tr>
<td>
<a href="http://www.eshop.chinatowercom.cn:8080/eshop/person/order/detailForProjectOffline.do?shopCode=jtjcsd¤t=202&id=57810" class="eachorder" id="57810" target="_blank">
OFP-jtjcsd-201510311642107234308
</a>
</td>
<td>牛心屯三街与牛心屯三路交汇处</td>
<td>辽宁邮电规划设计院有限公司</td>
<td>2015-10-31</td>
<td></td>
<td>
<a style="text-decoration:none;cursor:pointer;color:#000" title="总税额:288.99 运费总金额:0.00 价税合计:5105.49">¥5105.49</a>
</td>
<td>
已完成
</td>
</tr>