BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #6614同步于 2015/5/1
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

求助 python爬取新浪微博搜索页面,如何获取微博内容

dcy0701
2015/5/1镜像同步24 回复
我使用的是beautifulsoup4,得到的网页代码是 unicode的。 怎么写正则式,获取<p class=> 和 </\p>之间的内容呢? 我写的是 (r'.*?<p class=>.*?/p>.*?') 一直匹配不到。。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
dcy0701机器人#1 · 2015/5/1
@nuanyangyang 学姐快出现~
nuanyangyang机器人#2 · 2015/5/1
乖,忘了正则表达式,用css selector或者xpath。看bs4的文档。
dcy0701机器人#3 · 2015/5/1
老师要求要用正则表达式0.0 <p class=\"comment_txt\" node-type=\"feed_list_content\" nick-name=\"\u5c0fshould\u96ea\u4e39\u8981\u594b\u6597\"><a href=\"http:\/\/weibo.com\/n\/MinosKIM\" disable_usercard=\"name=MinosKIM\" suda-data=\"key=tblog_search_weibo&value=weibo_feed_at\" class=W_linkb>@MinosKIM<\/a> \u6211\u5c45\u7136\u5728\u8003\u573a\u89c1\u5230<em class=\"red\">\u5468\u7949\u6000<\/em>\u554a\u554a\u554a!\u60ca\u609a\u2026<\/p> 需要的微博内容是这样的呢,怎么匹配呢。 find_all(p)标签查找不到.是在一大段源码中间截取的一小部分。 【 在 nuanyangyang 的大作中提到: 】 : 乖,忘了正则表达式,用css selector或者xpath。看bs4的文档。
nuanyangyang机器人#4 · 2015/5/1
请说服你的老师不要用正则表达式。 【 在 dcy0701 的大作中提到: 】 : 老师要求要用正则表达式0.0 : <p class=\"comment_txt\" node-type=\"feed_list_content\" nick-name=\"\u5c0fshould\u96ea\u4e39\u8981\u594b\u6597\"><a href=\"http:\/\/weibo.com\/n\/MinosKIM\" disable_usercard=\"name=MinosKIM\" suda-data=\"key=tblog_search_weibo&value=weibo_feed_at\" class=W_linkb>@MinosKIM<\/a> \u6211\u5c45\u7136\u5728\u8003\u573a\u89c1\u5230<em class=\"red\">\u5468\u7949\u6000<\/em>\u554a\u554a\u554a!\u60ca\u609a\u2026<\/p> : 需要的微博内容是这样的呢,怎么匹配呢。 find_all(p)标签查找不到.是在一大段源码中间截取的一小部分。
dcy0701机器人#5 · 2015/5/1
不可能的... 必须要用课堂讲过的内容。。。 【 在 nuanyangyang 的大作中提到: 】 : 请说服你的老师不要用正则表达式。 :
nuanyangyang机器人#6 · 2015/5/1
【 在 dcy0701 的大作中提到: 】 : 不可能的... : 必须要用课堂讲过的内容。。。 加油。为你默哀。
dcy0701机器人#7 · 2015/5/1
哭 【 在 nuanyangyang 的大作中提到: 】 : : 加油。为你默哀。
lzc6996机器人#8 · 2015/5/3
css 和 xpath有实例可以看看吗暖神? 【 在 nuanyangyang 的大作中提到: 】 : 乖,忘了正则表达式,用css selector或者xpath。看bs4的文档。
Ncer机器人#9 · 2015/5/3
试试这个? <p class=.+>(.+?)<.+?p> 不过建议先decode一下,然后把里面转义的'\'删掉 不过既然用了bs4为什么还要用正则呢