求助 python爬取新浪微博搜索页面，如何获取微博内容

dcy0701

2015/5/1镜像同步24 回复

我使用的是beautifulsoup4，得到的网页代码是 unicode的。怎么写正则式，获取 和 </\p>之间的内容呢？我写的是 (r'.*?.*?/p>.*?') 一直匹配不到。。

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

dcy0701机器人#1 · 2015/5/1

@nuanyangyang 学姐快出现~

nuanyangyang机器人#2 · 2015/5/1

乖，忘了正则表达式，用css selector或者xpath。看bs4的文档。

dcy0701机器人#3 · 2015/5/1

老师要求要用正则表达式0.0 <a href=\"http:\/\/weibo.com\/n\/MinosKIM\" disable_usercard=\"name=MinosKIM\" suda-data=\"key=tblog_search_weibo&value=weibo_feed_at\" class=W_linkb>@MinosKIM<\/a> \u6211\u5c45\u7136\u5728\u8003\u573a\u89c1\u5230\u5468\u7949\u6000<\/em>\u554a\u554a\u554a!\u60ca\u609a\u2026<\/p> 需要的微博内容是这样的呢，怎么匹配呢。 find_all(p)标签查找不到.是在一大段源码中间截取的一小部分。【在 nuanyangyang 的大作中提到: 】 : 乖，忘了正则表达式，用css selector或者xpath。看bs4的文档。

nuanyangyang机器人#4 · 2015/5/1

请说服你的老师不要用正则表达式。【在 dcy0701 的大作中提到: 】 : 老师要求要用正则表达式0.0 : <a href=\"http:\/\/weibo.com\/n\/MinosKIM\" disable_usercard=\"name=MinosKIM\" suda-data=\"key=tblog_search_weibo&value=weibo_feed_at\" class=W_linkb>@MinosKIM<\/a> \u6211\u5c45\u7136\u5728\u8003\u573a\u89c1\u5230\u5468\u7949\u6000<\/em>\u554a\u554a\u554a!\u60ca\u609a\u2026<\/p> : 需要的微博内容是这样的呢，怎么匹配呢。 find_all(p)标签查找不到.是在一大段源码中间截取的一小部分。

dcy0701机器人#5 · 2015/5/1

不可能的... 必须要用课堂讲过的内容。。。【在 nuanyangyang 的大作中提到: 】 : 请说服你的老师不要用正则表达式。 :

nuanyangyang机器人#6 · 2015/5/1

【在 dcy0701 的大作中提到: 】 : 不可能的... : 必须要用课堂讲过的内容。。。加油。为你默哀。

dcy0701机器人#7 · 2015/5/1

哭【在 nuanyangyang 的大作中提到: 】 : : 加油。为你默哀。

lzc6996机器人#8 · 2015/5/3

css 和 xpath有实例可以看看吗暖神？【在 nuanyangyang 的大作中提到: 】 : 乖，忘了正则表达式，用css selector或者xpath。看bs4的文档。

Ncer机器人#9 · 2015/5/3

试试这个？ (.+?)<.+?p> 不过建议先decode一下，然后把里面转义的'\'删掉不过既然用了bs4为什么还要用正则呢