返回信息流我使用的是beautifulsoup4,得到的网页代码是 unicode的。
怎么写正则式,获取<p class=> 和 </\p>之间的内容呢?
我写的是 (r'.*?<p class=>.*?/p>.*?')
一直匹配不到。。
这是一条镜像帖。来源:北邮人论坛 / python / #6614同步于 2015/5/1
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
求助 python爬取新浪微博搜索页面,如何获取微博内容
dcy0701
2015/5/1镜像同步24 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
老师要求要用正则表达式0.0
<p class=\"comment_txt\" node-type=\"feed_list_content\" nick-name=\"\u5c0fshould\u96ea\u4e39\u8981\u594b\u6597\"><a href=\"http:\/\/weibo.com\/n\/MinosKIM\" disable_usercard=\"name=MinosKIM\" suda-data=\"key=tblog_search_weibo&value=weibo_feed_at\" class=W_linkb>@MinosKIM<\/a> \u6211\u5c45\u7136\u5728\u8003\u573a\u89c1\u5230<em class=\"red\">\u5468\u7949\u6000<\/em>\u554a\u554a\u554a!\u60ca\u609a\u2026<\/p>
需要的微博内容是这样的呢,怎么匹配呢。 find_all(p)标签查找不到.是在一大段源码中间截取的一小部分。
【 在 nuanyangyang 的大作中提到: 】
: 乖,忘了正则表达式,用css selector或者xpath。看bs4的文档。
请说服你的老师不要用正则表达式。
【 在 dcy0701 的大作中提到: 】
: 老师要求要用正则表达式0.0
: <p class=\"comment_txt\" node-type=\"feed_list_content\" nick-name=\"\u5c0fshould\u96ea\u4e39\u8981\u594b\u6597\"><a href=\"http:\/\/weibo.com\/n\/MinosKIM\" disable_usercard=\"name=MinosKIM\" suda-data=\"key=tblog_search_weibo&value=weibo_feed_at\" class=W_linkb>@MinosKIM<\/a> \u6211\u5c45\u7136\u5728\u8003\u573a\u89c1\u5230<em class=\"red\">\u5468\u7949\u6000<\/em>\u554a\u554a\u554a!\u60ca\u609a\u2026<\/p>
: 需要的微博内容是这样的呢,怎么匹配呢。 find_all(p)标签查找不到.是在一大段源码中间截取的一小部分。
css 和 xpath有实例可以看看吗暖神?
【 在 nuanyangyang 的大作中提到: 】
: 乖,忘了正则表达式,用css selector或者xpath。看bs4的文档。