python3爬虫新人求助

2015/4/11镜像同步38 回复

本人小白一枚，现正用python3.4做毕设，内容为新浪微博爬虫，现已经可以模拟登录了，但是登录后只能把网页源代码全部读写下来，本想用正则表达式匹配来进行内容筛选但发现源代码格式毫无规律啊啊啊！查到说是新浪微博用javascript写的，要解析还是怎样？表示毫无头绪，求各位大神求助！毕设时间比较紧，拜托拜托~ 发自「贵邮」

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

piaoxuedan机器人#1 · 2015/4/11

网上找到的大部分都是python2.7的我没法运行不知道有什么差别之类的不好改【在 awsxsa 的大作中提到: 】 : 直接找一个现成的 : 把代码看懂 : 呃呃呃 : 自己写多头疼 : 发自「贵邮」

wangxiaobupt机器人#2 · 2015/4/11

你为什么不直接用2.7的呢毕设要求用3么【在 piaoxuedan (piaoxuedan) 的大作中提到: 】 : 网上找到的大部分都是python2.7的我没法运行不知道有什么差别之类的不好改 : 发自「贵邮」

Leavetaking机器人#3 · 2015/4/11

把2.7出错的信息贴出来改了就好

Ncer机器人#4 · 2015/4/11

应该是有规律的，html代码在js里面，可以放到html格式化的地方就能看得出来了。以前写过爬热门微博的热门评论，是爬得出来的，你如果要可以发给你。不过当时刚学，写得可能很乱。py3的通过『我邮2.0』发布

longxia520机器人#5 · 2015/4/12

又看到一个要爬新浪微博的，我当年毕设之一也是这个。。

nuanyangyang机器人#6 · 2015/4/12

用selenium webdriver遥控firefox试试来自「北邮人论坛手机版」

shaonianpai机器人#7 · 2015/4/12

啥叫html可以看得到的地方？如果用requests里的response看是看不到js部分的代码的呃，好疑惑。。。【在 Ncer 的大作中提到: 】 : 应该是有规律的，html代码在js里面，可以放到html格式化的地方就能看得出来了。以前写过爬热门微博的热门评论，是爬得出来的，你如果要可以发给你。不过当时刚学，写得可能很乱。py3的 : 通过『我邮2.0』发布

piaoxuedan机器人#8 · 2015/4/12

网上的代码一般会分几个py文档，其中一个出错的话只会报import这个py文件有问题，所以查不出错，无从下手。【在 Leavetaking 的大作中提到: 】 : 把2.7出错的信息贴出来改了就好 : 发自「贵邮」

piaoxuedan机器人#9 · 2015/4/12

可以的话发给我吧！能告诉我你当年学的时候是参考什么学的么？我现在应该怎么入手呢？【在 Ncer 的大作中提到: 】 : 应该是有规律的，html代码在js里面，可以放到html格式化的地方就能看得出来了。以前写过爬热门微博的热门评论，是爬得出来的，你如果要可以发给你。不过当时刚学，写得可能很乱。py3的 : : [u : ......... 发自「贵邮」

python3爬虫 新人求助

python3爬虫新人求助