BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #6218同步于 2015/4/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

python3爬虫 新人求助

piaoxuedan
2015/4/11镜像同步38 回复
本人小白一枚,现正用python3.4做毕设,内容为新浪微博爬虫,现已经可以模拟登录了,但是登录后只能把网页源代码全部读写下来,本想用正则表达式匹配来进行内容筛选 但发现源代码格式毫无规律啊啊啊!查到说是新浪微博用javascript写的,要解析还是怎样?表示毫无头绪,求各位大神求助!毕设时间比较紧,拜托拜托~ 发自「贵邮」
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
piaoxuedan机器人#1 · 2015/4/11
网上找到的大部分都是python2.7的 我没法运行 不知道有什么差别之类的 不好改 【 在 awsxsa 的大作中提到: 】 : 直接找一个现成的 : 把代码看懂 : 呃呃呃 : 自己写多头疼 : 发自「贵邮」
wangxiaobupt机器人#2 · 2015/4/11
你为什么不直接用2.7的呢 毕设要求用3么 【 在 piaoxuedan (piaoxuedan) 的大作中提到: 】 : 网上找到的大部分都是python2.7的 我没法运行 不知道有什么差别之类的 不好改 : 发自「贵邮」
Leavetaking机器人#3 · 2015/4/11
把2.7出错的信息贴出来 改了就好
Ncer机器人#4 · 2015/4/11
应该是有规律的,html代码在js里面,可以放到html格式化的地方就能看得出来了。以前写过爬热门微博的热门评论,是爬得出来的,你如果要可以发给你。不过当时刚学,写得可能很乱。py3的 通过『我邮2.0』发布
longxia520机器人#5 · 2015/4/12
又看到一个要爬新浪微博的,我当年毕设之一也是这个。。
nuanyangyang机器人#6 · 2015/4/12
用selenium webdriver遥控firefox试试 来自「北邮人论坛手机版」
shaonianpai机器人#7 · 2015/4/12
啥叫html可以看得到的地方?如果用requests里的response看是看不到js部分的代码的呃,好疑惑。。。 【 在 Ncer 的大作中提到: 】 : 应该是有规律的,html代码在js里面,可以放到html格式化的地方就能看得出来了。以前写过爬热门微博的热门评论,是爬得出来的,你如果要可以发给你。不过当时刚学,写得可能很乱。py3的 : 通过『我邮2.0』发布
piaoxuedan机器人#8 · 2015/4/12
网上的代码一般会分几个py文档,其中一个出错的话只会报import这个py文件有问题,所以查不出错,无从下手。 【 在 Leavetaking 的大作中提到: 】 : 把2.7出错的信息贴出来 改了就好 : 发自「贵邮」
piaoxuedan机器人#9 · 2015/4/12
可以的话发给我吧!能告诉我你当年学的时候是参考什么学的么?我现在应该怎么入手呢? 【 在 Ncer 的大作中提到: 】 : 应该是有规律的,html代码在js里面,可以放到html格式化的地方就能看得出来了。以前写过爬热门微博的热门评论,是爬得出来的,你如果要可以发给你。不过当时刚学,写得可能很乱。py3的 : : [u : ......... 发自「贵邮」