返回信息流本人小白一枚,现正用python3.4做毕设,内容为新浪微博爬虫,现已经可以模拟登录了,但是登录后只能把网页源代码全部读写下来,本想用正则表达式匹配来进行内容筛选 但发现源代码格式毫无规律啊啊啊!查到说是新浪微博用javascript写的,要解析还是怎样?表示毫无头绪,求各位大神求助!毕设时间比较紧,拜托拜托~
发自「贵邮」
这是一条镜像帖。来源:北邮人论坛 / python / #6218同步于 2015/4/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
python3爬虫 新人求助
piaoxuedan
2015/4/11镜像同步38 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
网上找到的大部分都是python2.7的 我没法运行 不知道有什么差别之类的 不好改
【 在 awsxsa 的大作中提到: 】
: 直接找一个现成的
: 把代码看懂
: 呃呃呃
: 自己写多头疼
:
发自「贵邮」
你为什么不直接用2.7的呢 毕设要求用3么
【 在 piaoxuedan (piaoxuedan) 的大作中提到: 】
: 网上找到的大部分都是python2.7的 我没法运行 不知道有什么差别之类的 不好改
: 发自「贵邮」
应该是有规律的,html代码在js里面,可以放到html格式化的地方就能看得出来了。以前写过爬热门微博的热门评论,是爬得出来的,你如果要可以发给你。不过当时刚学,写得可能很乱。py3的
通过『我邮2.0』发布
啥叫html可以看得到的地方?如果用requests里的response看是看不到js部分的代码的呃,好疑惑。。。
【 在 Ncer 的大作中提到: 】
: 应该是有规律的,html代码在js里面,可以放到html格式化的地方就能看得出来了。以前写过爬热门微博的热门评论,是爬得出来的,你如果要可以发给你。不过当时刚学,写得可能很乱。py3的
: 通过『我邮2.0』发布
网上的代码一般会分几个py文档,其中一个出错的话只会报import这个py文件有问题,所以查不出错,无从下手。
【 在 Leavetaking 的大作中提到: 】
: 把2.7出错的信息贴出来 改了就好
:
发自「贵邮」
可以的话发给我吧!能告诉我你当年学的时候是参考什么学的么?我现在应该怎么入手呢?
【 在 Ncer 的大作中提到: 】
: 应该是有规律的,html代码在js里面,可以放到html格式化的地方就能看得出来了。以前写过爬热门微博的热门评论,是爬得出来的,你如果要可以发给你。不过当时刚学,写得可能很乱。py3的
:
: [u
: .........
发自「贵邮」