piaoxuedan@piaoxuedan
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“xpath不是用的XML么 【 在 trouvan 的大作中提到: 】 : 我记得爬电脑版的时候,我们所需要的那些html是嵌在js里面的 : 你要拿出来还要先用正则拿出来,而且取出来之后还不一定规则 : 所以不如直接爬手机版”
“我也想过beautifulsoup,但是觉得xpath更简洁一些,所以想用bs4先把xml结构找出来这是可行的么?因为其实不太会用bs4,时间也比较紧。。 【 在 napoleonwxu 的大作中提到: 】 : 为啥不用bs4?”
“但是电脑版也是可爬的吧? 【 在 trouvan 的大作中提到: 】 : 电脑版的html很不规则,你对比一下两种方式就知道了 : 【 在 piaoxuedan (piaoxuedan) 的大作中提到: 】 : : 只有手机版能用xpath么? : : [url=http : ......... 发自「贵邮」”
“只有手机版能用xpath么? 【 在 trouvan 的大作中提到: 】 : 爬手机版 : : 通过『我邮2.0』发布 : 发自「贵邮」”
“遇到了同样的问题!!无解啊!你是先模拟登录后get的么? 发自「贵邮」”
“求问用什么写的? 【 在 zt301 的大作中提到: 】 : 有一个模块需要用爬虫 : 【 在 piaoxuedan 的大作中提到: 】 : : 并没有做过…但我想问问做分析之前是说要先写爬虫下数据么? : : 发自「贵邮」 : : 发自「贵邮」”
“并没有做过…但我想问问做分析之前是说要先写爬虫下数据么? 发自「贵邮」”
“可以的话发给我吧!能告诉我你当年学的时候是参考什么学的么?我现在应该怎么入手呢? 【 在 Ncer 的大作中提到: 】 : 应该是有规律的,html代码在js里面,可以放到html格式化的地方就能看得出来了。以前写过爬热门微博的热门评论,是爬得出来的,你如果要可以发给你。不过当时刚学,写得可能很乱。py3的 : : […”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。