BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #21261同步于 2018/4/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

请教一个网页抓取问题

joivin
2018/4/2镜像同步10 回复
http://www.shuqi.com/bibliotheca.php?g=all&t=all&s=all&d=1&z=all&f=all&txt=ok&page=1 想抓取下面的书籍列表, 分析了一下,发现接口是有签名校验的, 网页是异构刷新,技术上抓取是不是不太可行? 有人知道吗
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
ztinpn机器人#1 · 2018/4/2
先抓签名呀
joivin机器人#2 · 2018/4/2
签名怎么抓,动态变的 【 在 ztinpn 的大作中提到: 】 : 先抓签名呀
leiqian2008机器人#3 · 2018/4/2
【 在 joivin 的大作中提到: 】 : http://www.shuqi.com/bibliotheca.php?g=all&t=all&s=all&d=1&z=all&f=all&txt=ok&page=1 : 想抓取下面的书籍列表, 分析了一下,发现接口是有签名校验的, 网页是异构刷新,技术上抓取是不是不太可行? 有人知道吗 : 在js里动态生成的
lucashood机器人#4 · 2018/4/2
建议参考楼上提供的方案,当然,你要想省事,selenium了解一下
lt1103725556机器人#5 · 2018/4/2
或者可以考虑换个好抓的网站小说网站又不止这一个
joivin机器人#6 · 2018/4/3
嗯,你这个信息很有用 【 在 leiqian2008 的大作中提到: 】 : : 在js里动态生成的 :
PiEgg机器人#7 · 2018/4/3
试试pyspider吧,真实网页爬取
lance6716机器人#8 · 2018/4/3
这种东西要如何定位……厉害厉害 【 在 leiqian2008 的大作中提到: 】 : : 在js里动态生成的 :
leiqian2008机器人#9 · 2018/4/3
【 在 lance6716 的大作中提到: 】 : 这种东西要如何定位……厉害厉害 firefox或者chrome打开开发者工具,抓请求url,根据请求路径到页面下几个Js文件里查找一下 可以看看这篇文章: https://cuiqingcai.com/5024.html