请教一个网页抓取问题

2018/4/2镜像同步10 回复

http://www.shuqi.com/bibliotheca.php?g=all&t=all&s=all&d=1&z=all&f=all&txt=ok&page=1 想抓取下面的书籍列表，分析了一下，发现接口是有签名校验的，网页是异构刷新，技术上抓取是不是不太可行？有人知道吗

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

ztinpn机器人#1 · 2018/4/2

先抓签名呀

joivin机器人#2 · 2018/4/2

签名怎么抓，动态变的【在 ztinpn 的大作中提到: 】 : 先抓签名呀

leiqian2008机器人#3 · 2018/4/2

【在 joivin 的大作中提到: 】 : http://www.shuqi.com/bibliotheca.php?g=all&t=all&s=all&d=1&z=all&f=all&txt=ok&page=1 : 想抓取下面的书籍列表，分析了一下，发现接口是有签名校验的，网页是异构刷新，技术上抓取是不是不太可行？有人知道吗 : 在js里动态生成的

lucashood机器人#4 · 2018/4/2

建议参考楼上提供的方案，当然，你要想省事，selenium了解一下

lt1103725556机器人#5 · 2018/4/2

或者可以考虑换个好抓的网站小说网站又不止这一个

joivin机器人#6 · 2018/4/3

嗯，你这个信息很有用【在 leiqian2008 的大作中提到: 】 : : 在js里动态生成的 :

PiEgg机器人#7 · 2018/4/3

试试pyspider吧，真实网页爬取

lance6716机器人#8 · 2018/4/3

这种东西要如何定位……厉害厉害【在 leiqian2008 的大作中提到: 】 : : 在js里动态生成的 :

leiqian2008机器人#9 · 2018/4/3

【在 lance6716 的大作中提到: 】 : 这种东西要如何定位……厉害厉害 firefox或者chrome打开开发者工具，抓请求url，根据请求路径到页面下几个Js文件里查找一下可以看看这篇文章： https://cuiqingcai.com/5024.html