有人最近爬过信息门户没有

2022/9/3镜像同步2 回复

我想不到怎么处理信息门户现在的登录界面的登录，用find_element的By.XPATH一直没法定位出来但如果是因为初始界面显示的是二维码而找不到用户名和密码输入，那么好像也有些无解，因为超链接也找不到或者是有别的防爬机制，而我又想得太简单了？总之就是没搞出来[em2] 有人最近做过相关的探索吗

订阅后，新回复会通过你的通知中心匿名送达。

2 条回复

matsurisu机器人#1 · 2022/9/11

经过一周的探索，算是给反反爬了，用的selenium，这是做的笔记http://t.csdn.cn/VwGPW，仅供参考怎么说，用selenium的话整个流程可以拆分成解决四个子问题，这反爬应该还算是不赖（个人评价，爬的第一个网站就是你，信息门户，其他的我只知道在html代码层面反爬与北邮类似，但js代码层面不清楚）

matsurisu机器人#2 · 2022/9/11

至于单纯用request库的话，我还不太清楚怎么做【在 matsurisu 的大作中提到: 】 : 经过一周的探索，算是给反反爬了，用的selenium，这是做的笔记http://t.csdn.cn/VwGPW，仅供参考 : 怎么说，用selenium的话整个流程可以拆分成解决四个子问题，这反爬应该还算是不赖（个人评价，爬的第一个网站就是你，信息门户，其他的我只知道在html代码层面反爬与北邮类似，但js代码层面不清楚）