返回信息流先说目标:我要在美丽国证券交易网站爬好多企业的年报数据的一段(全文也可以),然后他们的数据存储方式是htm格式的。
然后也提供api借口批量下数据。
但是,我不是计算机专业[em9]不懂api,就想着直接爬吧,搞了一天写好了爬虫,写好了把我要的文本剪出来的代码。刚下了3个企业,网站检测我是个自动化工具让我看开发者网页[em9][em9][em9]
问题英文都看的懂,但是不知道怎么做,大意是:
1.爬的请求1秒不能超过10个(我表示我手工粘网址没超)
2.让在user agent加declare邮箱(不懂)
3.貌似要求了encoding格式
我懵,很懵,可不可以求个专业的给我解答一下,您时间忙的话指导一下我自己学。您不忙的话我这点小case您给我写了也行。可以付费,价格您提。
本人本硕北邮,现在旁边央财读博
救救孩子吧~
这是一条镜像帖。来源:北邮人论坛 / python / #26480同步于 2024/7/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
求解决个爬虫问题(可以付费)
jing369
2024/7/4镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
https://www.sec.gov/about/webmaster-frequently-asked-questions#developers
那个网站的详细要求我粘这
我觉得不是1s的问题,因为我下的3个是手动粘的网址,我手哪有那么快
【 在 hotpot 的大作中提到: 】
: 最简单的方法,每次爬完一个页面sleep 1s
我怕淘宝坑我…因为会刷到评论说骗人啊,或者扔半路就不管了,或者不停加钱之类的
【 在 siriuschen 的大作中提到: 】
: 这个淘宝上都有服务的。直接上淘宝就行把。
这就没办法了。只能且行且珍惜了。
【 在 jing369 的大作中提到: 】
: 我怕淘宝坑我…因为会刷到评论说骗人啊,或者扔半路就不管了,或者不停加钱之类的