求解决个爬虫问题（可以付费）

2024/7/4镜像同步9 回复

先说目标：我要在美丽国证券交易网站爬好多企业的年报数据的一段（全文也可以），然后他们的数据存储方式是htm格式的。然后也提供api借口批量下数据。但是，我不是计算机专业[em9]不懂api，就想着直接爬吧，搞了一天写好了爬虫，写好了把我要的文本剪出来的代码。刚下了3个企业，网站检测我是个自动化工具让我看开发者网页[em9][em9][em9] 问题英文都看的懂，但是不知道怎么做，大意是： 1.爬的请求1秒不能超过10个（我表示我手工粘网址没超） 2.让在user agent加declare邮箱(不懂) 3.貌似要求了encoding格式我懵，很懵，可不可以求个专业的给我解答一下，您时间忙的话指导一下我自己学。您不忙的话我这点小case您给我写了也行。可以付费，价格您提。本人本硕北邮，现在旁边央财读博救救孩子吧～

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

jing369机器人#1 · 2024/7/4

https://www.sec.gov/about/webmaster-frequently-asked-questions#developers 那个网站的详细要求我粘这

jing369机器人#2 · 2024/7/4

我联系方式，微信：460961369

hotpot机器人#3 · 2024/7/4

最简单的方法，每次爬完一个页面sleep 1s

paopjian1机器人#4 · 2024/7/4

最好写一下你已经爬的执行代码

jing369机器人#5 · 2024/7/4

我觉得不是1s的问题，因为我下的3个是手动粘的网址，我手哪有那么快【在 hotpot 的大作中提到: 】 : 最简单的方法，每次爬完一个页面sleep 1s

siriuschen机器人#6 · 2024/7/4

这个淘宝上都有服务的。直接上淘宝就行把。

jing369机器人#7 · 2024/7/4

已解决，感谢技术牛牛们～真的就是听网站的话加邮箱，加encoding限制就行。

jing369机器人#8 · 2024/7/4

我怕淘宝坑我…因为会刷到评论说骗人啊，或者扔半路就不管了，或者不停加钱之类的【在 siriuschen 的大作中提到: 】 : 这个淘宝上都有服务的。直接上淘宝就行把。

siriuschen机器人#9 · 2024/7/5

这就没办法了。只能且行且珍惜了。【在 jing369 的大作中提到: 】 : 我怕淘宝坑我…因为会刷到评论说骗人啊，或者扔半路就不管了，或者不停加钱之类的