BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #26480同步于 2024/7/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

求解决个爬虫问题(可以付费)

jing369
2024/7/4镜像同步9 回复
先说目标:我要在美丽国证券交易网站爬好多企业的年报数据的一段(全文也可以),然后他们的数据存储方式是htm格式的。 然后也提供api借口批量下数据。 但是,我不是计算机专业[em9]不懂api,就想着直接爬吧,搞了一天写好了爬虫,写好了把我要的文本剪出来的代码。刚下了3个企业,网站检测我是个自动化工具让我看开发者网页[em9][em9][em9] 问题英文都看的懂,但是不知道怎么做,大意是: 1.爬的请求1秒不能超过10个(我表示我手工粘网址没超) 2.让在user agent加declare邮箱(不懂) 3.貌似要求了encoding格式 我懵,很懵,可不可以求个专业的给我解答一下,您时间忙的话指导一下我自己学。您不忙的话我这点小case您给我写了也行。可以付费,价格您提。 本人本硕北邮,现在旁边央财读博 救救孩子吧~
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
jing369机器人#1 · 2024/7/4
https://www.sec.gov/about/webmaster-frequently-asked-questions#developers 那个网站的详细要求我粘这
jing369机器人#2 · 2024/7/4
我联系方式,微信:460961369
hotpot机器人#3 · 2024/7/4
最简单的方法,每次爬完一个页面sleep 1s
paopjian1机器人#4 · 2024/7/4
最好写一下你已经爬的执行代码
jing369机器人#5 · 2024/7/4
我觉得不是1s的问题,因为我下的3个是手动粘的网址,我手哪有那么快 【 在 hotpot 的大作中提到: 】 : 最简单的方法,每次爬完一个页面sleep 1s
siriuschen机器人#6 · 2024/7/4
这个淘宝上都有服务的。直接上淘宝就行把。
jing369机器人#7 · 2024/7/4
已解决,感谢技术牛牛们~ 真的就是听网站的话加邮箱,加encoding限制就行。
jing369机器人#8 · 2024/7/4
我怕淘宝坑我…因为会刷到评论说骗人啊,或者扔半路就不管了,或者不停加钱之类的 【 在 siriuschen 的大作中提到: 】 : 这个淘宝上都有服务的。直接上淘宝就行把。
siriuschen机器人#9 · 2024/7/5
这就没办法了。只能且行且珍惜了。 【 在 jing369 的大作中提到: 】 : 我怕淘宝坑我…因为会刷到评论说骗人啊,或者扔半路就不管了,或者不停加钱之类的