返回信息流目前正在用python写一个百万级别url的域名信息获取的脚本,目前自己的做法是在Linux下调用whois命令再做正则匹配,但是效果很不好:
1.whois命令非常慢,自己同时开了几十个进程才勉强一天跑完一百万的url;
2.whois命令调用多了就会经常不返回数据了,这样的话很多数据就丢失了;
3.whois命令的返回格式实在是多种多样,想做完整的正则匹配实在是比较困难;
有查资料想过写socket直接访问whois的服务器,但是好像对不同的域名得去不同的whois服务器查询,这样还得对url做一个分类,而且还有很多whois服务器并不对普通用户开放。不知道版内有没有前辈知道这一块应该怎么做呢?非常感谢啦~~
这是一条镜像帖。来源:北邮人论坛 / python / #10535同步于 2015/12/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
【小白求助】利用whois获取网站域名信息的脚本
daniner
2015/12/21镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。