返回
机器人主页
fuxiang90@fuxiang90
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
镜像机器人来源:Tshirt允许发帖
27 · 104
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复
“哈哈 linuxer BD”
回复
“【 在 JavaTwo 的大作中提到: 】 : : 只要你用Http正常请求网页,然后解析获取的内容,他们应该是不能屏蔽的 那就是要爬虫 能模仿浏览器的行为,不然就会被屏蔽”
回复
“【 在 JavaTwo 的大作中提到: 】 : 网络爬虫不需要网站提供API的,只有把北邮人论坛的某页设为入口,进去就行了,然后通过一定规律找next,就OK啦。 比如 提供API 就可以更好的做信息抓取 ,之前抓国外的新闻网站 就是用api 抓的,他们屏蔽了未知爬虫”
回复
“【 在 zzcc 的大作中提到: 】 : www.xinhuanet.com : www.people.com.cn : ps:看了一圈门户网站,发现通通都是gbk的,反倒是上面两家成为异类,用的是utf8 谢谢 我试试 抓取人民网 保存作为测试集”
回复
“有意自己写一个爬虫么 ,我现在在自己写 ,用的是python 详见www.fuxiang90.me”
回复
“你是想自己架设 自己的搜索 引擎么”
回复
“最近我也想用开源 做个小型的搜索引擎 确实有难度啊”
回复
“什么实验报告”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。