heamon7@heamon7
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“Welcome to Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-43-generic x86_64) * Documentation: https://help.ubuntu.com/ System information as of Thu Jun 18 11:19:13 CST 20…”
“lz是想怎么构造那个URL么, 读文件应该知道吧,可以直接读入每行,然后用字符串的split方法分割,或者参考Python官方文档的读csv文件那节直接设置 delimiter读入 然后 base_url = 'http://server.data.org/searchuser?usertype=%s&userid=%…”
“表示Canopy的用起来感觉貌似比Anaconda好不少”
“Github已经有很多类似的关于知乎的爬虫了,lz可以搜搜, 我最近也在用scrapy写爬虫,无奈考试拖下了进度”
“2013年理科线527左右吧,北邮线578。所以lz还是有很大希望的。记得当年一同学579还是591上了北邮计科。 武大华科应该是很悬的,进了估计也没有专业的选择余地。另外那些说本科学什么专业不重要的,lz要慎重 发自「贵邮」”
“换成Python2,scrapy你值得拥有 或者自己用Python3重写scrapy(逃 发自「贵邮」”
“【 在 heamon7 的大作中提到: 】 : 首先呢,浏览器和服务器三次握手建立连接后,浏览器请求index.html这个文件,然后server返回这个html文本文件,然后浏览器会解析这个html文件里的链接,每个链接都是一个文件,然后浏览器会 : ......... 另外图片确实可以使用base64编码的字符串保…”
“首先呢,浏览器和服务器三次握手建立连接后,浏览器请求index.html这个文件,然后server返回这个html文本文件,然后浏览器会解析这个html文件里的链接,每个链接都是一个文件,然后浏览器会重复类似于之前请求index.html的过程来请求这些文件。 如果建立了长连接,也就是keep-alive,就不需要再次…”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。