michael2008@michael2008
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“其实,还有终极解法,这个如果解决不了,就需要单独的时钟发生器通过CPU中断的方式去用低层的汇报或者c来实现了(其实没必要,又不是实时系统) 参考下这个吧,jni实现,说白了就是用c来做咯,Java套个壳子: http://www.doc88.com/p-756293252994.html”
“额,你要的结果就是这个吧: http://blog.csdn.net/elky1982/article/details/4677365”
“在c层面是可以嵌入汇编得到硬件所能支持的最高精度(当然硬件波动不可避免,起码能从CPU时钟可以得到的精度还是能达到的)。 其实我都没去查System.nanoTime()到底靠谱不靠谱,因为你写的代码实在不靠谱。测时间到纳秒级别能print到console么,这个时间你得考虑到,Java这种蜗牛语言,你还是先把输出的结…”
“比较快的框架Django(豆瓣貌似在用),Python的,很快能够搭建好;Java的话可以用spring那套,整套都有,比如,JPA用hibernate+SpringData,展现用SpringMVC,如果要做简化的restful API可以用Spring Data Rest。其他的语言当然也行,都有轮子可以用。”
“现有工具类似navicat for MySQL/Oracle这种可以支持xml的import,比较慢; 你也可以自己写方法迭代xml去按batch写入,一般慢; 或者是自己处理xml成为sql插入的语句,然后source到表格中去; 最快的方式是自己先处理下xml,然后使用sqlldr(oracle下的工具,其他数据可…”
“如果oracle的话rowid可以使用,其他数据库可能需要自己加入辅助的行号然后取等,直接的select语句是不行的,默认是笛卡尔积的结果。 其实使用游标是总可以实现的吧。”
“自动测试,写个几行字的代码就完成了吧:定义HTTP连接,然后设置一个选择的代理,尝试连接百度之类的网站,如果200 OK,就记录这个代理是可用的。这样下来把找到的代理都for each一遍之后,就完成验证了吧。 其实你也可以在爬虫工作线程里面try catch,或者timeout之后更换一个代理,前者单独验证的方式好些…”
“给你支个招:去搜索代理服务器,然后可以搜索到那种许多免费代理列表,爬下来,然后有个验证,看看哪些可用的,过滤之后,形成一个可用列表,在爬虫里面轮换调用这些个代理即可”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。