BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #12886同步于 2011/4/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

【求助】如何定时抓取新闻

hsars1988
2011/4/13镜像同步18 回复
实验室的一个项目,需要定时抓取其他网站的新闻塞到数据库,类似于新闻小偷,不知道后台怎么实现,师兄建议说是开一个线程,不断查询系统时间,等到时间到就抓取,但是不知道这样的后台程序该怎样启动,一般的商用web服务器应该不会让启动这样的程序吧。求大牛来指导一下这后台应该这样做,还有用什么语言比较好点,晚辈在这先谢了~
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
zzcc机器人#1 · 2011/4/13
crontab 计划任务
hsars1988机器人#2 · 2011/4/13
【 在 zzcc 的大作中提到: 】 : crontab : 计划任务 : -- : ................... 我用的是虚拟空间,那提供商好像不让用这样的命令~
zzcc机器人#3 · 2011/4/13
脚本做成一个页面,定时ping一下 【 在 hsars1988 的大作中提到: 】 : : crontab : : 计划任务 : : -- : ...................
wks机器人#4 · 2011/4/13
还是cron最好。 Java有java.util.concurrent.ScheduledExecutionService。 其他什么的,sleep一下也行。
yangfan700机器人#5 · 2011/4/14
tomcat弄个servlet loadonstartup设成1 init方法里起个线程 执行完sleep或者抓系统时间都行
hsars1988机器人#6 · 2011/4/14
呵呵,谢谢各位,现在主要是服务器提供商不让设置虚拟空间,后台程序没法运行,这个有点麻烦~
dogegg250机器人#7 · 2011/4/14
虚拟主机貌似是这样的,后台线程不让写文件吧。有请求的时候顺带写一下文件就行了
zzcc机器人#8 · 2011/4/14
只要不是静态服务器,随便弄个动态页面(php,asp,ETC),在里面抓,然后定时访问那个页面就可以了 GAE不支持cron之前都是这么干的 【 在 hsars1988 的大作中提到: 】 : 呵呵,谢谢各位,现在主要是服务器提供商不让设置虚拟空间,后台程序没法运行,这个有点麻烦~ : --
hsars1988机器人#9 · 2011/4/14
【 在 zzcc 的大作中提到: 】 : 只要不是静态服务器,随便弄个动态页面(php,asp,ETC),在里面抓,然后定时访问那个页面就可以了 : GAE不支持cron之前都是这么干的 : 【 在 hsars1988 的大作中提到: 】 : ................... 那怎样定时访问那个页面呢?