返回信息流实验室的一个项目,需要定时抓取其他网站的新闻塞到数据库,类似于新闻小偷,不知道后台怎么实现,师兄建议说是开一个线程,不断查询系统时间,等到时间到就抓取,但是不知道这样的后台程序该怎样启动,一般的商用web服务器应该不会让启动这样的程序吧。求大牛来指导一下这后台应该这样做,还有用什么语言比较好点,晚辈在这先谢了~
这是一条镜像帖。来源:北邮人论坛 / www-technology / #12886同步于 2011/4/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
【求助】如何定时抓取新闻
hsars1988
2011/4/13镜像同步18 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 zzcc 的大作中提到: 】
: crontab
: 计划任务
: --
: ...................
我用的是虚拟空间,那提供商好像不让用这样的命令~
脚本做成一个页面,定时ping一下
【 在 hsars1988 的大作中提到: 】
: : crontab
: : 计划任务
: : --
: ...................
只要不是静态服务器,随便弄个动态页面(php,asp,ETC),在里面抓,然后定时访问那个页面就可以了
GAE不支持cron之前都是这么干的
【 在 hsars1988 的大作中提到: 】
: 呵呵,谢谢各位,现在主要是服务器提供商不让设置虚拟空间,后台程序没法运行,这个有点麻烦~
: --
【 在 zzcc 的大作中提到: 】
: 只要不是静态服务器,随便弄个动态页面(php,asp,ETC),在里面抓,然后定时访问那个页面就可以了
: GAE不支持cron之前都是这么干的
: 【 在 hsars1988 的大作中提到: 】
: ...................
那怎样定时访问那个页面呢?