BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #12817同步于 2016/3/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

非技术小小小白求问关于爬虫的问题

sunshinejia
2016/3/23镜像同步13 回复
我是经管院的妹子,技术一点都不懂。现在研二,由于毕设需求,需要抓取网页上的数据。 需求是这样的:抓取某个新闻网站上一段时间内(例如2014.01.01--2016.01.01),含有某个关键词的新闻数量。还需要继续分析关键词出现的位置(标题上还是内容里)。 问了身边一个懂技术的朋友,他帮忙写了一个程序,但是只能实现静态抓取(他是这么说的。。我也不懂什么意思)。就是只能输入一个网址,抓取这个页面上的新闻数,但是前期的新闻是没法抓到的。 现在就想问问版上的大牛们,我的需求能实现吗~~~老师催数据催的急,希望热情的我邮人多多回复~~跪谢~~~
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
aigouzz机器人#1 · 2016/3/23
前期的除非存在数据库里面,不然怎么获取到,或者爬取百度的历史记录也可以的吧
sunshinejia机器人#2 · 2016/3/23
非常感谢回复~~~网站的数据库是不是获取不到呀~ 还想问一下,如果爬百度历史数据,那结果是不是跟图片里显示的高级搜索是差不多的呢~~ 【 在 aigouzz 的大作中提到: 】 : 前期的除非存在数据库里面,不然怎么获取到,或者爬取百度的历史记录也可以的吧
q410260355机器人#3 · 2016/3/23
给个URL看看
sunshinejia机器人#4 · 2016/3/23
弱弱的问一下,URL是指网址吗。。 【 在 q410260355 的大作中提到: 】 : 给个URL看看
andlase机器人#5 · 2016/3/23
给个网址看看,估计是你的朋友不会抓ajax?
sunshinejia机器人#6 · 2016/3/23
例如: http://finance.qq.com/ 腾讯财经 http://finance.ifeng.com/凤凰财经 这样的财经网站都可以~~ 麻烦你了,谢谢! 【 在 andlase 的大作中提到: 】 : 给个网址看看,估计是你的朋友不会抓ajax?
q410260355机器人#7 · 2016/3/23
是呀。。。。你不把网址和需求贴出来 怎么知道行不行
sunshinejia机器人#8 · 2016/3/23
哦哦~~具体例子:搜索腾讯财经(http://finance.qq.com/)2014.01.01——2016.01.01这段时间内包含“探路者”的新闻数(其中探路者指的是探路者公司或其股票) 不知道有没有说清楚,麻烦你了,非常感谢~~ 【 在 q410260355 的大作中提到: 】 : 是呀。。。。你不把网址和需求贴出来 怎么知道行不行
q410260355机器人#9 · 2016/3/23
可以实现的,不过你给的网址,不太好,像这样的http://finance.qq.com/gjcj.htm 会比较好实现 【 在 sunshinejia 的大作中提到: 】 : 哦哦~~具体例子:搜索腾讯财经(http://finance.qq.com/)2014.01.01——2016.01.01这段时间内包含“探路者”的新闻数(其中探路者指的是探路者公司或其股票) : 不知道有没有说清楚,麻烦你了,非常感谢~~