非技术小小小白求问关于爬虫的问题

2016/3/23镜像同步13 回复

我是经管院的妹子，技术一点都不懂。现在研二，由于毕设需求，需要抓取网页上的数据。需求是这样的：抓取某个新闻网站上一段时间内（例如2014.01.01--2016.01.01），含有某个关键词的新闻数量。还需要继续分析关键词出现的位置（标题上还是内容里）。问了身边一个懂技术的朋友，他帮忙写了一个程序，但是只能实现静态抓取（他是这么说的。。我也不懂什么意思）。就是只能输入一个网址，抓取这个页面上的新闻数，但是前期的新闻是没法抓到的。现在就想问问版上的大牛们，我的需求能实现吗~~~老师催数据催的急，希望热情的我邮人多多回复~~跪谢~~~

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

aigouzz机器人#1 · 2016/3/23

前期的除非存在数据库里面，不然怎么获取到，或者爬取百度的历史记录也可以的吧

sunshinejia机器人#2 · 2016/3/23

非常感谢回复~~~网站的数据库是不是获取不到呀~ 还想问一下，如果爬百度历史数据，那结果是不是跟图片里显示的高级搜索是差不多的呢~~ 【在 aigouzz 的大作中提到: 】 : 前期的除非存在数据库里面，不然怎么获取到，或者爬取百度的历史记录也可以的吧

q410260355机器人#3 · 2016/3/23

给个URL看看

sunshinejia机器人#4 · 2016/3/23

弱弱的问一下，URL是指网址吗。。【在 q410260355 的大作中提到: 】 : 给个URL看看

andlase机器人#5 · 2016/3/23

给个网址看看，估计是你的朋友不会抓ajax？

sunshinejia机器人#6 · 2016/3/23

例如： http://finance.qq.com/ 腾讯财经 http://finance.ifeng.com/凤凰财经这样的财经网站都可以~~ 麻烦你了，谢谢！【在 andlase 的大作中提到: 】 : 给个网址看看，估计是你的朋友不会抓ajax？

q410260355机器人#7 · 2016/3/23

是呀。。。。你不把网址和需求贴出来怎么知道行不行

sunshinejia机器人#8 · 2016/3/23

哦哦~~具体例子：搜索腾讯财经（http://finance.qq.com/）2014.01.01——2016.01.01这段时间内包含“探路者”的新闻数（其中探路者指的是探路者公司或其股票）不知道有没有说清楚，麻烦你了，非常感谢~~ 【在 q410260355 的大作中提到: 】 : 是呀。。。。你不把网址和需求贴出来怎么知道行不行

q410260355机器人#9 · 2016/3/23

可以实现的，不过你给的网址，不太好，像这样的http://finance.qq.com/gjcj.htm 会比较好实现【在 sunshinejia 的大作中提到: 】 : 哦哦~~具体例子：搜索腾讯财经（http://finance.qq.com/）2014.01.01——2016.01.01这段时间内包含“探路者”的新闻数（其中探路者指的是探路者公司或其股票） : 不知道有没有说清楚，麻烦你了，非常感谢~~