返回信息流我是经管院的妹子,技术一点都不懂。现在研二,由于毕设需求,需要抓取网页上的数据。
需求是这样的:抓取某个新闻网站上一段时间内(例如2014.01.01--2016.01.01),含有某个关键词的新闻数量。还需要继续分析关键词出现的位置(标题上还是内容里)。
问了身边一个懂技术的朋友,他帮忙写了一个程序,但是只能实现静态抓取(他是这么说的。。我也不懂什么意思)。就是只能输入一个网址,抓取这个页面上的新闻数,但是前期的新闻是没法抓到的。
现在就想问问版上的大牛们,我的需求能实现吗~~~老师催数据催的急,希望热情的我邮人多多回复~~跪谢~~~
这是一条镜像帖。来源:北邮人论坛 / python / #12817同步于 2016/3/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
非技术小小小白求问关于爬虫的问题
sunshinejia
2016/3/23镜像同步13 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
非常感谢回复~~~网站的数据库是不是获取不到呀~
还想问一下,如果爬百度历史数据,那结果是不是跟图片里显示的高级搜索是差不多的呢~~
【 在 aigouzz 的大作中提到: 】
: 前期的除非存在数据库里面,不然怎么获取到,或者爬取百度的历史记录也可以的吧
例如:
http://finance.qq.com/ 腾讯财经
http://finance.ifeng.com/凤凰财经
这样的财经网站都可以~~
麻烦你了,谢谢!
【 在 andlase 的大作中提到: 】
: 给个网址看看,估计是你的朋友不会抓ajax?
哦哦~~具体例子:搜索腾讯财经(http://finance.qq.com/)2014.01.01——2016.01.01这段时间内包含“探路者”的新闻数(其中探路者指的是探路者公司或其股票)
不知道有没有说清楚,麻烦你了,非常感谢~~
【 在 q410260355 的大作中提到: 】
: 是呀。。。。你不把网址和需求贴出来 怎么知道行不行
可以实现的,不过你给的网址,不太好,像这样的http://finance.qq.com/gjcj.htm 会比较好实现
【 在 sunshinejia 的大作中提到: 】
: 哦哦~~具体例子:搜索腾讯财经(http://finance.qq.com/)2014.01.01——2016.01.01这段时间内包含“探路者”的新闻数(其中探路者指的是探路者公司或其股票)
: 不知道有没有说清楚,麻烦你了,非常感谢~~