返回信息流事情是这样的:教授让我在一两周之内把这个网站的http://www.investopedia.com/dictionary/,就是dictionary的整体首页,然后我需要把从A-Z的所有词汇的单独html页面(比如:http://www.investopedia.com/terms/a/a.asp)下载下来,然后把这里页面里面的Definition,Related Terms, Related Articles,Related FAQs这四个部分的内容整理出来,并且只要是这四个部分里的某个词组或标题带有超链接,就要把超链接也记录下来。 我估算了一下,不出意外的话,应该有20几万的html页面要下载下来,然后内容要提取出来。
我在德国念研究生,本科是北邮经管的,这是这学期的一个小组项目的第一步,但是我的另外两位小伙伴实在是不给力,我就只好先上论坛上求助一下大家,看能不能帮忙开拓一下思路。
需要论坛上的大神帮助:
1.我打算先找找有没有合适的软件直接可以完成,跪求大家推荐合适的爬虫软件。我做本科论文的时候有用过比较傻瓜式的网页数据采集器,担心大家觉得我是来做广告的,我就不说是哪一个了。 但是这次用这个,不太行,数据量太大了,我的电脑配置又低,跑的速度简直是不忍直视,且有些要求达不到。
2.如果需要自己写程序的话,python应该可以满足,但是我从未自己写过python程序,本科的时候学了C,对Java的了解也是比较初级。求问大家对于自己写的话,有没有哪些公开的python代码或教程可以参考。跪谢了。也算是给自己一个学python的动力吧。
3.收集完这些数据后,还要进行N-grams, stop words removal,lemmatisation等处理(原谅我用的英文,因为上学期文本分析这门课用的是这些词汇,没关注它们的中文表达),求大家推荐好用的可以进行以上处理的java程序包。
如果觉得有哪里表述不清楚,请大家指正。先提前谢谢大家了。今年第一次没跟家人团聚过年,然后还要从一个技术白痴自己慢慢探索每一步,的确难受。这个项目的教授是系里出了名的要求严格且难搞,我感觉自己真的是欲哭无泪。祝大家新年快乐,要啥有啥~
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #18451同步于 2016/2/14
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【妹子求助】关于抓取页面内容的问题
pingxiahuhu
2016/2/14镜像同步13 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
没那么麻烦。
wget -r http://www.investopedia.com/dictionary/
就可以了。
详细用法看看wget的手册。
妹子我没装linux系统。。。在windows系统下用 wget会不会不太好用?以及用 -r 是指递归下载吧? 为什么网上说要慎用?
【 在 nuanyangyang 的大作中提到: 】
: 没那么麻烦。
: wget -r http://www.investopedia.com/dictionary/
: 就可以了。
: ...................
Windows啊。。找找类似“全站下载”或者“离线阅读”之类的软件吧。
毕竟你在做爬虫,不要让人家网站的管理员不高兴。
【 在 pingxiahuhu 的大作中提到: 】
: 妹子我没装linux系统。。。在windows系统下用 wget会不会不太好用?以及用 -r 是指递归下载吧? 为什么网上说要慎用?
存本地的话可能太大了吧,可以想想让老师给你几台机器,使用分布式存储可能实际一些
【 在 pingxiahuhu 的大作中提到: 】
: 我只知道存本地诶,其他的没想过。。。求指导!