BYR Achieve · 镜像论坛

【妹子求助】关于抓取页面内容的问题

2016/2/14镜像同步13 回复

事情是这样的：教授让我在一两周之内把这个网站的http://www.investopedia.com/dictionary/，就是dictionary的整体首页，然后我需要把从A-Z的所有词汇的单独html页面（比如：http://www.investopedia.com/terms/a/a.asp）下载下来，然后把这里页面里面的Definition，Related Terms， Related Articles，Related FAQs这四个部分的内容整理出来，并且只要是这四个部分里的某个词组或标题带有超链接，就要把超链接也记录下来。我估算了一下，不出意外的话，应该有20几万的html页面要下载下来，然后内容要提取出来。我在德国念研究生，本科是北邮经管的，这是这学期的一个小组项目的第一步，但是我的另外两位小伙伴实在是不给力，我就只好先上论坛上求助一下大家，看能不能帮忙开拓一下思路。需要论坛上的大神帮助： 1.我打算先找找有没有合适的软件直接可以完成，跪求大家推荐合适的爬虫软件。我做本科论文的时候有用过比较傻瓜式的网页数据采集器，担心大家觉得我是来做广告的，我就不说是哪一个了。但是这次用这个，不太行，数据量太大了，我的电脑配置又低，跑的速度简直是不忍直视，且有些要求达不到。 2.如果需要自己写程序的话，python应该可以满足，但是我从未自己写过python程序，本科的时候学了C，对Java的了解也是比较初级。求问大家对于自己写的话，有没有哪些公开的python代码或教程可以参考。跪谢了。也算是给自己一个学python的动力吧。 3.收集完这些数据后，还要进行N-grams， stop words removal，lemmatisation等处理（原谅我用的英文，因为上学期文本分析这门课用的是这些词汇，没关注它们的中文表达），求大家推荐好用的可以进行以上处理的java程序包。如果觉得有哪里表述不清楚，请大家指正。先提前谢谢大家了。今年第一次没跟家人团聚过年，然后还要从一个技术白痴自己慢慢探索每一步，的确难受。这个项目的教授是系里出了名的要求严格且难搞，我感觉自己真的是欲哭无泪。祝大家新年快乐，要啥有啥~

订阅后，新回复会通过你的通知中心匿名送达。