BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #18451同步于 2016/2/14
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【妹子求助】关于抓取页面内容的问题

pingxiahuhu
2016/2/14镜像同步13 回复
事情是这样的:教授让我在一两周之内把这个网站的http://www.investopedia.com/dictionary/,就是dictionary的整体首页,然后我需要把从A-Z的所有词汇的单独html页面(比如:http://www.investopedia.com/terms/a/a.asp)下载下来,然后把这里页面里面的Definition,Related Terms, Related Articles,Related FAQs这四个部分的内容整理出来,并且只要是这四个部分里的某个词组或标题带有超链接,就要把超链接也记录下来。 我估算了一下,不出意外的话,应该有20几万的html页面要下载下来,然后内容要提取出来。 我在德国念研究生,本科是北邮经管的,这是这学期的一个小组项目的第一步,但是我的另外两位小伙伴实在是不给力,我就只好先上论坛上求助一下大家,看能不能帮忙开拓一下思路。 需要论坛上的大神帮助: 1.我打算先找找有没有合适的软件直接可以完成,跪求大家推荐合适的爬虫软件。我做本科论文的时候有用过比较傻瓜式的网页数据采集器,担心大家觉得我是来做广告的,我就不说是哪一个了。 但是这次用这个,不太行,数据量太大了,我的电脑配置又低,跑的速度简直是不忍直视,且有些要求达不到。 2.如果需要自己写程序的话,python应该可以满足,但是我从未自己写过python程序,本科的时候学了C,对Java的了解也是比较初级。求问大家对于自己写的话,有没有哪些公开的python代码或教程可以参考。跪谢了。也算是给自己一个学python的动力吧。 3.收集完这些数据后,还要进行N-grams, stop words removal,lemmatisation等处理(原谅我用的英文,因为上学期文本分析这门课用的是这些词汇,没关注它们的中文表达),求大家推荐好用的可以进行以上处理的java程序包。 如果觉得有哪里表述不清楚,请大家指正。先提前谢谢大家了。今年第一次没跟家人团聚过年,然后还要从一个技术白痴自己慢慢探索每一步,的确难受。这个项目的教授是系里出了名的要求严格且难搞,我感觉自己真的是欲哭无泪。祝大家新年快乐,要啥有啥~
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Ncer机器人#1 · 2016/2/15
@nuanyangyang
nuanyangyang机器人#2 · 2016/2/15
没那么麻烦。 wget -r http://www.investopedia.com/dictionary/ 就可以了。 详细用法看看wget的手册。
pannap机器人#3 · 2016/2/15
爬虫不难,你想存在哪里呢?
pingxiahuhu机器人#4 · 2016/2/15
妹子我没装linux系统。。。在windows系统下用 wget会不会不太好用?以及用 -r 是指递归下载吧? 为什么网上说要慎用? 【 在 nuanyangyang 的大作中提到: 】 : 没那么麻烦。 : wget -r http://www.investopedia.com/dictionary/ : 就可以了。 : ...................
pingxiahuhu机器人#5 · 2016/2/15
我只知道存本地诶,其他的没想过。。。求指导! 【 在 pannap 的大作中提到: 】 : 爬虫不难,你想存在哪里呢?
nuanyangyang机器人#6 · 2016/2/15
Windows啊。。找找类似“全站下载”或者“离线阅读”之类的软件吧。 毕竟你在做爬虫,不要让人家网站的管理员不高兴。 【 在 pingxiahuhu 的大作中提到: 】 : 妹子我没装linux系统。。。在windows系统下用 wget会不会不太好用?以及用 -r 是指递归下载吧? 为什么网上说要慎用?
pannap机器人#7 · 2016/2/16
存本地的话可能太大了吧,可以想想让老师给你几台机器,使用分布式存储可能实际一些 【 在 pingxiahuhu 的大作中提到: 】 : 我只知道存本地诶,其他的没想过。。。求指导!
pingxiahuhu机器人#8 · 2016/2/16
要哭。。。 【 在 pannap 的大作中提到: 】 : 存本地的话可能太大了吧,可以想想让老师给你几台机器,使用分布式存储可能实际一些
pannap机器人#9 · 2016/2/16
哭啥,这个不难住你了,以后还活不下去了呢?不难的开好头,一切都简单了 【 在 pingxiahuhu 的大作中提到: 】 : 要哭。。。