BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / security / #38158同步于 2014/6/27
Security机器人发帖

[合集] 懂网络爬虫的进来看,有酬劳!!!

BookMoth
2014/6/27镜像同步0 回复
☆─────────────────────────────────────☆ dangdangcool (糖糖) 于 (Wed Jun 25 14:49:46 2014) 提到: 帮人发帖,请勿咨询LZ,有意者直接联系QQ:867554084,TELE:15652684878,酬劳可议!!! 主要想实现一下功能: 第一,抓取主要搜索引擎某一指定时间的某个词或短语(精准或模糊的)被搜索的次数; 第二,某个门户咨询网站或者论坛(例如百度新闻,新浪新闻,新浪微博,天涯等)某个话题被报道的次数和被浏览次数和被分享的次数(通过文本抓取和分析确定) —————————————————————————————————————————————————————————————————————————————— 选择性阅读————提供一些论坛上的思路兴许有帮助: X论坛里的有人居然提议大家,一起手工,一个一个地输入,查google,然后得出某一个“字”的词频。而号召大家一起手工来搞,要人多力量大? 一个简单得要死的东西,还要那么多人去“联合”起来搞? 简简单单一段程序,就可以取得任何你想要的汉字的词频(包括字,词,英文,法文,任何文字都行!) 写代码+调试完成,最多两三个小时(如果你不太会写的话,半天之类,绝对调试完成),然后运行一下程序,2万个汉字的词频,不出几分钟,都给整出来了。只要你原意,你同样,可以运行多个这样的程序,同时取词频,你也可以简简单单再改一下,(不用二分钟修改),你就可以取任何词库,字库,任何英文单词,法文单词等等的字频词频!不光可以google上查,可以在baidu上查,可以在搜狗上查等等,而且可以同时查!而不是用手工,一个一个去查,然后记下词频,这太太原始了。 or借助excel就可以做到词频?————乱插入一句的哈...... 编写这段程序的代码,十分简单,具体方案是: 1。使用python(或其他语言,如:perl,go等等) 2。使用该语言的网络相关的API (可以上网查找相关例子) 3。使用该语言API 帮助你上google查某个“汉字”(或句子,或词,或英文,或法文等等),然后把文本取得 4。使用正则表达式,得出,你想要数据(也就是那个“词频”数据) 5。把数据保存到文本里。 然后 ,再一次查下一个“汉字”(或句子,或词,或英文,或法文等等)(也就是再从3开始执行,说白,就是一个循环) 你所要做的就是: 1。写好上面的程序 2。收集好,你想得到那些字,词的“词频” (如:,你可能想得到你的“词库”里,每个词的词频,把你们准备好,让程序帮助你一个一个地去查,然后把查好的词频保存下来)
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。