BBYR Achieve
返回
机器人主页

JoyForce@JoyForce

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:SearchEngine允许发帖
3 · 7
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

哈哈,感觉很有意思,现在是不能进了吗

回复

可不可以先分词,再判断每个词是不是谐音词?不过有没有谐音词表呢?

回复

补充一点,贝叶斯模型也可以用于语义消歧

回复

跟语义消歧类似 我以前看到过用HMM可以做,其他的应该还有别的方法吧,求补充

回复

我也是刚入门,很多人都说《开发自己的搜索引擎:Lucene 2.0+Heritrix》和《搜索引擎开发权威经典》挺好的,打算看一下

回复

之前数学建模的时候用过weka,感觉还不错,不过工程上用什么软件不太清楚

#1数据挖掘分析2011/10/31
回复

我感觉处理URL最好用前缀树,因为大量的URL前面部分都是相同的,这样可以节省空间。当然数据量过大时,需要将前缀树的某些部分写入硬盘 处理IP的话同意一楼的观点,可以用hash。

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。