返回信息流百度面试题:现有10亿数量级别的文档,要求从中建立出一套词表,无现成分词工具,请说出能想到的最佳解决方案,无论是效果上或者性能上。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #29876同步于 2018/6/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
一个nlp的面试题来讨论
jaegerstar
2018/6/5镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
如果上不了网的话,我会用hmm的Baum-Welch算法[ema3]
【 在 jaegerstar (jaegerstar) 的大作中提到: 】
: 皮一下很开心?