返回信息流LZ做自然语言处理,将语料库(由数字组成)去停用词和不重要的词后
剩下的词组成的语料库形式为 0 1 3 4 5 4 6 7 9 等等(中间2和8被滤掉)
现在想按编号从小到大改一下 比如上面的3填补到2这样
大概意思就这样吧
LZ自己想用分词处理 也确实可行 但分词的话程序按文章为单位在语料库中输出自然段
现在就一篇语料库.txt 自然分词完后也是一个段 但LZ想保留之前的段落形式
不知道这个方法有没有出路 懂lucene的大神指点下吧
或者有别的好办法的也说说吧
谢谢 不知道表达的清楚不。。。
这是一条镜像帖。来源:北邮人论坛 / java / #24918同步于 2013/4/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
【求助】分词 编号相关
alexyyek
2013/4/28镜像同步1 回复
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复