返回信息流在对比前后向最大匹配所产生的辅助词表时偶然发现了一个有趣的现象:可以做词尾的字比可以做词首的字少五百多个。
直觉觉得这应该是一个普遍现象而不仅仅是这个词表的特殊现象。
推测应该是由于词首汉字受的约束比较少。而词尾汉字必然要受到词首汉字的影响,尤其是三字以上的多字词,受词尾前的字的影响更加大。
时间有限,而且手里没有更全覆盖汉字范围更大的词表,暂时无法验证这一猜想。希望以后有时间可以查询一下相关资料并且写程序验证一下这个猜想。
有没有大牛知道相关的信息的?望告之。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #5062同步于 2009/5/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
一个猜想
zhbconan
2009/5/31镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
其实是在做本来应该前两天交的ngram的作业...好囧...上个月太懒散了...导致好多程序作业都要挤着这两天搞定...
【 在 PtwCJ (鲜的每日C|女共产党员的男朋友) 的大作中提到: 】
: 加油,我看好你~
: 感觉上好像是这样,等分词大牛jimmydong和earl来说说
【 在 zhbconan 的大作中提到: 】
: 其实是在做本来应该前两天交的ngram的作业...好囧...上个月太懒散了...导致好多程序作业都要挤着这两天搞定...
那你觉得可以用这个信息来分词不?如果是该怎么用?哈,带着思考想下
赞个!!
打算这礼拜把所有大作业都搞定之后写个总结出来,把自己思考的问题和各种猜想晒一下,然后请大牛指正。
【 在 zhbconan (冲田总受|路过团散骑|SL|猪头帮|天山南北) 的大作中提到: 】
: 在对比前后向最大匹配所产生的辅助词表时偶然发现了一个有趣的现象:可以做词尾的字比可以做词首的字少五百多个。
: 直觉觉得这应该是一个普遍现象而不仅仅是这个词表的特殊现象。
: 推测应该是由于词首汉字受的约束比较少。而词尾汉字必然要受到词首汉字的影响,尤其是三字以上的多字词,受词尾前的字的影响更加大。
: ...................
我不是很明白其中深意。
英语其实也有类似的特点,比方英语做字首的最多的是S,做字尾最多的是E。
所有英语单词里Q不单独出现,凡是出现Q,后面一定有U。
分词我其实不懂。问earl就行了
谢谢哈。
【 在 JimmyDong (荒芜天使) 的大作中提到: 】
: 我不是很明白其中深意。
: 英语其实也有类似的特点,比方英语做字首的最多的是S,做字尾最多的是E。
: 所有英语单词里Q不单独出现,凡是出现Q,后面一定有U。
: ...................