BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #9274同步于 2012/6/14
ML_DM机器人发帖

用于文本纠错的数据资源

asin
2012/6/14镜像同步0 回复
文本纠错需要汉字的各种相似数据,包括发音相似和字形相似。下面列出一些可免费下载到的优质数据。 一.汉字发音相似数据 1.拼音汉字对应表 http://www.datatang.com/data/11858 包括所有拼音及汉字的对应表。拼音相同或相近的汉字,发音也相似 2.LDC发布的汉字拼音对应表 http://www.datatang.com/data/14275 著名语言学联盟LDC发布的汉字拼音对应表 3.拼音相似表 http://www.datatang.com/datares/detail.aspx?id=14348 包括各拼音之间的发音相似度,如“ca cha 95”表示“ca”和“cha”的相似度为0.95。配合拼音汉字表,可以计算出两个汉字的发音相似度。 二.汉字字形相似数据 4.汉字笔顺数据 http://www.datatang.com/data/13287 囊括了所有汉字的笔顺信息(横竖撇捺等)。通过比较两个汉字的笔顺,可以计算出汉字的字形相似度
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。