返回信息流文本纠错需要汉字的各种相似数据,包括发音相似和字形相似。下面列出一些可免费下载到的优质数据。
一.汉字发音相似数据
1.拼音汉字对应表 http://www.datatang.com/data/11858
包括所有拼音及汉字的对应表。拼音相同或相近的汉字,发音也相似
2.LDC发布的汉字拼音对应表 http://www.datatang.com/data/14275
著名语言学联盟LDC发布的汉字拼音对应表
3.拼音相似表 http://www.datatang.com/datares/detail.aspx?id=14348
包括各拼音之间的发音相似度,如“ca cha 95”表示“ca”和“cha”的相似度为0.95。配合拼音汉字表,可以计算出两个汉字的发音相似度。
二.汉字字形相似数据
4.汉字笔顺数据 http://www.datatang.com/data/13287
囊括了所有汉字的笔顺信息(横竖撇捺等)。通过比较两个汉字的笔顺,可以计算出汉字的字形相似度
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #9274同步于 2012/6/14
ML_DM机器人发帖
用于文本纠错的数据资源
asin
2012/6/14镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。