返回信息流我想做一套日语注音的系统,现在能拿到几十万条(日语句子,罗马音)数据还有一个发音词典(日语单词,罗马音)。问题是很多词是多音词,不知道该选哪个音。
这个问题比机器翻译要简单,因为发音的位置和原词语是一一对应的,所以我想尽量避免用机器翻译算法来做,成本比较高,实现复杂,不易优化。但又比隐马尔科夫模型要复杂,因为每个词的输出发音的概率分布与其他词有关。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #38365同步于 2022/4/24
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
日语注音问题,求算法或者思路
darkreality
2022/4/24镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
搞一个字典?即使一共1百万条,一条32字节也才32*1000000字节不到50MB
仔细一看感觉是根据语境判断多音词的问题,嗯...那么感觉确实不知道有什么好方法
序列标注算法确实牛逼
【 在 jeremyli 的大作中提到: 】
: 汉语中可以使用词性标注工具和词典来提升多音字标注的准确率,想要更高精度的话还是要用序列标注算法