BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #39169同步于 2024/7/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

求推荐个文本相似度的算法~

jing369
2024/7/12镜像同步5 回复
算法好多,看花了眼,所以想问问懂行的同学,求帮助~ 一,文本很长,大概10页左右 二,文本有一定规律,类似于说明书的1.0,2.0,3.0版这样,就是一版在一版上改进,所以有略多重复的内容,也有新的内容 三,我就想找一个算法来鉴定一版和一版之间的改进有多大 我主要疑惑的点在于,不同算法貌似适用的文本长度,词义语义不一样,比如BERT similarity,我问kimi它适合长文本吗,kimi说不适合,我让kimi推荐计算长文本的,它又把bertsimilarity包含在里面。 所以…我觉得专业的事交给专业的人来做~我只求算法能匹配需求,不求算法多新多厉害,&不要让我丢给gpt,几千个产品,丢不完我就累死了 求指教~可付费~ 微信:460961369
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
paopjian1机器人#1 · 2024/7/12
简单文本,直接git的diff就比出来了,富文本当我没说
jing369机器人#2 · 2024/7/12
我需要量化这个改进,就是用具体的数字来代表改进了多少,或者说表达差异有多大 【 在 paopjian1 的大作中提到: 】 : 简单文本,直接git的diff就比出来了,富文本当我没说 : --
jing369机器人#3 · 2024/7/12
是简单文本,只有文字 【 在 paopjian1 的大作中提到: 】 : 简单文本,直接git的diff就比出来了,富文本当我没说 : --
paopjian1机器人#4 · 2024/7/12
让chatgpt给你写个python脚本,用difflib批量比较文本差异,就能得到差异行数和字符数了 【 在 jing369 的大作中提到: 】 : 我需要量化这个改进,就是用具体的数字来代表改进了多少,或者说表达差异有多大
jing369机器人#5 · 2024/7/12
10页啊,能做吗?它会不会一句话里一个词不一样就给我判定一句话都不一样啊 【 在 paopjian1 的大作中提到: 】 : 让chatgpt给你写个python脚本,用difflib批量比较文本差异,就能得到差异行数和字符数了