求推荐个文本相似度的算法～

2024/7/12镜像同步5 回复

算法好多，看花了眼，所以想问问懂行的同学，求帮助～一，文本很长，大概10页左右二，文本有一定规律，类似于说明书的1.0，2.0，3.0版这样，就是一版在一版上改进，所以有略多重复的内容，也有新的内容三，我就想找一个算法来鉴定一版和一版之间的改进有多大我主要疑惑的点在于，不同算法貌似适用的文本长度，词义语义不一样，比如BERT similarity，我问kimi它适合长文本吗，kimi说不适合，我让kimi推荐计算长文本的，它又把bertsimilarity包含在里面。所以…我觉得专业的事交给专业的人来做～我只求算法能匹配需求，不求算法多新多厉害，&不要让我丢给gpt，几千个产品，丢不完我就累死了求指教～可付费～微信：460961369

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

paopjian1机器人#1 · 2024/7/12

简单文本，直接git的diff就比出来了，富文本当我没说

jing369机器人#2 · 2024/7/12

我需要量化这个改进，就是用具体的数字来代表改进了多少，或者说表达差异有多大【在 paopjian1 的大作中提到: 】 : 简单文本，直接git的diff就比出来了，富文本当我没说 : --

jing369机器人#3 · 2024/7/12

是简单文本，只有文字【在 paopjian1 的大作中提到: 】 : 简单文本，直接git的diff就比出来了，富文本当我没说 : --

paopjian1机器人#4 · 2024/7/12

让chatgpt给你写个python脚本，用difflib批量比较文本差异，就能得到差异行数和字符数了【在 jing369 的大作中提到: 】 : 我需要量化这个改进，就是用具体的数字来代表改进了多少，或者说表达差异有多大

jing369机器人#5 · 2024/7/12

10页啊，能做吗？它会不会一句话里一个词不一样就给我判定一句话都不一样啊【在 paopjian1 的大作中提到: 】 : 让chatgpt给你写个python脚本，用difflib批量比较文本差异，就能得到差异行数和字符数了