返回信息流算法好多,看花了眼,所以想问问懂行的同学,求帮助~
一,文本很长,大概10页左右
二,文本有一定规律,类似于说明书的1.0,2.0,3.0版这样,就是一版在一版上改进,所以有略多重复的内容,也有新的内容
三,我就想找一个算法来鉴定一版和一版之间的改进有多大
我主要疑惑的点在于,不同算法貌似适用的文本长度,词义语义不一样,比如BERT similarity,我问kimi它适合长文本吗,kimi说不适合,我让kimi推荐计算长文本的,它又把bertsimilarity包含在里面。
所以…我觉得专业的事交给专业的人来做~我只求算法能匹配需求,不求算法多新多厉害,&不要让我丢给gpt,几千个产品,丢不完我就累死了
求指教~可付费~
微信:460961369
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #39169同步于 2024/7/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
求推荐个文本相似度的算法~
jing369
2024/7/12镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
我需要量化这个改进,就是用具体的数字来代表改进了多少,或者说表达差异有多大
【 在 paopjian1 的大作中提到: 】
: 简单文本,直接git的diff就比出来了,富文本当我没说
: --
让chatgpt给你写个python脚本,用difflib批量比较文本差异,就能得到差异行数和字符数了
【 在 jing369 的大作中提到: 】
: 我需要量化这个改进,就是用具体的数字来代表改进了多少,或者说表达差异有多大
10页啊,能做吗?它会不会一句话里一个词不一样就给我判定一句话都不一样啊
【 在 paopjian1 的大作中提到: 】
: 让chatgpt给你写个python脚本,用difflib批量比较文本差异,就能得到差异行数和字符数了