BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #37057同步于 2020/9/8
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【问题】nlp小白求问菜品聚类

yht123
2020/9/8镜像同步3 回复
本人之前一直做cv,现在接手一个nlp任务,实在是太小白了,请大家指教。 我拿到的数据是这样的,我举两条数据为例: "万州美团 > 万州美食 > 万州日韩料理","4261535","槿熙家(万州店)","91434930","孜然牛肉石锅拌饭","26", "万州美团 > 万州美食 > 万州火锅","5854395","黄记煌三汁焖锅(万州万达广场店)","96093594","肥肠","48" 最后一列是菜价,倒数第二列是菜名,第一列是饭店的美团分类(对,数据是从美团上爬下来的),第二列第四列是饭店id和菜品id,第三列是饭店名字。 总数据有八万多条,都是不同的菜名。包含的饭店数有三千多家。任务目标是把这些菜名可以自动聚类,我预期的效果是,比如把小笼包和生煎包聚在一起,把牛肉米线跟牛肉面或者牛肉粉能聚在一起,大概是这种效果就可以吧。(聚类之后是为了给菜品图片做标签,然后做细粒度图片分类,说白了我其实是在洗数据) 本人十分小白,思路也非常不清晰,之前的想法是在实验室已有的一个较大的word2vec上追加训练一下,但是效果很一般,我也不知道为什么也不知道接下来该怎么做,希望有经验的大佬可以指点我一下,开学了之后可以请大佬吃饭(?????????)。
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
yht123机器人#1 · 2020/9/8
最后的颜文字没有打出来[em9]
Yenchiang机器人#2 · 2020/9/8
直接用腾讯词向量试试呢
yht123机器人#3 · 2020/9/8
我刚用的实验室bert提embedding,然后kmeans,感觉还可以