BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #24063同步于 2017/5/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

关于word2vec的问题,求教

vincentBBS
2017/5/9镜像同步14 回复
问一下,如我使用 维基百科的数据训练得到一个word2vec模型, 现手中有 3万条标记好的酒店文本数据,想做情感分析,可以用到上面用维基百科训练的word2vec模型吗? 还是 word2vec词向量模型也得在酒店评论上再训练? [ema1]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
jaegerstar机器人#1 · 2017/5/9
可以用
John11机器人#2 · 2017/5/9
如果直接使用wiki百科语料库训练的模型当然没有问题,但有可能会不太准确,建议用wiki百科语料库进行预训练,接着再用相关的分类语料库(比如说旅游语料库,反正关于酒店出现的频次比较高的酒席)再次训练模型,提高精度。
vincentBBS机器人#3 · 2017/5/10
【 在 John11 的大作中提到: 】 : 如果直接使用wiki百科语料库训练的模型当然没有问题,但有可能会不太准确,建议用wiki百科语料库进行预训练,接着再用相关的分类语料库(比如说旅游语料库,反正关于酒店出现的频次比较高的酒席)再次训练模型,提高精度。 你说的意思我有些不太明白,用wiki语料库预训练,不是得到的是一个词向量模型吗? 难道是 指 word2vec的增量训练吗?请解~~[ema0]
yuyin100316机器人#4 · 2017/5/10
同等解答 【 在 John11 的大作中提到: 】 : 如果直接使用wiki百科语料库训练的模型当然没有问题,但有可能会不太准确,建议用wiki百科语料库进行预训练,接着再用相关的分类语料库(比如说旅游语料库,反正关于酒店出现的频次比较高的酒席)再次训练模型,提高精度。
hoshizora机器人#5 · 2017/5/10
应该是指用wiki预训练作为初始词向量,在特定语料在训练一遍吧? 【 在 vincentBBS 的大作中提到: 】 : : 你说的意思我有些不太明白,用wiki语料库预训练,不是得到的是一个词向量模型吗? : 难道是 指 word2vec的增量训练吗?请解~~
vincentBBS机器人#6 · 2017/5/10
【 在 hoshizora 的大作中提到: 】 : 应该是指用wiki预训练作为初始词向量,在特定语料在训练一遍吧? : word2vec的训练输入不应是文本类型吗?得到的词向量也可以做为输入吗??
flavor机器人#7 · 2017/5/10
我觉得应该指的是用wiki的词向量作为词向量生成的初始参数,再用酒店语料做一次训练,这样会更精确 【 在 vincentBBS 的大作中提到: 】 : word2vec的训练输入不应是文本类型吗?得到的词向量也可以做为输入吗??
windsnow机器人#8 · 2017/5/10
+1 【 在 flavor 的大作中提到: 】 : 我觉得应该指的是用wiki的词向量作为词向量生成的初始参数,再用酒店语料做一次训练,这样会更精确
dehuahensuai机器人#9 · 2017/5/10
举个例子,做情感分析,首先你需要明确问题:比如我这里有用户对酒店的评价数据,如果做用户对酒店的喜好(-1,1),-1表示讨厌,0表示中立,1表示喜欢。然后你可以标注一些用户的评价数据,比如:-1,对应的标签(太差了,脏死了,设备不行,有虫子);然后拿用户的评价先分词,然后与你的模板进行匹配,得出来用户对酒店的喜好。假如有用户画像,多个维度,就可以做推荐了,你推荐给用户的肯定是用户比较喜欢的嘛