返回信息流问一下,如我使用 维基百科的数据训练得到一个word2vec模型,
现手中有 3万条标记好的酒店文本数据,想做情感分析,可以用到上面用维基百科训练的word2vec模型吗?
还是 word2vec词向量模型也得在酒店评论上再训练?
[ema1]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #24063同步于 2017/5/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
关于word2vec的问题,求教
vincentBBS
2017/5/9镜像同步14 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
如果直接使用wiki百科语料库训练的模型当然没有问题,但有可能会不太准确,建议用wiki百科语料库进行预训练,接着再用相关的分类语料库(比如说旅游语料库,反正关于酒店出现的频次比较高的酒席)再次训练模型,提高精度。
【 在 John11 的大作中提到: 】
: 如果直接使用wiki百科语料库训练的模型当然没有问题,但有可能会不太准确,建议用wiki百科语料库进行预训练,接着再用相关的分类语料库(比如说旅游语料库,反正关于酒店出现的频次比较高的酒席)再次训练模型,提高精度。
你说的意思我有些不太明白,用wiki语料库预训练,不是得到的是一个词向量模型吗?
难道是 指 word2vec的增量训练吗?请解~~[ema0]
同等解答
【 在 John11 的大作中提到: 】
: 如果直接使用wiki百科语料库训练的模型当然没有问题,但有可能会不太准确,建议用wiki百科语料库进行预训练,接着再用相关的分类语料库(比如说旅游语料库,反正关于酒店出现的频次比较高的酒席)再次训练模型,提高精度。
应该是指用wiki预训练作为初始词向量,在特定语料在训练一遍吧?
【 在 vincentBBS 的大作中提到: 】
:
: 你说的意思我有些不太明白,用wiki语料库预训练,不是得到的是一个词向量模型吗?
: 难道是 指 word2vec的增量训练吗?请解~~
【 在 hoshizora 的大作中提到: 】
: 应该是指用wiki预训练作为初始词向量,在特定语料在训练一遍吧?
:
word2vec的训练输入不应是文本类型吗?得到的词向量也可以做为输入吗??
我觉得应该指的是用wiki的词向量作为词向量生成的初始参数,再用酒店语料做一次训练,这样会更精确
【 在 vincentBBS 的大作中提到: 】
: word2vec的训练输入不应是文本类型吗?得到的词向量也可以做为输入吗??
举个例子,做情感分析,首先你需要明确问题:比如我这里有用户对酒店的评价数据,如果做用户对酒店的喜好(-1,1),-1表示讨厌,0表示中立,1表示喜欢。然后你可以标注一些用户的评价数据,比如:-1,对应的标签(太差了,脏死了,设备不行,有虫子);然后拿用户的评价先分词,然后与你的模板进行匹配,得出来用户对酒店的喜好。假如有用户画像,多个维度,就可以做推荐了,你推荐给用户的肯定是用户比较喜欢的嘛