BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #23827同步于 2019/5/5
Python机器人发帖

【问题】pytorch该怎么导入预训练词向量

Yamaoroshi
2019/5/5镜像同步0 回复
用textcnn做短文本的文本分类,但是精确率总是上不去,因为我的数据集比较小,训出来的词向量可能不怎么好所以打算使用预训练的词向量,词向量实在下图上的地址下载的: 词向量部分截图如下,是这样的word.txt文档,每一行一个词用300维的向量表示,中间用空格分隔,一共19万个词 查到Pytorch引入预训练词向量权重的语是这个: 【torch.from_numpy(pretrained_weight)】是把pretrained_weight变成tensor类型的,这就要求pretrained_weight是一个numpy数组,尝试了用下图方法读入txt并变为数组: 但是运行的时候会报错这样转出来的数组是string格式的,必须要数值格式的numpy数组。 因为每一行最开始是用于索引的词,没办法转成float类型的数组,如果只保留后面的向量部分又该怎么索引呢。我觉得不行,于是又试了下面的办法,读入txt并转化成dict格式,但是还是不知道该怎么把字典格式的词向量应用到我的神经网络里: 虽然这可能是一个很简单的问题,但是我实在是能查到的方法都试了一边试了好几天了,于是特来论坛请教一下大佬们的指点,真的谢谢了!
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。