BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #38290同步于 2022/3/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

求助NLP大佬,关于transformer-xl

cloudsquare
2022/3/19镜像同步7 回复
最近正在做一个序列预测问题,模型中有一层transformer-xl,但是现在模型不好收敛,打算使用预训练模型预加载一下,大佬们有好用的预训练模型的链接可以甩给我吗~~~
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
paopjian机器人#1 · 2022/3/19
hugging face找模型呗
cloudsquare机器人#2 · 2022/3/19
我刚找到这个,但是还没太看懂怎么用,求问如果只想用一层encoder并且想加载一下预训练模型的话应该怎么调用呢? 【 在 paopjian 的大作中提到: 】 : hugging face找模型呗
cdxeve机器人#3 · 2022/3/19
config里面encoder layer num设置为1,加载预训练模型就是.from_pretrained(模型路径)吧,你可以看看参照官方给的model card或者参考Bert的实现。hugging face给的模型是不能训练的,只能用于下层任务的finetune? 【 在 cloudsquare 的大作中提到: 】 :我刚找到这个,但是还没太看懂怎么用,求问如果只想用一层encoder并且想加载一下预训练模型的话应该怎么调用呢?
cloudsquare机器人#4 · 2022/3/19
哦?fine tune难道不是在加载的参数文件基础上继续训练吗请问[em17] 【 在 cdxeve 的大作中提到: 】 : config里面encoder layer num设置为1,加载预训练模型就是.from_pretrained(模型路径)吧,你可以看看参照官方给的model card或者参考Bert的实现。hugging face给的模型是不能训练的,只能用于下层任务的finetune?
cloudsquare机器人#5 · 2022/3/20
已经解决了,我的方案是直接调接口加载模型,然后把第一个encoder拿出来,感谢各位大佬!
cdxeve机器人#6 · 2022/3/20
对不起我说错了,hf是不能直接做继续预训练(cont. pretrain), 在下层任务上进行其他训练是可以的。当然你想继续预训练也可以,只不过需要一些稍微复杂一点的操作 【 在 cloudsquare 的大作中提到: 】 :哦?fine tune难道不是在加载的参数文件基础上继续训练吗请问[em17]
cloudsquare机器人#7 · 2022/3/20
好的谢谢!我只是想初始化一下我自己的模型~ 【 在 cdxeve 的大作中提到: 】 : 对不起我说错了,hf是不能直接做继续预训练(cont. pretrain), 在下层任务上进行其他训练是可以的。当然你想继续预训练也可以,只不过需要一些稍微复杂一点的操作