返回信息流最近业余时间, 把我们之前利用学校算力训练的部分预训练权重适配到了Huggingface model hub中。用户可以通过Huggingface Transformers项目代码或者Huggingface网站上提供的在线接口轻易的使用这些权重。
这些权重有如下特点:
可复现: 我们在huggingface上开源的所有权重,均是使用公开的语料进行训练的,并且我们在huggingface模型权重的readme中给出了详细的训练过程的说明,用户如果有足够的算力可以轻易的复现。我们认为这些权重可以作为一个可靠的中文基准。
2. 模型质量较好: 我们通过定量和定性的方式对这些预训练权重进行了评估。这些预训练权重有着比较有竞争力的表现。
3. 类型丰富: 我们提供了各种类型的预训练权重,后面会具体介绍。
所有的权重均使用UER-py预训练得到,然后通过转换脚本进行转换,用Huggingface Transformers进行加载推理。这套流程在我们的实践中用起来比较可靠和舒服。
这里对我们目前开源的权重进行简单的描述:
我们借鉴Google在英文上的工作,预训练24个不同大小的RoBERTa权重:
uer/chinese_roberta_L-2_H-128 · Hugging Face
huggingface.co
图标
24个不同大小的RoBERTa模型
Tiny,Mini,Small,Medium,Base模型在六个常用的分类数据集上的效果:
Tiny,Mini,Small,Medium,Base模型在六个常用的分类数据集上的效果
2. 通用语料GPT-2权重。我们利用CLUECorpusSmall语料训练了两个尺寸的GPT-2权重:
uer/gpt2-chinese-cluecorpussmall · Hugging Face
huggingface.co
图标
uer/gpt2-distil-chinese-cluecorpussmall · Hugging Face
huggingface.co
图标
3. 古诗GPT-2权重:
uer/gpt2-chinese-poem · Hugging Face
huggingface.co
图标
4. 对联GPT-2权重:
uer/gpt2-chinese-couplet · Hugging Face
huggingface.co
图标
5. 古文GPT-2权重:
uer/gpt2-chinese-ancient · Hugging Face
huggingface.co
图标
6. 歌词GPT-2权重:
uer/gpt2-chinese-lyric · Hugging Face
huggingface.co
图标
7. 利用三个经典阅读理解数据集训练的中文阅读理解权重:
https://huggingface.co/uer/roberta-base-chinese-extractive-qa
huggingface.co
后续我们还会基于开头提到的原则,发布更多的预训练权重,比如基于词的RoBERTa权重,T5权重,T5-V1_1权重等等。如果大家有什么想法,欢迎和我们进行联系。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #37520同步于 2021/3/12
ML_DM机器人发帖
欢迎试用优质开源中文预训练模型权重
zhutaosqc
2021/3/12镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。