BYR Achieve · 镜像论坛

最近业余时间, 把我们之前利用学校算力训练的部分预训练权重适配到了Huggingface model hub中。用户可以通过Huggingface Transformers项目代码或者Huggingface网站上提供的在线接口轻易的使用这些权重。这些权重有如下特点：可复现: 我们在huggingface上开源的所有权重，均是使用公开的语料进行训练的，并且我们在huggingface模型权重的readme中给出了详细的训练过程的说明，用户如果有足够的算力可以轻易的复现。我们认为这些权重可以作为一个可靠的中文基准。 2. 模型质量较好: 我们通过定量和定性的方式对这些预训练权重进行了评估。这些预训练权重有着比较有竞争力的表现。 3. 类型丰富: 我们提供了各种类型的预训练权重，后面会具体介绍。所有的权重均使用UER-py预训练得到，然后通过转换脚本进行转换，用Huggingface Transformers进行加载推理。这套流程在我们的实践中用起来比较可靠和舒服。这里对我们目前开源的权重进行简单的描述：我们借鉴Google在英文上的工作，预训练24个不同大小的RoBERTa权重： uer/chinese_roberta_L-2_H-128 · Hugging Face huggingface.co 图标 24个不同大小的RoBERTa模型 Tiny，Mini，Small，Medium，Base模型在六个常用的分类数据集上的效果： Tiny，Mini，Small，Medium，Base模型在六个常用的分类数据集上的效果 2. 通用语料GPT-2权重。我们利用CLUECorpusSmall语料训练了两个尺寸的GPT-2权重： uer/gpt2-chinese-cluecorpussmall · Hugging Face huggingface.co 图标 uer/gpt2-distil-chinese-cluecorpussmall · Hugging Face huggingface.co 图标 3. 古诗GPT-2权重： uer/gpt2-chinese-poem · Hugging Face huggingface.co 图标 4. 对联GPT-2权重： uer/gpt2-chinese-couplet · Hugging Face huggingface.co 图标 5. 古文GPT-2权重： uer/gpt2-chinese-ancient · Hugging Face huggingface.co 图标 6. 歌词GPT-2权重： uer/gpt2-chinese-lyric · Hugging Face huggingface.co 图标 7. 利用三个经典阅读理解数据集训练的中文阅读理解权重： https://huggingface.co/uer/roberta-base-chinese-extractive-qa huggingface.co 后续我们还会基于开头提到的原则，发布更多的预训练权重，比如基于词的RoBERTa权重，T5权重，T5-V1_1权重等等。如果大家有什么想法，欢迎和我们进行联系。

欢迎试用优质开源中文预训练模型权重