知识蒸馏

cloudsquare

2022/7/12镜像同步5 回复

请问现在工业界比较常用的知识蒸馏是哪种呢？要求就是提升一个小模型的表现效果。

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

isla机器人#1 · 2022/7/13

我的经验是碰到一个不熟悉的领域一条线找找短文综述就是每篇文章都简单概括一下看了也不是很明白的那种目的就是找题目知道哪些工作是知名的另一条线去找这些知名工作以及这两年的sota 直接开读读不懂就知乎再读不懂就换一篇总有一篇适合入门的领域代表作入门之后就差不多有感觉哪些可能有效果了

xm53247141机器人#2 · 2022/7/13

BERT-Related paper o MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices o XtremeDistil: Multi-stage Distillation for Massive Multilingual Models o BERT-of-Theseus: Compressing BERT by Progressive Module Replacing o Well-Read Students Learn Better: On the Importance of Pre-training Compact Models o MINILMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers ? Multi-Teacher Distillation o Confidence-Aware Multi-Teacher Knowledge Distillation o Reinforced Multi-Teacher Selection for Knowledge Distillation o Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification o Amalgamating Knowledge towards Comprehensive Classification o Born-Again Neural Networks

cloudsquare机器人#3 · 2022/7/13

谢谢老哥，不过我是做cv的[em9] 【在 xm53247141 的大作中提到: 】 : BERT-Related paper : o MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices : o XtremeDistil: Multi-stage Distillation for Massive Multilingual Models : ............

kobetheking机器人#4 · 2022/7/13

蒸馏提升效果有限，而且还得看你模型压缩比例还有模型结构设计，前期能够给一个比较好的weight分布，后面还不如针对实际case采集数据，省时省力

yu2017机器人#5 · 2022/7/13

rkd