🔔【OpenBMB论文速读】第一篇
🔗 文章:The Power of Scale for Parameter-Efficient Prompt Tuning (EMNLP 2021) https://aclanthology.org/2021.emnlp-main.243/
🧐作者介绍
Brian Lester (Google Research)
Rami Al-Rfou (Google Research)
Theano
DeepWalk
Noah Constant (Google Research)
其他代表工作:
mT5
FLAN (Fine-tuned language models are zero-shot learners)
🔑关键词和摘要
Keywords: Large-scale PLMs, Parameter-efficient Tuning, Prompt Tuning
Prompt变成可学习的向量,固定PLM,微调Prompt来适配下游任务
PLM参数规模越大,Prompt Tuning的性能和全参数微调越接近
这种基于Soft Prompt的Prompt Tuning方法可以看作是Prefix Tuning的简化版本(只加在输入上)
⚙️研究设计和结论
方法
模型示意图:
模型基本思路:
经典分类:P(Y | X; θ)
Hard Prompt: P(Y | [P;X] ; θ)
Soft Prompt: P(Y | [P;X] ; θ; Δ)
Pre-Training
Fine-Tuning
Prompt Tuning
实现细节:
模型参数量
参数量:T5 ~ T5-XXL(10B)
预训练:LM Adaptation
Prompt长度:
1、5、20、100、150
初始化方法:
随机初始化
使用预设文本的词向量初始化,类似于设计hard prompt,然后将hard prompt转化为soft prompt
使用类别词向量初始化,类似于提供选项
实验
数据集:SuperGLUE
Prompt的规模越大,性能相对而言会越好
基于语义信息的初始化比随机初始化要好
LM Adaptation 对性能提升显著
Prompt Tuning还是需要大模型有较好的文本生成能力
模型参数规模越大,Prompt Tuning效果越好
10B参数时与全参数微调性能接近
📚论文贡献
优点(计算友好)
大模型的微调新范式
一个中心模型服务多个下游任务,节省参数存储量
无需优化模型参数,节省优化器的计算量和存储量
只在输入层进行操作,适合多任务场景下的计算合并
缺点(性能和收敛性存在问题)
Prompt Tuning的收敛速度很慢
Prompt Tuning的模型性能不稳定
Few-shot场景上表现不佳