🔔【OpenBMB论文速读】第一篇

🔗 文章:The Power of Scale for Parameter-Efficient Prompt Tuning (EMNLP 2021) https://aclanthology.org/2021.emnlp-main.243/

🧐作者介绍

 Brian Lester (Google Research)

 Rami Al-Rfou (Google Research)

  Theano

  DeepWalk

 Noah Constant (Google Research)

 其他代表工作:

  mT5

  FLAN (Fine-tuned language models are zero-shot learners)

🔑关键词和摘要

 Keywords: Large-scale PLMs, Parameter-efficient Tuning, Prompt Tuning

 

  Prompt变成可学习的向量,固定PLM,微调Prompt来适配下游任务

  PLM参数规模越大,Prompt Tuning的性能和全参数微调越接近

  这种基于Soft Prompt的Prompt Tuning方法可以看作是Prefix Tuning的简化版本(只加在输入上)

⚙️研究设计和结论

 方法

  模型示意图:

  模型基本思路:

   经典分类:P(Y | X; θ)

    Hard Prompt: P(Y | [P;X] ; θ)

     Soft Prompt: P(Y | [P;X] ; θ; Δ)

    Pre-Training

     Fine-Tuning

      Prompt Tuning

  实现细节:

   模型参数量

    参数量:T5 ~ T5-XXL(10B)

    预训练:LM Adaptation

   Prompt长度:

    1、5、20、100、150

   初始化方法:

    随机初始化

    使用预设文本的词向量初始化,类似于设计hard prompt,然后将hard prompt转化为soft prompt

    使用类别词向量初始化,类似于提供选项

 实验

  数据集:SuperGLUE

  

   Prompt的规模越大,性能相对而言会越好

  

   基于语义信息的初始化比随机初始化要好

  

   LM Adaptation 对性能提升显著

   Prompt Tuning还是需要大模型有较好的文本生成能力

  

   模型参数规模越大,Prompt Tuning效果越好

   10B参数时与全参数微调性能接近

📚论文贡献

 优点(计算友好)

  大模型的微调新范式

  一个中心模型服务多个下游任务,节省参数存储量

  无需优化模型参数,节省优化器的计算量和存储量

  只在输入层进行操作,适合多任务场景下的计算合并

 缺点(性能和收敛性存在问题)

  Prompt Tuning的收敛速度很慢

  Prompt Tuning的模型性能不稳定

  Few-shot场景上表现不佳