🔔【OpenBMB论文速读】第二篇

🔗 文章:PPT: Pre-trained Prompt Tuning for Few-shot Learning (ACL 2022) https://aclanthology.org/2022.acl-long.576.pdf

🧐作者介绍

 Tsinghua CoAI & THUNLP

🔑关键词和摘要

 Keywords: Large-scale PLMs, Parameter-efficient Tuning, Prompt Tuning, Pre-trained Prompts

 

  PLM参数规模越大,Prompt Tuning和全参数微调性能越接近

  性能接近前提:下游任务训练样本充足

  在小样本场景下,Prompt Tuning和全参数微调的性能差异会变大

  解决方案:预训练 Prompt,基于预训练的Prompt进行Prompt Tuning

⚙️研究设计和结论

 方法

  简单回顾:

  预实验:

   全量训练集参与微调

    大模型,训练样本充足,Prompt Tuning和全参数微调性能接近

   少量训练样本参与微调

    大模型,小样本场景,Prompt Tuning效果较差

   在 Soft Prompt的基础上加入Hard Prompt可以提升小样本学习效果

    样本较少时,比较难学习到好的Soft Prompt,需要一个好的初始化来缩小参数搜索空间

   那是不是可以采用Hard Prompt的向量来初始化Soft Prompt?

    简单使用Hard Prompt的词向量来进行Soft Prompt的初始化效果较差

  实现细节:

   预训练Soft Prompt

    为每一种任务模式预训练Soft Prompt

     单句分类任务

     句对分类任务

     生成任务

   更加统一的预训练Prompt

    用选择题形式统一所有文本理解任务

 实验

  模型

   英文:T5-XXL(10B)

   中文:CPM-2(10B)

  实验设定

   PPT:预训练Soft Prompt

   Hybrid PPT:预训练Soft Prompt+Hard Prompt

   Unified PPT: 选择题形式统一所有文本理解任务

  英文实验

   英文数据集上预训练Soft Prompt带来了小样本学习场景上的显著提升

  中文实验

   中文数据集上预训练Soft Prompt带来了小样本学习场景上的显著提升

  收敛性分析

   预训练Soft Prompt缓解了Prompt Tuning收敛慢的问题

📚论文贡献

 优点(简单实用)

  强化了Prompt Tuning应对各种任务场景的能力

  缓解了Prompt Tuning收敛慢的问题

  预训练Prompt易于操作

 缺点

  合并同类任务需要人工设计