🔔【OpenBMB论文速读】第二篇
🔗 文章:PPT: Pre-trained Prompt Tuning for Few-shot Learning (ACL 2022) https://aclanthology.org/2022.acl-long.576.pdf
🧐作者介绍
Tsinghua CoAI & THUNLP
🔑关键词和摘要
Keywords: Large-scale PLMs, Parameter-efficient Tuning, Prompt Tuning, Pre-trained Prompts
PLM参数规模越大,Prompt Tuning和全参数微调性能越接近
性能接近前提:下游任务训练样本充足
在小样本场景下,Prompt Tuning和全参数微调的性能差异会变大
解决方案:预训练 Prompt,基于预训练的Prompt进行Prompt Tuning
⚙️研究设计和结论
方法
简单回顾:
预实验:
全量训练集参与微调
大模型,训练样本充足,Prompt Tuning和全参数微调性能接近
少量训练样本参与微调
大模型,小样本场景,Prompt Tuning效果较差
在 Soft Prompt的基础上加入Hard Prompt可以提升小样本学习效果
样本较少时,比较难学习到好的Soft Prompt,需要一个好的初始化来缩小参数搜索空间
那是不是可以采用Hard Prompt的向量来初始化Soft Prompt?
简单使用Hard Prompt的词向量来进行Soft Prompt的初始化效果较差
实现细节:
预训练Soft Prompt
为每一种任务模式预训练Soft Prompt
单句分类任务
句对分类任务
生成任务
更加统一的预训练Prompt
用选择题形式统一所有文本理解任务
实验
模型
英文:T5-XXL(10B)
中文:CPM-2(10B)
实验设定
PPT:预训练Soft Prompt
Hybrid PPT:预训练Soft Prompt+Hard Prompt
Unified PPT: 选择题形式统一所有文本理解任务
英文实验
英文数据集上预训练Soft Prompt带来了小样本学习场景上的显著提升
中文实验
中文数据集上预训练Soft Prompt带来了小样本学习场景上的显著提升
收敛性分析
预训练Soft Prompt缓解了Prompt Tuning收敛慢的问题
📚论文贡献
优点(简单实用)
强化了Prompt Tuning应对各种任务场景的能力
缓解了Prompt Tuning收敛慢的问题
预训练Prompt易于操作
缺点
合并同类任务需要人工设计