My-Note-3 | Bridging Subword Gaps in Pretrain-Finetune Paradigm for Natural Language Generation
Tags:ACL 2021 ;NLG ;Subword
背景:
基于 pretrain-finetune 的模型在 pretrain 时使用统一的语料库 (one-size-fits-all vocabulary),而 finetune 时的语料库则随具体任务而不同。
pretrain 时的语料库和 finetune 时的语料库中的 subwords 分布往往会有所不同,这导致了:
- pretrain 时学到的 subwords 划分会更加细粒度从而覆盖其更大的语料库,但这会使得 finetune 时的 exposure bias 更严重且计算开销更大
- 在 pretrain 时不常见,但在 finetune 时常见的 token 可能会被错误划分为 subwords,导致语义保留不佳
本文:
- 目标:改善上下游任务中由于 subwords 分布不同导致的下游任务中部分token表示不佳 (under-represented)
- 方法:单独训练一个 embedding generator,输入一个 token,根据其 subwords 和 hyperwords 的词向量来得到该token的词向量,改善下游任务中 under-represented token 的词向量表达
- 模型:AVG-EG; ATT-EG; PATT-EG
- 创新点:(1) 从克服 subwords 分布差异 的角度出发,有效改善了模型; (2) 计算效率高,在简单地单独训练后可以即插即用 (plug-and-play) ; (3) 对 under-represented token 的词向量表示进行了多个方法的探索,包括平均,基于注意力机制和基于语素 (morphemes) 信息的方法。