预训练模型的过去、现在和将来——下篇

Original 于晓妍大象无形中国保密协会科学技术分会 2022-10-02

最近，随着大数据和高性能硬件的发展，大规模的BERT和GPT等预训练模型已经成为研究热点，不仅促进了自然语言处理任务的性能提升，也有效地提升了图像处理任务的表现。大规模预训练模型的突出优势在于：能够从海量未标注的数据上学习语言本身的知识，而后在少量带标签的数据上微调，从而使下游任务能够更好地学习到语言本身的特征和特定任务的信息。这种预训练思想不仅能够充分利用泛滥的网络资源，而且还能完美的解决人工标记数据的复杂步骤。因此，预训练模型几乎成了NLP任务的标配[1]。

本文将分为上下两篇为读者解读预训练模型的诞生、代表性工作和未来发展方向。上篇主要介绍预训练的诞生和代表性工作，下篇主要介绍预训练模型的未来发展方向。相关内容主要借鉴参考文献[1]。

1、未来发展方向

上篇主要介绍了预训练模型（PTMs）当前的发展历程，接下来将介绍预训练模型未来的发展方向，便于研究者更好地掌握发展脉络。总体来说，预训练模型未来的发展方向将围绕结构和预训练模型、多元数据训练、计算性能、理论发现、模型边缘学习、认知学习和新应用方向等。下文将详细介绍不同方向当前的研究进展以及开放性问题。

1.1 结构和预训练模型

1.1.1 新结构

基于Transformer的预训练模型在各类语言序列建模上获得了成功，证明了Transformer是预训练任务的有效结构。但是其缺点就是计算复杂性较高，即使是在GPU设备上，Transformer也不能处理包含超过512个词的序列。所以，未来的研究方向之一就是探索一种更加有效的模型结构，来捕获语言序列长距离依赖问题。一个有趣的预训练模型是基于双流注意力机制的排序语言模型，如图1所示。

除此之外，不同的模型对不同的下游任务有不同的影响。例如，Transformer的编码器适合做自然语言理解任务，如常见的文本分类任务。而Transformer的解码器适合做文本生成任务，如自动摘要等任务。因此，如何针对不同下游任务设计任务特定的模型结构也是预训练模型未来的一个发展方向。

图1 基于双流注意力机制的排序语言模型

1.1.2 新的预训练任务

预训练模型的一般目的是从海量的无标注数据中学习语言的内在的普遍知识。但是，想要学到更深层的知识，通常需要更深的网络结构、更大的预料数据以及新的预训练任务，这就意味着需要训练更大的模型。因此，一个需要迫切解决的问题就是设计一个更加高效的自监督预训练任务，并且能够同时满足现有硬件和软件的能力。

1.1.3 超越微调

预训练模型有预训练和微调两个阶段，预训练阶段需要从海量语料知识中学到内在的普遍知识，而微调阶段需要预训练阶段的输出模型在特定的下游任务上微调，这样才能使得训练好的预训练模型不仅具备常识也具有特定任务的理解能力。但是这种知识迁移手段存在参数无效的问题，即每个下游任务都有一套自己的微调参数。一种解决方案就是微调时固定预训练模型的原始参数，然后采用可适应的微调模型微调特定任务。随着GPT-3的出现，一种称为提示微调（Prompt Tuning[2]）的方法开始备受关注。该方法的主要思想是通过设计、生成和搜索离散或者连续的提示进行微调，这种模型能够弥补预训练和微调阶段的差距，减少微调阶段大量参数的计算成本。因此，提示微调是一种促进预训练模型学习到语言和世界知识的有效方式。

1.1.4 可靠性

随着预训练模型在生产系统中的应用，其安全性也越来越受关注。对抗攻击的研究能够让研究者更好地理解预训练模型暴露出的模型脆弱性，而对抗防御能够提高预训练模型的鲁棒性并抵制恶意的对抗攻击，所以探索模型可解释性和可靠性也是一个有希望的研究方向，它能够帮助我们了解预训练模型的工作原理，并提供方法去更好地使用和改善预训练模型。

1.2 多元数据训练

1.2.1 多语训练

在大规模英语语料库上训练的语言模型已经在各个基准上获得了巨大的成功。但是现实中，我们生活在多语的世界中，单纯针对某种特定语言的大规模语言模型并不能很好地使用现实多变的情况。虽然来自世界不同地方的人使用的语言不同，但是他们想要表达的意思是相近的，这表明：语义是独立于符号系统的。因此，训练一个能够学习多语表示的模型可能会比学习到单语表示的更好。

此外，当前的多模态多语言模型无法处理音频数据。例如，要将英文音频翻译成中文音频，我们首先需要通过一个附加的语音识别系统将英文音频转换为英文文本。使用跨语言模型翻译后，我们需要通过额外的文本转语音工具将中文文本进一步转换为中文音频。如何通过多模态多语言 PTM 将源语言音频直接传输到目标语言文本或目标语言音频也值得探索。

1.2.2 多模态训练

大规模的预训练及其下游应用已经级联了具有不同现实世界模态的研究。模态指的就是一些事情如何发生以及如何体验。例如，语音、视频、图像和文本。多模态训练任务实例如图2所示。

图2 多模态训练任务实例

最近，大规模 PTM 增强了多模态的关注，例如图像和文本，或视频和文本。具体来说，考虑到图像和视频属于视觉，而文本和语音属于语言，这种模态都可以归类为视频和语言（V&L）。V&L任务根据具体的使用形式可以分为基于图像-文本的任务、基于视频-文本的任务和基于视频-音频的任务。

多模态研究的主要挑战就是如何同时建模多模态信息的时间背景，特别是对于大规模的预训练，传统的自监督方法由于其高计算成本而不适合。为了解决上述问题，重要的是开发更多高效的自监督学习方法，形成复杂的模式。

1.2.3 知识增强

预训练模型可以从大量数据中提取大量的统计信息。此外，外部知识是人类智慧的产物（如知识图谱、特定领域数据和预训练数据的额外注释等），它们可以很好地超越统计建模。

1.3 计算性能

1.3.1 性能优化

近年来，深度学习模型向着越来越大和越来越复杂的方向发展，给现有的深度学习框架（例如TensorFlow和PyTorch）带来了严峻的挑战，这些框架早期并预见大规模模型的模型/管道并行性要求，因此需要更高效的方法。

数据移动 开发高效的分布式深度学习框架面临着各种挑战。一个挑战就是需要关注设备之间的数据移动，否则会极大地影响性能。因此，开发者需要定义一种明确的并行策略，通过最小化通信成本、最大化计算和内存资源以及优化计算与通信的重叠，在互连设备上放置和调度计算任务。

并行策略 数据并行适用于参数相对较小的深度学习模型，当反向传播最大化地与梯度/参数通信重叠时，可以实现接近线性的加速。而模型并行性和流水线并行性适用于具有大量参数的模型，这些参数可能无法放入单个设备中。

大规模训练 考虑到现有深度学习框架无法很好地支持模型并行性和管道并行性，一些新兴的开源项目为大规模训练开发了专用框架。如HugeCTR[3]。

包装器和插件 没有支持模型并行和管道并行的机制的情况下，开发者必须在现有框架上的计算操作之间，采用手动插入数据路由的方式来开发专用于某些特定算法的各种库。

1.3.2 模型压缩

提升模型效率的另一个重要方法就是模型压缩，这种情况下，大模型被压缩成小模型从而满足在资源受限的设备上快速部署的需求。技术包括参数共享、模型剪枝、知识蒸馏、模型量化等。

图3 模型蒸馏实例

1.4 预模型的理论解释

除了探究预训练模型在不同任务上的性能提升，研究者还开始探索解释预训练模型的行为，包括解释预训练模型的工作原理和预训练模型捕获的模式。

1.4.1 知识

预训练模型能够捕获到的隐性信息包括两种：语言知识和世界知识。

语言知识 相比于传统的神经网络模型，大规模的预训练模型能够从海量的预训练数据中学习到更丰富的语言知识。为了研究预训练模型的语言知识，研究人员设计了表征探测、表示分析、注意力分析和生成分析方法。

世界知识 除了语言知识，预训练模型也能从预训练数据中学到丰富的常识和事实知识。对于常识性知识，Ettinger[4]从心理语言学家的角度评估了预训练语言模型的知识，并发现模型在类别共享或角色反转的情况下表现较好，但在挑战性推理和基于角色事件上表现较差。对于事实知识，Petroni 等人[5]提出将关系知识生成作为填空语句任务来捕获事实知识。

1.4.2 鲁棒性

当前的研究工作已经提出预训练模型面对对抗样本时很脆弱。例如，预训练模型能够很容易地被同义词替换方法欺骗[6][7]。同时不相关的错误拼写词也能误导模型错误预测[8]。当前的文本对抗方法主要利用模型的预测结果和预测置信度结果生成对抗样本，但是这种方法很难保证生成对抗样本的质量。最近的研究工作采用 human-in-the-loop的方法[9]生成更加自然的对抗样本，这给预训练模型的鲁棒性带来了一定的挑战。

对抗鲁棒性存在新的挑战，更高的样本复杂性需要神经网络实现更好的对抗鲁棒性[10]。然而，一般来说并不知道多大规模的预训练模型能够提高模型鲁棒性，并且是否有有效的方法来探索预训练作为额外数据资源来提高下游任务的鲁棒性。但是，预训练模型本身的鲁棒性问题也仍需探索。

2、总结

现有的大规模预训练模型已经在各类NLP任务上获得了巨大的成功，尤其是在零样本/少样本学习场景。因此，大部分NLP研究者选择继续沿着大模型和大数据的方向发展，以期预训练模型能够从海量的信息中学到语言的通用世界知识，但是预训练模型的下一步发展仍然是一个开放问题，目前的预训练模型还不能学到语义信息，只是能够根据训练数据中存在的内容作出判别，不具备推理能力。因此，预训练模型的发展还需要考虑两点：模型能否从海量冗余的信息中鉴别到真正的语义关系，以及预训练模型本身的模型结构是否真实有效。

除此之外，预训练模型的预训练阶段对硬件设备要求极高，如果预训练模型继续朝着大炼模型的方向发展，缺少硬件配置的小型企业、高校和研究所的研究者们是否还有机会参与预训练模型的研发。所以，预训练模型的发展还远没有结束，不能单单的拼数据量和模型规模，一种理论上有效且结构上轻量的模型尤为重要，这需要研究者们的共同努力。

参考文献

[1] Xu H, Zhengyan Z, Ning D, et al. Pre-Trained Models: Past, Present and Future[J]. arXiv preprint arXiv:2106.07139, 2021.

[2] Xu Han, Weilin Zhao, Ning Ding, Zhiyuan Liu, and Maosong Sun. 2021.Ptr:Prompt tuning with rules for text classification.arXiv preprint arXiv:2105.11259.

[3] Even Oldridge, J. Perez, Ben Frederickson, Nicolas Koumchatzky, M. Lee, Z.-H. Wang, Lei Wu, F. Yu, Rick Zamora, O. Yılmaz, Alec M. Gunny, Vinh Phu Nguyen, and S. Lee. 2020. Merlin: A gpu accelerated recommendation framework. In Proceedings of IRS.

[4] A. Ettinger, “What bert is not: Lessons from a new suite of psycholinguistic diagnostics for language models,” Transactions of the Association for Computational Linguistics, vol. 8, pp. 34–48, 2020.

[5] F. Petroni, T. Rocktäschel, P. Lewis, A. Bakhtin, Y. Wu, A. H. Miller, and S. Riedel, “Language models as knowledge bases?,” arXiv preprint arXiv:1909.01066, 2019.

[6] D. Jin, Z. Jin, J. T. Zhou, and P. Szolovits, “Is bert really robust? a strong baseline for natural language attack on text classification and entailment,” in Proceedings of the AAAI conference on artificial intelligence, vol. 34, pp. 8018–8025, 2020.

[7] Y. Zang, F. Qi, C. Yang, Z. Liu, M. Zhang, Q. Liu, and M. Sun, “Word-level textual adversarial attacking as combinatorial optimization,” arXiv preprint arXiv:1910.12196, 2019.

[8] T. Niven and H.-Y. Kao, “Probing neural network comprehension of natural language arguments,” arXiv preprint arXiv:1907.07355, 2019.

[9] E. Wallace, P. Rodriguez, S. Feng, I. Yamada, and J. Boyd-Graber, “Trick me if you can: Human-in-the-loop generation of adversarial examples for question answering,” Transactions of the Association for Computational Linguistics, vol. 7, pp. 387–401, 2019.

[10] Ludwig Schmidt, Shibani Santurkar, Dimitris Tsipras, Kunal Talwar, and Aleksander Madry. 2018. Adversarially robust generalization requires more data. In Proceedings of NeurIPS.

中国保密协会

科学技术分会

长按扫码关注我们

作者：于晓妍、大象无形

责编：向灵孜

2020年精彩文章TOP5回顾

从使馆焚烧文件说说碎纸及复原技术
从一场全球关注的涉密会议谈起光纤窃听与防护美国应对新冠病毒在关键基础设施安全方面的建议信息产业自主生态建设综述

近期精彩文章回顾

预训练模型的过去、现在和将来——上篇
浅谈英国网络安全战略2016-2021实施进展（下）

浅谈英国网络安全战略2016-2021实施进展（上）

从英国国家网络安全战略谈起

基于元学习的小样本增量攻击识别模型