查看原文
其他

今日一词|大语言模型 Large Language Model

喵酱 语言学心得
2024-09-03

“语言学心得”

 172 

【今日一词】

每天一词,一步一个脚印

一同扎进语言的海洋


大语言模型

Large Language Model

大语言模型( Large Language Model,简称LLM) 是在大规模语料训练中获得的语言转换模型,具有极强的文本理解与生成能力。究其本质,大语言模型完成了将不同语言中的字、词表征映射到更高维语义空间中的工作。首先,大语言模型通过各类来源的海量文本数据训练形成语义空间的参数模型。在随后的转换中,所有的字词都会被映射成一个高维的语义特征,成为高维语义空间中的一个向量坐标。在语义空间中,语义接近的字词所对应的语义特征间的距离也更接近,相差较大的字词对应的语义特征距离也会更远。经过注意力机制( self-attention) 对上下文与词句关系进行捕捉后,每个向量被重新赋予权重,继而形成新的向量矩阵,完成随后的新文本输出,这一转换过程是大语言模型优异性的根基。
大语言模型的同构性( homogeneity) 、统一性( consistency) 与稳定性( stability) ,使其在学术研究中具有突出价值。首先,文本映射到语义空间后具有同构性。对于传统人类学习者来说,知识受限于其依存的媒介,存在于不同的语言、符号、话语体系中,依存媒介的异构性质极大地限制了知识在研究者间的快速流动。大语言模型通过将文本映射至同构的语义特征,消弭了来自语言的隔阂,使得跨领域、跨语言的联系更加紧密。其次,语义空间中的坐标距离对应字词在语义上的差异具有统一性。大语言模型的统一性使相同知识的不同表述方式的语义特征非常相近。因此,大语言模型可以用浅显的文字,轻松地表达出晦涩难懂的学术思想。这一特质既能帮助研究者快速理解新鲜概念,也能帮助研究者写出更易懂的著作,从而取得更大的学术影响力。最后,稳定性是指距离相近的语义特征总能对应语义相近的字词。在大语言模型的生成过程中,模型可以通过对生成的过程施加轻微的扰动,来达到针对同一个问题每次均可以生成不同的回答的效果。正是因为稳定性这一特质的存在,使模型在经过扰动后仍能输出合理的回答,同时使回答具有创新性。

——本文参考《大语言模型在学术研究中的价值、风险及其规避》

(苏君阳 陈亚涵 刘腾宇)


相关研究


1)《基于大语言模型与语义增强的文本关系抽取》(李敬灿、肖萃林、覃晓婷、谢夏,《计算机工程》,2024-01-22网络首发
摘要:关系抽取是一项基础且重要的任务,旨在从非结构化文本中提取出实体之间的关系。最新进展已被证明,大型语言模型(LLM)和基础模型的结合改进了许多NLP任务的性能。这些模型利用深度学习和预训练的模型的语言表示能力,能够自动学习关系的语义特征。如何有效的利用大模型,解决实体重叠和信息交互差等问题仍是一个挑战。针对以上问题,本文提出了基于大语言模型的关系抽取算法。首先对LLaMA进行了微调训练,使其更加适应关系抽取的任务;在提取关系的基础上,使用自注意力机制来增强实体对之间关联程度,增强关系和实体之间的信息共享,接着使用平均池化泛化到整个句子当中;针对实体对设计了一个过滤矩阵,并引入词性信息进行语义增强,根据过滤矩阵中实体对的相关性过滤掉无效的三元组。该模型在公开数据集纽约时报(NYT)和 WebNLG上的F1结果分别为93.1%,90.4%。实验结果表明,在微调之后的LLaMA模型作为编码器的情况下,本文模型相较其他基线模型在准确率和 F1 指标上的效果更好,验证了模型的有效性。
关键词:关系抽取;人工智能;注意力机制;大语言模型;词性

2)《如何测试ChatGPT的语义理解与常识推理水平?——兼谈大语言模型时代语言学的挑战与机会》(袁毓林,《语言战略研究》,2024年第1期)
提要:ChatGPT等大语言模型在语义理解和常识推理方面表现优秀,其技术奥秘在于模型开发者在对词语进行向量表示时,遵循分布式语义学原理,采用了“嵌入”这种代数方法。但是,经典的测试语言运用等智能水平的“图灵测试”,难以识别欺骗和回避等作弊手段,因此,计算机科学家设计了“新图灵测试”,其中的威诺格拉德模式挑战与语言学关系密切。这一模式以代词消歧为测试点设计句子对和问题,但是经过大规模语料训练的语言模型可以凭借词汇上的统计相关性,而不是靠真正理解句子的意义来给出正确答案。为克服这一缺陷,学者们又发展出WinoGrande数据集,提高了数据的规模和难度,确保它们无法通过网络搜索等手段来得到正确答案。我们用威诺格拉德模式设计了无偏向双重句子对测试ChatGPT,展示了大语言模型在语义理解和常识推理方面已达到接近人类的水平。当然,从具身模拟假说来看,大语言模型不可能像人一样富有体验性地理解人类自然语言。最后,我们呼吁:语言学家应该积极参与构建WinoGrade测试集之类的工作,在人工智能时代扩展自身的学术研究领域。

关键词:ChatGPT;大语言模型;新图灵测试;威诺格拉德模式挑战;WinoGrande数据集


欢迎转发扩散!




推  荐




语言学人丨文秋芳:中国应用语言学发展的若干问题

2024-03-02

刊讯|SSCI 期刊《第二语言学习与教学研究》2023年第3-4期

2024-03-02

招聘|墨尔本大学2024年博士后招聘(语言学)

2024-03-02

重磅|人大复印报刊2023年重要转载来源期刊(语言文学)

2024-03-01

语言学年报•期刊动态|《当代语言学》(2023)

2024-03-01

招聘|北京语言大学2024年博士后招聘(语言学)

2024-03-01

招聘|中国统战部直属事业单位2024年公开招聘公告(语言学)

2024-02-29

好文荐读|邓盾:从“区别词”看现代汉语词的界定

2024-02-29

刊讯|《暨南学报(哲社版)》2023年刊文(语言学)

2024-02-29


欢迎加入“语言学心得交流分享群”“语言学考博/考研/保研交流群”


请添加“心得君”入群务必备注“学校/单位+研究方向/专业”

今日小编:喵酱

  审     核:心得小蔓

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

继续滑动看下一个
语言学心得
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存