首页 >行情 > 正文

Meta发布650亿参数语言模型LIMA,媲美GPT-4和Bard-环球实时

2023-05-24 06:37:34

机器之心报道

机器之心编辑部

不需要 RLHF,LIMA 就能和 GPT-4、Bard、DaVinci003 相媲美,甚至更好。


(资料图片)

作为当前 AI 领域的顶流,ChatGPT、GPT-4 等大模型在文本理解、生成、推理等方面展现出强大的能力,这离不开其背后的生成领域训练新范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习的方式依据人类反馈优化语言模型。

使用 RLHF 方法,大型语言模型可与人类偏好保持对齐,遵循人类意图,最小化无益、失真或偏见的输出。但 RLHF 方法依赖于大量的人工标注和评估,因此成本非常高昂。

最近,来自 Meta AI 等机构的研究者在一项研究中指出:在对齐方面,少即是多。

论文地址:https://arxiv.org/abs/2305.11206

该研究使用了一个 65B 参数的 LLaMa 模型(该模型称为 LIMA)在 1000 个精选样本上进行有监督学习,在完全没使用 RLHF 方法的情况下,LIMA 表现出非常强大的性能,并且能够很好地泛化到训练数据以外的任务上。在人类评估结果中,LIMA 甚至可与 GPT-4、Bard、DaVinci003 相媲美。图灵奖得主 Yann LeCun 也转推称赞这项研究。

接下来,让我们看一下研究细节。

研究概述

首先,我们知道训练大型语言模型需要两个步骤:

在原始内容中进行无监督预训练,以学习通用表征;

大规模指令微调和强化学习,以更好地对齐最终任务和用户偏好。

该研究训练了一个 65B 参数的 LLaMa 语言模型「LIMA」,以衡量这两个步骤的重要程度。LIMA 仅在 1000 个精选 prompt 和回答(response)上使用标准监督损失进行微调,不涉及任何强化学习或人类偏好建模。

LIMA 能够从训练数据的少量样本中学习遵循特定的回答格式,包括从计划旅行行程到推测备用历史的复杂查询。并且,该模型能够很好地泛化到训练数据以外的新任务上。在一项人体对照试验中,LIMA 在 43% 的病例中疗效都与 GPT-4 媲美甚至更好;相比于 Bard,占比能够达到 58%;更别说与使用人类反馈训练的 DaVinci003 对比了,这个数字高达 65%。

该研究根据对比结果总结道:大型语言模型中几乎所有的知识都是在预训练期间学习的,并且想让模型产生高质量的输出只需要部分必要的指令调优数据。这一点与 RLHF 方法不同,将有助于大型语言模型(LLM)降低训练成本。

数据对齐

研究者提出了表面对齐假设:模型的知识和能力几乎完全是在预训练期间学习的,而对齐则是教会它与用户交互时如何选择子分布。如果假设正确,对齐主要有关于学习方式,那么该假设的一个推论是,人们可以用相当少的样本充分调整预训练的语言模型。

为此,研究者收集了 1000 个 prompt 和回答的数据集,其中输出 (回答) 在风格上一致,但输入 (prompt) 是不同的。他们想找出一种有帮助的、AI 助手风格的输出。精选样本的来源主要包括社区问答和手动撰写两部分。除此之外,团队还收集了一个包含 300 个 prompt 的测试集以及一个包含 50 个 prompt 的开发集。表 1 展示了不同数据源的概览,并提供了一些统计数据。

社区问答

研究者从三个社区问答网站收集数据,分别是 Stack Exchange、wikiHow 和 Pushshift Reddit 数据集。来自 Stack Exchange 和 wikiHow 的答案与 AI 智能体的行为很一致,因此可以深度挖掘,而 Reddit 的高赞答案往往是幽默的或带有恶意,需要一种人工的方法来管理回答,遵循适当的风格。

人工撰写的样本

为进一步丰富数据,研究团队还自己制作 prompt,指定两组作者 (分别为 A 组和 B 组),由他们自己或朋友的兴趣各自创建 250 个 prompt。从 A 组中选择 200 个 prompt 进行训练,并将 50 个 prompt 作为保留的开发集。过滤部分有问题的 prompt 后,将 B 组中剩余的 230 个 prompt 用于测试。

训练 LIMA

该研究以 LLaMa 65B [Touvron et al., 2023] 作为基础模型,使用包含 1000 个样本的对齐训练集进行了微调。为了区分每个说话者(用户和助手),该研究在每段话语结束时引入一个特殊的回合结束 token(EOT),该 token 与停止生成的 EOS 起着相同的作用,但避免了与预训练模型已注入的 EOS token 产生混淆。

该研究遵循标准的微调超参数,包括:使用 AdamW [Loshchilov 和 Hutter,2017] 微调 15 个 epoch,其中 β_1=0.9,β_2=0.95,权重衰减(weight decay)为 0.1。在没有预热(warmup)步骤的情况下,该研究将初始学习率(learning rate)设置为,并在训练结束时衰减到。批大小设置为 32 个样本(对于较小的模型设置为 64 个),超过 2048 个 token 的文本将被修剪。值得注意的是,这种方法与 norm 不同的是使用了残差 dropout。该研究按照 Ouyang et al. [2022] 的方法,并在残差连接(residual connection)上应用 dropout,底层 p_d=0.0,线性增长至最后一层 p_d=0.3(对于较小的模型 p_d=0.2)。该研究发现发现困惑度与生成质量无关,因此使用留出(held-out)50 样本开发集手动选择了第 5 个和第 10 个 epoch 之间的检查点。

人类评估

该研究将 LIMA 与 SOTA 语言模型进行了比较评估,结果表明 LIMA 优于 OpenAI 基于 RLHF 的 DaVinci003 和在 52000 个样本上训练的 Alpaca 65B 参数复现版本,并且可以生成比 GPT-4 更好或与之媲美的回答。我们来看一下具体的实验结果。

结果

下图 1 显示了人类偏好评估结果,图 2 显示了 GPT-4 偏好评估结果。该研究第一个观察结果是,尽管使用 52 倍的数据进行训练,Alpaca 65B 输出的结果往往不如 LIMA,而使用高级对齐方法 RLHF 训练的 DaVinci003 也是如此。

谷歌的 Bard 模型则显示出与 DaVinci003 相反的趋势,在 42% 的时间内产生比 LIMA 更好的回答;而 58% 的情况 LIMA 的回答与 Bard 相当或者更好。

最后,虽然 Claude 和 GPT-4 通常比 LIMA 表现更好,但在很多情况下 LIMA 确实产生了更好的回答。值得注意的是,即使是 GPT-4 也有 19% 的情况更喜欢 LIMA 的输出。

分析

虽然研究者主要是针对 SOTA 模型来评估 LIMA,但值得注意的是,其中一些基线实际上是高度调谐的产物,在训练过程中可能已经接触了数百万的真实用户 prompt,因此创造了一个非常高的标准。因此,研究者通过手动分析 50 个随机样本来提供一个绝对评估(absolute assessment)。

他们将每个样本标记为三个类别中的一个:

失败,回答不符合 prompt 的要求;

通过,回答符合 prompt 的要求;

优秀,模型对 prompt 提供了一个极好的回答。

结果如图 3 所示,50% 的 LIMA 答案被认为是优秀的,而且它能够遵循 50 个分析的 prompt 中除 6 个以外的所有 prompt,研究者没有观察到失败案例中的任何明显的趋势。

在 50 个分析样本中,有 43 个具有标准格式要求(例如问答、书信)。该研究分析了 13 个额外的分布外样本(总共 20 个),结果发现 20% 回答失败,35% 通过,45% 非常好。虽然样本数量非常小,但 LIMA 已经在其训练分布之外实现了类似的性能结果,这表明 LIMA 能够很好地泛化。

最后,该研究分析了训练集中少量与安全相关的样本(只有 13 个),并使用来自测试集的 30 个潜在敏感 prompt,发现 LIMA 安全地回答了其中的 80%(包括 10 个带有恶意 prompt 中的 6 个)。在某些情况下,LIMA 完全拒绝执行任务,但当恶意意图比较模糊时,LIMA 更有可能提供不安全的回答。

为什么「Less More」?对数据多样性、质量和数量的消减

接下来,研究者通过消融实验探讨了训练数据的多样性、质量和数量的影响。他们观察到,对于对齐的目的,扩大输入多样性和输出质量有可衡量的积极影响,仅仅扩大数量则可能不会有。

多样性。为了测试 prompt 多样性的效果,同时控制质量和数量,研究者比较了经过质量过滤的 Stack Exchange 数据和 wikiHow 数据的训练效果,前者有异质的 prompt 和极好的回答,后者则有同质的 prompt 和极好的回答。虽然在此将二者作为多样性的代表进行比较,但研究者也表示,在从两个不同来源的数据中采样时,可能会有其他混淆因素。他们从每个来源中抽出 2000 个训练样本,如图 5 显示,更多样化的 Stack Exchange 数据产生了明显更好的性能。

质量。为了测试回答质量的影响,研究者从 Stack Exchange 中抽取了 2000 个样本,没有经过任何质量或风格的过滤,并将在这个数据集上训练的模型与在过滤过的数据集上训练的模型进行比较。如图 5 所示,在经过过滤和未经过过滤的数据源上训练的模型之间有 0.5 分的显著差异。

数量。增加实例的数量是在许多机器学习环境中提高性能的一个著名策略。为了测试它对该设置的影响,研究者从 Stack Exchange 中抽取了指数级增加的训练集。如图 6 所示,训练集规模的翻倍并没有改善回答质量。这个结果表明,对齐不一定只受制于训练样本的数量,还与 prompt 多样性函数有关。

多轮对话

一个仅在 1000 次单回合互动中进行微调的模型能否参与多回合对话?研究者还在 10 个现场对话中测试了 LIMA,将每个回答标记为失败、通过或优秀。

对于一个零样本聊天机器人来说,LIMA 的回答展现出了惊人的一致性,它能够参考对话中以前的步骤信息。但很明显的是,该模型的操作超出了分布范围;在 10 个对话中的 6 个,LIMA 在 3 次互动中未能遵循 prompt。

为了提高它的对话能力,研究者收集了 30 个多轮对话链。在这些对话中,有 10 个对话是由作者创作的,而剩下的 20 个对话是基于 Stack Exchange 的评论链,研究者对其进行了编辑以适应助手的风格。利用合并后的 1030 个样本,他们从预训练的 LLaMa 模型中微调了一个新版本的 LIMA,并根据用于零样本模型的相同 prompt 进行了 10 次现场对话。

图 7 显示了回答质量的分布。增加对话后,大大改善了生成质量,将优秀回答的比例从 45.2% 提高到 76.1%。此外,失败率从每 42 个回合有 15 次失败(零样本)下降到每 46 次有 1 次失败(微调)。

研究者进一步比较了整个对话的质量,发现微调模型在 10 个对话中的 7 个表现明显更好,在 3 个对话中与零样本模型打成平手。从仅仅 30 个样本中获得的这种能力的飞跃,以及零样本模型可以进行对话的事实,加强了这样的假设:这种能力是在预训练中学习的,并且可以通过有限的监督来调用。

综上所述,在 1000 个精心策划的例子上对一个强大的预训练语言模型进行微调,可以在广泛的 prompt 中产生显著的、有竞争力的结果。然而,这种方法也有局限性:首先,构建这样的样本所付出的脑力劳动是巨大的,而且很难扩大规模。其次,LIMA 并不像产品级模型那样鲁棒,虽然 LIMA 通常会产生良好的反应,但在解码过程中一个不幸运的样本或一个敌对的 prompt 往往会导致一个弱的反应。尽管如此,这项工作中提出的证据表明,用简单的方法来解决复杂的对齐问题是有潜力的。

上一篇:秦刚:中荷可以在3个层面加强合作_热消息 下一篇:最后一页
x
推荐阅读

Meta发布650亿参数语言模型LIMA,媲美GPT-4和Bard-环球实时

机器之心Pro 2023-05-24

秦刚:中荷可以在3个层面加强合作_热消息

凤凰网 2023-05-24

世界速看:安全期是月经前几天和月经后几天吗_安全期是月经前几天吗

互联网 2023-05-24

联通volte怎么开通花钱吗_联通volte怎么开通

互联网 2023-05-24

世界关注:联翔股份(603272.SH):1387.5万股限售股5月29日起上市流通

格隆汇 2023-05-24

如何防止网络钓鱼攻击:八个优秀实践

清一色财经 2023-05-24

“关”住身边点滴 东川区开展节约用水宣传活动|世界热讯

昆明日报-掌上春城 2023-05-23

豆浆的做法和配方视频教程_豆浆的做法和配方视频-观察

互联网 2023-05-23

世界观速讯丨穆雷:詹姆斯上半场非常出色 我们下半场打了回来

直播吧 2023-05-23

水厕卫生系统面临全球性挑战,生态厕所成为重要解决方案

中环协公厕建设管理专委会 2023-05-23

中国足协连开重磅罚单!球员们还需“降降火”|环球今头条

中国新闻网 2023-05-23

环球热议:研究揭示了血浆脂质组影响因素

中国科学报 2023-05-23

“新国门”品质居住需求释放 航城壹号实景呈现理想生活

央广网 2023-05-23

夏季这样洗澡就是在引湿气入体!别再做啦!

百度新闻 2023-05-23

咸安学前教育五年成果展优秀幼教故事——楚才新华幼儿园

咸安区融媒体中心 2023-05-23

19省区15支观鸟队伍齐聚青海湖 展示生态保护成效 环球即时

中国新闻网 2023-05-23

ST深天(000023)5月23日主力资金净买入94.15万元

证券之星 2023-05-23

阿根廷2000比索面额纸币开始流通

新华社 2023-05-23

A50指数突然跳水!2600亿白酒巨头又现大跌!“二阳”刷屏 这一板块火了!|世界热资讯

证券时报 2023-05-23

遥望科技与人民日报共助“乡村振兴”的三部曲

云掌财经 2023-05-23

国家卫健委部署开展第36个世界无烟日活动 引导有戒烟意愿人群科学戒烟

法治日报 2023-05-23

詹姆斯40分约基奇30分14板13助攻,掘金4:0横扫湖人打进总决赛|动态

李广体育评论 2023-05-23

劳动仲裁是劳动争议的必经程序吗

找法网 2023-05-23

山科智能5月23日快速回调

东方财富Choice数据 2023-05-23

杭州热电:目前公司无超超临界机组和虚拟电厂业务

北极星电力网 2023-05-23

焦点速递!cad如何让布局尺寸和模型尺寸一样 CAD布局尺寸与实际尺寸不一致怎么办

城市网 2023-05-23

王府井:5月22日融券卖出4.47万股,融资融券余额7.31亿元

证券之星 2023-05-23

晒伤后怎么处理和修复_晒伤后怎么处理

互联网 2023-05-23

白银走势分析最新消息(2023年5月18日)|当前动态

亚汇网 2023-05-23

全球播报:瓦楞纸_关于瓦楞纸介绍

十分生活网 2023-05-23

第三届“乡村振兴大擂台”颁奖活动在广州成功举办

南方网 2023-05-23

similar怎么读音_similar怎么读 焦点短讯

互联网 2023-05-23

省国资委“牵手”湘江实验室 全球聚焦

湖南日报·新湖南客户端 2023-05-22

宁波镇海品质文化周启动 加快建设品质文化之城

央广网 2023-05-22

网球规则与打法图解教学_网球规则与打法-每日关注

互联网 2023-05-22

奥飞娱乐(002292.SZ):“喜羊羊与灰太狼”动画电影正在按计划筹备制作中-世界速看

格隆汇 2023-05-22

全球快资讯丨成都房产抵押贷款如何选择合适的贷款机构?

希财网 2023-05-22

眼健康对老年人更重要 您当提防“啃老”眼病 全球独家

红网 2023-05-22

百万亩水稻科学种植 提升产量 当前播报

央视网 2023-05-22

名下有房可以申请停息挂账么?有房贷银行接受停息挂账吗? 世界速看

财报网 2023-05-22

新资讯:竞技体育的意义 竞技体育

城市网 2023-05-22

环球观天下!可触达、高品质、无障碍 太平人寿优选国际医疗资源 推出“太平跨境医疗服务平台”

大河网 2023-05-22

甲基丙烯酸正丁酯商品报价动态(2023-05-22)

生意社 2023-05-22

黑龙江明水:拉开万亩水稻插秧序幕

央广网 2023-05-22

上海限号外地车怎么限号2023_上海限号外地车怎么限

互联网 2023-05-22

天天观速讯丨异动快报:ST华铁(000976)5月22日14点2分触及涨停板

证券之星 2023-05-22

环球讯息:总台专访丨南非国民议会副议长:谴责美元霸权 呼吁本币结算

海口网 2023-05-22

泰国校服蓝色_泰国校服是白色还是紫色的_最新

元宇宙网 2023-05-22

热文:Informa Tech全球副总裁Richard Mahony:加强创新与合作,加速F5.5G时代到来

C114 通信网 2023-05-22

天天快播:乔迁之喜短信 乔迁之喜短信怎么写

互联网 2023-05-22

挑战当下厨房难题!卡萨帝3.0厨房最快3小时焕新

永州新闻网 2023-05-22

环球速讯:2023黑龙江二本大学排名及分数线文理科汇总(黑龙江二本大学最低录取分数线)

互联网 2023-05-22

第76届世界卫生大会在日内瓦开幕 天天观察

中评网 2023-05-22

快讯:上海迪士尼门票官网价格(上海迪士尼门票首次低于半价)

互联网 2023-05-22

这周迎来4只新股上市

南方财富网 2023-05-22

北京今年前4个月财政收入2439.2亿元,增长9.7%

北京时间 2023-05-22

贴现法收款法加息法的区别(贴现法收款法加息法)

乐拇指 2023-05-22

邵阳市气象台发布暴雨红色预警【Ⅰ级/特别严重】【2023-05-21】|世界微动态

九派新闻 2023-05-22

湖人或许有过机会,但穆雷和约基奇不允许

天下足球最新帖子 2023-05-22

最 新 招 聘-天天关注

蚌埠日报 2023-05-22

运动省油兼具 山路试驾思域 HATCHBACK e:HEV

ZAKER科技 2023-05-21

减肥卡路里热量表app_减肥卡路里热量表 天天要闻

互联网 2023-05-21

长春市2023年养老金如何调整的?今年养老金每月会增加多少钱?_世界热门

社保网 2023-05-21

阿尔巴尼亚去伊斯兰(阿尔巴尼亚现在如何)

环球旅程网 2023-05-21

怎样制作ppt课件_制作ppt课件的方法-焦点简讯

互联网 2023-05-21

环球热资讯!grouppolicyclient服务未能登录拒绝访问怎么办-group policy client

互联网 2023-05-21

中国电信(601728.SH)4月5G套餐用户净增402万户|世界消息

智通财经 2023-05-21

股票300186_断板涨停|环球热议

投股 2023-05-21

微资讯!麻油是什么油是什么做成的_麻油是什么油

互联网 2023-05-21

风范看好新能源转型方向

科创板日报 2023-05-21

世界快消息!柞水县气象台发布大风蓝色预警【Ⅳ级/一般】【2023-05-21】

九派新闻 2023-05-21

世界讯息:拉菲尼亚:我想在巴萨待很多年;红蓝发是上一轮赛季就要染的

懂球帝 2023-05-21

【环球新要闻】“离太阳最近”的图书馆

新华社 2023-05-21

住户存款8强城市:京沪超5万亿 杭州人均存款达16万元

央视网 2023-05-21

基米希谈德甲争冠:我们专注于自身,必须赢下最后一场比赛

手机网易网 2023-05-21

掘金6连胜,湖人必胜 当前观察

新锐侃球一号 2023-05-21

当前头条:英语元音音标发音在线试听_英语元音音标

科学教育网 2023-05-21

葡萄牙电影_关于葡萄牙电影的简介

互联网 2023-05-21

外媒:美法院认定FBI滥用涉外情报数据库 非法搜索信息27.8万次

环球网 2023-05-20

焦点短讯!美甲怎么卸掉视频教程_美甲怎么卸掉的妙招

互联网 2023-05-20

世界播报:昆明=琅勃拉邦国际航线复航

中国新闻网 2023-05-20

电脑qq音乐怎么往u盘传歌(电脑QQ音乐怎么传歌到u盘)

互联网 2023-05-20

女子通过网恋以创业为由诈骗多人200余万元,获刑19年 天天通讯

澎湃新闻 2023-05-20

观天下!吉利帝豪L Hi·P,整体表现如何?

懂车帝 2023-05-20

世界热资讯!太原师范学院地址快递_太原师范学院地址

互联网 2023-05-20

桂林博物馆举办2023年“5·18国际博物馆日”系列活动|今日看点

中新网广西 2023-05-20

遇见智能电混SUV 银河L7来电见面会 春城昆明精彩上演_天天讯息

搜狐汽车 2023-05-20

最新大二学生学期自我总结 高中学生学期自我总结汇总 天天聚看点

可圈可点组卷 2023-05-20

要闻:中央气象台:20-22日江汉江南等地有较强降雨

中央气象台 2023-05-20

视点!3天假期后需连上6天班 端午节出行预定开始了:机票酒店搜索大增

中财网 2023-05-20

袜子怎么叠好看店铺_袜子怎么叠好看 全球看热讯

互联网 2023-05-20

离婚时才发现丈夫资产过亿!丈夫:这钱和你没有半点关系

六层楼医生 2023-05-20

环球关注:【短讯】新消费日报 | i茅台累计销售已超230亿元;菜鸟集团万霖回应上市;格力解散手机核心团队……

开利财经 2023-05-20

消防隐患不容忽视!平湖经开这家企业被点名-今日报

搜狐号-信息新报 2023-05-20

孟晚舟与丈夫前妻,她俩一个模子刻出来的?_今日观点

新浪娱乐 2023-05-20

微信符号表情含义大全_微信符号表情含义|环球头条

互联网 2023-05-20

环球微动态丨国家金监总局:一季度商业银行利润增速下行,风险抵补能力充足

新京报 2023-05-19

参与“鲁蓬远渔028”倾覆搜救工作舰船增至13艘_环球微速讯

新华社 2023-05-19

世界微动态丨中信银行昆明分行被责令改正:部分员工无基金从业资格

中新经纬 2023-05-19

今日聚焦!2022年度金融领域企业标准“领跑者”榜单集中发布

中金在线 2023-05-19