OpenAI假设被推翻!给定计算量,较小模型打败大模型,Llama 2训练与GPU计算关联度

2023-08-02 12:44:48 来源: 新智元

模型推断时,避免将算力浪费在缓慢收敛上至关重要。

孙子兵法的一句话「多算胜,少算不胜」,便阐尽了这个道理。

Chinchilla究竟是什么?

较小的模型,乘法少,因此它们跑得更快,训练得也快。


(资料图)

然而,通常人们认为,小模型最终会达到知识能力的极限,学习速度会变慢。

而一个具有更大规模的模型,将超过小模型,并在给定的训练时间内取得更好的性能。

在评估模型如何在训练期间获得最佳性能时,OpenAI和DeepMind都试图绘制帕累托边界(Pareto frontier),但他们没有明确说明是使用该理论绘制的。

不过,OpenAI最近的一句话暗示着这一假设:

我们期望较大的模型总是比较小的模型表现更好。[…] 大小固定的模型将受到GPU容量限制。

这一假设是OpenAI计算帕累托边界的基础。

在此,我们先介绍下DeepMind成员在2022年的工作Chinchilla模型,其技术原理和其他同类模型一样(比如GPT-3) ,区别在于训练参数和数据量。

DeepMind宣称,「对于计算优化训练,模型大小和训练数据集大小应该相等地缩放: 模型大小每增加一倍,训练数据集大小也应该加倍。」

图片

Chinchilla AI通过使用与Gopher相同的计算预算,但具有70B个参数和4倍多的数据,来训练一个计算更优化的模型Chinchilla ,从而来检验这一假设。

验证结果表明Chinchilla 在大量下游评估任务中明显优于 Gopher、GPT-3、Jurassic-1 和 Megatron-Turing NLG。

Chinchilla 在MMLU 基准测试中的平均准确率达到 67.5%,比 Gopher 提高了 7% 以上。

图片

在Chinchilla的工作中,如图显示了不同大小模型大量训练运行的训练损失。

乍一看,这些曲线遵循理论:较小的模型最初损失较低,但最终速度变慢,并被较大模型的曲线超越。

图片

在图表中,较小的模型性能低于较大的模型时,都标记成灰点。灰色线,即帕累托边界,是计算比例定律的方式。

这个假设的问题在于,我们不知道如果让较小的模型训练更长时间会发生什么,因为一旦它被超越,他们就停止训练。

让我们来看LLaMA。

Chinchilla能复刻Llama曲线吗?

今年早些时候,Meta训练了4个不同大小的模型。与其他模型不同,研究人员对每一个模型都进行了大量的训练,即使是规模较小的模型。

他们还发布了训练运行曲线:

图片

1. 每条曲线首先在幂定律中直线下降

2. 然后似乎进入了一个近乎线性的损失递减过程(与相当恒定的知识获取率相对应)

3. 在曲线的最末端,它们都变得稍微平缓

首先,我们想谈谈人们对「曲线末端变平坦」的一个微妙误解。

它们都是通过使用可变学习率的梯度下降法进行训练的(学习率大致是一个超参数,用于确定向梯度方向移动的幅度)。

为了获得良好的训练效果,它们必须不断降低学习率,这样才能在源素材中检测到更微小的模式。

而它们使用的降速公式是最广泛使用的:余弦时间表(the cosine schedule)。

图片

正如从图表中看到的,在训练快结束时,余弦时间表停止以产生良好的、近线性的训练损失曲线的速度降低学习率。

学习速度的减慢就是这样导致的结果。模型还是可能有能力以同样接近线性的速度来学习。

事实上,如果我们给它更多的文本,就会拉长余弦时间表,这样它的学习率就会以同样的速度继续下降。

模型的适应情况并不依赖于,我们可以为其训练提供的数据量。因此,学习率下降的变化是不合理的。

不过,这不是本文的重点。

训练损失曲线可能会以另一种方式误导我们。

当然,它们都是在相同的数据上训练的,但它们不会以相同的速度处理这些数据。

我们想知道的不是模型的样本效率又如何(在这方面,较大的模型显然从它所看到的数据中学到更多东西)。

让我们想象一场比赛:所有这些模型都在同一时间开始,我们想知道哪一个先越过终点线。

换句话说,当在训练中投入固定计算量时,谁在这段时间里学得最多?

值得庆幸的是,我们可以将损失曲线与Meta提供的另一项数据结合起来:每个模型训练所花费的时间。

图片

图片

首先要说明的是,我们看到的整个Chinchilla图形只覆盖了这个图形左边的一小块。

在这一小片区域中,我们看到了与Chinchilla记录相同的行为。

以7B为例:一开始,它的损耗下降速度比更大的模型快得多,然后速度减慢,13B模型超过了它,首先达到了1.9。

但是,接下来是一个遥远的、意想不到的转折:

7B进入一个近乎线性的状态,呈陡峭的下降趋势,似乎正在再次超越13B?很难从这张图上看出如果7B训练得更久会发生什么。

然而,13B和33B之间似乎也有同样的行为,最初的Chinchilla减速也近乎线性的状态,此时13B下降得很快。

就33B来说,它的计算时间是13B两倍,因此超越13B理所当然。

33B和65B之间也出现了同样的先减速后加速的情况,以至于33B实际上从未被65B超越。

图表显示的情况打破了OpenAI和Chinchilla的假设:更大的模型还没有赢(尚未)。他们检测到的速度减慢实际上并不是因为达到了某个容量极限!

不过,7B曲线还是有点不尽人意。如果Meta对其进行更长时间的训练就好了... 而现在,他们做到了!Meta本周发布了 LLaMA 2!

证实「质疑」

图片

同样,Llama 2也公布了模型的训练时间:

图片

图片

一眼望去,我们就会发现训练曲线与LLaMA 1并不一致,即使模型完全相同。

原来,LLaMA 2是在双倍的上下文大小和更长的余弦时间上进行训练的,不幸的是,这对所有大小的模型都产生了负面影响。

不过,较小模型受到的影响比较大模型更严重。

因此,在 LLaMA 1中,34B模型在任何训练时间内都始终优于65B模型,而现在则略高于70B模型,之后又超过了70B模型:

图片

更重要的是,对训练速度的比较有力地证实了我们对LLaMA 1的猜测:

1. 首先,它们比更大的模型更快,

2. 然后,它们放慢速度,被较大的模型超越(根据Chinchilla的说法)

3. 但随后,它们又进入了近似线性的状态,在这种状态下,较小的模型会以更陡峭的速度下降,从而获得更优越的知识,并再次超越较大的模型!

一个有趣的结果与开始训练时做出正确的选择有关:与人们普遍认为的相反,更大的模型会产生更差的结果。

如果必须选择参数大小和数据集,最好选择一个7B模型,并在数万亿个token上训练7个epoch。

看看7B的近线性机制,再推断一下70B模型的停止时间:如果把70B的计算用在7B模型上,那么它可能会达到更低的困惑度(perplexity)!

我们从LLaMA 2中注意到的另一件事是,LLaMA 1曲线末端的学习速度减慢确实是余弦时间表的一个假象。

在LLaMA 2的训练中,读取1万亿token的相应时间点上完全没有出现这种放缓现象。

事实上,在同样token下,LLaMA 2 7B模型比LLaMA 17B模型质量差,原因可能是它的余弦时间表被拉长了!

让我们回到Chinchilla的论文来论证这一点。在附录A图A1 中,他们展示了针对各种余弦时间表参数的消融研究(拉伸学习率曲线的各种方法)。

图片

他们指出,当曲线不被拉长时,损失最低。图表证明了这一点,但作者也注意到了一些不对劲的地方。

在读取了600万个token后,顶部模型的训练损失低于2.8。与此同时,在同一标记处,底部模型的训练损失高于2.8。

然而,模型之间唯一的区别就是余弦时间表!

由于底层模型需要训练更多的数据,因此「未拉伸」余弦值被计算为更多的步骤,这有效地拉伸了它。

如果学习率遵循分配给更少训练步骤的时间表,那么在相同的训练时间内会有更好的损失。

更广义地说,这就提出了一个问题:如果余弦时间表不是最优的,那么曲线的尾部形状应该是怎样的呢?

参考资料:https://espadrine.github.io/blog/posts/chinchilla-s-death.html#Can_Chinchillas_picture_a_Llama_s_sights

标签:

OpenAI假设被推翻!给定计算量,较小模型打败大模型,Llama 2训练与GPU计算关联度

模型推断时,避免将算力浪费在缓慢收敛上至关重要。孙子兵法的一句话「

08-02 12:44:48

郑州人才公寓需要自己安装宽带吗?

郑州人才公寓需要自己安装宽带吗?是的,需要自己安装。那能安装什么宽

08-02 12:39:12

4000元古驰T恤洗一次褪色

据媒体报道,一位杭州消费者购买的古驰T恤在清洗后出现褪色,引发了公

08-02 12:08:24

新任股东收购股权,看好这家银行未来经营发展

新任股东收购股权,看好这家银行未来经营发展,股权,建国,经营,新网

08-02 11:39:13

西部牧业:监事汤澄辞职

8月1日晚间,西部牧业发布公告称,新疆西部牧业股份有限公司监事会于20

08-02 11:18:25

特朗普的竞选资金打官司都不够,还要给妻子梅拉尼娅的造型师付“咨询费”

8月1日,特朗普再度因涉嫌试图推翻2020年总统选举结果而被刑事指控,让

08-02 11:25:05

特朗普再遭起诉 特别检察官强调将追究其刑事责任

当地时间8月1日,负责对美国前总统进行刑事调查的特别检察官杰克·史密

08-02 10:49:10

吉林省基本养老服务体系建设推进会与会人员到长春净月高新区参观交流

7月31日,吉林省民政厅副厅长张驰、长春市政府副秘书长孟宪新带领全省

08-02 10:42:39

OG播客都在用什么设备录节目?

明确自己的节目形态选择一种设备即可

08-02 10:31:18

冰箱冷藏室底层有水是怎么回事 冰箱冷藏室底层有水是怎么回事视频

1、冰箱的门封老化,导致外面的热气窜入冰箱里遇冷变水珠,可用电吹风

08-02 10:21:56

炸锅鸡翅的做法?

步骤 方式1原料:鸡翅中5个、盐5克、生抽两勺、黑椒酱10ml、料酒一勺、

08-02 10:32:12

新倩女幽魂手游官网下载(倩女幽魂手游电脑版)

导读1、家想要用电脑玩倩女幽魂手游,就需要在电脑上安装安卓模拟器Blu

08-02 10:17:04

A股开盘|三大指数集体低开

A股开盘|三大指数集体低开

08-02 09:48:28

导弹在战机200米处解体,空军试飞员选择……

他是  “和平时期距离死亡最近的人”  他是  备份25年终于圆梦的

08-02 09:08:06

海上“巨无霸”频频来“带货” 盐田国际45天内迎来8艘全球最大集装船首航

“东方土耳其”轮首航盐田。深圳新闻网2023年8月2日讯(深圳商报记者陈

08-02 09:23:32

《数码宝贝:最后的进化》虽很感人,但因为这四点让它被评不及格

相信大家最近都被《数码宝贝》最后一部剧场版给刷屏了,《数码宝贝》

08-02 08:58:12

强降雨致200余名学生被困 河南消防搭绳桥协助补充物资

每经AI快讯,受强降雨影响,7月30日上午,河南安阳林州一家风景写生基

08-02 08:29:04

分析师:苹果 2023 年第三季度营收将创 2016 年以来最大跌幅

分析师:苹果2023年第三季度营收将创2016年以来最大跌幅,财年,分析师,

08-02 08:07:04

金管局调查:香港中小企信贷状况大致稳定

就受访的2500间中小企对银行贷款批核取态的观感,78%认为银行在今年第

08-02 08:03:57

强对流天气蓝色预警:河北等地部分地区将有8-10级雷暴大风或冰雹

中央气象台8月2日06时发布强对流天气蓝色预警:预计8月2日08时至3日08

08-02 07:16:37

科拓生物:上半年净利润同比下降10%

每经AI快讯,8月1日,科拓生物披露半年报,2023年上半年公司实现营业收

08-02 06:44:35

2023年宝安区民办学校二次分流指引(报名条件+时间+地点)

2023年宝安区民办二次分流宝安区招生系统里共填报三批志愿(第一批民办

08-02 06:02:57

“猎毒”尖兵——勇者无惧守护平安的践行者

勇者无惧守护平安的践行者记天津市公安局南开分局打击犯罪侦查支队王栋

08-02 05:57:11

长三角一体化示范区从“搭框架”向“塑功能”跃升

新华社上海8月1日电题:长三角一体化示范区从“搭框架”向“塑功能”跃

08-02 05:54:31

和蔚小理越拉越大!赛力斯7月销量4240台:今年累计仅3万

快科技8月1日消息,赛力斯集团发布了7月产销快报,在刚刚过去的这个月

08-02 05:40:44

周涛朱迅鲁豫时装秀中自带气场!完全不输一线女星

近日,北京的场时装秀吸引了众多明星前来,著名主持人刘涛、朱迅也前来

08-02 04:55:01

奥哈瓦里官方宣布,门将诺尔丁·杰克尔斯租借加盟布...

奥哈瓦里官方宣布,门将诺尔丁·杰克尔斯租借加盟布鲁日,租借期为一个

08-02 04:34:14

薄萼海桐(关于薄萼海桐简述)

,你们好,今天0471房产来聊聊一篇萼海桐,萼海桐简述的文章,网友们对

08-02 04:05:01

康斯特股东户数增加6.29%,户均持股20.19万元

康斯特最新股东户数1 05万户,低于行业平均水平。公司户均持有流通股份

08-02 03:14:35

事关就业创业!这笔补贴或与你有关→就业见习补贴

近日,本市最新发布了《关于优化调整稳就业政策全力促发展惠民生的若干

08-02 02:59:41

BLG败给LNG后,牙膏采访认错:我打得太差!Tabe承认:BP没做好

BLG败给LNG后,牙膏采访认错:我打得太差!Tabe承认:BP没做好,剑姬,bp

08-02 02:24:16

比亚迪又挥“屠刀”!海豹DM-i实车图曝光,配1.5升/1.5T混动系

日前,汽车有文化获悉,比亚迪海豹(参数|询价)DM-i实车正式亮相。此前

08-02 02:14:03

宝洁通过涨价创下近十年营收新高

拥有SK-II、Olay等品牌在内的美容板块净销售额同比增长2%至150亿美元,

08-02 02:04:04

【世界说】枪支暴力缘何成为美国社会的“家常便饭”?外媒:其背后政商利益集团正引导美国走向未知命运

8月1日电综合外媒报道,几十年来,政治、金钱和意识形态改变了美国枪支

08-02 01:40:43

新华全媒+| 这张图,让你看懂“中国高铁”如何崛起!

8月1日,我国第一条设计时速350公里的高铁——京津城际迎来运营满15周

08-02 01:11:47

内蒙古自治区呼和浩特市2023-08-02 00:01发布雷电黄色预警

一、内蒙古自治区呼和浩特市天气预报1、武川县气象台2023年08月02日00

08-02 01:02:46

互动| ?北京君正:公司存储产品可广泛应用于各类智能化等级的汽车中

北京君正在互动平台表示,目前车载ISP尚未产生销售。公司8GLPDDR4已量

08-02 00:56:22

成都大运会:男子50米蝶泳半决赛,陈俊儿第4晋级决赛

8月1日,据咪咕体育:男子50米蝶泳半决赛,陈俊儿游出23秒48,总成绩第

08-02 00:57:41

农大博士团“三下乡”:教农技、善经营、会管理

盛夏七月的风穿梭在林间,摇曳着盈盈枝头的青绿柑橘。可乍一看,累累青

08-02 00:19:30

两部门紧急预拨1.1亿元支持京津冀地区防汛救灾

7月31日,财政部拨付8 42亿元农业防灾减灾和水利救灾资金,支持河北等1

08-02 00:12:10

药石科技(300725.SZ)终止投建创新药物工艺开发及中试平台项目相关事项

智通财经讯,药石科技(300725 SZ)公告,公司此前拟投资12亿元在南京江

08-01 23:38:18

2023年度票房突破350亿,影片top10如下

据最新数据显示,截至2023年7月31日18时28分,2023年度大盘票房(含预

08-01 23:10:16

不到2200元!Redmi K50至尊版512G出现神级价格:iPhone用户上车

不到2200元!RedmiK50至尊版512G出现神级价格:iPhone用户上车

08-01 22:48:47

敬礼!

一声敬礼一生敬礼定远县各类“军”声立足岗位显担当新四军老战士严明友

08-01 22:54:44

巴基斯坦想进口更多俄石油!沙特“豪掷”100亿建炼油厂

由于深陷经济危机,巴基斯坦在上个月也开始进口俄罗斯的折扣石油,根据

08-01 22:31:48

海河流域16条河流发生超警以上洪水,4条发生超保证洪水

中国水利受台风“杜苏芮”减弱低压环流和冷空气共同影响,7月28日以来

08-01 22:11:14

首家博士团智力援疆项目正式落地拜城产业园区

近年来,拜城县大力实施创新驱动发展和人才强县战略,通过强化项目引领

08-01 22:07:46

四维图新第一大股东拟变更为屹唐新程

  上证报中国证券网讯(记者骆民)四维图新公告,公司第一大股东中国

08-01 22:04:56

济源上半年经济“成绩单”出炉,增速全省第2

济源上半年经济“成绩单”出炉,增速全省第2,济源市,gdp增速,工业增加值

08-01 21:42:56

成都大运会丨中国队斩获跆拳道项目两块金牌

成都大运会丨中国队斩获跆拳道项目两块金牌---跆拳道项目2日还将产生四

08-01 21:22:59

郑州人才公寓需要自己安装宽带吗?
4000元古驰T恤洗一次褪色
新任股东收购股权,看好这家银行未来经营发展
西部牧业:监事汤澄辞职
特朗普的竞选资金打官司都不够,还要给妻子梅拉尼娅的造型师付“咨询费”
特朗普再遭起诉 特别检察官强调将追究其刑事责任
吉林省基本养老服务体系建设推进会与会人员到长春净月高新区参观交流
OG播客都在用什么设备录节目?
冰箱冷藏室底层有水是怎么回事 冰箱冷藏室底层有水是怎么回事视频
炸锅鸡翅的做法?
新倩女幽魂手游官网下载(倩女幽魂手游电脑版)
A股开盘|三大指数集体低开
导弹在战机200米处解体,空军试飞员选择……
海上“巨无霸”频频来“带货” 盐田国际45天内迎来8艘全球最大集装船首航
《数码宝贝:最后的进化》虽很感人,但因为这四点让它被评不及格
强降雨致200余名学生被困 河南消防搭绳桥协助补充物资
分析师:苹果 2023 年第三季度营收将创 2016 年以来最大跌幅
金管局调查:香港中小企信贷状况大致稳定
强对流天气蓝色预警:河北等地部分地区将有8-10级雷暴大风或冰雹
科拓生物:上半年净利润同比下降10%
2023年宝安区民办学校二次分流指引(报名条件+时间+地点)
“猎毒”尖兵——勇者无惧守护平安的践行者
长三角一体化示范区从“搭框架”向“塑功能”跃升
和蔚小理越拉越大!赛力斯7月销量4240台:今年累计仅3万
周涛朱迅鲁豫时装秀中自带气场!完全不输一线女星
奥哈瓦里官方宣布,门将诺尔丁·杰克尔斯租借加盟布...
薄萼海桐(关于薄萼海桐简述)
康斯特股东户数增加6.29%,户均持股20.19万元
事关就业创业!这笔补贴或与你有关→就业见习补贴
BLG败给LNG后,牙膏采访认错:我打得太差!Tabe承认:BP没做好
比亚迪又挥“屠刀”!海豹DM-i实车图曝光,配1.5升/1.5T混动系
宝洁通过涨价创下近十年营收新高
【世界说】枪支暴力缘何成为美国社会的“家常便饭”?外媒:其背后政商利益集团正引导美国走向未知命运
新华全媒+| 这张图,让你看懂“中国高铁”如何崛起!
内蒙古自治区呼和浩特市2023-08-02 00:01发布雷电黄色预警
互动| ?北京君正:公司存储产品可广泛应用于各类智能化等级的汽车中
成都大运会:男子50米蝶泳半决赛,陈俊儿第4晋级决赛
农大博士团“三下乡”:教农技、善经营、会管理
两部门紧急预拨1.1亿元支持京津冀地区防汛救灾
药石科技(300725.SZ)终止投建创新药物工艺开发及中试平台项目相关事项
2023年度票房突破350亿,影片top10如下
不到2200元!Redmi K50至尊版512G出现神级价格:iPhone用户上车
敬礼!
巴基斯坦想进口更多俄石油!沙特“豪掷”100亿建炼油厂
海河流域16条河流发生超警以上洪水,4条发生超保证洪水
首家博士团智力援疆项目正式落地拜城产业园区
四维图新第一大股东拟变更为屹唐新程
济源上半年经济“成绩单”出炉,增速全省第2
成都大运会丨中国队斩获跆拳道项目两块金牌
依米康与达州市、阿里云达成三方合作,共建万达开先进计算中心
X 广告
行业动态
X 广告

Copyright ©  2015-2022 亚洲植物网版权所有  备案号:京ICP备2021034106号-51   联系邮箱:5 516 538 @qq.com