谷歌发现大模型「领悟」现象！训练久了不再死记，多么痛的领悟

博主：小蓝
发布时间：2023 年 08 月 13 日
213 次浏览
暂无评论
3919字数
分类：生活杂谈

萧箫发自凹非寺

　　量子位公众号 QbitAI

　　哪怕只有几十个神经元，AI 也能出现泛化能力！

　　这是几个谷歌科学家在搞正经研究时，“不经意间”发现的新成果。

　　他们给一些很简单的 AI 模型“照了个X光”——将它们的训练过程可视化后，发现了有意思的现象：

　　随着训练时间增加，一些 AI 会从“死记硬背”的状态中脱离出来，进化出“领悟力”（grokking），对没见过的数据表现出概括能力。

　　这正是 AI 掌握泛化能力的关键。

　　基于此，几位科学家专门写了个博客，探讨了其中的原理，并表示他们会继续研究，试图弄清楚大模型突然出现强理解力的真正原因。

　　一起来看看。

　　并非所有 AI 都能学会“领悟”

　　科学家们先探讨了 AI 出现“领悟力”（grokking）的过程和契机，发现了两个现象：

一、虽然训练时 loss 会突然下降，但“领悟”并不是突然发生的，它是一个平滑的变化过程。
二、并非所有 AI 都能学会“领悟”。

　　先来看第一个结论。他们设计了一个单层 MLP，训练它完成“数奇数”任务。

　　“数奇数”任务，指识别一串长达 30 位“0”“1”序列中的前 3 位是否有奇数个“1”。

　　例如，在 000110010110001010111001001011 中，前 3 位没有奇数个1；

　　010110010110001010111001001011 中，前 3 位有奇数个1。

　　在训练前期阶段，模型中各神经元的权重（下图中的热图）是杂乱无章的，因为 AI 不知道完成这一任务只需要看前 3 个数字。

　　但经过一段时间的训练后，AI 突然“领悟了”，学会了只看序列中的前 3 个数字。具体到模型中，表现为只剩下几个权重会随着输入发生变化：

　　这个训练过程的目标被称之为最小化损失（提升模型输出准确率），采用的技术则被称之为权重衰减（防止模型过拟合）。

　　训练过程中，有一些权重与任务的“干扰数字”（30 位序列的后 27 位）相关，下图可视化为灰色；有一些则与完成任务的“前 3 位数字”有关，下图可视化为绿色。

　　当最后一个灰色权重降到接近0，模型就会出现“领悟力”，显然这个过程不是突然发生的。

　　再来看第二个结论。不是所有 AI 模型都能学会“领悟”。

　　科学家们训练了1125 个模型，其中模型之间的超参数不同，每组超参数训练 9 个模型。

　　最后归纳出 4 类模型，只有 2 类模型会出现“领悟力”。

　　如下图，“白色”和“灰色”代表学不会“领悟”的 AI 模型，“黄色”和“蓝色”代表能“领悟”的 AI 模型。

　　总结概括规律就是，一旦权重衰减、模型大小、数据量和超参数的设置不合适，AI 的“领悟力”就有可能消失——

　　以权重衰减为例。如果权重衰减太小，会导致模型过拟合；权重衰减太大，又会导致模型学不到任何东西。

　　嗯，调参是门技术活……

　　了解现象之后，还需要探明背后的原因。

　　接下来，科学家们又设计了两个小 AI 模型，用它来探索模型出现“领悟力”、最终掌握泛化能力出现的机制。

　　更大的模型学会泛化的机制

　　科学家们分别设计了一个 24 个神经元的单层 MLP 和一个 5 个神经元的单层 MLP，训练它们学会做模加法（modular addition）任务。

模加法，指(a + b) mod n。输入整数a和b，用它们的和减去模数n，直到获得一个比n小的整数，确保输出位于0\~(n-1) 之间。

　　显然，这个任务的输出是周期性的，答案一定位于0\~66 之间。

　　首先，给只有 5 个神经元的单层 MLP 一点“提示”，设置权重时就加入周期性（sin、cos 函数）。

　　在人为帮助下，模型在训练时拟合得很好，很快学会了模加法。

　　然后，试着“从头训练”具有 24 个神经元的单层 MLP，不特别设置任何权重。

　　可以看到，训练前期，这只 MLP 模型的权重（下面的热图）变化还是杂乱无章的：

　　然而到达某个训练阶段后，模型权重变化会变得非常规律，甚至随着输入改变，呈现出某种周期性变化：

　　如果将单个神经元的权重拎出来看，随着训练步数的增加，这种变化更加明显：

　　这也是 AI 从死记硬背转变为具有泛化能力的关键现象：神经元权重随着输入出现周期性变化，意味着模型自己找到并学会了某种数学结构（sin、cos 函数）。

　　这里面的频率（freq）不是固定的一个值，而是有好几个。

　　之所以会用到多个频率（freq），是因为 24 个神经元的单层 MLP 还自己学会了使用相长干涉（constructive interference），避免出现过拟合的情况。

　　不同的频率组合，都能达到让 AI“领悟”的效果：

　　用离散傅里叶变换（DFT）对频率进行隔离，可以发现和“数奇数”类似的现象，核心只有几个权重起作用：

　　总结来看，就像前面提到的“数奇数”任务一样，“模加法”实验表明，参数量更大的 AI 也能在这个任务中学会“领悟”，而这个过程同样用到了权重衰减。

　　从 5 个神经元到 24 个神经元，科学家们成功探索了更大的 AI 能学习“领悟”的机制。

　　接下来，他们还计划将这种思路套用到更大的模型中，以至于最后能归纳出大模型具备强理解力的原因。

　　不仅如此，这一成果还有助于自动发现神经网络学习算法，最终让 AI 自己设计 AI。

　　团队介绍

　　撰写博客的作者来自谷歌的 People + AI Research（PAIR）团队。

　　这是谷歌的一个多学科团队，致力于通过基础研究、构建工具、创建框架等方法，来研究 AI 的公平性、可靠性等。

　　一句话总结就是，让“AI 更好地造福于人”。

　　博客地址：

　　https://pair.withgoogle.com/explorables/grokking/

来自: 网易科技

蓝易云是一家专注于香港及国内数据中心服务的提供商，提供高质量的服务器租用和云计算服务、包括免备案香港服务器、香港CN2、美国服务器、海外高防服务器、国内高防服务器、香港VPS等。致力于为用户提供稳定,快速的网络连接和优质的客户体验。

最后修改：2023 年 08 月 13 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

谷歌发现大模型「领悟」现象！训练久了不再死记，多么痛的领悟

小蓝 • 2023 年 08 月 13 日

萧箫发自凹非寺　　量子位公众号 QbitAI　　哪怕只有几十个神经元，AI 也能出现泛化能力！　　这是几个谷歌科学家在搞正经研究时，“不经意间”发现的新成果。　　他们给一些很简单的 AI 模型“照了个X光”——将它们的训练过程可视化后，发现了有意思的现象：　　随着训练时间增加，一些 AI 会从“死记硬背”的状态中脱离出来，进化出“领悟力”（grokking），对没见过的数据表现出概括能力。<img src="https://www.8kiz.cn/usr/uploads/2023/08/2595962801.jpg" alt="" title="" style="">　　这正是 AI 掌握泛化能力的关键。　　基于此，几位科学家专门写了个博客，探讨了其中的原理，并表示他们会继续研究，试图弄清楚大模型突然出现强理解力的真正原因。<img src="https://www.8kiz.cn/usr/uploads/2023/08/1473496464.gif" alt="" title="" style="">　　一起来看看。　　并非所有 AI 都能学会“领悟”　　科学家们先探讨了 AI 出现“领悟力”（grokking）的过程和契机，发现了两个现象：<ul><li>一、虽然训练时 loss 会突然下降，但“领悟”并不是突然发生的，它是一个平滑的变化过程。</li><li>二、并非所有 AI 都能学会“领悟”。</li></ul>　　先来看第一个结论。他们设计了一个单层 MLP，训练它完成“数奇数”任务。　　“数奇数”任务，指识别一串长达 30 位“0”“1”序列中的前 3 位是否有奇数个“1”。　　例如，在 000110010110001010111001001011 中，前 3 位没有奇数个1；　　010110010110001010111001001011 中，前 3 位有奇数个1。　　在训练前期阶段，模型中各神经元的权重（下图中的热图）是杂乱无章的，因为 AI 不知道完成这一任务只需要看前 3 个数字。　　但经过一段时间的训练后，AI 突然“领悟了”，学会了只看序列中的前 3 个数字。具体到模型中，表现为只剩下几个权重会随着输入发生变化：　　这个训练过程的目标被称之为最小化损失（提升模型输出准确率），采用的技术则被称之为权重衰减（防止模型过拟合）。<img src="https://www.8kiz.cn/usr/uploads/2023/08/1291094899.jpg" alt="" title="" style="">　　训练过程中，有一些权重与任务的“干扰数字”（30 位序列的后 27 位）相关，下图可视化为灰色；有一些则与完成任务的“前 3 位数字”有关，下图可视化为绿色。　　当最后一个灰色权重降到接近0，模型就会出现“领悟力”，显然这个过程不是突然发生的。<img src="https://www.8kiz.cn/usr/uploads/2023/08/2794708025.jpg" alt="" title="" style="">　　再来看第二个结论。不是所有 AI 模型都能学会“领悟”。　　科学家们训练了1125 个模型，其中模型之间的超参数不同，每组超参数训练 9 个模型。　　最后归纳出 4 类模型，只有 2 类模型会出现“领悟力”。　　如下图，“白色”和“灰色”代表学不会“领悟”的 AI 模型，“黄色”和“蓝色”代表能“领悟”的 AI 模型。<img src="https://www.8kiz.cn/usr/uploads/2023/08/1211310637.jpg" alt="" title="" style="">　　总结概括规律就是，一旦权重衰减、模型大小、数据量和超参数的设置不合适，AI 的“领悟力”就有可能消失——　　以权重衰减为例。如果权重衰减太小，会导致模型过拟合；权重衰减太大，又会导致模型学不到任何东西。　　嗯，调参是门技术活……<img src="https://www.8kiz.cn/usr/uploads/2023/08/743734435.jpg" alt="" title="" style="">　　了解现象之后，还需要探明背后的原因。　　接下来，科学家们又设计了两个小 AI 模型，用它来探索模型出现“领悟力”、最终掌握泛化能力出现的机制。　　更大的模型学会泛化的机制　　科学家们分别设计了一个 24 个神经元的单层 MLP 和一个 5 个神经元的单层 MLP，训练它们学会做模加法（modular addition）任务。<blockquote>模加法，指(a + b) mod n。输入整数a和b，用它们的和减去模数n，直到获得一个比n小的整数，确保输出位于0\~(n-1) 之间。</blockquote>　　显然，这个任务的输出是周期性的，答案一定位于0\~66 之间。<img src="https://www.8kiz.cn/usr/uploads/2023/08/258027404.jpg" alt="" title="" style="">　　首先，给只有 5 个神经元的单层 MLP 一点“提示”，设置权重时就加入周期性（sin、cos 函数）。<img src="https://www.8kiz.cn/usr/uploads/2023/08/428767249.jpg" alt="" title="" style="">　　在人为帮助下，模型在训练时拟合得很好，很快学会了模加法。<img src="https://www.8kiz.cn/usr/uploads/2023/08/3356412764.jpg" alt="" title="" style="">　　然后，试着“从头训练”具有 24 个神经元的单层 MLP，不特别设置任何权重。　　可以看到，训练前期，这只 MLP 模型的权重（下面的热图）变化还是杂乱无章的：<img src="https://www.8kiz.cn/usr/uploads/2023/08/1473147014.gif" alt="" title="" style="">　　然而到达某个训练阶段后，模型权重变化会变得非常规律，甚至随着输入改变，呈现出某种周期性变化：<img src="https://www.8kiz.cn/usr/uploads/2023/08/1435697375.gif" alt="" title="" style="">　　如果将单个神经元的权重拎出来看，随着训练步数的增加，这种变化更加明显：<img src="https://www.8kiz.cn/usr/uploads/2023/08/1049953485.gif" alt="" title="" style="">　　这也是 AI 从死记硬背转变为具有泛化能力的关键现象：神经元权重随着输入出现周期性变化，意味着模型自己找到并学会了某种数学结构（sin、cos 函数）。<img src="https://www.8kiz.cn/usr/uploads/2023/08/2524530215.jpg" alt="" title="" style="">　　这里面的频率（freq）不是固定的一个值，而是有好几个。　　之所以会用到多个频率（freq），是因为 24 个神经元的单层 MLP 还自己学会了使用相长干涉（constructive interference），避免出现过拟合的情况。　　不同的频率组合，都能达到让 AI“领悟”的效果：<img src="https://www.8kiz.cn/usr/uploads/2023/08/4030862200.jpg" alt="" title="" style="">　　用离散傅里叶变换（DFT）对频率进行隔离，可以发现和“数奇数”类似的现象，核心只有几个权重起作用：<img src="https://www.8kiz.cn/usr/uploads/2023/08/1782940842.gif" alt="" title="" style="">　　总结来看，就像前面提到的“数奇数”任务一样，“模加法”实验表明，参数量更大的 AI 也能在这个任务中学会“领悟”，而这个过程同样用到了权重衰减。　　从 5 个神经元到 24 个神经元，科学家们成功探索了更大的 AI 能学习“领悟”的机制。　　接下来，他们还计划将这种思路套用到更大的模型中，以至于最后能归纳出大模型具备强理解力的原因。　　不仅如此，这一成果还有助于自动发现神经网络学习算法，最终让 AI 自己设计 AI。<img src="https://www.8kiz.cn/usr/uploads/2023/08/4014573231.jpg" alt="" title="" style="">　　团队介绍　　撰写博客的作者来自谷歌的 People + AI Research（PAIR）团队。<img src="https://www.8kiz.cn/usr/uploads/2023/08/30042455.jpg" alt="" title="" style="">　　这是谷歌的一个多学科团队，致力于通过基础研究、构建工具、创建框架等方法，来研究 AI 的公平性、可靠性等。<img src="https://www.8kiz.cn/usr/uploads/2023/08/996888279.jpg" alt="" title="" style="">　　一句话总结就是，让“AI 更好地造福于人”。　　博客地址：　　<a class="no-external-link" href="https://pair.withgoogle.com/explorables/grokking/" target="_blank">https://pair.withgoogle.com/explorables/grokking/</a>来自: <a class="no-external-link" href="https://www.163.com/dy/article/IBV3CI4R0511DSSR.html?spss=dy_author" target="_blank">网易科技</a>

谷歌发现大模型「领悟」现象！训练久了不再死记，多么痛的领悟

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

微信视频号视频下载工具WeChatVideoDownloader

【电脑软件】Google翻译修复工具

Windows微软常用运行库合集一键安装

Win11系统优化工具-Windows11一键设置

一键防撤回、支持多开微信（QQ、TIM、QQ轻聊版、微信）快捷小工具

Linux中一些Sed命令技巧介绍

免备案服务器

Java获取请求者真实IP地址方法介绍。

Java函数设计: 可变参数传递使用指南

Linux系统清理缓存（buff/cache）的有效方法。

谷歌发现大模型「领悟」现象！训练久了不再死记，多么痛的领悟

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

谷歌发现大模型「领悟」现象！训练久了不再死记，多么痛的领悟

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款