首个科学计算基座大模型 BBT-Neutron 开源,突破大科学装置数据分析瓶颈
来源:金海游戏园 时间:2025-01-08 13:17:58
大语言模型能否解决传统大语言模型在大规模数值数据分析中的局限性问题,助力科学界大科学装置设计、高能物理领域科学计算?
高能物理是探索宇宙基本组成与规律的前沿科学领域,研究粒子在极高能量下的相互作用,是揭示宇宙起源、暗物质与暗能量等未解之谜的重要手段。
高能物理实验(如粒子对撞实验、暗物质与暗能量实验等)产生的数据量极为庞大且复杂,传统的数据分析方法在处理海量数据和复杂物理结构时,面临计算瓶颈。
近期,arXiv 上更新了一篇名为《Scaling Particle Collision Data Analysis 》的论文。其中,研究人员从粒子对撞实验出发,探索了大语言模型在大科学装置数据分析与科学计算领域的全新应用场景 ——
具体来说,团队将其最新研发的科学基座大模型 BBT-Neutron 应用于粒子对撞实验,模型采用了全新的二进制分词方法(Binary Tokenization),可实现对多模态数据(包括大规模数值实验数据、文本和图像数据)的混合预训练。
论文中对比了 BBT-Neutron 的通用架构模型与最先进的专业 JoI 模型(如 ParticleNet 和 Particle Transformer)在粒子物理领域的 Jet Origin Identification(JoI)分类任务上的实验结果。
粒子分类的识别准确率(图 1-3)表明,研究表明该通用架构的性能与专业模型持平,这也验证了基于 sequence-to-sequence 建模的 decoder-only 架构在学习物理规律方面的能力。
这些模型在数据集大小扩展时都显示出性能提升,Jet Flavor Tagging Efficiency, Charge Flip Rate 形成了 S 曲线。
然而,BBT-Neutron 和专业模型之间观察到不同的扩展行为,S 曲线上的关键数据阈值表明 BBT-Neutron 中出现了涌现现象(在专业架构中未出现),不仅打破了传统观念认为该架构不适用于连续性物理特征建模的局限,更验证了通用模型在大规模科学计算任务中的可扩展性。
二进制分词:统一多模态数据处理,突破数值数据分析瓶颈
近年来大语言模型在文本处理、常识问答等任务上取得了显著进展,但在处理大规模数值数据方面依然面临挑战。
传统的 BPE 分词方法在分词数字时可能会引入歧义和不一致,特别是在高能物理、天文观测等领域,分析复杂的实验数据成为瓶颈。
为了让大模型更加适配科学计算场景,该研究通过引入一种创新的二进制分词方法(Binary Tokenization),即利用计算机存储中使用的二进制表示数据,实现了数值数据与文本、图像等多模态数据的统一表示。
从而使其能够在无需额外预处理的情况下,通过二进制分词,实现对所有数据类型的统一处理,简化预处理流程,确保输入数据的一致性。
研发团队在论文中详细展示了如何克服传统 BPE 方法的局限性及其数据处理过程。
BPE 方法的局限性
歧义和不一致性
BPE 是一种基于频率的 token 化方法,它会根据上下文将数字分割成不同的子单元,这可能导致同一数字在不同上下文中有不同的分割方式。
例如,数字 12345 在一个上下文中可能被分割成「12」、「34」和「5」,在另一个上下文中可能被分割成「1」、「23」和「45」。这种分割方式丢失了原始数值的固有意义,因为数字的完整性和数值关系被破坏了。
token ID 的不连续性
BPE 会导致数值的 token ID 不连续。例如,数字「7」和「8」的 token ID 可能被分配为 4779 和 5014。
这种不连续性使得管理和处理数值数据变得更加复杂,特别是在需要顺序或模式化的 token ID 时,这种不连续性会影响模型处理和分析数值数据的能力。
单数字 token 化的问题
尽管单数字 token 化方法简单直接,但它也会导致多位数数字的 token ID 不连续。例如,数字 15 可能会被分解为独立的 token「1」和「5」,每个 token 都被映射到独立的 token ID。
这种分割可能会破坏数值信息的连续性,使得模型更难捕捉多位数数字内在的结构和关系。
数值处理方式
对于文本数据,使用 UTF-8 编码将字符转换为字节序列。
对于数值数据,提供了双重策略:一种是当保留数字的确切格式和任何可能重要的前导零时,数字被视为字符串,然后使用 UTF-8 编码;另一种是在进行算术运算或处理重要数值时,数字被转换成其数值形式(例如,整数),然后转换成字节数组。这种方法保证了模型能够统一且高效地处理各种数据类型。
对于科学公式或符号:复杂的表达式被解析并序列化成字节序列,捕捉公式的结构和内容。例如,公式 E = mc^2 被编码为字节数组 [69, 61, 109, 99, 94, 50],代表了公式的结构和变量。
对于图像数据,使用 patch 方法将图像分解为小块,提高对高密度像素数据的处理效率。
BBT-Neutron 模型架构:高效捕获数值关系与多功能任务适配
BBT-Neutron 模型架构主要由三个关键部分组成:Patch Embedding、Patch Self-Attention 和 LM Head,能够将输入序列通过字节分词转换为高维向量,使其具备了包括执行分类、回归任务在内的多种能力。
这些任务在许多科学应用中非常常见,目标不一定是生成新序列,也可以是对输入分类或预测连续值。
Patch Embedding
包含两个线性层,第一层将输入 patch 投影到高维空间,第二层细化这一表示,产生最终的嵌入向量。
两层之间引入 ReLU 激活函数,使模型能够非线性地表达输入字节 patch,捕捉 patch 内部 byte 之间更复杂的结构。与通常只使用单一层线性嵌入的字节级模型相比,能够提供更大的灵活性,更好地表示输入 patch 的细节和非线性关系。
Patch Self-Attention
在 patch 自注意力机制中,注意力操作在 patch 层面执行,每个 patch 嵌入包含其所有点的信息,通过矩阵乘法促进不同 patch 之间的信息交换,同时促进单个 patch 内部字节之间的交互,使模型能够有效捕捉局部和全局依赖。
LM Head
输出维度定义为 Patch Size × 257,其中 257 代表从 0 到 255 的字节值总数,加上由 256 表示的填充 ID,Patch Size 是文本序列被划分的 patch 数量。这种设计允许模型独立地为每个 patch 生成预测,保持基于 patch 方法的效率和有效性。
应用于粒子物理对撞数据分析:通用架构性能达到专业领域的 SOTA
开发团队在论文中分享了 BBT-Neutron 通用架构的首次落地实验结果,辅助粒子物理学中的关键任务 —— 喷注来源识别(Jet Origin Identification, JoI),并已取得了突破性成果。
喷注来源识别是高能物理实验中的核心挑战之一,旨在区分来自不同夸克或胶子的喷注。
在高能碰撞中产生的夸克或胶子会立即产生一束粒子 —— 主要是强子 —— 朝同一方向运动。这束粒子通常被称为喷注,是碰撞实验中物理测量的关键对象。
识别喷注的起源对于许多物理分析至关重要,尤其是在研究希格斯玻色子、W 和 Z 玻色子时,这些玻色子几乎 70% 会直接衰变为两个喷注。
此外,喷注是我们理解量子色动力学(QCD,描述原子核、质子、中子、夸克的相互作用机制)的基础。
来自不同类型色荷粒子的喷注在它们的可观测量上只有微小的差异,这使得准确识别喷注的起源极具挑战性。
实验结果显示,该研究与最先进的专业模型(如 Particle Transformer 和 ParticleNet,将专业物理定律融入 GNN 架构设计)的最佳性能持平,达到行业的 SOTA(图 1-3)。
这个结果验证了以 sequence to sequence 建模方式为基础的 decoder only 通用架构,在学习物质世界和物理规律上具备与专业模型同等的学习能力。
而传统的观念认为,seq2seq 建模不适用于时间、空间、能量等具有连续性特征的物理实在建模,只适合于人类语言这样的离散符号的建模。
而且从左到右具有位置特性的学习方式,不适用于具有时空对称性的物理结构,要让模型学习专业物理定律,需要在专业模型架构中融入该领域相关结构。
该论文研究的成果证明了这种观念的局限性,为表征时间、空间、能量等基础的物理量提供了一种有效方案,同时也为物理化学等专业科学领域构建一个统一模型提供了基础。
Scaling 分析:发现涌现行为
文中通过与 ParticleNet 和 Particle Transformer 在 JoI 任务上的扩展行为的方式进行对比,在数据规模增加下的 Scaling 行为进行了深入分析。
这些训练数据集从 100 到 1000 万事件不等,实验结果通过混淆矩阵(confusion matrix)、喷注风味标记效率(jet flavor tagging efficiency)和电荷翻转率(charge flip rate)这三个关键指标来衡量模型的表现。
混淆矩阵(Confusion Matrix)即使用了一个 11 维的混淆矩阵 M11 来分类每个喷注,根据最高预测分数归类到相应的类别, 块对角化成 2×2 的块,每个块对应特定的夸克种类。混淆矩阵提供了模型分类性能的全面概览,突出显示了在各种喷注类别中正确和错误预测的情况。
喷注味标记效率(Jet Flavor Tagging Efficiency)定义为每个块内值的总和的一半,不区分由夸克和反夸克产生的喷注。
电荷翻转率(Charge Flip Rate)定义为块中非对角线元素与块总和的比率,代表误识别夸克和反夸克产生的喷注的概率。
开发团队指出,该模型和专业模型之间出现了不同的扩展行为。BBT-Neutron 的 S 曲线上的关键数据阈值,特别是 Charge Flip Rate 的数据发生到了性能突变,表现出显著的涌现现象(Model Emergence),然而该现象在 ParticleNet 或 Particle Transformer 中并没有被观察到。
可能的原因是这些专业模型纳入了特定领域的结构特征,它们采用专门设计的架构来表示粒子相互作用和分类,这可能导致随着数据规模的增加,性能提升更快达到饱和。
与此相反,研究中的通用架构模型,使用统一的数据表示来处理所有物理结构。专业模型架构通过消除位置编码或相关操作来实现粒子的置换不变性(permutative invariance),BBT-Neutron 不依赖置换不变性,而是采用从左到右的序列输入,这与语言模型的 seq2seq 范式一致。
虽然这种方法需要更大的数据集来推断,但一旦超过临界数据集阈值,它就能实现显著的性能飞跃,这表明了该模型即使没有像专业模型那样明确在架构设计中纳入置换不变性,也能够通过足量数据的学习学到空间对称性。
通俗而言,当数据规模逐步增加时,该模型在性能上出现了显著跃迁。这一发现验证了通用模型在大规模科学计算任务中的可扩展性,即该模型有望成为跨领域的科学计算基座模型。
该论文研究标志着大模型在多模态数据处理与科学计算任务中的巨大潜力。随着人工智能技术与大科学装置的深度融合,在未来或许能够加速中国大对撞机 CEPC 等前沿科研项目的实施落地。
该项目参与者、CEPC 团队成员阮曼奇曾评论道,「人工智能技术将助力大科学设施的设计研发,能大幅提高其科学发现能力,更好地帮助我们探索世界的奥秘、拓宽人类的知识边界。
反过来,通过总结对比在具体科学问题上观测到的 AI 性能差异,也能加深我们对 AI 技术本身的理解,更好推动 AI 技术的发展。」
BBT 模型发展历程
https://arxiv.org/abs/2412.00129
2022 年:发布 BBT-1,10 亿参数的金融预训练语言模型;
2023 年:发布 BBT-2,120 亿参数的通用大语言模型;
2024 年:发布 BBT-Neutron,1.4 亿参数的科学基座大语言模型,实现文本、数值和图像数据的多模态统一预训练
参考资料:
精品推荐
更多+
-
芸豆借款app官方下载链接芸豆借款官方版是官网的最新版本,在芸豆借款app官方版本中,拥有着不同数额的贷款产品,而且还贷利息低,能够满足于大家借钱的需求,随时在线申请借贷,分期还款,减轻压力,整体平台非常稳定,快来下载吧!芸豆
下载宝盒 01-09
-
会玩透视插件免费版下载会玩透视插件免费版是一款可用于狼人杀的辅助app。在会玩透视插件免费版中,可以轻松得知对局中每个人的身份,只要辨明了这些身份,用户在游戏中就可以做到无往不利,轻松赢下比赛,有兴趣的朋友快来本站下载体验
下载宝盒 01-08
-
云燕云十六声云燕云十六声是网易最新推出的武侠3A大作,以其生动立体的江湖场景和全新定义的武侠动作备受瞩目。玩家将扮演身处五代十国混乱时期的一名剑客,仗剑天涯,身怀十八般武艺。游戏中,种种武林绝学如狮吼功、葵花点穴
下载宝盒 01-08
最新录入
更多+
-
Lemur狐猴浏览器是一款支持Chrome扩展插件和微软Edge扩展插件的浏览器。在Lemur狐猴浏览器中,全新Chromium高速内核引擎,极速体验搭配多种多样的扩展插件组合让你的浏览器个性十足,无
-
全能计算器绿色版是一款大家都在用的常用工具类软件,这款软件中有很多非常强大的功能,用户通过这款软件可以计算出很多很复杂的数学题目,还能帮助用户进行单位的换算,可以有效的帮助用户解决各种计算难题,为用户
-
蛋播星球无广告 4蛋播星球无广告是一款很优质的影视剧观看服务软件,电影、电视剧、动漫、综艺想看什么都能满足,而且这里的影视剧第一时间更新全网最快,支持电视直播,电影解说等等,喜欢看剧追剧的各位千万不要错过。常见问题怎么
-
一份礼物生成器生成恶趣味搞怪的一款生成器,用户可以在里面找到快乐,该软件下载安装之后可以让自己的手机一直发出声音,安装过后就再也停不下来了,非常不错呦。本站早已为您整理出不同版本的资源,喜欢的朋友们抓
-
wallpaper官方版每天都有超多壁纸可以体验哦,人工甄选的超好看壁纸任你来体验哦,静态、动态壁纸为你的手机争光添彩,导入导出照片更方便,还可以预览手机里的所有照片,便捷管理,其最大的好处是,只要有
热门推荐
更多+
-
解读特殊语境下的“先吃‘姨妈’后吃‘妈妈’”表达在特定的语境或情境中,“先吃‘姨妈’后吃‘妈妈’”这样的表达方式并不直接指代字面上的亲属关系。这种表达方式可能是在某种特定文化、习惯或者特定情境下产生的
-
弯弯漫画的独特魅力 弯弯漫画,一直以来都是许多人休闲时光的必备良伴。它以其鲜明的个性、幽默的表达方式和生动的故事情节,吸引了大量的粉丝。不仅在年轻人中颇受欢迎,在许多成年人中也有着广泛的读者群体。弯弯漫画的风格独树一帜,它不仅仅是简单的娱乐消遣,更是情感和思想的传达者。 弯弯漫画的创作特点 弯弯漫画以其极具特色的画风和情节设计著称。它常常融合现实与幻想,现实中的日常琐事通过漫画人物的幽默演绎变得
-
《朋友的妻子》是一部引人注目的韩国电影,凭借其情节的复杂性和人物之间的张力,吸引了大量影迷的关注。这部电影讲述了一个围绕友情、婚姻和欲望展开的故事。电影通过对主要人物的深刻刻画,探讨了人性中的阴暗面以及人们在面对复杂情感时的选择。对于那些想了解《朋友的妻子》这部电影全剧名的观众来说,这部作品无疑是一个值得一看的经典。 电影的故事背景与情节发展 《朋友的妻子》围绕着三个主要人物展开:一个忠诚的丈夫
-
《女儿的朋友》这部韩剧近年来引起了不少观众的关注,尤其是剧中所使用的汉字,成为了许多观众讨论的热点。剧中的角色和剧情设置展现了现代家庭中的亲情和冲突,而其中的汉字则成为了很多细节中的亮点。许多观众发现,剧中虽然是韩语对白,但在一些关键的场景和情节中,汉字的出现带来了更多的文化层次和深意。那么,为什么《女儿的朋友》这部韩剧会大量使用汉字呢?它的出现到底有怎样的文化背景和意义呢? 《女儿的朋友》中的汉
-
蛙漫2(台版)入口手机软件app台版漫画可以让我们所有用户无广告在线阅读观看
下载宝盒推荐
更多+
-
芸豆借款app官方下载链接
下载宝盒
下载 -
会玩透视插件免费版下载
下载宝盒
下载 -
云燕云十六声
下载宝盒
下载 -
全球100000电视台直播安卓版
下载宝盒
下载 -
毒苹果BOX(毒苹果TV)电视版
下载宝盒
下载 -
apkmirror中文官网下载
下载宝盒
下载 -
大宋映画编辑器下载
下载宝盒
下载 -
荒野起源手游最新版
下载宝盒
下载