
5月-Set |东大道电子邮件|
[email protected] Deepseek启动了v3.1版本。时刻的亮点:混合体系结构推理:一个模型支持相同的思维方式和非思想模式。较高的精神效率:与DeepSeek-R1-0528相比,DeepSeek-V3.1-思维可以在较短的时间内提供答案。更强的代理能力:通过优化训练后,使用该工具的新模型的性能和代理商的活动大大改善。但是,更引人入胜的是,Deviceek在首要评论中也强调了:UE8M0 FP8旨在释放下一代国内芯片。在当前情况下,这句话似乎很有趣 - 毕竟,Nvidia Lodging对相关部门进行了采访,并要求解释H20芯片安全性的副作用。肯定是因为这样,许多技术术语已经变得特别值得关注:参数的准确性是什么?为什么要这样做ES芯片确定其形式?在这些变化的背后,这可能表明国内AI行业正在进入软件和硬件合作的新阶段。 1十进制的无形点是指大型模型的命运。在深入的研究中,参数是模型的大脑神经元之间的“重量”,需要在训练过程中不断更新,存储和计算。精度是使用多个二进制数来记录这些参数。在介绍FP8之前,我们必须首先回到计算机的最基本问题:机器的数量如何存储?最简单的方法是称为整数(int)。这是算盘中的一首珠子,它可以代表准确的网格:1、2、3、4。但是整数可能不会像3.14一样代表PI,并且也很难处理科学计算中常见的最大或最小值。因此,科学家发明了FP8上FP的浮点数。顾名思义,E小数点位置是“浮动”的,可以写为阳光数字,例如3.14159,以及6.02×10²³等天文索引。浮点数基本上将数字分为三个部分:标志钻头,指数和Mantisa。签名位决定了正和负面,指数决定了小数点位置,而麦塔决定了准确性。浮点数可以代表任何数字,以牺牲位置的同一内存的代价,它更准确地使用,并且使用越少,则它越粗糙。长期以来,FP32(32位浮点数)是计算机的金标准。它具有很高的准确性和较宽的范围,并且几乎是科学计算,图像处理和AI的一般形式。但是,当大型模型的参数扩展到公路时,fp32是红色的。每个重量都应存储在32位,视频记忆不足,训练时间我S也延迟了。因此,该行业开始尝试降低准确性。首先,有一个FP16(16位浮点数),然后是FP8(8位浮点)。为了提供不适当的例子,就像在微小图片中压缩了4K高清图片一样。损失细节是不可避免的,但是可以保存更多照片,并且可以更快地发送。可以使用NVIDIA技术博客中的图片直观地看到它。使用H100,FP8速度高于FP16。练习大型模型时,最大的瓶颈不是算法,而是计算和视频记忆的强度。 NVIDIA官方博客指出,FP8可以使减少量增加一倍,并停止记忆的痕迹,而无需大量牺牲模型影响,这在训练大型GPT级模型时是一个有吸引力的优势。换句话说,在大型模型中,“节拍精度的大小”,FP8已成为不可避免的选择。 NVIDIA技术博客:https://developer.nvidia.com/zh-cn/blog/fp8-precision-p performance/1设置规则的任何人都是计算能力的主人。 FP8是FP8。 DeepSeek提到的“ UE8M0 FP8”是什么?我们为什么还要适应国内筹码?首先,FP8本身不是完全中立的国际标准。从表面上看,NVIDIA通过Intel和Arm促进了FP8的标准化,并启动了两种格式E4M3和E5M2,分别侧重于准确性和数字,这看起来像是行业标准的开放动作。但是,当它实际上实现时,NVIDIA会在其自己的GPU中添加许多“优化”:动态缩放技术(例如每个张量表)和每个块缩放量表来解决FP8的问题,而FP8的问题太狭窄且易于溢出。例如,FP8的指令说明是在张量芯上构建的,因此FP8可以直接使用H100中的完整计算强度运行。 -ptimiithis ze的细节不是标准编写的,而是深层依赖t在NVIDIA的硬件和软件上。 NVIDIA的最新Blackwell体系结构在本地支持MXFP8(8位浮点),MXFP6(6-位)和MXFP4(4-位)的新“显微镜格式”。一些研究人员对高质量数据集进行了大规模验证:具有8亿参数的模型,在使用MXFP8-E4M3格式和设计良好的转换方法之后,培训结果几乎达到了传统的BF16(BFLOAT16)。为了空白,在布莱克韦尔的架构中,使用MXFP8格式进行预培训表现最好。使用MXFP8培训前LLM的食谱https:///arxiv.org/pdf/2506.08027回到官方的Micro评论DeepSeek对V3.1版本的评论,UE8M0 FP8不是NVIDIA的官方标准NVIDIA,而是一种变种的格式。它更接近第一个范围的强烈方法,几乎放弃了小数的准确性。就像您想使用粗糙的磁带尺寸一样,但是请确保它足够长以从房间到操场。尽管没有毫米水平的细节,但它并没有至少溢出一半。为什么您需要进行这种权衡?因为国内GPU与基础电路和设计集的指令集并非与NVIDIA FP8解决方案完全兼容。如上所述,NVIDIA具有自己的“优化”,而国内GPU则没有此“优化”。如果直接复制,结果通常是不稳定的数字,梯度爆炸,训练是无法控制的。这个消息结合了几天前DeepSeek R2被推迟的Dahil家用筹码不好,目前仍然有必要发言。 DeepSeek应该在模型方面做出妥协:使用“范围优先”的UE8M0格式适应国内芯片的硬件逻辑,以确保国内芯片可以运行。这是软件和硬件之间的一种“相互成就”。模型制造商愿意牺牲一些细节的准确性以交换用于国内芯片的稳定运行;芯片制造商通过这种合作逐渐建立了自己的FP8生态系统。 1。当然,国内GPU的FP8联盟出现了另一个问题,在哪里培训了国内筹码? (它不被用作任何投资建议,它集中在哪个培训中。C600最早在2024年10月才完成剥落,目前正在小型阶段级的批量生产中。与此同时,下一代C700系列也被启动,并预计还将在第二季度2026年进行模具铸造测试,此外还推出了最新的Suiiyuan l600 and l600 Chip and Suiyun l600 Chip and l600 Chip and l600 Chip and l600 Chip and l600 Chip and l600 Chip and l600 CHIIP。开发,最大的亮点是他们加强了培训并推动了建筑师:他们不仅在大型模型中进行练习,而且还用于推断出出色的思维,但更重要的是,L600的原产为FP8。使用Deptseek模型的准确性方法。 UE8M0是一个冷精度的参数,只能在纸上花费一半的单词。但是现在,这就像一个信号:国内芯片的制造商和Malalmy Company模型开始真正坐在桌子旁,谈论如何前进。大型模型不再盲目地遵循NVIDIASA的计算强度的逻辑,而是尝试与家用硬件保持一致,即使该过程不优雅。请爱和离开
特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。
注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。