开云体育 > 新闻动态

热点发开云体育布百脑汇香港社会新闻大众网

作者：小编发布时间：2025-04-15 20:56:23 浏览量：610

　　智东西4月6日报道，今日，Meta发布Llama 4系列首批模型，包括两款高效模型Llama 4 Scout、Llama 4 Maverick。这是Meta首款采用混合专家（MoE）架构构建的原生多模态模型，其中Scout更是首度支持超长10M上下文窗口。Meta还预览了其迄今最强大的新教师模型——Llama 4 Behemoth。

　　“小杯”Llama 4 Scout拥有16位专家、170亿个活跃参数、1090亿个总参数，被称作“同类产品中全球最好的多模态模型”，提供1000万tokens上下文窗口（对应多达500万个单词的文本），适用于单张NVIDIA H100 GPU（具有Int4量化），并在广泛基准测试中分数超过Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。

　　“中杯”Llama 4 Maverick拥有128位专家、170亿个活跃参数、4000亿个总参数，也是“同类中最好的多模态模型”，适用于单台H100主机，在广泛基准测试中击败了GPT-4o和Gemini 2.0 Flash，同时在推理和编程方面取得了与新DeepSeek-v3相当的结果，活跃参数不到后者的一半。

　　Llama 4 Behemoth仍在训练中，尚未正式发布，但Meta先分享了一些技术细节。

　　Meta还预告将在4月29日的LlamaCon上分享更多关于其愿景的内容。

　　新Llama 4模型是Meta首批使用混合专家（MoE）架构的模型。在MoE模型中，单个token仅激活总参数的一小部分。MoE架构在训练和推理方面具有更高的计算效率，并且在给定固定训练FLOP预算的情况下，与密集模型相比，可提供更高的质量。

　　例如，Llama 4 Maverick模型有17B个活跃参数和400B个总参数。Meta使用交替的密集和混合专家（MoE）层来提高推理效率。

　　MoE层使用128位路由专家和一位共享专家。每个token都会发送给共享专家以及128位路由专家之一。因此，虽然所有参数都存储在内存中，但在为这些模型提供服务时，只有总参数的子集被激活。

　　这通过降低模型服务成本和延迟来提高推理效率。Llama 4 Maverick可在单台NVIDIA H100 DGX主机上运行，以便于部署，也可以通过分布式推理实现最高效率。

　　Llama 4模型采用原生多模态设计，结合早期融合，将文本和视觉token无缝集成到统一的模型主干中。早期融合是向前迈出的重要一步，因为它使Meta能够使用大量未标记的文本、图像和视频数据联合预训练模型。

　　Meta还改进了Llama 4中的视觉编码器。它基于MetaCLIP，但与冻结的Llama模型一起单独训练，以便更好地使编码器适应大语言模型。

　　Meta开发了一种新的训练技术MetaP，能可靠地设置关键模型超参数，例如每层的学习率和初始化尺度。该团队发现所选的超参数在不同的batch处理大小、模型宽度、深度和训练token值之间具有良好的迁移性。

　　Llama 4通过对200种语言进行预训练来实现开源微调工作，其中包括100多种语言，每种语言都有超过10亿个token，总体而言，多语言tokens比Llama 3多10倍。

　　此外，Meta专注于使用FP8精度进行高效的模型训练，而不会牺牲质量并确保较高的模型FLOP利用率。在使用FP8和32K GPU预训练Llama 4 Behemoth模型时，Meta实现了390 TFLOPs/GPU。用于训练的整体数据组合由超过30万亿个token组成，是Llama 3预训练组合的2倍多，包括各种文本、图像和视频数据集。

　　Meta继续在所谓的“中期训练”阶段训练模型，以使用新的训练方案（包括使用专门的数据集进行长上下文扩展）来提高核心功能。这使其能够提高模型质量，同时为Llama 4 Scout解锁超长的10M输入上下文长度。

　　新Llama 4模型有不同大小。Llama 4 Maverick在图像和文本理解方面提供行业领先性能，支持创建复杂的AI应用程序以跨越语言障碍。作为Meta针对通用助手和聊天用例的产品主力模型，Llama 4 Maverick非常适合精确的图像理解和创意写作。

　　在对Llama 4 Maverick模型进行后训练时，最大的挑战是在多种输入模式、推理和对话能力之间保持平衡。对于混合模式，Meta提出了一个精心策划的课程策略，与单个模式专家模型相比，该策略不会牺牲性能。

　　借助Llama 4，Meta通过采用不同的方法改进了后训练流程：轻量级监督微调（SFT）>

　　在线强化学习（RL）>

　　轻量级直接偏好优化（DPO）。

　　一个关键的学习是，SFT和DPO可能会过度约束模型，限制在线强化学习阶段的探索并导致准确性不理想，特别是在推理、编程和数学领域。

　　为了解决这个问题，Meta使用Llama模型作为判断标准，删除了50%以上标记为简单的数据，并对剩余的较难数据集进行了轻量级SFT。

　　在随后的多模态在线强化学习阶段，通过仔细选择更难的提示，Meta能够实现性能的阶跃变化。

　　此外，Meta实施了持续在线RL策略，交替训练模型，然后使用它来持续过滤并仅保留中等难度到困难难度的提示。事实证明，这种策略在计算和准确性权衡方面非常有益。

　　然后，Meta做了一个轻量级DPO来处理与模型响应质量相关的极端情况，有效地在模型的智能和对话能力之间实现了良好的平衡。管道架构和具有自适应数据过滤的持续在线RL策略最终形成了业界领先的通用聊天模型，具有先进的智能和图像理解能力。

　　作为通用大语言模型，Llama 4 Maverick包含170亿个活跃参数、128位专家和4000亿个总参数，与Llama 3.3 70B相比，它以更低的价格提供高质量。

　　Llama 4 Maverick是同类最佳的多模态模型，在编程、推理、多语言、长上下文和图像基准测试中超越了GPT-4o和Gemini 2.0等同类模型，并且在编程和推理方面可与活跃参数规模大得多的DeepSeek v3.1相媲美。

　　小型模型Llama 4 Scout是一个通用模型，拥有170亿个活动参数、16位专家和1090亿个总参数，可提供同类中一流的性能。Llama 4 Scout将支持的上下文长度从Llama 3中的128K大幅增加到行业领先的1000万个token，适用于多文档摘要、解析大量用户活动以执行个性化任务以及对庞大的代码库进行推理。

　　Llama 4 Scout经过了预训练和后训练，上下文长度为256K，这为基础模型提供了高级长度泛化能力。

　　Meta在诸如对文本进行“大海捞针”式检索以及对1000万个代码token进行累积负对数似然（NLL）等任务中展示了令人信服的结果。

　　Llama 4架构的一个关键创新是使用没有位置嵌入的交错注意层。此外，Meta采用注意力的推理时间温度缩放来增强长度泛化，并称之为iRoPE架构。其中“i”代表“交错”注意层，突出了支持“无限”上下文长度的长期目标，“RoPE”指的是大多数层中使用的旋转位置嵌入。

　　Meta用各种图像和视频帧静态图像训练了两个模型，以便让它们具有广泛的视觉理解能力，包括时间活动和相关图像。这使得多图像输入以及用于视觉推理和理解任务的文本提示能够轻松交互。这些模型在多达48张图像上进行了预训练，在训练后测试了多达8张图像，取得了良好的效果。

　　Llama 4 Scout在图像基础方面也性能出色，能够将用户提示与相关的视觉概念对齐，并将模型响应锚定到图像中的区域。这使得大语言模型能够更精确地回答视觉问题，从而更好地理解用户意图并定位感兴趣的对象。

　　该模型在编程、推理、长上下文和图像基准方面也超越了同类模型，并比所有以前的Llama模型都具有更强大的性能。

　　三、Llama 4 Behemoth预览：近2万亿总参数，改造底层基础设施

　　Llama 4 Behemoth一个教师模型，也是一个多模态专家混合模型，拥有2880亿个活跃参数、16个专开云体育登录家、近2万亿个总参数，在数学、多语言和图像基准测试中为非推理模型提供了先进性能。

　　Meta开发了一种新颖的提炼损失函数，可通过训练动态加权软目标和硬目标。在预训练期间从Llama 4 Behemoth进行共同提炼，可摊销计算学生训练中使用的大多数训练数据的提炼目标所需的资源密集型前向传递的计算成本。为了在学生训练中加入更多新数据，Meta对Behemoth模型进行了前向传递，以创建提炼目标。

　　对具有2万亿个参数的模型进行后期训练也是一项重大挑战，这需要从数据规模开始彻底改革和改进配方。为了最大限度地提高性能，必须修剪95%的SFT数据，而对于较小的模型则需要修剪50%，以实现对质量和效率的必要关注。

　　Meta还发现，进行轻量级SFT后进行大规模强化学习（RL）可以更显著地提高模型的推理和编程能力。其RL配方专注于通过使用策略模型进行pass@k分析来采样硬提示，并制定增加提示难度的训练课程。

　　Meta还发现，在训练期间动态过滤掉没有优势的提示，并使用来自多种功能的混合提示构建训练批次，有助于提高数学、推理和编程的性能。

　　最后，从各种系统指令中采样对于确保模型保留其推理和编程的指令遵循能力并能够在各种任务中表现良好至关重要。

　　由于RL的规模空前巨大，因此将其扩展到2万亿参数模型也需要改造底层RL基础设施。

　　Meta优化了MoE并行化的设计以提高速度，从而实现了更快的迭代。该团队开发了一个完全异步的在线RL训练框架，提高了灵活性。与现有的分布式训练框架相比，后者牺牲了计算内存来将所有模型堆叠在内存中，而其新基础设施能够灵活地将不同的模型分配到单独的GPU上，根据计算速度在多个模型之间平衡资源。与前几代相比，这项创新使训练效率提高了约10倍。

　　Meta称其目标是开发最有帮助和实用的模型，同时防范和缓解最严重的风险，根据《开发人员使用指南：AI保护》中概述的最佳实践构建了Llama 4，使开发人员能够为其Llama支持的应用程序创建有用、安全且适应性强的体验。

　　Meta在预训练方面，结合使用数据过滤和其他数据缓解措施来保护模型；对于后训练，应用了一系列技术来确保模型符合对用户和开发者有益的政策，包括在每个阶段提供适当级别的安全数据。

　　在系统层面，Meta开源了几种保护措施，可帮助识别和防范潜在的有害输入和输出。这些工具（Llama Guard、Prompt Guard、CyberSecEval）可以集成到Llama模型中，也可以与其他第三方工具集成。

　　Meta以可控且可重复的方式对各种场景和用例中的模型进行系统测试，并将产生的数据整合到训练后的结果中。该团队还利用自动和手动测试对一系列主题的对抗性动态探测对模型进行压力测试，在理解和评估潜在模型风险方面取得了进展。

　　为消除AI模型的偏见，Meta将继续提高Llama的响应能力，以便它能够回答问题，能够对各种不同的观点做出回应而不作任何评判，并且不会偏袒某些观点。经改进，Llama 4的性能明显优于Llama 3，并且可与Grok相媲美：

　　Llama 4对有争议的政治和社会话题的拒绝较少（从Llama 3.3中的7%降至不到2%）。Llama 4在拒绝回答提示方面明显更加平衡（在一系列有争议的热门问题中，不平等回答拒绝的比例现在不到1％）。

　　Meta还致力于让模型能够以像人类一样的速度、以个性化的方式做出回复。Llama 4 经过了优化以满足这些需求。

　　各级档案部门和全体档案工作者要高度重视档案安全管理工作，要增强责任重于泰山、安全高于一切的意识，尽职尽责做好档案的保护者。一是市、县(市)区两级档案部门和各部门、各单位及档案工作者要高度重视档案安全工作，加强对档案安全知识的宣传教育，强化档案安全防范意识和责任意识。二是建立健全档案管理规章制度和档案安全应急防范机制，确保规章制度落到实处。三是改善档案馆(室)设施和档案保管条件，做好十防工作，保证档案安全与完整。四是要做好档案在保管环节和利用环节的安全工作，做好档案实体安全和档案信息安全工作。五是做好国家重点档案的抢救和保护工作，争取各级政府和各部门的支持，加大投入，对重要档案进行有计划的抢救与保护，做好重点档案保护技术业务指导工作。六是认真做好市级行政中心动迁单位档案安全管理工作，确保档案的完整与安全。

　　符文闪烁，宝术不时飞起，两者激烈交锋，转眼竟过去了数百招，小不点越打越心惊，他已经被重创。除了遭遇金色尾巴一记重击外，背后更是挨了一爪子，差点将他的脊椎骨给击断，鲜血淋淋，小不点吐了几大口鲜血。

　　,乐动体育手机登录,澳门六彩网2站621133C0m,手机必赢亚洲登陆。

　　⒋请大家认真阅读本次会议发给大家的科技项目管理办法和奖励办法，并提出修改建议，同时认真填写发给大家的调查表，按时反馈给公司科技信息部。这次立项时，基本上每个单位都有项目，一是为了普及科技、信息项目研究工作，提高大家的积极性。二是解决部分单位科技、信息工作中的实际问题。还有对过去项目的清理、上报工作，请大家月底前必须完成，这也是对大家的工作作风、能力和水平的一次检验

　　时事3：尊龙在线日,玩转“非遗+” 广西侗族大歌“唱”出新活力,作为班主任，我似乎感受到两侧的天鹅绒帷幕正缓缓拉开，最有生气的戏剧就要开始了。当然，最令我兴奋的是这戏剧拥有一大群忠于自己角色的演员――你们，高一四班的全体成员。这戏剧也许是世间较长的了，因为它要持续两年的时间――你们的整个高中阶段。这戏剧也有广阔的舞台：教室、寝室、校园……你们走到哪儿，哪儿就是你们的舞台。为此，我愿意做一名热情的报幕员，此时此刻，十分高兴地向观众宣布：“高一四班的戏剧开始了!”,沙巴体育游戏线上官方,澳门金沙城中心娱乐,AG线日,进出西藏列车有机蔬菜实现“现摘现炒”,

　　04月05日,《习关于制造强国的重要论述学习读本》出版发行,最后，是加强基层民主政治建设，促进农村社会稳定，推进和谐东城建设的需要。近年来，我街道经济得到迅猛发展，广大农民的生活水平有了大幅度提高并逐步走向富裕。同时，农村发展中也暴露和反映出一些民主建设问题。从我街道实际情况看，个别村的管理制度不健全，村民法制观念淡薄;一些村“两委”关系不协调，村党支部书记和村民委员会主任相互争权，班子内耗严重;还有个别村财务管理长期混乱，村务公开不正常不规范，群众意见很大。这些都极大地影响了村级班子和干部在群众中的威信，影响了当前街道各项工作的开展。我们举办这次培训班，目的就是给大家培训关于规范村务管理方面的知识，并结合各村实际，探讨如何规范村务管理的具体办法。通过这次培训，进一步提高各村领导干部的政策业务水平，增强大家的法治意识和民主意识，推动我街道村务工作逐步实现民主化、制度化、规范化和公开化，落实好广大群众在村务管理工作中的知情权、管理权、决策权和监督权，把我街道的村务管理工作推上一个新的台阶，为开展和谐东城建设提供强有力的组织保证。,tvt体育网页,ballbet贝博网站官网,新凯发娱乐官网。04月05日,广西统战力量建设长者食堂情暖隆安东安村乡亲,

　　新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证

上一篇: 2025梧州半开云体育下载程马拉松鸣枪开跑2万名选手激情奔跑燃动全城

下一篇: 开云体育注册微软公开回应停止在华运营传闻：不实

新闻推荐

更多>>

友情链接：

热点发开云体育布百脑汇香港社会新闻大众网

新闻推荐

开云体育平台中甲第5轮：铜梁龙客场双响击败南通支云暂时领跑积分榜

开云体育注册赛博十五运会玩转“黑科技”加法

潮声丨拿下劳伦斯奖巴黎残奥七开云体育官网金王蒋裕燕再创历史

开云体育入口成都首批未来公园社区之一云动聚乐科创产业园一期开园

开云体育网址数字技术如何赋能十五运？院士专家献良策

今年“五一”成都文旅荣誉局长“花局”喊你来成开云体育官网都耍

热点发开云体育布百脑汇香港社会新闻大众网

新闻推荐

开云体育平台中甲第5轮：铜梁龙客场双响击败南通支云暂时领跑积分榜

开云体育注册赛博十五运会玩转“黑科技”加法

潮声丨拿下劳伦斯奖巴黎残奥七开云体育官网金王蒋裕燕再创历史

开云体育入口成都首批未来公园社区之一 云动聚乐科创产业园一期开园

开云体育网址数字技术如何赋能十五运？院士专家献良策

今年“五一”成都文旅荣誉局长“花局”喊你来成开云体育官网都耍

开云体育入口成都首批未来公园社区之一云动聚乐科创产业园一期开园