Grok-3正式发布！马斯克：地球上最聪明的AI

2025-2-19 21:14| 发布者: 刘海明| 查看: 3| 评论: 0|来自: 数字经济全球观察

摘要: 北京时间2月18日午间，马斯克旗下人工智能公司xAI召开发布会，正式发布新一代聊天机器人Grok-3。此前，马斯克就在社交平台X上发布预告，称Grok-3为“地球上最聪明的AI”。

北京时间2月18日午间，马斯克旗下人工智能公司xAI召开发布会，正式发布新一代聊天机器人Grok-3。

此前，马斯克就在社交平台X上发布预告，称Grok-3为“地球上最聪明的AI”。

01Grok-3发布现场

在等到12:20分、线上观看人数达到100万时，直播终于开始，马斯克也亮相直播间。直播背景上也写着本次直播的主题“our mission is to understand universe我们的使命是了解整个宇宙”。

马斯克在直播中表示，“Grok”的名字来自海因莱因的小说《异乡异客》。在书中，“Grok”由一位在火星上长大的角色使用，意指对某事物全面且深刻的理解。
据xAI团队介绍，准确地说，Grok-3是一个系列，不只是某一个模型，将发布多个子版本。目前Grok-3 mini可以更快地回答问题，但会牺牲一些准确性。从今天开始将陆续推出其他版本。
马斯克在发布会现场表示，“我们认为它比Grok-2强大一个数量级”。据悉，Grok-3在很短的时间内超越了上一代Grok-2，且计算量是前代Grok-2的十倍。
10万张卡高训练成本
直播中介绍，Grok-3的训练依托于被称为“Colossus”的超级计算集群——位于美国孟菲斯，一个包含大约 20 万块 GPU 的数据中心。
在训练过程中，团队直接使用了10万块英伟达H100 GPU集群进行大规模训练，并克服了散热、电力等问题带来的挑战，仅用了122天就建成并完成了第一阶段的预训练。现在他们计划将集群规模继续扩大，92天增加到20万块GPU以维持算力优势。

Grok-3采用了深度学习和强化学习相结合的方法，并引入了“思维链”（Chain Of Thought）推理能力，让其能够像人类认知过程一样逐步处理复杂任务。通过深度学习，模型能够从大量数据中提取特征和模式。强化学习使Grok-3能够在训练过程中不断调整自身的策略，以获得更高的奖励信号。在推理任务中，Grok-3通过多次尝试和验证，不断优化自身的推理路径，从而找到最优解。
Grok-3测试数据
为了全面评估Grok-3的性能，xAI团队在多个领域进行了基准测试，涵盖Math（AIME 24）、Science（GPQA）和 Coding（LCB Oct-Feb）三个方面。
测试结果显示，Grok-3在三个领域的表现都很出色。Grok-3 大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和GPT-4o。这些被用来对比的模型的性能与 Grok-3 mini 相近。

除了基准测试，xAI利用大模型竞技场Chatbot Arena（LMSYS）平台，对Grok-3进行了盲测。
在本次盲测中，Grok-3的早期版本取得了令人瞩目的成绩，得分达到1402分，在所有类别中均排名第一，且分数还在不断上升，超过了包括DeepSeek-R1在内的所有其他模型，也成为有史以来首个突破1400分的模型。
这证明Grok-3在实际应用中的强大性能，它能够在复杂的测试环境中脱颖而出，为用户提供高质量的答案。

Grok-3现场演示
直播中，xAI团队还进行了Grok-3能力现场演示。
如“生成从地球发射、着陆火星然后在下一个发射窗口返回地球的3D动图的代码。”

同时，画面上显示出了飞船在地球和火星间往返的动画。

再比如“使用 pygame 制作一款混合俄罗斯方块（Tetris）和宝石迷阵（Bejeweled）的游戏，代码可以很长，效果要炫酷。”

在实际运行中，游戏呈现出了创新独特的玩法：当连接至少三个相同颜色的方块时，重力机制启动，方块消失，其他方块随之掉落，类似“宝石迷阵”的消除机制；同时，游戏也保留了“俄罗斯方块”的基本元素，但具体的行消除机制可能存在多种变体，这也为AI开发游戏奠定了基础。

总之，从演示来看，Grok-3各项能力都在线的。马斯克称，xAI正在筹建一家人工智能游戏工作室，该工作室将专注于为消费者提供服务。
开发深度搜索开源Grok-2
本次发布，xAI团队表示正在开发名为Deepsearch的Grok-3智能搜索引擎。
据工程师介绍，Deepsearch是一款推理聊天机器人，能够阐述其理解查询内容的过程以及规划回复的方式。演示显示，它具备深入研究、头脑风暴、分析数据、生成图像、编写和调试代码的功能。这将成为其AI智能体的核心能力之一。

对于Grok-3是否会开源，马斯克表示，“我们通常会在新模型发布的时候，开源上一代模型，所以几个月后，我们也会对Grok-2进行开源。”
订阅及定价
据介绍，X Premium+的订阅用户（每月22美元）将首先获得使用Grok-3，其他功能则需要订阅xAI称之为Super Grok的版本。
Super Grok的价格为每月30美元或每年300美元，可解锁更多推理和DeepSearch查询功能以及无限制图像生成服务。马斯克还透露，未来一周内Grok应用程序将增加语音模式，几周后Grok-3模型和DeepSearch功能将进入xAI的企业API。

02Grok发布回顾

xAI公司成立于2023年7月，专注于大模型开发，公司团队成员主要来自OpenAI、谷歌DeepMind、微软研究院和特斯拉等知名企业。
在成立不到半年，xAI公司便发布了Grok-1，随后又在去年8月发布了Grok-2。
Grok-3的发布原计划是在2024年底，但现实却事与愿违。据业内分析，因xAI团队规模相对较小，在人力、资源调配等方面可能面临诸多挑战，这在一定程度上拖慢了项目的推进速度。而DeepSeek的横空出世，或许加速了Grok-3的研发，让它在2025年初亮相。

版本	Grok-1	Grok-2
参数量	3140亿参数（混合专家模型，MoE架构，每个token激活25%的权重）	未明确公布参数（推测与Grok-1相近或更高），提供轻量化版本Grok-2 mini
核心特点	超大规模开源模型	强化指令遵循与工具调用
	基于JAX和Rust的自定义训练栈	多模态支持（集成Flux图像生成技术）
	支持8192 tokens上下文长度	轻量化模型优化（Grok-2 mini）
训练数据	截至2023年第三季度的互联网数据+AI合成数据，未针对任务微调	引入更多高质量真实数据，支持多语言（中英文），结合实时检索能力
推理能力	HumanEval编码任务63.2%	GPQA（科学问答）和MATH（数学竞赛）准确率提升10%-20%
	MMLU测试73%	GPQA（科学问答）和MATH（数学竞赛）准确率提升10%-20%
	弱于GPT-4	接近或超过GPT-4o
多模态支持	无（纯文本处理）	支持文生图、视觉处理与多模态交互（趣味/常规模式切换）
应用场景	通用自然语言处理（问答、信息检索、创意写作）	代码生成与调试、图像生成、多语言信息处理、实时数据整合
开源情况	已开源（Apache 2.0协议，权重和架构全开放）	尚未开源，但提供企业API
性能提升	高性能计算支持	性能显著提升，推理速度更快

Grok-3的发布将加剧全球AI大模型的“军备竞赛”，其技术突破与生态布局将推动行业向更高算力投入、更复杂推理能力及更垂直的应用场景发展。然而，其面临的挑战同样显著：

商业化压力：高昂的算力成本可能限制Grok-3的普及，需通过订阅制（如SuperGrok）和开源策略平衡投入与回报；
伦理与合规风险：集成社交媒体实时数据可能加剧信息偏见与滥用问题；
技术追赶速度：DeepSeek等竞争对手通过低推理成本与开源生态快速渗透市场，Grok-3需持续迭代以维持优势。

未来，AI行业可能呈现“多极竞争”格局，头部厂商通过技术差异化（如Grok的推理能力、DeepSeek的成本优势）争夺市场份额，而中小厂商则聚焦垂直场景的轻量化应用。

来源：数字经济全球观察
链接：https://mp.weixin.qq.com/s/pdoGDrn0bnwrMJaoy8rg4Q
编辑：程正元

鲜花

握手

雷人

路过

鸡蛋

收藏邀请

上一篇：刘思扬：通过两奖评选，推动新闻媒体重塑思维观念下一篇：白宫记者会向新媒体开放：媒体江湖背后的政治暗涌

Grok-3正式发布！马斯克：地球上最聪明的AI

最新评论

相关分类

帐号		自动登录	找回密码
密码			实名注册