传媒教育网

 找回密码
 实名注册

QQ登录

只需一步,快速开始

搜索
传媒教育网 新闻聚焦 查看内容

Grok-3正式发布!马斯克:地球上最聪明的AI

2025-2-19 21:14| 发布者: 刘海明| 查看: 3| 评论: 0|来自: 数字经济全球观察

摘要: 北京时间2月18日午间,马斯克旗下人工智能公司xAI召开发布会,正式发布新一代聊天机器人Grok-3。 此前,马斯克就在社交平台X上发布预告,称Grok-3为“地球上最聪明的AI”。


北京时间2月18日午间,马斯克旗下人工智能公司xAI召开发布会,正式发布新一代聊天机器人Grok-3。

此前,马斯克就在社交平台X上发布预告,称Grok-3为“地球上最聪明的AI”。



01Grok-3发布现场

在等到12:20分、线上观看人数达到100万时,直播终于开始,马斯克也亮相直播间。直播背景上也写着本次直播的主题“our mission is to understand universe我们的使命是了解整个宇宙”。


马斯克在直播中表示,“Grok”的名字来自海因莱因的小说《异乡异客》。在书中,“Grok”由一位在火星上长大的角色使用,意指对某事物全面且深刻的理解。
据xAI团队介绍,准确地说,Grok-3是一个系列,不只是某一个模型,将发布多个子版本。目前Grok-3 mini可以更快地回答问题,但会牺牲一些准确性。从今天开始将陆续推出其他版本。
马斯克在发布会现场表示,“我们认为它比Grok-2强大一个数量级”。据悉,Grok-3在很短的时间内超越了上一代Grok-2,且计算量是前代Grok-2的十倍。
10万张卡高训练成本
直播中介绍,Grok-3的训练依托于被称为“Colossus”的超级计算集群——位于美国孟菲斯,一个包含大约 20 万块 GPU 的数据中心。
在训练过程中,团队直接使用了10万块英伟达H100 GPU集群进行大规模训练,并克服了散热、电力等问题带来的挑战,仅用了122天就建成并完成了第一阶段的预训练。现在他们计划将集群规模继续扩大,92天增加到20万块GPU以维持算力优势。

Grok-3采用了深度学习和强化学习相结合的方法,并引入了“思维链”(Chain Of Thought)推理能力,让其能够像人类认知过程一样逐步处理复杂任务。通过深度学习,模型能够从大量数据中提取特征和模式。强化学习使Grok-3能够在训练过程中不断调整自身的策略,以获得更高的奖励信号。在推理任务中,Grok-3通过多次尝试和验证,不断优化自身的推理路径,从而找到最优解。
Grok-3测试数据
为了全面评估Grok-3的性能,xAI团队在多个领域进行了基准测试,涵盖Math(AIME 24)、Science(GPQA)和 Coding(LCB Oct-Feb)三个方面。
测试结果显示,Grok-3在三个领域的表现都很出色。Grok-3 大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和GPT-4o。这些被用来对比的模型的性能与 Grok-3 mini 相近。


除了基准测试,xAI利用大模型竞技场Chatbot Arena(LMSYS)平台,对Grok-3进行了盲测。
在本次盲测中,Grok-3的早期版本取得了令人瞩目的成绩,得分达到1402分,在所有类别中均排名第一,且分数还在不断上升,超过了包括DeepSeek-R1在内的所有其他模型,也成为有史以来首个突破1400分的模型。
这证明Grok-3在实际应用中的强大性能,它能够在复杂的测试环境中脱颖而出,为用户提供高质量的答案。


Grok-3现场演示
直播中,xAI团队还进行了Grok-3能力现场演示。
如“生成从地球发射、着陆火星然后在下一个发射窗口返回地球的3D动图的代码。”


同时,画面上显示出了飞船在地球和火星间往返的动画。

再比如“使用 pygame 制作一款混合俄罗斯方块(Tetris)和宝石迷阵(Bejeweled)的游戏,代码可以很长,效果要炫酷。”

在实际运行中,游戏呈现出了创新独特的玩法:当连接至少三个相同颜色的方块时,重力机制启动,方块消失,其他方块随之掉落,类似“宝石迷阵”的消除机制;同时,游戏也保留了“俄罗斯方块”的基本元素,但具体的行消除机制可能存在多种变体,这也为AI开发游戏奠定了基础。


总之,从演示来看,Grok-3各项能力都在线的。马斯克称,xAI正在筹建一家人工智能游戏工作室,该工作室将专注于为消费者提供服务。
开发深度搜索 开源Grok-2
本次发布,xAI团队表示正在开发名为Deepsearch的Grok-3智能搜索引擎。
据工程师介绍,Deepsearch是一款推理聊天机器人,能够阐述其理解查询内容的过程以及规划回复的方式。演示显示,它具备深入研究、头脑风暴、分析数据、生成图像、编写和调试代码的功能。这将成为其AI智能体的核心能力之一。


对于Grok-3是否会开源,马斯克表示,“我们通常会在新模型发布的时候,开源上一代模型,所以几个月后,我们也会对Grok-2进行开源。”
订阅及定价
据介绍,X Premium+的订阅用户(每月22美元)将首先获得使用Grok-3,其他功能则需要订阅xAI称之为Super Grok的版本。
Super Grok的价格为每月30美元或每年300美元,可解锁更多推理和DeepSearch查询功能以及无限制图像生成服务。马斯克还透露,未来一周内Grok应用程序将增加语音模式,几周后Grok-3模型和DeepSearch功能将进入xAI的企业API。


02Grok发布回顾

xAI公司成立于2023年7月,专注于大模型开发,公司团队成员主要来自OpenAI、谷歌DeepMind、微软研究院和特斯拉等知名企业。
在成立不到半年,xAI公司便发布了Grok-1,随后又在去年8月发布了Grok-2。
Grok-3的发布原计划是在2024年底,但现实却事与愿违。据业内分析,因xAI团队规模相对较小,在人力、资源调配等方面可能面临诸多挑战,这在一定程度上拖慢了项目的推进速度。而DeepSeek的横空出世,或许加速了Grok-3的研发,让它在2025年初亮相。
版本
Grok-1
Grok-2
参数量
3140亿参数(混合专家模型,MoE架构,每个token激活25%的权重)
未明确公布参数(推测与Grok-1相近或更高),提供轻量化版本Grok-2 mini
核心特点
超大规模开源模型
强化指令遵循与工具调用
基于JAX和Rust的自定义训练栈
多模态支持(集成Flux图像生成技术)
支持8192 tokens上下文长度
轻量化模型优化(Grok-2 mini)
训练数据
截至2023年第三季度的互联网数据+AI合成数据,未针对任务微调
引入更多高质量真实数据,支持多语言(中英文),结合实时检索能力
推理能力
HumanEval编码任务63.2%
GPQA(科学问答)和MATH(数学竞赛)准确率提升10%-20%
MMLU测试73%
弱于GPT-4
接近或超过GPT-4o
多模态支持
无(纯文本处理)
支持文生图、视觉处理与多模态交互(趣味/常规模式切换)
应用场景
通用自然语言处理(问答、信息检索、创意写作)
代码生成与调试、图像生成、多语言信息处理、实时数据整合
开源情况
已开源(Apache 2.0协议,权重和架构全开放)
尚未开源,但提供企业API
性能提升
高性能计算支持
性能显著提升,推理速度更快









Grok-3的发布将加剧全球AI大模型的“军备竞赛”,其技术突破与生态布局将推动行业向更高算力投入、更复杂推理能力及更垂直的应用场景发展。然而,其面临的挑战同样显著:
  • 商业化压力:高昂的算力成本可能限制Grok-3的普及,需通过订阅制(如SuperGrok)和开源策略平衡投入与回报;

  • 伦理与合规风险:集成社交媒体实时数据可能加剧信息偏见与滥用问题;

  • 技术追赶速度:DeepSeek等竞争对手通过低推理成本与开源生态快速渗透市场,Grok-3需持续迭代以维持优势。



未来,AI行业可能呈现“多极竞争”格局,头部厂商通过技术差异化(如Grok的推理能力、DeepSeek的成本优势)争夺市场份额,而中小厂商则聚焦垂直场景的轻量化应用。

来源:数字经济全球观察
链接:https://mp.weixin.qq.com/s/pdoGDrn0bnwrMJaoy8rg4Q
编辑:程正元


鲜花

握手

雷人

路过

鸡蛋

最新评论

掌上论坛|小黑屋|传媒教育网 ( 蜀ICP备16019560号-1

Copyright 2013 小马版权所有 All Rights Reserved.

Powered by Discuz! X3.2

© 2016-2022 Comsenz Inc.