数十位 AI 大牛愤然离职，解密Meta AI大模型团队内斗始末｜钛媒体焦点

2023-9-14 10:16| 发布者: 刘海明| 查看: 22| 评论: 0|来自: 网易新闻

摘要: 数十位AI 大牛愤然离职，解密Meta AI大模型团队内斗始末｜钛媒体焦点Meta参展2022年在上海举行的进博会（来源：钛媒体App编辑拍摄）过去半年，为了追赶OpenAI的研发脚步，科技巨头Meta公司（前Facebook）接连发布免 ...

数十位 AI 大牛愤然离职，解密Meta AI大模型团队内斗始末｜钛媒体焦点

Meta参展2022年在上海举行的进博会（来源：钛媒体App编辑拍摄）

过去半年，为了追赶OpenAI的研发脚步，科技巨头Meta公司（前Facebook）接连发布免费开源大语言模型LLaMA、Llama 2以及编程模型Code Llama等，引发了一场关于开源与闭源模型优劣的广泛热议。

但对于一些参与Llama大语言模型研发的Meta 科学家们来说却不这样想，普遍认为这款大模型来的太晚了，团队精英 AI 人才流失太高了。

据The information近日报道，今年2月发表的Llama原始研究论文的14位作者中，包括FAIR巴黎团队负责人Antoine Bordes在内的超过一半（7人）AI科学家离开了Meta，其中几位跳槽或创办了 AI 初创公司，或是到大公司，原因与内部算力资源斗争有关。

同时，OPT、ESMFold等多个项目也同时解散，员工合并重组，影响超过数十人，其中OPT研究论文的19位作者中，已经约有一半已不在Meta工作，近10位AI领域核心研发人员。

实际上，过去10多年来，马克·扎克伯格（Mark Zuckerberg）一直将 AI 当作Meta新发展的重要起点，而且挖来了 AI 学术领域重要的科学家，如图灵奖得主、Meta首席 AI 科学家杨立昆（Yann LeCun）等，但持续性团队内斗影响了Meta AI对于研究资源的分配。

而随着全球经济衰退加剧、紧急追赶ChatGPT，经历一段时期的人员波动和内部整合、超过1万名员工被裁掉。最终，Meta选择商业化的 AI，放弃纯科学性AI技术。

超半数Llama团队愤然出走，因与OPT团队内部算力争夺有关

Meta在人工智能（AI）领域的核心研究，主要来源2013年成立的FAIR（Facebook AI Research）。

团队组建之初，Meta聘请了图灵奖获得者、法国科学家杨立昆担任 AI 研究负责人，整个FAIR的研究任务是将 AI 用于翻译语言，推进AI医疗等场景。同时，FAIR团队大手笔在美国加州门洛帕克、纽约、蒙特利尔、巴黎、伦敦和西雅图六地设立实验室。

据报道，FAIR在巴黎的团队主要研发了Llama大模型，而FAIR美国团队则研发OPT模型，两个团队主要向Meta基础Al研究负责人Joelle Pineau汇报。据悉，Pineau不仅是Meta AI研究副总裁，而且还是麦吉尔大学教授，主要研究新的模型和算法。

Meta基础Al研究负责人Joelle Pineau（来源：Meta AI官网）

早在2022年5月，ChatGPT发布之前，Meta美国团队就公开发布了OPT-175B。当时Meta声称该模型比OpenAI的GPT-3训练所需能源更少，而这两个模型用于训练的参数规模相同。据两位知情人士称，几个月后，该团队已经开始研究媲美谷歌PaLM的一款大模型。

与此同时，巴黎FAIR团队已经开始研究另一种独立的大模型，最终被称为Llama，该模型参数比OPT小，团队认为较小模型在推理（即对问题生成响应的过程）方面会更有效，尤其Llama需要的算力资源低于OPT模型。

不过，由于Meta的算力资源有限，内部分配一直不合理。而这种算力争夺加剧了团队之间的紧张关系。

据报道，Meta内部每月做出一次算力分配决定，与不同业务部门、不同优先事项，以及项目发布时间等因素有关。而如果FAIR的员工提出争议，这些争议就会升级，交由Pineau做出决定。

Pineau回应称，Llama和OPT团队在算力分配的问题上“有些紧张”，称“尽管我们不保证每个人都会得到想要的，但我们一直试图在平衡各方需求”。

2023年开始，随着ChatGPT对话 AI 模型风靡全球，两个团队内斗紧张局势达到了顶峰。

今年2月，Meta FAIR发布了Llama开源模型，并获得研究使用许可，而且多个团队使用Llama开发了Vina等其他开源大模型，广受好评。

但在发布会前一周，FAIR团队联合创办人兼巴黎团队负责人Antoine Bordes却离开了Meta公司，报道称，其主要与美国团队的内斗让Bordes精疲力尽。Bordes拒绝置评。

同时，自去年11月起，扎克伯格开始了Meta全公司范围的裁员，涉及超过1万名员工，FAIR团队也未能幸免。今年2月，Meta成立了一个新团队，专注于开发生成式 AI 技术，团队负责人是苹果前高管Ahmad Al-Dahle。随后很多FAIR、Llama 2开发团队都加入其中，又一次进行了团队洗牌。

而Meta这种人员变动、整合，让FAIR团队只能研究Code Llama。因此，更多Llama、OPT等项目的研究人员感受到了更大的内部斗争氛围，愤然离职。

据报道，目前，Llama原始研究论文的14位作者中，超过7人已从Meta离职。而2022年5月公布的OPT原始研究论文的19位作者中，约有10名 AI 大牛已经从Meta离开。The information提到了其中四位的去向：

FAIR巴黎分部负责人Antoine Bordes已离职，加入了军工 AI 公司Helsing

Llama论文作者、FAIR研究总监Armand Joulin，今年5月离职，随后加入了苹果公司。

Llama论文作者Timothee Lacroix和Guillaume Lample已离职，共同创立了 AI 初创公司MistralAI

Llama论文作者Marie-Anne Lachaux已离职，加入了MistralAl

另外，今年8月有报道称，Meta为了降本增效，裁掉了对标谷歌DeepMind AlphaFold、利用 AI 大模型实现蛋白质预测的生物科学ESMFold项目团队。此前，该团队研发出了150亿参数、预测超6亿个宏基因组蛋白质序列大模型ESMFold，AI 的速度比 AlphaFold 快 60 倍。不过如今，该团队已解散，负责人已辞职创业。

英国《金融时报》认为，Fair实验室内部的学术文化是Meta迟迟在 AI 大模型竞争中获得领先的原因，而随着ChatGPT的爆发，如今Meta试图调整目标“GenAI”，并重新配置其Fair团队的研究方向，转向 AI 模型的商业化。

扎克伯格表示，随着开发者不断改进模型，Meta可以将这些改进融入其广告和消费产品中。看起来，扎克伯格从Llama看到了以开源在AI竞争中打开局面的可能性。

Joelle Pineau坦言，留住和吸引优秀人才是公司花费大部分时间的原因。如果没有优秀的研究人员，她什么也做不了。

“由于 AI 领域发展如此之快，我们正在共同思考，FAIR应该拥有哪个项目？Gen AI 应该拥有哪个项目？我们应该持续关注两个团队的工作成果。”Pineau表示。

算力不足下，Meta仍计划明年发布对标GPT-4的大模型

Meta AI 研究团队这一内斗、核心人员离职案例，可以从两个角度解读。

一是大公司创新能力随着内部问题不断下降，资本和大科技公司创新鸿沟加深。（详见钛媒体App前文：《全球经济巨变下，资本和科技创新之间的冲突与平衡》）

此前，谷歌也做了类似的事情，DeepMind研发 AI 技术多年，诞生出了AlphaFold、AlphaGo等行业顶级技术，但难以盈利，2018年-2020年总亏损额超过17亿美元。因此在今年4月，谷歌母公司Alphabet CEO Sundar Pichai （皮猜）宣布，将谷歌大脑和DeepMind 两大团队合并，组成“Google DeepMind”部门，研发任务之一是多模态 AI 模型，而此前谷歌大脑、DeepMind内部竞争颇多。

另外在阿里内部也产生一定的竞争。近日，阿里达摩院M6大模型带头人杨红霞、阿里云AI大牛贾扬清、机器学习科学家金榕等 AI 大牛也纷纷离职，有消息称，阿里大模型研发时经过内部的竞赛流程，金榕和杨红霞团队技术产生竞争，最终诸多因素下才最终选择杨红霞的模型技术，从而诞生通义千问，不过最终两位技术负责人均从阿里辞职。

搜狗创始人、百川智能创始人兼CEO王小川告诉钛媒体App，“资本是逐利的，所以不是投自动驾驶就是安防。对大厂来说，当时投钱创新是有巨大风险的。对企业的一号位来说，想的更多还是业务上的东西，花钱最后没出成果，算谁的？”

另外一方面是Meta的算力资源不足。

随着OpenAI用微软云的算力、谷歌则自行购买GPU（图形处理器）芯片，多家科技巨头加大算力基础设施布局。而Meta没有自己的庞大云算力储备，因此在生成式AI的赛道上明显“掉队”。

2022年的一场5个小时会议上，Meta的基础设施负责人当时表示：“我们在开发AI的工具、工作流程和程序上存在显著差距，我们必须得投入大笔投资。”而随着ChatGPT的发布，全球 AI 训练、推理算力需求加剧，Meta似乎只能追赶。

据报道，GPT-3使用10000张GPU A100显卡、花了30天才训练完了1750 亿参数，单 GPU 计算性能为12TFlops，消耗的总算力为每天每秒3640PetaFlop，GPU-4数据更高。即便是利用3584 个英伟达最新 H100 芯片，GPT-3大模型训练任务也需要11分钟。而OpenAI尚未透露GPT-4的大小，但估计参数为1.5万亿。

庞大的数据量需要大量的算力支持。因此，Meta依然需要购买大量英伟达产品，补足算力缺口，例如Meta Llama模型已经在微软云平台Azure上提供。

Meta CFO Susan Li在今年2月坦承，Meta投入给生成式AI的算力相当有限，基本上所有的AI算力都投向了广告、信息流和短视频项目。

即便是算力不足，扎克伯格仍希望尽力追赶，并且打造更多的大模型产品落地应用。

据外媒9月11日报道，Meta正在开发一种新的 AI 大语言模型（LLM），超越Llama 2，性能比肩GPT-4。报道称，预计Meta将在2024年初开始训练这一大模型。

编辑：洪韵