AI发展史:从谷歌基因到巨头博弈

近期各大AI公司频繁变动,Meta FAIR部门裁员、OpenAI资本重组、AWS大裁员,标志着AI行业正从“无限淘金热”转向“阵地战”。资本重新评估价值,巨头审视成本与效率。

科技播客《Acquired》以谷歌AI发展为主线,穿插其他巨头崛起历程,系统梳理了AI关键人物与历史。本文结合《In the Plex》与《Genius Makers》两本著作及当下现状,复盘AI发展历程与大公司战略博弈。

人工智能是谷歌自诞生起的核心理念。1998年Google成立时,Larry Page便视其为AI公司,受其父亲——早期AI研究者影响深远。Page在2000年断言:“搜索引擎若能理解一切,那就是人工智能。”PageRank算法本身已具早期AI思想印记。

2000年末,工程师George Herrick提出“压缩即理解”,认为高效压缩等同于深层信息理解。该想法吸引Noam Shazeer深入探索语言模型。Jeff Dean等人支持下,团队研发出基于概率的自然语言预测技术,成为现代LLM“Next Token Prediction”的雏形。

研究成果直接应用于谷歌搜索“您是不是要找”拼写纠错功能,改善体验并节省计算资源。随后构建的大规模语言模型PHIL,被用于AdSense系统理解网页内容匹配广告,带来数十亿美元收入。至2000年代中期,PHIL消耗谷歌数据中心15%资源。

谷歌对语言理解的追求延伸至机器翻译。2007年,Franz Och领导的Google Translate团队使用海量N-gram模型赢得DARPA竞赛,但单句翻译耗时12小时。Jeff Dean利用分布式计算将其缩短至100毫秒,实现生产部署,成为首个投入使用的大型语言模型。

Sebastian Thrun于2007年引荐Geoff Hinton加入谷歌。Hinton作为神经网络长期倡导者,其讲座在内部引发强烈反响。他以顾问身份合作,将深度学习引入谷歌。当时神经网络处于学术边缘,《Genius Makers》指出,自Marvin Minsky批判感知机后,主流转向专家系统,但后者屡屡碰壁导致第二次AI寒冬。谷歌的统计方法是对专家系统的反叛,Hinton的到来预示新范式来临。

2011年,吴恩达在谷歌偶遇Jeff Dean,讨论结合Hinton理论与谷歌算力构建大规模深度学习模型。同年,吴恩达、Jeff Dean与Greg Corrado发起Google X第二项目:Google Brain,目标是在基础设施上构建深层大神经网络。

为支撑计算任务,Jeff Dean主导开发DistBelief分布式系统,允许异步更新参数,违背当时主流同步收敛观点,因而得名“Disbelief”。尽管遭质疑,DistBelief被证明高效可行。

Google Brain团队利用DistBelief,在1000台机器16000个CPU核心上训练九层神经网络,使用1000万帧未标注YouTube视频数据。实验结果震惊世界:网络自主形成“猫神经元”,能识别猫脸图像,此即著名的“猫论文”(Building High-Level Features Using Large-Scale Unsupervised Learning)。

“猫论文”证明大规模深度神经网络可无监督学习高级特征,并验证谷歌分布式系统的有效性。时任高管Sundar Pichai称其为Google AI关键时刻。成果应用于YouTube提升推荐精度和用户粘性,奠定内容审核与版权识别基础,间接驱动千亿美元产业价值。

2012年,Geoff Hinton学生Alex Krizhevsky与Ilya Sutskever设计AlexNet,在ImageNet竞赛中将错误率降至15.3%,远超此前水平。关键在于使用两块NVIDIA GPU进行并行训练,通过CUDA编程重写算法。AlexNet胜利确立GPU为AI核心硬件,推动NVIDIA跃升为AI浪潮领导者。

AlexNet成功促使三人成立DNN Research公司,仅资产为三位顶尖人才。百度出价1200万美元,谷歌、微软、DeepMind加入竞购。竞价在NeurIPS会议期间Hinton房间进行,DeepMind因资金退出,最终谷歌以4400万美元收购。三人原计划平分股权,Krizhevsky与Sutskever主动让导师Hinton占40%,各占30%。

此次收购被视为谷歌最划算交易之一,巩固其深度学习领导地位,后续创造价值远超价格,或覆盖Google X其他所有项目投入。

AlexNet表现与谷歌收购激发扎克伯格对AI重视。他认为Google优化YouTube的技术同样可用于改造Facebook动态消息。他亲自邀请Hinton前博士后Yann LeCun加盟,承诺FAIR设于纽约且LeCun保留教职。LeCun坚持开放研究模式,扎克伯格同意,与Google Brain文化契合。

FAIR提供核心技术、开源工具PyTorch与前沿探索。Llama系列模型确立Meta独特战略地位,从Llama 1到Llama 3开发出行业领先开源大语言模型。开源策略使Meta成开放AI生态核心,对抗OpenAI与Google闭源模型。但在竞争加剧背景下,FAIR面临理想主义退潮,直面成本效率考验。

谷歌收购DNN Research后地位稳固,但也启动硬件革命应对算力挑战,并催生强劲对手。Demis Hassabis等人创立DeepMind,愿景“解决智能,再用智能解决一切”,初期获Peter Thiel与马斯克投资。

2013年末,扎克伯格报价8亿美元收购未果,马斯克提议用Tesla股票亦失败。Larry Page因长期AI愿景与Hassabis契合,支持DeepMind独立研究并设外部监督委员会。2014年初,谷歌以5.5亿至6.5亿美元收购成功,但埋下内部文化冲突种子。

DeepMind与Google Brain长期争夺资源主导权,内耗拖慢进展。联合创始人Mustafa Suleyman经历边缘化后于2024年加入微软任消费者AI负责人,直面对抗老东家。收购后,DeepMind在AlphaGo击败李世石震惊世界,并优化算法降低谷歌数据中心冷却能耗40%。

收购激怒马斯克,为OpenAI诞生埋下伏笔。AlexNet成功后,Krizhevsky发现谷歌仍主要依赖CPU训练,自行购买GPU使用。基础设施团队曾抵制GPU维护集群简单性,但语音识别需求爆发迫使改变。Jeff Dean估算Android语音识别需翻倍数据中心规模,称“需再造一个Google”。

面对算力瓶颈与对外部供应商(主要是NVIDIA)依赖,谷歌决定自研芯片。基于Jonathan Ross等人FPGA探索,立项开发ASIC专用集成电路TPU。设计理念针对神经网络矩阵运算优化,采用低精度计算提升吞吐量。

TPU项目15个月内完成设计部署,形态可替换服务器硬盘。首次亮相于AlphaGo对决并成功,此后成谷歌AI基础设施核心竞争力,提供成本优势与战略自主权。

谷歌收购DeepMind令马斯克警惕,担心AGI垄断风险。2015年夏,他联合Sam Altman在Rosewood酒店组织晚宴,旨在策反顶尖AI研究员加入非盈利、开放研究AGI的新实验室。多数人因谷歌待遇资源拒绝,唯一例外是Ilya Sutskever。

Sutskever被OpenAI使命吸引,拒绝对手双倍薪酬加入。其加入带动Dario Amodei等人才离开谷歌,构成OpenAI最初核心技术力量。多年后,Sutskever成罢免Altman董事会政变关键人物,最终黯然离职。Amodei因安全与商业化分歧带领成员出走创办Anthropic。

OpenAI于2015年底成立,获马斯克、Altman等10亿美元初始捐款(实际到位较少)。初期研究追随DeepMind,专注复杂游戏环境训练AI智能体展示实力。

当谷歌拥有Google Brain与DeepMind两大实验室及TPU算力利器时,领导地位似不可撼动。但一项源自内部的研究成果却成“潘多拉魔盒”,为竞争对手提供赶超奇点,迫使谷歌陷入“创新者窘境”保卫战。

2017年,Google Brain八位研究员发表论文《Attention Is All You Need》,提出Transformer架构,核心为“自注意力”机制,克服RNN/LSTM难以捕捉长距离依赖与无法并行化问题。自注意力允许处理某词时关注序列中所有其他词关系,高度并行化适配GPU/TPU。

Transformer简洁优雅,初被怀疑无效,但在Noam Shazeer等优化下迅速超越LSTM系统。研究人员发现其具惊人可扩展性:模型越大、数据越多、算力越强,性能持续提升。预示新范式:“更多数据+更大模型+更多算力≈更好智能”。

作者末尾指出计划将Transformer应用于图像、音频、视频等模态。谷歌迅速认识其重要性,基于它开发BERT提升搜索理解能力。但遵循开放传统,允许论文公开发表,等于将开启新时代“钥匙”交给全世界包括竞争对手。

更具讽刺意味的是,论文全部八位作者相继离开谷歌,包括后来回归任Gemini技术负责人的Noam Shazeer。

Transformer发表时,OpenAI处十字路口。马斯克因方向、控制权与进展不满于2018年初退出并撤资,使原本资金紧张的OpenAI(10亿承诺仅到位约1.3亿)陷生存危机。

同时,团队捕捉到Transformer潜力,意识到构建大规模预训练语言模型(GPT系列)是希望路径。但训练巨模需天文算力,非非营利组织所能负担。

Sam Altman决定寻求商业合作调整结构。2018年微软投资10亿美元(部分为Azure云额度),换取技术优先使用权与商业化独占权。为此OpenAI设立“利润上限”营利子公司OpenAI LP,由非营利母公司控制。

最近OpenAI宣布资本重组,“利润上限”子公司演变为估值超1300亿美元的“公开利益公司”OpenAI Group PBC。非营利母公司成“OpenAI基金会”,凭26%股权有望成史上资源最充足慈善组织之一。

微软投资使OpenAI获续命资金与Azure资源;微软则绑定潜力技术伙伴,为Bing搜索、Office Copilot快速布局奠基。相较之下,谷歌拥有自有云平台与TPU,基础设施自给自足。

获微软支持后,OpenAI全力投入GPT研发。GPT-2(2019)与GPT-3(2020)相继发布,尤其GPT-3展现惊人文本生成理解能力引发关注。2021年GitHub Copilot发布,成首个大规模落地生成式AI产品,预示生产力革命。

OpenAI与微软深度绑定及其向“利润上限”转变,引发内部关于AI安全与商业化路径分歧。2020年底,研究副总裁Dario Amodei对商业化倾向与安全忽视感不安。

2021年初,Amodei带领核心研究人员集体出走创立Anthropic,明确将“AI安全”置首位,开发“合宪AI”方法论,至今持续发表AI安全博客文章。

Anthropic获谷歌等投资,成AI领域新力量,产品Claude成ChatGPT与Gemini主要竞争对手之一。其成立标志AI顶尖人才再次分流,正式开启“追求能力vs确保安全”的路线之争。

2022年11月30日,OpenAI推出基于GPT-3.5的ChatGPT聊天界面,原为测试模型或赶在Anthropic前发布的小应用,却因流畅对话体验引爆网络。一周破百万用户,两月破亿,成史上增长最快消费级应用,品牌几成AI聊天代名词。

ChatGPT成功震醒谷歌。高层意识到其对核心搜索业务构成生存级威胁。2022年12月,CEO Sundar Pichai拉响“Code Red”警报,要求将AI策略从“维持性创新”转为应对“颠覆性创新”战时状态。

微软迅速抓住机会。2023年初追加100亿美元投资OpenAI,高调发布由其技术支持的新版Bing与Edge浏览器。Satya Nadella宣称:“搜索新时代开始……要让Google跳舞。”老对手借盟友颠覆技术卷土重来直指谷歌心脏。

谷歌内部有类似技术储备。Noam Shazeer早前开发过内部聊天机器人Mina,后演变为LaMDA模型。但因安全性、准确性、品牌风险担忧,及商业模式冲突(AI直接给答案减少广告点击动摇现金牛业务)与法律风险等多重因素,未能推向市场。

相比之下,OpenAI作为挑战者无历史包袱,可选择“快速行动,打破陈规”。

面对内外压力,谷歌初步反击仓促。2023年2月匆忙推出基于LaMDA的Bard,演示中出现事实错误致股价大跌。用户体验普遍反映Bard能力落后同期ChatGPT。

挫折促使Pichai决心改革。2023年中做出两关键决定:合并Google Brain与DeepMind,组建统一Google DeepMind部门由Demis Hassabis领导,结束内耗局面;All in Gemini,集中力量开发统一原生多模态旗舰模型系列Gemini,要求所有产品线整合。

为保Gemini成功,谷歌不惜代价。Jeff Dean等核心大将与DeepMind协作,联合创始人Sergey Brin回归参与研发。斥资数十亿美元与Noam Shazeer创立的Character.AI达成合作协议,请回Shazeer与Dean共任Gemini项目技术负责人。

举措迅速见效。自2023年底起,Gemini系列高速迭代发布。Gemini 2.5 Pro已是顶尖模型,Gemini 3.0备受期待。谷歌逐步将Gemini整合进搜索(推AI Overviews)、推出Gemini App取代Bard,并尝试引入“AI Mode”。在文生视频(Veo)、文生图(Imagen)、游戏生成(Genie)等多模态领域发布多项突破技术。

此外,Google DeepMind在AI for science领域取得重大突破。AlphaFold 2系统于2020年高精度预测蛋白质三维结构,解决生物学界半个世纪难题,对生命科学与新药研发具深远意义。

基于贡献,AlphaFold 2核心开发者Demis Hassabis、John Jumper与David Baker共同获得2024年诺贝尔化学奖,表彰其革命性成就。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1