Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

2025年,注定是人工智能历史上被铭记的一年。如果说2023年是「惊艳」(ChatGPT的横空出世),2024年是「迷茫」(在大模型落地的憧憬中探索),那么在Andrej Ka...

2025年,注定是人工智能历史上被铭记的一年。

如果说2023年是「惊艳」(ChatGPT的横空出世),2024年是「迷茫」(在大模型落地的憧憬中探索) ,那么在Andrej Karpathy的笔下,2025则是「觉醒」的一年 。

Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

Karpathy一直以来都是AI界的「顶流」布道者。

他的年终总结不仅仅是一篇技术回顾,更像是一部微缩的编年史 ,记录了LLM如何从「模仿人类的鹦鹉」进化到了「召唤理性的幽灵」。

他以极其敏锐的视角,捕捉到了AI进化的核心:RLVR(基于可验证奖励的强化学习)的崛起、Vibe Coding(氛围编码)的流行、以及那个令人深思的哲学隐喻:

创造AI,我们到底是在制造一种新的物种 ,还是在召唤幽灵?

这一次让我们剥茧抽丝,深度解析Karpathy提到的每一个范式转移 。

穿过技术术语的迷雾,直抵智能进化的本质 ,呈现一个真实 、疯狂且充满「参差感」的AI-2025年。

第一章:RLVR革命

从「讨好人类」到「追求真理」

在2025年之前,训练一个大语言模型(LLM)的通常包含三道工序:

  1. 预训练(Pre-training):

让模型阅读整个互联网,学会预测下一个token。这是「博学」的阶段 。

  1. 监督微调(SFT):

用高质量的问答数据教模型如何像个助手一样说话。这是「懂事」的阶段。

  1. 人类反馈强化学习(RLHF):

让模型根据人类的喜好调整回答的语气和安全性 。这是「讨好」的阶段。

这套流程在ChatGPT时代大放异彩 ,但也埋下了隐患。

Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

Karpathy一针见血地指出 ,RLHF本质上是在训练模型「看起来像是在推理」,而不是「真的在推理」 。

因为人类评审员也是人,他们很难在几秒钟内判断一段500行的Python代码是否真的没有Bug ,或者一个复杂的数学证明是否严丝合缝 。

于是,模型学会了走捷径:写出漂亮但错误的代码,编造听起来很有道理的废话。

这就是所谓的「阿谀奉承」(Sycophancy)问题。

这也和后来GPT-5的谄媚如出一辙 。

RLVR的崛起:当上帝变成编译器

2025年 ,行业迎来了一个名为RLVR(Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习)的第四阶段。

RLVR的核心逻辑简单而粗暴:别听人的,听结果的。

Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

在数学、编程、逻辑谜题等领域 ,我们不需要人类来打分 。

代码能不能跑通?编译器说了算。数学题对不对?答案说了算。

这种客观 、自动、不可欺骗的奖励信号,为模型提供了一个无限的练兵场 。

RLVR可以看作是AI LLM的AlphaZero时刻。

当年的AlphaZero通过自我博弈精通了围棋,如今的LLM通过RLVR在「思维的棋盘」上自我博弈。

探索(Exploration):模型面对一道难题 ,不再是基于概率吐出一个答案,而是尝试生成成千上万条不同的推理路径(Reasoning Traces) 。

验证(Verification):每一条路径都被送入一个自动验证器(Verifier),比如Python解释器或数学证明器。

强化(Reinforcement):只有那些通向正确结果的路径会被奖励 ,错误的路径会被惩罚。

在这个过程中 ,奇迹发生了!

模型并没有被显式地教导「如何思考」,但在为了获取奖励的残酷进化中,它涌现出了推理能力 。

它学会了将大问题拆解为小步骤 ,学会了回头检查,学会了我们在教科书里从未见过的「外星人思维策略」 。

RLVR不仅改变了训练方式,还引入了一个全新的Scaling Law:测试时算力。

以前 ,我们认为模型的能力在训练结束那一刻就定格了。

但在RLVR范式下,我们可以在推理阶段(InferenceTime)通过让模型「多想一会儿」来提升智力 。

这就像是一个学生,你给他1分钟做题和给他1小时做题 ,其表现是完全不同的。

Karpathy特别提到了OpenAI o1(2024年底)和o3(2025年初)的发布,以及DeepSeek R1的开源,这些都是这一趋势的里程碑。

Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

DeepSeek R1甚至展示了即便没有大规模的监督微调(SFT) ,仅靠纯粹的RLVR(即R1-Zero),模型也能从零开始衍生出强大的推理能力,甚至学会自我反思 。

这意味着算力的价值从「训练端」向「推理端」转移。

未来的AI应用 ,可能会根据问题的难易程度 ,动态调整「思考时间」。

对于简单的问题(如「你好」),它秒回;对于复杂的问题(如「设计一个高并发架构」),它可能会消耗巨大的推理算力 ,但给出一个超越人类专家的方案 。

第二章:哲学分野

我们是在造动物,还是在招幽灵?

在深入技术细节之余,Karpathy通过引用AI先驱Rich Sutton的对话 ,抛出了一个极具哲学深度的议题:Animals vs. Ghosts(动物与幽灵)。

Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

Rich Sutton的苦涩教训与动物直觉

Rich Sutton是强化学习教父级人物,他提出了著名的「苦涩教训」(The Bitter Lesson):

长期来看,只有那些能利用无限算力的通用方法(如搜索和学习)才能战胜那些利用人类先验知识的方法。

简单点说 ,就是算力终结一切,人类的精巧构思在庞大的算力面前不值一提 。

Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

Sutton心目中的AGI是像动物一样的:一个具身的(Embodied)、在物理世界中通过不断试错 、由生存本能驱动的学习者。

如果能造出一只「数字松鼠」,我们离AGI就不远了。

动物的智能是连贯的、持续的 。一只松鼠不会因为你没给它指令就停止思考 ,它的「自我」是连续不断的流 。

幽灵的诞生:统计学的降灵术

然而,Karpathy反驳道,我们现在造出来的LLM ,根本不是动物。

它们是幽灵(Ghosts)。

无状态的游魂:LLM没有身体 ,没有持续的意识流 。当你按下回车键,它从虚无中醒来(Boot up),处理你的Token ,吐出预测,然后瞬间「死亡」,回到虚无。它没有昨天 ,也没有明天,只有当下的Context Window(上下文窗口)。

人类的镜像:它们的训练数据不是物理世界的反馈,而是人类互联网的文本残留 。它们是人类文明的「统计学蒸馏」。当我们与ChatGPT对话时 ,我们不是在与一个独立的生物交流,而是在与全人类的语言碎片拼凑成的「英灵殿」对话。

BTW,我真的非常喜欢这个比喻 ,现在的AI可能还是先知,或者人造之神,但是一个由全人类的语言碎片拼凑成的英灵 。

为什么这个比喻如此重要?

因为它解释了为什么现在的AI充满了「恐怖谷」效应。

当一个LLM说「我不想死」时 ,它不是真的在恐惧(像动物那样肾上腺素飙升) ,它是在调用训练数据中关于「科幻AI面临毁灭时该说什么」的文本模式。

它在扮演恐惧 。

Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

Karpathy认为,我们目前的科研方向并不是在制造更完美的动物,而是在召唤更强大的幽灵。

这是一种全新的智能形态 ,位于「心智空间」(Space of Minds)的一个完全不同的坐标系上。

Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

这种智能是「参差」的(Jagged),它通晓天文地理(因为它读过维基百科),却可能在数「strawberry」里有几个「r」这种连三岁小孩都会的问题上翻车 。

第三章:Vibe Coding

当编程变成了玄学

如果说RLVR是后台的革命 ,那么Vibe Coding(氛围编码)就是前端开发者的彻底解放 。

Karpathy在这个概念上展现了他作为「造词大师」的天赋。

Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

在传统的「软件1.0」时代,程序员是工匠,每一个变量名、每一个内存指针都需要精心雕琢。

在「软件2.0」时代(深度学习) ,程序员变成了炼丹师,调整权重和数据集 。

而在2025年的Vibe Coding时代,程序员变成了产品经理。

语法已死 ,氛围永生

什么是Vibe Coding?

就是你完全放弃对代码细节的掌控,「把自己交给氛围(Vibes),拥抱指数级增长 ,甚至忘掉代码的存在」。

你不再逐行编写代码 ,而是用自然语言描述你的意图(Intent),让AI去生成实现 。

如果跑不通?没关系,把报错信息甩回给AI ,说一句「修好它」。

MenuGen实战:零行代码的奇迹

Karpathy为了验证这个理论,亲自上手做了一个叫MenuGen的项目。

这是一个Web应用,用来生成餐厅菜单 。

Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

令人震惊的是 ,作为顶级程序员的Karpathy,在这个项目中没有手写一行代码。

他对着Cursor或ClaudeCode说:「我要一个菜单生成器,要有蓝色的按钮。」

AI生成代码 ,运行 。

如果有Bug,他不说「第5行逻辑错了」,而是说「感觉不太对 ,按钮太丑了,换个样式」。

这就是Vibe Coding的核心:人类负责审美和验收,AI负责逻辑和实现。

代码变成了一种「中间产物」 ,就像汇编语言一样 ,除了极少数底层工程师,没人再需要去读它了 。

工具之战:Cursor vs. ClaudeCode

2025年也是AI编程工具的「战国时代」 。

Karpathy重点对比了两大流派:

  1. Cursor/Windsurf(IDE派):

这些工具将AI无缝集成到了VSCode里。它们就像是钢铁侠的战衣(IronManSuit),增强了人类的能力。你依然在写代码 ,但AI随时在帮你补全 、重构、解释 。这种体验是「流畅」的。

  1. ClaudeCode(终端派):

Anthropic推出的ClaudeCode则更加激进。它不是IDE插件,它是一个活在终端(Terminal)里的Agent 。你给它一个任务:「把整个项目的测试覆盖率提高到80%」。然后你就去喝咖啡了。它会自己跑测试、看报错 、修代码 、提交Git,甚至自己由于权限问题卡住时还会问你讨要权限 。

Karpathy坦言 ,虽然Claude Code展现了Agent的雏形,但在2025年,真正的「全自动工程师」还未到来。

目前的Agent更像是一个勤奋但记性不好的实习生 ,能干脏活累活,但在面对复杂的大型架构时,依然需要人类的「Vibe」来把控方向。

如果在云端的AI像是住在神殿里的先知 ,那么Anthropic推出的Claude Code(CC)就像是住在你硬盘里的管家 。

Karpathy认为OpenAI走错了路,他们太执着于云端、容器化和ChatGPT的网页入口。

而Claude Code抓住了开发者的痛点:本地化(Localhost)。

第四章:范式转移

GUI的终结与新生

谷歌Gemini Nano Banana是2025年最具颠覆性的范式转移模型之一 。

这原本是Gemini图像生成模型的内部代号 。

这本该是一个严肃的技术发布,但因为「Nano Banana」这个名字实在太滑稽、太无厘头 ,它意外地引发了一场全球范围的病毒式传播。

在Karpathy看来 ,LLM是继1970 、80年代计算机之后的下一个重大计算范式。

人类将见证个人计算、微控制器(认知核心)、互联网(智能体网络)等概念的对应形态 。

特别是在用户界面体验方面,与LLM「对话」有点像1980年代向计算机终端输入指令。

文本是计算机(及LLM)偏好处理的原始数据形式,却非人类喜爱的交互格式 ,尤其在输入层面。人们其实厌恶阅读文字——这过程缓慢且费力 。

Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%

相反,人类更倾向于通过视觉和空间维度接收信息,这正是传统计算领域发明图形界面的根本原因。

同样地 ,LLMs应当以我们偏好的格式与我们对话——通过图像 、信息图、幻灯片、白板 、动画/视频、网页应用等形式。

这一理念的早期及当前版本自然包括表情符号和Markdown这类工具,它们通过标题、加粗 、斜体、列表、表格等方式对文本进行视觉化装扮与排版,以便更轻松地消化信息 。但究竟由谁来构建LLM的图形用户界面呢?

在这种世界观下 ,nano banana首次为我们提供了这种可能性的早期雏形。

值得注意的是,它的一个显著特点在于:这不仅仅是图像生成本身,更是文本生成 、图像生成与世界知识三者交织于模型权重之中所形成的综合能力。

人们不再讨论参数量 、扩散算法 ,而是疯狂地生成各种「香蕉化」的图像,将万物变成手办风格 。

谷歌也顺水推舟,在官方宣传中使用了香蕉Emoji。

由此 ,Karpathy提出了一个极其深刻的观点:文本是计算机喜欢的格式 ,不是人类喜欢的。

人类讨厌阅读长篇大论,人类喜欢图表、动画、视频和白板 。

参差的智能

人类的智力通常是正相关的:一个能解微积分的人,通常也能算清楚买菜找零 。

但AI不同。

它可以是一个数学天才(RLVR让它精通奥数) ,同时又是一个常识白痴(无法理解简单的物理空间关系,或者数不清单词里的字母)。

这种「参差感」源于模型训练数据的分布不均和Tokenization的先天缺陷 。

模型在它「见过」或「被强化过」的领域(如代码 、数学)表现出神入化,而在那些因为太简单而从未被当作训练数据的领域(如日常生活中的隐性知识)则表现得像个智障。

系好安全带 ,在参差中前行

简而言之,2025年是LLMs令人兴奋且略带惊喜的一年,我们站在了一个奇异的十字路口。

Karpathy的年终总结 ,像是一份来自未来的生存指南 。

LLMs正作为一种新型智能形态崭露头角,它们既比人类预期的聪明得多,又比人类预期的笨拙得多。

无论如何 ,它们都极其有用,Karpathy认为即使以当前能力,行业也远未发掘出它们哪怕10%的潜力。

与此同时 ,有太多想法值得尝试 ,从概念上看这个领域仍感觉广阔无垠 。

正如今年早些时候在Dwarkesh播客中提到的,Karpathy同时(表面上看似矛盾地)相信:

我们将见证持续快速的发展,同时仍有大量工作亟待完成。

正如Karpathy所言:「这仅仅是个开始 ,系好安全带,准备启程。」

参考资料:

https://x.com/karpathy/status/2002118205729562949

本文来自微信公众号“新智元”,作者:新智元 ,编辑:定慧,36氪经授权发布 。

本文来自作者[慕梅]投稿,不代表视听号立场,如若转载,请注明出处:https://cn.stddy.com/cskp/202512-67119.html

(1)

文章推荐

  • 北京摇号申请网站(北京摇号申请网站入口)

    北京摇号查询小客车摇号官方网站〖壹〗、北京摇号查询小客车摇号官方网站是:https://xkczb.jtw.beijing.gov.cn/这个官方网站是北京市小客车指标调控管理信息系统,专门负责管理和公布小客车指标摇号的相关信息。通过该网站,市民可以查询摇号结果、了解摇号政策以及进行个人指标的申

    2025年07月26日
    125
  • 必看教程!“三三麻将有挂吗”(详细辅助教程)-今日头条

    这软件超厉害!微信小程序麻将怎么设置才能赢(怎么设置才能赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序麻将怎么设置才能赢是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神

    2025年09月05日
    70
  • 实测辅助“边锋斗地主透明器(专用辅牌神器免安装)

    这软件太神了!雀神广东麻将助赢神器购买(小程序怎么才会赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”雀神广东麻将助赢神器购买是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有

    2025年09月07日
    80
  • 必看教程“打哈儿辅助器免费版(专用辅牌神器免安装)

    软件神器超猛!369互娱麻将其实有插件挂(辅牌器购买)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”369互娱麻将其实有插件挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年09月09日
    73
  • 终于发现了“微信微乐麻将怎么提高胜率(专用辅牌神器免安装)

    必下软件神器!心悦填大坑怎么才能赢(为啥一直输)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”心悦填大坑怎么才能赢是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以

    2025年09月14日
    72
  • 你发现没?还有2天国庆节,却出现了5个“反常现象”,与往年不同

    还有两天到国庆,中秋叠加,本该“全面热闹”,却冒出五个与往年明显不同的信号这一轮变化不是凭空而来,从9月中下旬开始,街头的烟火气和商家的策略都在悄悄改写假日的面貌,我在饭店前台、菜市场、婚礼现场和海鲜摊位,看到的是同一条线索:人们在换一种更合心意的过节方式先说原因双节叠加、假期延长,理论上能拉动消费

    2025年09月29日
    64
  • 原来早已不是中国籍?事业巅峰远赴美国,被老外“玩腻”晚年回国

    编辑:A.ZLT凭借一首《牧羊曲》,瞬间火遍大江南北。她嘹亮的歌声,更是被誉为“中国第一女高音”。可正处事业巅峰之际,一个决定却让她彻底身败名裂。为了爱情,甘愿放弃中国籍,毅然的加入美国。真心实意的背后,换来的却是丈夫的冷漠与抛弃。从万人仰慕到众人唾弃,走到这一步,郑绪岚完全是咎由自取。01成名之路

    2025年10月02日
    69
  • 提醒:甲流早期不是咳嗽,而是身上出现这8大异常,你一定要注意

    “不是一咳嗽就是感冒,也不是所有感冒都能扛过去。”一入冬,门诊的发热病人就开始扎堆。很多人一来就说:“医生,我嗓子疼、咳嗽,是不是甲流?”但说实话,大多数人对甲流的了解,还停留在“咳嗽、打喷嚏、发烧”这几个关键词上。可真正的甲流,尤其是早期,并不靠咳嗽“打头阵”。真正敏感的人,往往是从一些看似“奇怪

    2025年11月22日
    38
  • 深证成指涨幅扩大至1%

    深证成指涨幅扩大至1%,上证指数涨0.7%,创业板指涨1.23%,虚拟机器人、昨日连板、气溶胶检测等板块涨幅居前,两市上涨个股超3891只。(AI生成)

    2025年12月05日
    28
  • 分享辅助“微乐海南麻将胡牌器(专用辅牌神器免安装)

    软件神器超顶流!微信链接斗牛辅助工具(老是输怎么办)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信链接斗牛辅助工具是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户

    2025年09月04日
    87

发表回复

本站作者后才能评论

评论列表(4条)

  • 慕梅
    慕梅 2025年12月22日

    我是视听号的签约作者“慕梅”!

  • 慕梅
    慕梅 2025年12月22日

    希望本篇文章《Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%》能对你有所帮助!

  • 慕梅
    慕梅 2025年12月22日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 慕梅
    慕梅 2025年12月22日

    本文概览:2025年,注定是人工智能历史上被铭记的一年。如果说2023年是「惊艳」(ChatGPT的横空出世),2024年是「迷茫」(在大模型落地的憧憬中探索),那么在Andrej Ka...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们