21世纪经济报道 记者 崔文静 北京报道
从DeepSeek掀起效率革命,到OpenClaw引爆“养龙虾”热潮,人工智能正以前所未有的速度从技术圈走向大众视野。当AI开始替人“干活”,当视频生成进入“分时代”,我们究竟站在怎样的变革节点?
21世纪经济报道记者专访清华大学人工智能研究院副院长、生数科技创始人朱军,深度解析AI智能体热潮背后的技术逻辑,探讨生成式AI能力边界的拓展对普通人意味着什么,以及在全球AI竞争加剧的背景下,中国如何从“跟跑”走向“领跑”。
朱军指出,当前“养龙虾”热潮标志着AI正从“回答问题”向“替人干活”的实质性转变,这将深刻改变人与工具的关系。面对技术变革,他主张积极拥抱而非焦虑逃避,强调创造力、想象力和情感是AI难以替代的人类核心能力。
在AI治理层面,他认为需要技术、法规与公众意识“三管齐下”系统性应对。
谈及中国AI的全球定位,朱军认为视频模型领域中国已在多方面处于引领地位,但基础研究的源头创新仍是实现全面领跑的关键突破口。

从“养龙虾”到“替人干活”:AI正在重塑人与工具的关系
21世纪:如何看待“养龙虾”热潮?这是否意味着AI正从“回答问题”向“替人干活”转变?
朱军:这股热潮确实代表了AI应用模式的深刻转变。过去我们主要用大模型进行问答交流,它像一个知识渊博的顾问。但现在,它正与我们的日常工作深度融合,智能体会成为一种越来越常见的形态。
这种转变的背后,是基础模型综合能力的系统性提升。过去模型只能处理单一任务,今天它能够理解复杂指令、调用工具、规划步骤、执行操作。比如程序员编写代码、老师准备课件,都可能变成“一键式”任务。许多标准化工作被固化为可复用工作流,用户只需在开始时“养”好它,设定规则和偏好,后面就可反复使用,极大提高效率。
对于未来三到五年普通用户的感受,我认为想象空间巨大。几乎所有与知识相关的工作都会受影响。从正面看,它能促进效率提升;从反面看,可能引发“被替代”的担忧。但我的看法是,AI不是替代人,而是为人类提供了更好的工具,随着工具提升,人的能力会被进一步解放,去做更有想象力、创造力的事情。
当然,这种变化也伴随着风险。我国做人工智能规划时,一直坚持发展与治理并重。“养龙虾”现象就是一个案例:技术进步带来便利,但初期系统安全等问题可能未被深入关注。但我相信,这些问题很快会被反复讨论,甚至可能出现针对这类智能体的防护工具。这是一个相互促进的过程,治理是为了保障更好的发展,两者相辅相成。
21世纪:AI存在数据投毒、隐私泄露等安全隐患,如何治理这些问题?
朱军:安全问题需要系统性解决。数据投毒、隐私泄露等问题,从防范角度看,可从几个层面入手。
第一,技术层面。模型服务机构需在训练和推理过程中部署防范技术,从科研入手研发更安全的AI管理系统,提升模型对恶意输入的抗干扰能力。
第二,法律法规层面。预计国家会出台相应治理办法规范黑灰产行为,行业已有不少防范措施,能形成制度性约束。
第三,社会层面。需要提升公众意识,形成广泛社会监督。随着AI普及,公众认知加深会形成天然防护网,提高恶意行为的成本和门槛。
焦虑还是拥抱?AI时代的人类竞争力
21世纪:生成式AI快速发展,对不同行业从业者有何影响?哪些能力难以被AI替代?
朱军:变化对所有人都一样。第一波受到冲击的其实是AI从业者本身——做模型的节奏被压得非常快。
现在广泛使用AI辅助编程,但并不意味着人就不需要懂专业了。你很难把重要事情完全交给机器自主完成。最终的程序验证、审核、决策权,应掌握在人类手上。所以对从业者的要求反而更高了。
我们发现一些本科生过度依赖智能工具,自己并未真正掌握知识,结果考试成绩很不理想。这个时代的要求是:既要会用工具,也要能真正掌握知识,还要能理解、验证甚至纠正它。
至于哪些能力是AI难以替代的,我觉得人的创造力、想象力,以及情绪、情感,是当前机器无法真正复制的。比如弹钢琴,机械臂可以弹得更准,但听音乐会时,你希望听到机器人演奏,还是能融入情感和人生阅历的演奏?后者才是有灵魂的艺术。再比如视频生成,其中的美学判断、最终要表达什么,仍然需要人来掌控。
关于工作未来会不会被AI取代,我觉得要动态来看,人具有很强的适应力和学习力。长远看,人会找到更有价值的工作,甚至会有大量今天想象不到的新工作被创造出来。
21世纪:在AI时代,什么样的技能会变得更加重要?
朱军:核心是学习力、动手能力,以及对环境变化的接受度和适应力。也就是说,要有积极拥抱变化的心态。因为工具在变,每个人都需要持续学习。像“养龙虾”出现后,我也去学习、去安装,体验它能做什么。这对每个人都是公平的。
在这个时代,学习是必须的,但可能比以往更难,因为需要学的东西更多了。但学好之后,能用的强大工具也更多了。我相信,今天庞杂的工具生态未来会进一步沉淀。比如主要工作可能80%只需要少数核心工具就能完成,学习成本会逐步下降。
从另一个角度看,技术变革对很多人其实是机遇。过去一些技能掌握在少数人手里,技术变革后知识趋于平权,每个人的机会反而更多了。与其焦虑,不如主动去学习、去掌握,让自己站在更高的平台上。
从“跟跑”到“领跑”:中国AI的底牌与突围方向
21世纪:中国AI相较全球顶尖水平的优劣势是什么?如何从“跟跑”走向全面“领跑”?
朱军:目前格局比较明显,中美两国处于领先梯队,已经与其他国家拉开差距。
中国的优势是多方面的:首先是市场巨大,能够提供丰富应用场景和海量数据资源;其次是工程师人才众多,有全球规模最大的理工科人才储备;此外,在数据收集、场景落地方面,人力成本相对有优势,能够实现规模化快速迭代。
对比而言,大家常讲我们在基础研究上可能没有美国起步早、布局全。但其实中国在不少特定方向上已做出很多原创性工作。从深度学习到大模型,在中国内地工作的科研人员,以及走出去的留学生,都发挥了巨大贡献。这其实也是优势之一,因为我们培养了很多优秀人才。
在视频生成这个细分领域,我认为格局又有所不同。现在可以认为中国的视频模型在全球很多方面处于引领地位。视频模型领域与大语言模型领域不同:大语言模型已有能力非常领先的头部公司,而视频模型领域公司的密度还比较稀疏,大概率不会出现一家独大。
以我们团队研发的Vidu为例,2024年4月推出时是全球最早完全对标Sora的视频大模型之一。到2025年1月的Vidu 2.0,生成速度取得突破,10秒即可生成4秒视频,每秒成本最低降至4分钱,进入“分时代”。这得益于在模型架构和算法方面的长期积累,比如现在行业常用的Diffusion架构,就是我们团队率先提出并实践的,比OpenAI的Sora团队还要早。
但要真正从“跟跑”走向全面“领跑”,最需要突破的还是基础研究上的源头创新。因为做AI,底层技术是决定性的。谁率先在认知上取得突破,谁就更有可能获得持续优势。当技术变成确定性后,大家就是在堆资源、拼规模。而更多优势可能源于源头创新,这才是持续领先的关键。
具体来说,在视频生成领域,我认为大概率不会出现像DeepSeek这种靠单一效率实现遥遥领先的模型。因为大家已将效率理念广泛实践。视频生成的颠覆性突破或许不会来自效率的“代际差”,而是通过逐步实现人类意图的精准控制,最终迎来“人人可用”的爆发点。我们还在等待视频模型的“ChatGPT时刻”。
