Genspark景鲲专栏再更新:多模型和多代理才是未来

来源:蓝驰创投

景鲲Seeing AGI专栏的第五篇终于来了。这次景鲲聚焦讨论了一个AI领域的专业问题:究竟是单一模型统治一切,还是多模型+多代理架构会最终取胜?在技术最前沿充分实践后,他坚信后者才是真正的未来。这关乎一个古老又颠扑不破的准则:让专业人去做专业事。景鲲认为,追求单一模型的全能纵使可能但也必将流于平庸,而多模型+多代理架构通过调用或开放、或封闭的能力,给用户提供最佳的体验。

以下是景鲲的原文,由蓝驰编译,enjoy reading:

“AI的未来不在于寻找一个完美模型——而在于调度专业模型与代理的最佳组合,创造单一系统永远无法企及的体验。”

在前四篇文章中,我分享了见证AGI降临的历程适应之道以及它如何改变我们的工作内容与体验。今天,我想直面AI领域的核心争论:关于未来演进,目前存在两大阵营。一方信仰 “一个模型统治一切” ——认为单个超智能系统就能解决所有问题;另一方则坚信多模型+多Agent的架构。

作为少数构建了Super Agent并深度测试数千款AI产品的公司,我想说明为何后者才是真正的未来。

作为OpenAI、Anthropic等头部AI公司的战略伙伴,我们对此有着独特洞察。我们的合作让我能亲手体验各实验室最先进的模型。通过服务百万用户的产品实践,以及在模型投产前的大量测试,我得出了一个或许不受欢迎的结论:

“单一模型统治论”只在理论上成立。

现实是:将不同专业模型的独特优势与定制化Agent结合,才是创造卓越用户体验的关键。

我知道这挑战了许多人的认知。但在反驳前,请容我阐述背后的逻辑。

先说每个AI从业者都清楚的事实:目前没有任何模型能在所有领域称王。

凭借与顶尖模型团队的深度合作,我们洞悉各AI系统的专长与短板:OpenAI擅长深度研究与创意写作,Anthropic Claude以代理推理与硬核编码见长,Gemini在多模态理解(图像/视频/复杂视觉解析)持续领跑,Grok Heavy擅长大规模复杂推理,而Kimi+Groq组合则以极致速度与性价比突出……我发现这种现象早已不局限于编程。

每套模型都是千锤百炼的领域专家:OpenAI千亿参数淬炼创造力与研究深度,Anthropic死磕安全与推理能力,Google Gemini为多模态理解重构基因——它们承载着通往智能的不同哲学路径。而产品实践教会我:强求单模型全能如同让F1赛车兼任货车、SUV和保姆车,纵使可能也注定平庸。

真正的魔力迸发于组合专长:在我们代理混合系统中,创意写作由OpenAI担当,复杂推理分配给Claude,视觉分析指向Gemini——这不仅是性能优化,更是通过调度领域最优系统,让用户体验真正的"超智能"。当技术同行见证这套架构时,"天,这就是AGI本尊!"的惊叹总是不约而同,因为AGI的本质绝非完美单体,而是多元专长的智能调度。

想象一下:你只能用文本编辑器、计算器和网页浏览器这些基础工具,在电脑上解决一个复杂问题;对比之下,你拥有一个功能完备的工作站——集成开发环境(IDE)、数据库、分析工具、设计软件,还有为每项任务量身定制的专业应用。这二者在效率和产出质量上的差距是天壤之别。然而AI行业却有很多人迷信"单一模型+少量通用工具"就足够了——只因AI能搜索、写代码造工具。这种思路是本末倒置的。

现实世界专业领域的运作,依赖的是极其多元化的专用工具生态。外科手术室里,排列着上百件专业器械——每一件都针对特定操作步骤精心打磨;电影制片厂中,配备了专业的灯光、收音、摄影机、剪辑及后期特效设备;金融交易大厅内,奔涌着实时数据流、风控系统、量化交易平台和合规监控工具。正是这些工具集的深度与多样,才产出出专业级的成果——单靠几件通用工具,根本无从企及。

再看顶级专业人士的真实工作方式吧:他们投入大量精力在构建和维护本领域最优秀的预制工具上。每当新任务来临,他们第一时间就能选用最优工具解决问题。即使他们有“从零打造解决方案”的能力,但只有当新兴需求足够重大时,才会投入资源构建新工具。这种模式,最大化地兼顾了效率、质量与灵活性——它正是抵达卓越颠扑不破的准则。

AI行业终将认识到这一规律。最成功的AI应用,绝不会试图用几件基础工具打天下——它们正在构建与目标领域的复杂度和专业度相匹配的完整工具集。那些深谙此道的公司,将能提供更优质的AI体验——但请注意,绝非“通用”的AI体验。

“单个Super Agent包办一切”的理论看似美好,却误解了抵达专业的路径。 你不会雇佣MIT博士同时担任厨师、司机、开发者和设计师——即便他们拥有完成这些任务的基本能力,但这既不经济也不是最优解。

经济学原理很简单:专业化驱动效能与质量。 想象MIT博士做汉堡——他能做出像样的汉堡,但代价是什么?你支付着博士级薪酬,换来的却是普通厨师就能更快、更好、用几分之一成本完成的工作,同时,你在浪费他本可用于专业领域的才能。

这不仅关乎成本——更在于通过智能的专业化来释放指数级能力。顶尖企业不雇全能手包揽一切,而是组建在各自领域里精通的专业团队。世界级餐厅的成功非因一人全能,而因主厨、副厨、甜品师、侍酒师各展所长。

真正的突破不在单一Agent的能力——而在赋能代理间无缝沟通、任务接力、贡献互馈的调度层,由此集体达成单Agent无法企及的目标。正如冠军球队的魔力不在球星个人,而在团队协作的精髓:预判走位、补位短板、放大优势,创造唯协作出奇迹的可能。

先直面房间里的大象吧:有人断言,模型公司终将关闭API,把最强能力留作自用——这会让多模型协同成为泡影。这种担忧可以理解,但它忽略了一个关键的经济效应:

市场永远会奖励提供最佳用户体验的人,无论公司自身的商业需求。根本问题在于:到底哪条路,才能真正为用户交付卓越体验?想必你心中已有答案。

关于AI生态的现实是:它足够广阔和多元,足以容纳多种路径并行。在任何繁荣的生态中,总会有人选择打造封闭系统,也有人选择保持开放。这种共存不是缺陷——它恰恰是生态活力的特征。 正如整个科技行业既有苹果的封闭生态,也有谷歌的开放生态,二者满足不同用户需求且并行繁荣,AI世界也终将演化出类似的平衡。部分用户偏爱封闭系统的无缝整合,另一部分则青睐多模型架构的灵活与强大。

关键在于,这种路径的多样性,构成了驱动创新的竞争压力。追求垂直整合的公司,会不断突破单一模型的能力天花板;追求协同的公司,会不断探索群体智能的成就边界。两种路径都将催生突破性成果,最终惠及用户。

多模型+多代理系统正视这一现实,并将其转化为竞争优势。通过智能整合来自各方的顶尖能力——无论是开放API、合作伙伴,还是自有模型,这样的系统能持续提供超越任何单一模型的体验。用户得以同时享有:顶尖的创意写作能力、顶尖的逻辑推理能力、顶尖的视觉理解能力、顶尖的编程辅助能力——这将是无缝衔接的体验。

我押注的路径是:从用户需求出发,反向推导出最优技术方案;而非从内部能力出发,指望用户迁就局限。在开放与封闭系统必将共存的世界里,真正的赢家,将是那些能在这片生态中智慧航行,为用户交付极致体验的探索者——无论这体验,需要的是一个模型,还是千百个模型的交响。

免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。

2、如因作品内容、版权和其他问题请与本站管理员联系,我们将在收到通知后的3个工作日内进行处理。