马克谈天下(491) 聊聊人工智能代理与其它AI工具的异同

最近,因为DeepSeek的超低投入,超高评分的LLM(大语言模型)对于市场的影响,很多人(包括一些根本就不了解科技的吃瓜群众,比如我80多岁的老妈)都开始对于AI有了兴趣,可以说,如果OPENAI的ChatGPT是LLM的巨大突破,从0到1的突破,那DeepSeek可能带来的低成本LLM,就可以让AI的应用成本大幅度降低,这个也是AI发展中重要的一个节点。

那有关AI,我们听到过很多的名词,比如“AI代理”、“副驾驶”和“助手”等等,那他们有那些区别,对于我们的生活有什么影响呢,让我们来简单聊一聊。

我们先来厘清“AI代理”、“副驾驶”和“助手”等流行术语之间的区别,并将这些定义与十几个流行AI工具进行对比分析。

现有的人工智能代理通常是“单足代理” —— 它们是具备行动能力的“工具”,但缺乏由外部事件触发的“传感器”。为了安全性考虑,它们的自主性被限制,尽管推理能力已经足够支持(半)自主行为。

迄今为止,大多数流行工具中的人工智能副驾驶/COPILOT(除了一些面向开发者的副驾驶工具外)无法实现深度的、用户定制化的人机协作。大部分人工智能工具仅仅停留在助手阶段,缺乏用户级别的记忆和对用户需求的真正预判。

ChatGPT无疑是目前市场上最强大的副驾驶工具之一。OpenAI正在努力将其转变为一个成熟的人工智能代理。然而,与专注于特定功能的副驾驶工具相比,它的多功能性可能会导致在特定场景中的适用性问题。

以下是对人工智能代理与副驾驶能力的高度简化概述:


人工智能代理与副驾驶能力简图

该图表展示了代理和副驾驶的核心能力,以及它们在不同AI工具中的实现水平。

我通过深入研究,提出了一个更简单的模型,以回答以下两个关键问题:

人工智能代理具备哪些能力?哪些特征使这些能力成为可能?

哪些类型的AI代理不是真正意义上的代理?它们的能力和特征中,哪些更符合人工智能副驾驶和助手——即它们的“前身”?

在此基础上,我还提出了一个更实际的问题:

当前人工智能市场中的产品,与前两个问题的概念性答案(基于人工智能专家和行业先行者的观点)之间存在哪些差距?(详见第5条)

1. 为什么这些区别重要?

如果你只是人工智能的普通用户,可能会对“人工智能代理”这一术语在实际场景中的含义感到困惑。你或许还希望了解人工智能代理、副驾驶和助手之间的区别,从而更好地理解你用于工作或个人目的的AI工具。可以直接跳到“AI代理的功能”部分。

如果你是人工智能的高级用户或负责企业AI落地,你可能希望知道应寻找哪些新的AI工具,以及对这些工具应抱有哪些期望。

如果你在一家AI初创公司工作,则需要明确自己产品的实际定位,并认识到可能影响市场趋势的因素。

普遍认为,2025年将是人工智能全面融入企业并被市场充分理解的重要节点。此外,这一趋势具有长期性:

根据吴恩达、谷歌及其他领先组织的观点,人工智能代理的普及被视为未来几年人工智能发展的重要方向之一。

AI代理市场预计每年将以45%的复合增长率扩展,到2030年市场规模将达470亿美元。

微软CEO萨提亚·纳德拉甚至预测,代理型应用程序可能会取代传统SaaS模式。

然而,如果“人工智能代理”这一术语仍然令您困惑,不应仅凭趋势和预测来判断其价值。

2. 人工智能代理的定义

目前最被广泛接受的定义来自2024年4月的Gartner创新洞察:

人工智能代理是一种自主或半自主的软件实体,利用人工智能技术感知其数字或物理环境,做出决策、采取行动,并实现目标。

这一定义强调了人工智能代理的五大核心能力(如上所述),而“自主性”是将其与具有类似功能的其他软件区分开的关键因素。

然而,上述定义未提及实现这些核心能力所需的一些特性。MarketsandMarkets在其定义中补充了两个高级特性:

人工智能代理能够在特定环境中运行,与用户、系统或其他代理进行交互,并具备自适应学习、上下文感知处理及跨各种应用自主功能的能力。

上下文感知处理:人工智能代理可根据环境条件及与用户交互的历史调整行为。

适应性学习:人工智能代理应具备记忆能力,能够选择性保留信息以持续优化行为。

与其他代理的交互:人工智能代理不仅限于代表用户与静态环境交互,还可构建动态的多代理系统,其能力远超单一代理。

许多资料都强调,自主代理的一个迷人之处在于它们有可能像员工或同事一样发挥作用。我认为,代理之间协作的能力为人类与人工智能团队合作铺平了道路——人工智能可以以类似人类的方式参与团队协作。

3. AI代理 vs. AI工作流 vs. AI副驾驶

在实践中,人工智能驱动的软件实体并不需要完全符合“代理”的定义(即具备所有列出的功能和特性)才能被视为代理。例如,一些系统可以作为半自主代理,拥有记忆和目标驱动的决策能力,但可能缺乏外部工具和传感器,或与其他代理交互的能力。

目前,AI代理和其他“人工智能工具”之间的界限尚未达成广泛共识。事实上,这种区分并不是一条明确的界线,而是多维空间中的复杂边界,其中包含决策类型、操作类型以及定义中的其他功能。

接下来,我们将探讨一些不同的视角,并将这个多维空间简化为一个直观的二维模型。

3.1 从业务角度看:AI工作流和代理

其中一个不太显而易见的区别来自Anthropic在2024年12月发布的一篇文章:

此文区分了 AI工作流(LLM作为预定义流程中的元素)和 AI代理(LLM动态指导流程)。

作为一家中小型企业(SMB)中负责实现AI工具的人员,我发现,即使是简单的AI工作流也非常有价值。尽管这些工作流为团队带来了巨大的好处,却也为我和其他开发人员带来了新的挑战。这正是我期待AI平台进一步发展的原因——以缓解这些挑战。

虽然Anthropic的架构区分在企业应用中很有用,但实际上还有许多其他视角可以用于区分代理和其他软件实体。

3.2 从个人角度看:AI副驾驶和代理

从不希望被完全自主AI系统??取代的用户角度来看,AI副驾驶通常就足够了,尽管一个AI代理可能会带来更多好处。

副驾驶通过针对具体场景提供建议,并与人类协作,提升决策能力。

为了更深入理解AI副驾驶,我们可以看看AI代理被广泛认可的核心能力:

自主性:在没有人类直接指导的情况下独立行动的能力。

目标导向行为:实现更广泛目标,而不仅仅是完成孤立任务。

环境交互:

a) 感知:通过传感器收集外部事件。

b) 行动:通过工具在外部执行任务。

c) 数据检索:从外部来源获取信息。

学习能力:记忆并决定哪些信息值得保留。如果用户可以管理记忆功能,那就更理想了。

主动行为:基于触发条件采取行动,而不仅仅是响应用户请求。

根据我的在线研究,AI副驾驶通常具备后两种能力,例如:

基于上下文的感知和学习(预测未来用户需求)

信息检索(3c)

与AI助手相比,这些能力使得人类与AI副驾驶的合作更加紧密,而AI助手则是这三类AI工具中功能最基础的。

能力1(自主性)和能力2(目标导向行为)是AI代理的核心区分点。而能力3(环境交互)则通常意味着比基础AI助手更复杂的按需信息检索。它还包括通过工具执行任务、通过传感器感知环境的能力。

这些传感器使外部触发器能够激活代理行为,而AI副驾驶的行为仅能通过用户操作触发。

4. AI代理的能力与特性图

综上所述,我们得出了以下的“代理能力模型”:



AI代理、副驾驶和助手的能力

尽管部分人可能对这一“框架”的具体内容存有异议,但核心区分不可否认:

AI助手 是被动的LLM用户请求处理器,类似于人类助手,在未明确指示下不会主动完成任务。

AI副驾驶 是高级助手,能在特定任务上与用户深度协作。即使未被明确指示,副驾驶也可主动建议所需的支持。

AI代理 包括助理和副驾驶的能力,并额外具备自主实现目标的“代理”功能,例如工具使用和传感器感知。

上述模型中,内存的部分可能最令人困惑,因为许多资料将记忆功能视为AI代理而非副驾驶的专有能力。

例如,Rezolve 的文章提到,即使是通过RAG(检索增强生成)进行的数据检索也通常归类为代理功能,而非副驾驶或助手功能,这可能是为了宣传其产品为“AI代理”。

然而,Mustafa Suleyman 认为,副驾驶也应具备用户层面的长期记忆功能。

我想补充一点,没有记忆,副驾驶无法实现对具体用户需求的深刻理解,而这是一个真正副驾驶不可或缺的特性。换言之,LLM无法有效处理完整的用户交互历史,除非最重要的见解被自动存储在某种形式的记忆中。

许多B2B公司尚未充分考虑AI副驾驶的概念,因为个人用户的需求并非他们的主要关注点。因此,他们往往将记忆功能归因于AI代理,而忽略了副驾驶的其他关键功能。例如:

现在,让我们将特定的AI工具映射到上述图表的组成部分。

5. 在广泛使用的人工智能工具中,有多少真正的代理和副驾驶?

除了功能和特性之外,人工智能软件工具的通用性也各不相同——即它们的专业化程度。一些工具专为特定垂直市场(如教育、零售)服务,另一些则面向特定业务功能(如市场营销、客户支持)或满足具体用户需求(如内容生成、翻译、问答、娱乐)而设计。

不同人工智能工具的功能完整性与其多功能性密切相关。

5.1. 最流行的人工智能工具

截至2024年8月,许多最流行的人工智能工具专注于特定需求或任务。例如:

文本改进:Grammarly、QuillBot

文本转语音:ElevenLabs

文本转歌曲:Suno

图像编辑:Canva

背景移除:Remove.bg(拥有近2%的人工智能市场份额????‍?)

这些工具中许多甚至不如最基础的人工智能助手复杂:

不具备从外部来源检索数据的能力。

不考虑用户上下文,仅能处理单一任务(如文本或图像)。

与传统软件无异,只是应用了专门的人工智能技术。

像DeepL、Luma、CapCut这样的软件可被归类为人工智能工具,但仅在最基本的意义上成立。在人工智能能力模型中,这些工具没有明确的位置。

相较之下,功能稍广泛的工具则接近人工智能助手的定义。这些助手能够处理更复杂的环境,但仍有限制。例如:

Character.ai和JanitorAI提供有限的多功能性,尽管它们满足了用户的创造性需求。

Perplexity Assistant主要基于网页搜索的问答功能,尽管受欢迎,但其用户需求范围较窄。

5.2. 高级多功能AI助手的例子

当前市场上最通用的人工智能工具包括:ChatGPT、Gemini、Claude、POE及众多新兴替代品。这些工具允许用户通过大语言模型(LLM)讨论任何主题,并提供丰富的功能,如:

文件处理

网络搜索

RAG(检索增强生成)访问外部知识库

可定制角色(系统提示)

提示模板

ChatGPT,作为该类别的领导者,不仅是市场份额的佼佼者,同时也因其高级功能脱颖而出:

画布功能和记忆功能,使其成为一款真正成熟的人工智能副驾驶。

GPT的动作/工具支持和自定义指令进一步扩展了其功能性,最近宣布的“Operator”功能甚至增加了传感器支持。

相比之下,Claude.ai是一个高质量但相对简单的副驾驶工具。它的功能集中于内容生成和编辑,用户可以选择风格化的“角色”,但无法完全自定义。Claude缺乏工具集成功能,因此不能作为代理构建器使用,尽管其开发者API支持代理开发。

此外,像NotebookLM和Dify这样的工具也值得关注:

NotebookLM:谷歌推出的人工智能助手,支持知识库集成(如Google Docs),用户可查看响应所引用的源文件,并排除无关内容。

Dify:一个被低估的强大辅助工具,支持概念、网站和文件的知识库集成,同时具备人工智能工作流构建能力,适合B2B场景。



上图展示了人工智能助手和副驾驶的能力,以及它们在现有人工智能工具中的实现情况。

尽管当前的多功能AI工具还不足以充当真正的代理,但它们的表现已十分出色。例如,ChatGPT是唯一具备记忆功能的工具,而这一功能对于副驾驶至关重要。

值得一提的是,代理功能的实现尚需时日。例如,尽管OpenAI的O1模型在推理方面已达到代理所需水平,但工具驱动的GPT尚未整合O1。出于安全考虑,OpenAI延迟了ChatGPT的代理功能发布,但一个功能完善且安全的AI代理可能即将问世。

从用户角度看,专用人工智能代理更安全,而专用副驾驶则更易于广泛采用。事实上,开发针对具体场景的人工智能副驾驶有许多显而易见的优势。

接下来,让我们看看当前市场上可用的专业人工智能副驾驶和代理的能力。

剧透:大多数工具尚未具备成熟的功能集。

5.3 微软的副驾驶是否名副其实?

我们从微软推出的“副驾驶”工具套件说起。这些工具并非统一的平台,而是多种独立功能的集合,且各自的能力参差不齐。

微软副驾驶套件的组成

Copilot Web 平台:该平台的功能有限,缺乏人工智能副驾驶的核心特性,例如对非图像文件的支持、知识库集成以及角色设定。即便作为一个基本的助手,其功能也相当有限。

Windows 应用程序 Copilot:这是一个少见的个人人工智能代理,但自主性和主动性有限。得益于与操作系统和微软应用的深度集成,它可以根据用户的请求完成一些“魔法”操作。

Microsoft 365 Copilot:这是面向 PowerPoint、Outlook、Teams 等办公应用的人工智能助手。它可以被视为一种“人工智能副驾驶”,与 Claude 相似,但二者都缺乏持久记忆功能,无法根据用户长期需求调整行为或改善表现。

Copilot Studio:该工具是一种人工智能代理构建器,专为企业设计,支持用户通过自定义数据和场景扩展 Microsoft 365 Copilot 的能力。

尽管如此,Microsoft 365 Copilot 相较于其他办公类副驾驶,如 Claude Artifacts,展现出了更高的专业化水平。特别是其专注于特定办公任务(如幻灯片制作和编辑),在某种程度上表现出了预测用户需求的能力。不过,这种预测似乎更多依赖当前文档内容和微软庞大用户群的数据,而非用户级记忆。

5.4 专用人工智能副驾驶与代理的案例

现有的全功能人工智能副驾驶在特定领域的表现,往往超越 Microsoft 365 Copilot 这种通用解决方案。以下是一些在教育、软件开发、营销和客户服务领域的代表性案例。

1. 教育领域:Monsha

Monsha 是一款针对教师的人工智能副驾驶,能够通过迭代协作帮助完成课程计划、测试等任务。其核心机制是基于“反馈提示”实现工件的完全再生成。尽管缺乏像 ChatGPT Canvas 那样的变更跟踪功能,也未实现记忆功能,但在教育类人工智能助手中,Monsha 的副驾驶功能相对成熟。

优化建议

开发教育类人工智能产品时,清晰呈现再生内容的变化可以显著减少用户审阅生成材料所需的时间,从而提高效率。

2. 软件开发:Cursor 与 GitHub Copilot

Cursor 和 GitHub Copilot 是人工智能副驾驶概念在开发领域的最佳实践。它们能够深入协作,支持对代码片段的精准改进,并明确显示更改内容。尽管尚未实现用户可配置的记忆功能,这些助手能够预测用户意图,主动建议代码修改或补全方案。

特点

自定义系统提示增强了工具的智能化表现。

能够智能检索项目代码库,将相关代码片段融入上下文。

3. 营销领域:Agentforce

Agentforce 是 Salesforce 平台中的一款半自主代理,能够利用全面的企业数据设计端到端的营销活动。虽然成本较高,但它代表了一种高度专业化的解决方案,其代理开发支持无代码实现。

特性

每一步的生成过程均需用户反馈,保留类似副驾驶的功能。

适用于 B2B 场景,满足企业级需求。

4. 客户服务领域:Intercom 的 Fin 机器人

Fin 是一款以客户成功为目标的人工智能代理,不仅执行助理功能,还通过自主操作能力直接解决客户问题,堪称真正的人工智能代理。其独特之处在于将人工智能扩展至数据分析层,这一功能在竞争平台中较为罕见。

未来展望

有分析预测,到 2025 年,专为垂直市场设计的人工智能代理将占据主导地位。然而,现有先进平台(如 Cursor 或 Agentforce)与基础垂直解决方案(如教育、医疗类代理)之间仍存在显著技术差距,短期内难以弥合。

这种技术差异也为创新者提供了机会,可着力开发下一代垂直市场人工智能解决方案。

结论

我们对人工智能代理和副驾驶的理论能力进行了分析,并将其与当前人工智能市场中的具体软件产品进行了对比。

毫无疑问,市场上的顶级功能主要集中在以下两个领域:

由市场领导者开发的多功能副驾驶(如 ChatGPT 等)。

为软件开发人员量身定制的专业副驾驶工具。

在目前的阶段,其他小众人工智能解决方案尚未达到“真正副驾驶”的标准。

关于代理能力

现有的“AI代理”在功能实现上各有侧重,通常专注于某一特定功能子集。因此,目前还难以将这些代理分类为“功能最齐全”或“较不先进”。此外,为了保障安全性,现阶段尚未出现“真正自主”的人工智能代理。

发现与市场差距

研究表明,人工智能梦想家所描绘的能力与当前市场产品特性之间存在显著差距。例如:

大多数人工智能副驾驶缺乏用户级记忆,无法有效预测个人需求。

大多数人工智能代理缺乏传感器功能,从而限制了主动行为的实现。

虽然这些局限性可能让用户感到失望,但对初创企业创始人而言,这也意味着重要的创新机会。

建议

希望我的研究能为您选择合适的人工智能工具提供帮助。

如果您是产品营销经理或初创公司创始人,可以利用文中提供的图表和示例,将您的 B2C 或 B2B2C 人工智能产品的核心功能与市场定位(如助理、副驾驶或代理)保持一致。这些信息或许还能帮助您识别新的市场机会,从而完善产品开发路线图。

另外,文中提到的另一张图表(有关 LLM 驱动产品成功与失败的关键因素)同样具有参考价值。

对于企业级应用的洞察

在 B2B 人工智能产品及企业内部人工智能系统的开发中,“人工智能工作流”,这样的替代概念往往比副驾驶更具相关性。

(本文内容来自于网络)

硅谷工匠 发表评论于
谢谢,写的很全面。无论如何是一个全新的未知赛道。整个计算机世界都要重塑。
markyang 发表评论于
马克的文章都是个人观点,尽量客观公正,希望大家评论时也是就事论事,不要发表太多情绪化的留言
登录后才可评论.