跳至主要内容

简介

适用于语音、视频和物理 AI 代理的实时框架。

概述

Agents 框架允许您将任何 Python 或 Node.js 程序作为完整的实时参与者添加到 LiveKit 房间。使用 Python 和 Node.js SDK 构建代理,或使用 LiveKit Agent Builder,无需编写代码即可在浏览器中直接原型化和部署代理。该框架提供了工具和抽象,用于通过与任何提供商协同工作的 AI 管道传输实时媒体和数据,并将实时结果发布回房间。

使用 LiveKit Cloud 即可立即开始构建代理,提供托管部署、内置的可观察性(包含转录和跟踪)以及 LiveKit Inference,无需 API 密钥即可运行 AI 模型。您可以将代理部署到 LiveKit Cloud 或任何您选择的 自定义环境

如果您想立即着手编写构建代理的代码,请遵循语音 AI 快速入门指南,或尝试 Agent Builder,在几分钟内构建您的第一个语音代理。构建第一个语音代理只需几分钟。

用例

代理的一些应用包括

  • 多模态助手:通过语音、文本或屏幕共享与 AI 助手进行交互。
  • 远程医疗:将 AI 引入实时远程医疗咨询,无论是否有人工参与。
  • 呼叫中心:通过入站和出站呼叫支持,将 AI 部署到客户服务的第一线。
  • 实时翻译:实时翻译对话。
  • NPC:使用语言模型而非静态脚本,添加逼真的 NPC。
  • 机器人技术:将您的机器人的大脑放在云端,使其能够访问最强大的模型。

以下 示例 演示了其中一些用例

框架概览

Diagram showing framework overview.

您的代理代码充当强大的 AI 模型和用户之间有状态的实时桥梁。AI 模型通常在连接可靠的数据中心运行,而用户通常从连接质量不稳定的移动网络连接。

WebRTC 可确保代理和用户之间的顺畅通信,即使在不稳定的连接上也是如此。LiveKit WebRTC 用于前端和代理之间,而代理使用 HTTP 和 WebSockets 与您的后端通信。这种设置提供了 WebRTC 的优势,而没有其通常的复杂性。

Agents SDK 包含处理实时语音 AI 核心挑战的组件,例如通过 STT-LLM-TTS 管道流式传输音频、可靠的轮次检测、处理中断和 LLM 编排。它支持大多数主要 AI 提供商的插件,并且会不断添加更多插件。该框架完全开源,并由活跃的社区支持。

其他框架功能包括

  • 语音、视频和文本:构建可以处理实时输入并生成任何模态输出的代理。
  • 工具使用:定义与任何 LLM 兼容的工具,甚至可以将工具调用转发到您的前端。
  • 多代理交接:将复杂的工作流分解为更简单的任务。
  • 广泛的集成:与几乎所有 AI 提供商集成,包括 LLM、STT、TTS 等。
  • 最先进的轮次检测:使用自定义轮次检测模型来实现逼真的对话流程。
  • 为开发者而生:用代码而不是配置来构建您的代理。
  • 生产就绪:包含内置的代理服务器编排、负载均衡和 Kubernetes 兼容性。
  • 开源:框架和整个 LiveKit 生态系统均在 Apache 2.0 许可下开源。

代理如何连接到 LiveKit

Diagram showing a high-level view of how agents work.

当您的代理代码启动时,它首先会向 LiveKit 服务器(可以是 自托管LiveKit Cloud)注册,运行为一个“代理服务器”进程。代理服务器会等待接收调度请求。为了满足此请求,代理服务器会启动一个“任务”子进程,该子进程加入房间。默认情况下,您的代理服务器会被调度到 LiveKit Cloud 项目(或自托管服务器)创建的每个新房间。要了解有关代理服务器的更多信息,请参阅 服务器生命周期 指南。

在您的代理和用户加入房间后,代理和您的前端应用程序可以使用 LiveKit WebRTC 进行通信。这使得在任何网络条件下都能实现可靠且快速的实时通信。LiveKit 还支持完整的电话功能,因此用户可以从电话而不是前端应用程序加入呼叫。

要了解 LiveKit 的整体工作原理,请参阅 LiveKit 入门 指南。

关键概念

理解这些核心概念,以便使用 LiveKit Agents 框架构建有效的代理。

多模态

代理可以通过多种渠道进行通信——语音和音频、文本和转录、视觉。就像人类可以看、听、说和读一样,代理可以跨这些模态处理和生成内容,从而实现更丰富、更自然的交互,它们可以从不同来源理解上下文。

多模态概览

了解如何配置代理来处理语音、文本和视觉。

逻辑与结构

该框架提供了强大的抽象来组织代理行为,包括代理会话、任务和任务组、工作流、工具、管道节点、轮次检测、代理交接和外部数据集成。

逻辑与结构概览

了解如何构建代理的逻辑和行为。

代理服务器

代理服务器管理代理的生命周期,处理调度、任务执行和扩展。它们提供生产就绪的基础设施,包括自动负载均衡和优雅关闭。

代理服务器概览

了解代理服务器如何管理您的代理的生命周期和部署。

模型

Agents 框架支持广泛的 AI 模型,用于 LLM、语音转文本 (STT)、文本转语音 (TTS)、实时 API 和虚拟化身。使用 LiveKit Inference 直接通过 LiveKit Cloud 访问模型,或使用插件连接到大量定期更新的提供商。

模型概览

探索通过 LiveKit Inference 和插件为您的代理提供的所有 AI 模型和提供商列表。

入门

遵循以下指南了解更多并开始使用 LiveKit Agents。

语音 AI 快速入门

在 10 分钟内,使用 Python 或 Node.js 构建并部署一个简单的语音助手。