认知核心

Cognitive Core 是 VIRTUAL 代理的核心组件,利用大型语言模型(LLM)来执行任务,并体现 VIRTUAL 代理独特的个性与核心智能。

关于大型语言模型(LLMs)

当前的 LLM 利用开源模型。每个 Virtual 代理的人格和核心智能都通过以下方法整合:

  • 人格开发 每个 Virtual 代理的背景故事、传说、人格特质和特征使用检索增强生成(RAG)方法进行开发。该方法将语言模型的生成能力与检索机制相结合,允许 AI 从知识库中提取相关信息以丰富其回答。这种技术对于创建虚拟代理独特且引人入胜的人格特别有效,因为它可以利用广泛的数据来使角色的互动更加多样化和生动逼真。

  • 核心智能

    对于具有大量数据集的虚拟代理,采用对开源模型的直接微调。该过程涉及针对大数据集调整模型参数,以增强其在虚拟代理指定领域中准确有效地响应的能力。根据需要应用基于指令的微调,这包括训练模型以遵循特定指令或准则,进一步根据预定规则或目标优化其回答和行为。 如果数据集较小,则将信息存储在向量数据库中。然后使用 RAG 方法将这些数据提供给模型,使 AI 能够高效访问这一更有限的信息集。

数据预处理

在当今多样化的数据环境中,相关数据集以各种格式存在:文本(来自教科书、论坛、维基)、视频和音频。目前,核心角色核心主要依赖基于文本的大型语言模型(LLMs),因此主要纳入基于文本的训练数据。因此,如果训练数据以视频或音频等非文本格式存在,则需要将其转录为文本以用于模型训练。模型训练前将应用标准数据处理规则。

  • 数据清洗:在此步骤中,数据集将被清洗以去除任何噪声和空值。将应用数据规则以保持数据完整性并提高数据质量。

  • 数据转换:数据集将进行转换和标准化,使其可解释并可用于模型训练。

记忆用户对话以改善用户体验

Virtual 被设计为具有持久记忆系统,旨在尽可能模拟类人记忆能力并促进与用户的个性化交互。为实现这一目标,系统处理两个主要挑战:

  1. 用户与对话识别与回忆:

    • 系统旨在可靠地识别每个用户及其各自的对话,确保能够准确记住并引用这些交互。

  2. 长对话存储与记忆处理:

    • 管理和存储长时间的对话在记忆处理方面具有挑战性。系统针对这些长对话进行了优化以高效处理。

唯一标识符

每个与 Virtual 交互的用户都会分配一个唯一标识符。该标识符对于维护对话连续性和用户特异性至关重要。

chevron-right示例数据库表hashtag

示例数据库表如下所示。

向量数据库

消息使用嵌入技术向量化。该向量化过程将文本消息转换为数值向量格式,适合高效存储和检索。

getPrompt('identifier', 'context', 'params') 函数被调用时,系统使用用户标识符从向量数据库检索所有关联消息。它采用检索方法在大型语言模型(LLM)内处理这些向量,使 LLM 能在无需 dApp 提供额外上下文输入的情况下理解对话的上下文。LLM 基于检索到的对话历史生成回答。这种方法确保回答在上下文上相关并针对每个用户的持续对话线程进行个性化。

了解有关为 Cognitive Core 做出贡献的更多信息。

最后更新于