实时语音交互的游戏队友——网易伏羲AI Agent创新应用 | DataFunSummit2024演讲实录

发布：2024-10-17 16:51:10

阅读：19761

作者：网易伏羲

FUXI_导读

在PVP多人对战类的游戏中，社恐玩家的社交和情绪价值、对战局的操控感，无法得到有效满足。因此，网易伏羲助力《永劫无间》手游率先发布了全球首创的游戏Copilot-多模态实时交互的语音AI队友。它可以在战斗中自主跑图、战斗、听指令、报战况，还会和玩家进行自由对话，给玩家带来极高的情绪价值。

近期，在由DataFun主办的DataFunSummit2024：生成式AI技术峰会上，这一创新成果得到了充分展示。该峰会聚焦AI技术落地和应用实践，展示了多个已在业务中成功落地生成式AI技术的团队经验。此外，峰会还探讨了诸如AI搜索、AI4Science以及具身智能等前沿技术和应用场景。

（前情回顾：如何用Agent打造游戏Copilot？「永劫无间」手游AI队友的技术实现路径｜活动预告）

峰会上，网易伏羲语音技术负责人莫名受邀发表了题为《实时语音交互的游戏队友—AI Agent创新应用》的演讲，分享了如何利用实时语音交互的游戏队友- AI Agent创造更自然、更互动的游戏体验。本文将重点讲解语音 AI 队友的设计和实现，及其背后的AOP（Agent-Oriented-Programming，面向智能体编程）框架，最后还会分享语音技术在游戏场景的一些创新应用。

网易伏羲介绍

语音AI队友的设计与实现
Agent能力迭代- AOP数据闭环
语音技术在其他游戏场景的应用

1、网易伏羲介绍

网易伏羲是国内首个游戏人工智能研究机构，自2017年成立以来，已在全球各类学术顶级会议中发表270余篇学术论文，并持有600多项技术专利，为人工智能、元宇宙、数字孪生、智能决策技术等众多前沿科技领域的理论研究和实践应用做出贡献。

自成立以来，网易伏羲不断推陈出新，积极探索前沿技术和应用场景，实现了游戏AI领域的多项创新技术突破，推出了基于照片、文字的AI捏脸、智能NPC、剧组模式、语音交互式捏脸和语音AI队友等多个行业首创的AI应用。通过将AI技术融入游戏系统的各个层面，网易伏羲成功助力《逆水寒》手游、《永劫无间》手游等游戏打造多项创新玩法，极大地提升了玩家的游戏体验。

近期，网易伏羲助力《永劫无间》手游推出全新的游戏Copilot——“语音AI队友”，该玩法一经推出即受到玩家的高度评价，相关用户生成内容迅速登上抖音和B站热门榜单。

2、语音AI队友的设计与实现

传统游戏中，机器人往往存在行为呆板、缺乏互动交流等问题。对于有社交焦虑的玩家，他们希望在避免与真人玩家直接语音交流的同时，仍能享受游戏中的社交体验及多人对战的乐趣。此外，玩家匹配到技术不佳或配合度低的队友，会导致游戏体验不佳。因此，玩家希望能够找到一个既能提供高质量的游戏技巧支持又能陪伴聊天的对象，从而满足自身情绪需求，提升整体游戏体验。

为了满足玩家对于游戏互动性和情绪价值的需求，《永劫无间》手游推出了一种多模态实时交互的语音AI队友。AI队友能够在战斗中自主跑图、执行战术动作，并根据玩家指令汇报战况。此外，它还能与玩家进行自然对话，提供情感支持。对于新手玩家，该语音AI队友还具备教学引导功能，可以帮助他们更快地熟悉游戏机制。

（视频来源于网络）

在《永劫无间》手游中设计的AI队友Agent能够综合处理游戏环境中的状态变化和玩家输入的语音信息。基于对当前环境状况的认知、决策能力，以及利用游戏知识库与战斗记忆，该AI队友能够做出合理的行动决策并给予相应的语音反馈。

在这一应用场景下，为实现高效互动和辅助功能，Agent需要具备的认知与决策能力主要包括：语音识别、指令理解、教学问答、人设对话、语音生成，以及协同完成任务所需的战斗智能体等。

接下来将详细介绍几个核心能力。

首先，作为AI队友，必须具备“听得懂”的能力，能够像真人一样与玩家实时语音互动。因此在设计之初就去掉了智能音箱等场景中常用的唤醒词设计，比如“Hey Siri”，而是采用全开麦实时语音交互。这种模式虽然极大地提升了用户体验，但也带来了很大挑战。比如环境噪音、不同设备的兼容性、玩家方言口音差异以及存在一些专业术语等问题。为了解决这些问题，我们基于AOP（Agent-Oriented-Programming，面向智能体编程）框架的核心能力，构建了自主数据闭环的训练模型，使Agent具备自主进化的能力，并且构建了标准的测试集，有效利用测试和线上数据扩充数据集，推动模型迭代。我们的语音识别在经过几次场景数据的闭环训练之后，在噪声过滤、热词适配等方面都得到了显著的加强。

除了听得懂，AI队友还需能够进行表达和对话。通过结合大语言模型与文语转换（TTS）技术，AI队友实现了自主对话的功能。为了增强语音生成模型的泛化能力，我们利用多年积累的大数据对语音基础大模型进行了训练，并针对具体游戏场景进行了自适应优化。

在听得懂、能说话的基础上，我们给AI 队友设计了非常丰富的人设选项，比如彩虹屁萌妹、温柔体贴御姐以及温暖深情暖男等等。这些具有鲜明个性的 AI 队友，不仅可以和玩家产生复杂的互动关系，还可以根据不同的游戏情境展现出其独特的性格特点，进一步增强游戏的沉浸感和互动感。比如上图中展示的，一个玩家在玩的过程中通过和不同AI 队友的交互体验，画出了一个关系图。

作为游戏的陪玩或队友，对于游戏的理解需要非常到位，对于问到游戏相关内容时，要做出非常好的回答。为了实现AI队友的教学问答功能，我们构建了一个强大的知识库系统，该系统包括游戏的静态知识（如规则和机制）和动态知识（如赛事信息）。当玩家提出问题时，AI会通过embedding模型将问题转化为向量，并在向量库中搜索最匹配的答案。如果答案不明确，则会利用RAG（检索增强生成）和更高级的大语言模型进行进一步的检索和推理，以确保提供准确的回答。

AI队友还必须拥有基本的游戏执行能力。当玩家发出如“集火胡桃”这样的指令时，系统首先在预处理模块中解析并理解该指令的意图。识别出意图后，系统将“集火”这一行为类型和“胡桃”这一目标转化为状态信息，并将其作为战斗模块的输入。最终，基于强化学习的战斗模型会根据这些输入信息做出相应的行动决策，从而执行玩家的指令，做出集火胡桃的动作在客户端表现出来。

基于上述介绍，可以看到AI队友系统具备多种能力，包括理解语音、自然对话、展现个性以及执行任务等，因此它是一个多智能体系统，类似于人类大脑中不同区域分工明确且协同工作的机制。行业中已有一些成熟的多智能体框架，如MetaGPT和AutoGEN等，支持复杂系统的开发与应用。

下面以一个玩家制作的视频来回顾一下AI队友实现的能力。

（视频来源于网络）

在做Agent设计和落地时，常会遇到场景适配的问题，比如语音识别，需要适配环境噪音、口音等问题。我们是如何解决这些问题的呢？这就引入了下一部分内容——AOP框架。

3、Agent能力迭代- AOP数据闭环

AOP(Agent-Oriented-Programming，面向智能体编程) 是网易伏羲设计的一套全新的编程范式，其核心价值在于为开发者对接智能体（包括AI和人），提供统一范式的接口和服务，并自动构建数据闭环让智能体具备自主进化能力。开发者可通过 AOP 使用伏羲有灵机器人平台预置的公共智能体能力，包括 ChatGPT、Midjourney 等预训练模型，以及数据标注、美术制作、工程机械操控等众包能力，也可针对行业细分场景定制化构建智能体应用。

AOP的设计思想，是基于马尔可夫决策过程（Markov Decision Processes,MDP）的定义来进行任务建模，即Agent（智能体，包括人类或机器）在进行某个任务时，首先会和环境进行交互，产生新的状态（State），同时环境会给予相应的奖励（Reward），这一过程循环往复，Agent与环境之间的交互产生了大量的数据。Agent利用这些新数据不断调整自身的行为策略，经过多次迭代后，Agent便能够学习到完成特定任务所需的最佳动作策略。

图中展示的是我们所定义的一个用于语音识别的智能体。我们详细规定了该智能体的状态观察机制及其自身的能力，无论是指定使用人工智能还是人工操作。一旦完成接口描述语言（IDL, Interface Description Language）的定义，便能够生成并编译出这一智能体。编译完成后，我们将获得一段运行时代码，这段代码提供了同步与异步调用的接口。接着，利用AOP平台的一键发布功能，即可实现智能体的快速部署。部署完毕后，就可以在具体的业务场景中直接调用此智能体。例如，根据图示代码所示，可以选择调用AI执行的自动语音识别(ASR)功能或人类执行的语音识别服务。

该AOP框架已成功应用于多个案例之中，除了文本提到的AI语音队友以外，还在《逆水寒》手游的文字捏脸、《永劫无间》手游的交互式捏脸等应用中落地。

网易伏羲AOP SDK即将开启内测，感兴趣的伙伴可以扫描二维码进入微信群，第一时间获得内测信息。

4、语音技术在游戏场景的应用

最后来分享一下语音技术在游戏场景的一些其他应用。

在游戏场景下，除了实时互动的语音AI队友，我们在音频内容生产上也做了一定工作。游戏场景下的音频内容，主要包含音乐、音效、语音三个方面。游戏音乐，包括背景音乐、剧情、战斗和关卡中的音乐等等。音效包括各种各样的声音效果，像环境音效、动作音效等等，例如法术释放、技能特效、爆炸声等，完美的音效设计可以给玩家带来更好的沉浸感和互动体验。游戏人物语音是指游戏角色所发出的人声，常见的有对话语音、战斗语音，语音设计师可以根据角色的角色设定、角色性格、场景和情节需求，来创造适合的语音内容和表达方式。在传统的游戏生产链路中，这三部分都是人工完成的，耗费人力和时间很多，随着AI生成式技术的兴起，我们尝试用技术去帮助游戏音频设计师更快更好地生产内容。下面，将以人物语音为例，介绍我们在游戏里面的一些落地案例。

《逆水寒》手游自去年上线就获得了很大的关注度，玩家可以在汴京、虹桥等很多地方，和澜儿、高衙内等数十个NPC进行互动交流，这种细致入微的互动，为游戏增添了更多的乐趣和丰富性。游戏里大家所听到的这些NPC的声音，就是我们语音合成技术所实时合成的。形形色色的会说话的NPC，增加了《逆水寒》手游街头巷尾的烟火气息，让玩家获得了更好的沉浸式体验。

为了增强游戏的社交性、可玩性，提高游戏丰富度在《逆水寒》手游中，我们首次在游戏里加入了声音的DIY玩法——自定义技能喊话，玩家可以设置技能施放时候播放的语音内容，玩家可以输入文本，选择音色进行订制，也可以输入自己的语音进行音色转换来订制。

另外，我们还应用了歌声合成和转换技术，来制作歌声内容。

在游戏场景中，对变声器，即语音转换能力的需求比语音合成更多，我们在这块做了深入的探索，发表的论文有DualVC、DualVC2、DualVC3、Expressive-VC等等。比如在直播时可以选择将自己的声音更换为另一种特定的音色。实时变声器可以在很多玩法上做嵌套，但也会遇到法律边界的挑战。

围绕语音生成，网易伏羲在Codec和LLM两个方面都做了探索。Codec方面，网易伏羲基于自身技术积累，自研了适配生成式大语言模型的语音Codec，不仅实现了语音的离散化和高质量重建，而且做到了内容属性与音色属性的解耦。

LLM方面，在文本生成语音时，使用了Speech LLM，利用数十万小时的语音数据训练，融合SFT+RLHF等手段，实现了媲美真人的语音合成效果。

以上就是本次分享的内容，谢谢大家。

扫码入群，参与AOP SDK内测

市场生态合作：fuxi.mkt@service.netease.com

商务合作：fuxi@service.netease.com

合作电话：（0571）89852163转21951

人工智能 AOP

人工智能开发工具：推动技术创新的核心驱动力

人工智能开发工具涵盖多个维度，满足不同场景需求。代码生成与辅助工具通过自然语言解析业务逻辑，快速生成可执行代码，显著提升开发效率。低代码/无代码平台以可视化界面为核心，允许非技术用户通过拖拽操作搭建AI应用，缩短项目周期。智能体开发框架则聚焦多代理系统协作，支持复杂任务的自动化编排与执行。此外，模型训练与部署平台提供全流程解决方案，涵盖数据预处理、算法优化到云端部署，助力企业高效完成模型迭代。

2025-07-04 17:19:15

人工智能开发工具：加速智能时代的核心引擎

人工智能开发工具正重塑技术创新流程，通过模块化组件、自动化训练和可视化部署，将算法能力转化为行业解决方案。这类工具的核心价值在于降低开发门槛，使企业能够快速构建专属智能系统。本文将从工具类型、核心功能、场景赋能及技术演进四个维度，解析人工智能开发工具如何推动产业智能化进程。

2025-07-04 17:17:14

人工智能技术属性：算法创新与多维特征的融合

人工智能技术属性是理解其核心价值与发展方向的关键。作为计算机科学的重要分支，人工智能的本质在于模拟人类智能，其技术属性不仅体现在算法模型的创新上，还涵盖了智能性、自主性、协同性等多维度特征。这些属性共同构成了人工智能技术的基础框架，并推动其在各领域的深度应用。

2025-07-03 18:03:16

人工智能技术属性解析：驱动智能变革的核心基因

人工智能技术正重塑全球产业格局，其本质是通过模拟人类认知机制构建自主决策系统。区别于传统软件，人工智能具备持续进化、环境适配与自主决策三重技术特性，成为数字化转型的核心引擎。本文从智能性、适应性、自主性、进化性四个维度，系统拆解人工智能的技术基因及其产业赋能逻辑。

2025-07-03 18:00:18

人工智能与智能社会：技术革命与社会变革的双重奏

人工智能（AI）是计算机科学的核心分支，旨在模拟人类智能，实现感知、认知、决策等能力。其发展历程可分为三个阶段：符号逻辑阶段（1956-1976）：以布尔代数和演绎推理为基础，开发逻辑编程语言及机器定理证明系统。专家系统阶段（1976-2006）：通过知识库与规则构建领域专家系统，如医疗诊断、农业咨询等，但受限于人工知识构建的局限性。深度学习阶段（2006至今）：依托大数据与神经网络技术，实现图像识别、自然语言处理等突破，推动AI进入实用化时代。

2025-07-02 17:48:17

人工智能与智能社会：塑造未来的核心驱动力

人工智能（AI）正以前所未有的深度与广度渗透社会生活，驱动传统社会形态向智能社会加速演进。这一转型不仅体现在技术工具的革新，更意味着社会运行规则、产业模式、治理理念与人类生活方式的系统性重构。

2025-07-02 17:47:17

主视觉KV设计：品牌传播的核心视觉语言

主视觉KV（Key Vision）是品牌或活动推广中的核心视觉设计，通过统一的图形、色彩和文案传递品牌价值或活动主题。它不仅是品牌识别的视觉符号，更是市场传播的“定盘星”，为后续海报、包装、宣传物料等提供风格指引。优秀的主视觉KV能快速吸引目标受众注意，强化品牌记忆，提升市场竞争力。

2025-07-01 18:02:48

人工智能模型与理论：技术演进与未来方向

人工智能模型与理论的发展经历了从符号主义到连接主义，再到深度学习的多重变革。早期符号主义依赖逻辑推理和规则系统，通过明确的符号表示模拟人类思维，但受限于知识获取的复杂性。20世纪80年代，连接主义兴起，神经网络通过模拟人脑神经元之间的连接关系，逐步实现对数据的非线性建模。这一阶段的突破性成果包括反向传播算法和感知机，为后续深度学习奠定了基础。

2025-07-01 17:57:18

人工智能模型与理论的核心框架与应用逻辑

人工智能模型与理论研究构建了现代智能系统的根基，其核心在于通过数学框架与计算机制模拟人类认知能力。本文将系统拆解基础理论模型、关键学习范式及产业落地逻辑，为技术实践提供理论锚点。

2025-07-01 17:52:40

人工智能架构：技术分层与未来演进

人工智能架构的基础层由硬件设施和数据服务构成。硬件设备包括高性能芯片（如GPU、TPU）、服务器及存储系统，为大规模计算提供算力支持。例如，AI芯片通过并行计算加速深度学习训练，而分布式存储系统则保障海量数据的快速读写。数据服务涵盖数据采集、清洗、标注与管理。高质量数据是AI模型训练的“燃料”，经过预处理后形成标准化数据集。例如，图像识别领域依赖标注精确的图片库，自然语言处理则需要语料库的持续扩展。这一层的技术突破，直接决定AI系统的性能上限。

2025-06-30 17:53:17