ICLR 2023 | 网易伏羲3篇论文入选，含强化学习、自然语言处理等领域

发布：2023-03-02 10:54:52

阅读：39354

作者：网易伏羲

第十一届国际表征学习会议（International Conference on Learning Representations，下文简称ICLR）预计将于5月1日至5日在卢旺达首都基加利线下举办。并于近期公布论文接收结果：网易伏羲共有3篇论文入选，包含oral presentation paper和spotlight presentation paper各一篇；论文内容涉及强化学习、自然语言处理等方向。

ICLR是人工智能与机器学习领域最顶级的学术会议之一，与ICML、NeurIPS并称机器学习三大会。作为机器学习领域最年轻的会议，至今仅有10年的历史。但由于深度学习日新月异的发展以及大会牵头人Yoshua Bengio、Yann LeCun的影响力，ICLR会议很快便得到研究者们的认可，在Google Scholar的学术会议/杂志排名中，ICLR目前排名第十位。

本次ICLR会议共收到接近5000篇的投稿，中稿率为31.8%。其中所有中稿论文的top 5%为oral presentation，top 25%为spotlight presentation。

以下为此次入选的三篇论文概要：

《Tailoring Language Generation Models under Total Variation Distance》

基于全变差距离的语言生成模型

关键词：语言模型，文本生成

涉及领域：text generation，language model

文本生成是自然语言处理技术中的常见任务，并在网易有非常广泛的应用场景，如文字游戏、智能NPC、文章辅助创作、歌词辅助创作等。目前文本生成的标准范式是采用最大似然估计（MLE）作为优化方法。从分布的角度来看，MLE实际上最小化了真实数据和模型分布之间的KL散度（KLD）。但是，这种方法迫使模型对所有训练样本（无论这些样本质量如何）都分配了非零的概率。此外，在试图覆盖数据分布中的低概率区域，模型系统地高估了损坏的文本序列的概率，我们猜测这是自回归解码时文本退化的主要原因之一。为了补救这个问题，网易伏羲和清华大学黄民烈教授研究团队利用对异常值鲁棒的全变差距离（TVD），开发了合适的方式应用于语言生成。

实验表明KLD对于异常点是更敏感的，TCD是鲁棒的。

然后引入TaiLr目标来平衡TVD的估计。直观地说，TaiLr降低了具有低模型概率的真实数据样本的权重，并且具有可调整的惩罚强度。实验结果表明，我们的方法在不牺牲多样性的情况下减轻了对退化序列的高估，并在广泛的文本生成任务中提高了生成质量。

《EUCLID:Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model》

EUCLID：基于多项选择动态模型的高效无监督强化学习

关键词：无监督强化学习，预训练模型

涉及领域：Model-based RL，Unsupervised RL

强化学习(RL)通常需要大量的交互数据和精心设计的特定任务奖励进行策略学习，从而导致低的样本效率和难以快速泛化到新的下游任务。因此，无监督强化学习应运而生，即通过无监督的方式在无标签的大量样本中进行预训练，以此为先验知识达到在多个下游任务种快速适应的效果，这一训练范式能够促进强化学习在充满未知任务的现实世界的落地应用。

但过往的工作往往专注于通过探索环境预训练出一个具有不同技能的策略，而仅仅通过多样化探索的预训练方式难以保证下游任务的性能提升，甚至可能导致预训练消耗越大，性能越低的“不匹配”问题。因此，网易伏羲和天津大学深度强化学习实验室团队提出了EUCLID框架，引入了基于模型的RL范式，通过长时间的预训练，从精确的动态模型中获益，以实现快速的下游任务适应和更高的采样效率。在微调阶段，EUCLID利用预先训练的动态模型进行策略引导的规划，这样的设置可以消除由不匹配问题引起的性能震荡，获得单调的性能提升。

EUCLID框架是首个将世界模型引入无监督强化学习的框架，解决了此前无监督强化学习难以在现实场景应用的最大问题——不匹配问题，能够在低成本的无标签数据预训练的基础上，只使用100k的交互样本快速适应多个下游任务，实现了基于无监督的高效预训练框架，相比model free算法提高20倍采样效率，并在URL社区的多个标准benchmark中达到接近上界的性能。在实际应用方面，EUCLID框架将对基于强化学习的游戏竞技机器人的训练起到显著降本增效作用。这是由于实际的游戏场景不同于学术研究中采用的模拟环境，需要大量计算资源来运行，而强化学习算法的训练又需要成规模地运行多个游戏实例进行样本采集，导致训练成本高昂。EUCLID框架可以有效地对游戏场景进行数字孪生建模，一旦完成建模，强化学习算法可以较少甚至不依赖于原始游戏场景进行样本采集。神经网络化的世界模型使得超大规模的样本采集和强化学习训练成为可能，这将极大提高游戏竞技机器人的训练效率，节省大量训练成本。

《Neural Episodic Control with State Abstraction》

基于状态抽象的神经情景控制

关键词：情景控制、状态抽象

情景控制（episodic control）方法通常会将Agent经历过的高价值样本保存到内存当中，并在学习的过程中利用内存中的已知信息来加快模型收敛，提升样本利用率。然而，已有的方法往往只记录真实的state、action和state value，而没有考虑样本之间的隐层信息（例如，状态转移、拓扑相似度等等），进而在泛化性、样本利用率等方面仍旧有所欠缺；此外，由于状态信息通常使用浮点数表示，已有方法无法有效存储和检索内存中的信息。

因此，网易伏羲和九州大学Pangu实验室研究团队提出改进的情景控制算法——NECSA（Neural Episodic Control with State Abstraction）：

1.利用原始状态之间的多步转移信息，将高维的转移片段抽象到有限的格子空间中；

2.并提出一种高效的状态分析方法，来对格子空间中的状态进行综合评价；

3.最后，这些评价信息会以intrinsic reward的形式来辅助Agent学习，提升高价值样本的学习效率；

实验结果表明，NECSA在所有的实验环境中都拿到了最高的分数，达到了state-of-the-art水平。

此外，NECSA可以作为一个独立的模块来方便的集成到已有的强化学习算法中，具备很强的通用性。NECSA的典型应用场景之一是游戏竞技机器人的训练。对于真实游戏场景中复杂且高维的状态表征，NECSA给出了一种基于状态分析来增强学习效果的新思路，一方面可以更好更快地达到优化目标（如：提升机器人竞技水平、拟人性等），另一方面还有可能提供良好的模型可解释性。网易伏羲未来将在多个游戏场景中推动NECSA方法的实际落地。

特别感谢清华大学黄民烈教授团队对《Tailoring Language Generation Models under Total Variation Distance》的重要研究贡献，感谢天津大学深度强化学习实验室对《EUCLID:Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model》的重要研究贡献；以及九州大学Pangu实验室对《Neural Episodic Control with State Abstraction》的重要研究贡献。

网易伏羲作为国内专业从事游戏与泛娱乐AI研究和应用的顶尖机构，正在把AI技术和产品开放给更多合作伙伴，让人工智能技术惠及更多领域；目前，网易伏羲已服务超200家客户，应用日均调用量超数亿次。

自然语言处理NLP 机器学习人工智能

人工智能之模型与理论：智能系统构建的科学根基

人工智能的理论体系为模型设计提供逻辑基础与方法论指导，而模型则是理论在具体任务中的实现载体。理论研究关注智能的本质、学习的边界、推理的机制等根本问题，涵盖计算学习理论、概率推理、优化方法、信息论等；模型则聚焦于可计算、可训练、可部署的算法结构，如神经网络、决策树、支持向量机等。二者相辅相成：理论推动模型创新，模型验证理论可行性。正是这种“理论—模型—应用”的闭环演进，驱动了人工智能从符号主义、连接主义到当前数据驱动范式的持续跃迁。

2026-03-06 18:36:24

人工智能之模型与理论：驱动智能涌现的核心引擎

当我们谈论人工智能时，那些令人惊叹的图像生成、流畅的对话交互和精准的预测决策，都非凭空产生。它们背后，站着一系列深邃的数学模型与理论基础，正是这些理论与模型的演进与突破，构成了人工智能从概念走向现实、从简单走向强大的核心驱动力量。理解人工智能的模型与理论，并非仅是技术专家的专利，更是我们洞察科技发展趋势、把握未来创新方向的关键。它揭示了机器如何学习、如何理解、如何进行决策的内在逻辑。从浅显的线性回归到深不可测的神经网络，从经典的符号主义到连接主义的崛起，一部人工智能发展史，本质上就是其核心模型与理论不断进化与融合的历史。

2026-03-06 18:35:50

人工智能-机器视觉：赋能现代产业的智慧感知基石

在当今科技飞速发展的时代，人工智能与机器视觉的结合正以前所未有的深度与广度重塑我们的生产和生活。这不仅仅是让机器“看见”图像，更是赋予其理解、分析和决策的能力，就像为设备装上了智能的眼睛与大脑。从无人工厂里精准的自动化检测，到自动驾驶汽车对复杂环境的感知，再到医疗影像的辅助分析，人工智能驱动的机器视觉已成为推动各行业智能化升级的核心力量。理解这一融合技术的核心内涵、技术架构与应用价值，对于把握数字化转型的脉搏至关重要。

2026-03-04 17:30:34

人工智能-机器视觉：赋能智能感知的核心技术

机器视觉是人工智能在图像与视频理解领域的关键应用分支，致力于让计算机系统具备“看”和“理解”视觉信息的能力。它通过摄像头、传感器等设备采集图像数据，结合图像处理、模式识别与深度学习算法，实现对目标的检测、识别、测量、定位与行为分析。人工智能为机器视觉提供了强大的模型训练与推理能力，使其从传统的规则化图像处理迈向数据驱动的智能感知。二者深度融合，共同构成了智能制造、自动驾驶、安防监控、医疗影像等众多智能化场景的技术底座。

2026-03-04 17:29:58

人工智能-机器学习：驱动智能时代的核心引擎与演进路径

在当今数字化浪潮中，人工智能与机器学习已然成为推动社会变革和产业升级的核心技术力量。它们不仅是学术研究的前沿热点，更是广泛应用于各行各业、重塑生产与生活方式的实践工具。理解人工智能与机器学习的深刻内涵、相互关系以及发展脉络，对于把握技术趋势、发掘商业价值至关重要。

2026-02-26 18:22:08

人工智能-机器学习：驱动智能系统发展的核心技术引擎

人工智能是使机器模拟人类智能行为的科学与工程，涵盖感知、推理、学习、决策与交互等多个维度。而机器学习作为人工智能的核心分支，专注于通过算法让计算机系统从数据中自动学习规律，并在未见过的场景中做出预测或决策。简言之，机器学习为人工智能提供了“从经验中成长”的能力，使其不再依赖人工编写的固定规则，而是通过数据驱动实现自适应优化。当前绝大多数先进的人工智能应用，如图像识别、语音助手、推荐系统等，其底层技术均建立在机器学习基础之上。

2026-02-26 18:19:01

具身智能：打开AI通往物理世界的新大门

要理解具身智能，首先需要打破一个常见的惯性认知：智能并非只存在于“大脑”中。具身智能的核心思想源于“具身认知”哲学理念，它强调感知、思考、学习和行动是一个连续、一体的过程，而智能正是从智能体（Agent）本身与其所处环境的持续动态交互中涌现出来的能力。简单定义，具身智能是指一个拥有物理或虚拟身体的智能体，它能够通过该身体所具备的多模态传感器（如视觉、听觉、触觉）去主动感知环境，并通过计算模型（如深度学习、强化学习）进行理解、推理与规划后，驱动执行器（如机械臂、轮子）与环境产生互动，从而完成特定任务或在交互中自我进化。其核心特征在于形成一个紧密的 “感知-理解-决策-行动” 闭环，使智能体能够在充满不确定性的动态物理世界中自适应地运行。这与传统AI仅在静态、封闭的数据集上进行训练和推理的模式形成了鲜明对比。具身智能的“身体”是它理解世界、获取经验并最终执行任务的必要媒介。

2026-02-25 18:18:38

具身智能：在物理世界中生成与演化的智能新范式

具身智能（Embodied Intelligence）是一种强调智能必须根植于具有物理形态的身体，并通过与环境持续交互而涌现的认知科学与人工智能范式。其核心观点是：真正的智能并非仅源于抽象符号处理或静态数据训练，而是通过感知、行动与环境反馈的闭环循环中逐步形成。具身智能体拥有可与物理世界互动的身体——无论是机器人、虚拟角色还是生物体——并通过“做中学”（learning by doing）不断积累经验、调整策略并发展出适应性行为。这一范式标志着人工智能从“观察世界”向“生活在世界中”的根本转变。

2026-02-25 18:04:55

具身智能的发展趋势：从理论探索到产业融合的演进路径

当前具身智能系统正从孤立的功能模块向一体化架构发展。传统机器人系统通常将感知、规划、控制等环节分离设计，导致信息流断裂与决策延迟。新一代具身智能架构强调端到端的学习与优化，通过多模态融合感知、统一表征学习和联合策略训练，实现从原始传感器输入到动作输出的直接映射。这种架构能够更好地处理现实世界中的不确定性，提高系统的适应性与鲁棒性。

2026-02-09 18:25:33

具身智能的发展趋势：迈向通用物理智能体的演进路径

具身智能正经历从任务专用向任务通用的关键转变。早期系统多针对单一场景（如仓库分拣、家庭递送）进行定制开发，行为模式固定、泛化能力弱。当前发展趋势聚焦于构建具备跨任务迁移能力的通用具身智能体，其核心在于发展统一的感知-决策-执行架构，使同一智能体能通过高层指令理解与底层技能复用，完成多样化物理任务。例如，一个机器人既能整理桌面，也能操作家电或协助烹饪。这种通用性依赖于基础模型的引入与模块化技能库的建设，标志着具身智能从“工具”向“伙伴”的角色升级。

2026-02-09 18:24:52