ACM MM2024 | 网易伏羲多模态研究再获国际认可，推动特定领域跨模态理解新突破

发布：2024-08-06 15:00:39

阅读：22985

作者：网易伏羲

近日，第32届ACM国际多媒体学术会议（ACM International Conference on Multimedia，简称ACM MM）公布论文接收结果，网易伏羲最新研究成果《Selection and Reconstruction of Key Locals: A Novel Specific Domain Image-Text Retrieval Method》入选，该论文研究方向涉及视觉语言预训练（VLP）、跨模态图文检索（CMITR）等领域。此次入选标志着网易伏羲实验室多模态能力再受国际认可，目前相关技术已应用至网易伏羲自研多模态智能体助手“丹青约”。

ACM MM由国际计算机协会（ACM）发起，是多媒体处理、分析与计算领域最具影响力的国际顶级会议，也是中国计算机学会推荐的多媒体领域A类国际学术会议。作为领域内的顶级会议，ACM MM 受到国内外知名厂商和学者广泛关注。本届ACM MM共收到有效稿件4385篇，其中1149篇被大会接收，接收率为26.20%。

作为国内领先的人工智能研究机构，网易伏羲在大规模模型研究领域已有近六年的深厚积累，具备丰富的算法和工程经验，先后打造了数十个文本和多模态预训练模型，包括文本理解和生成大模型，图文理解大模型，图文生成大模型等。这些成果不仅有效推动了大模型在游戏领域的应用，也为跨模态理解能力的发展奠定了坚实的基础。跨模态理解能力有助于更好地融合多种领域知识，并对齐丰富的数据模态及信息。

在此基础上，网易伏羲基于图文理解大模型进一步创新，提出一种基于关键局部信息的选取与重建的跨模态检索方法，为多模态智能体解决特定领域下的图像文本交互问题奠定技术基础。

以下为本次入选论文概要：

《Selection and Reconstruction of Key Locals: A Novel Specific Domain Image-Text Retrieval Method》

关键局部信息的选取与重建：一种新颖的特定领域图文检索方法

关键词：关键局部信息，细粒度，可解释

涉及领域：视觉语言预训练（VLP），跨模态图文检索（CMITR）

近年来，随着视觉语言预训练 (Vision-Language Pretraining, VLP) 模型的兴起，跨模态图像文本检索 (Cross-Modal Image-Text Retrieval, CMITR) 领域取得了显著进展。尽管像 CLIP 这样的 VLP 模型在一般领域的 CMITR 任务中表现出色，但在特定领域图像文本检索 (Specific Domain Image-Text Retrieval, SDITR) 中，其性能往往会存在不足。这是因为特定领域通常具有独特的数据特征，这些特征区别于一般领域。

在特定领域内，图像之间可能展现出高度的视觉相似性，而语义差异则往往集中在关键的局部细节上，例如图像中的特定对象区域或文本中含义丰富的词汇。即使是这些局部片段的细微变化也可能对整个内容产生显著影响，从而凸显了这些关键局部信息的重要性。因此，SDITR 要求模型专注于关键的局部信息片段，以增强图像与文本特征在共享表示空间中的表达，进而改进图像与文本之间的对齐精度。

本课题通过探索视觉语言预训练模型在特定领域图像-文本检索任务中的应用，研究了特定领域图像-文本检索任务中的局部特征利用问题。主要贡献在于提出了一种利用具有判别性的细粒度局部信息的方法，优化图像与文本在共享表示空间中的对齐。

为此，我们设计了显式关键局部信息选择和重建框架和基于多模态交互的关键局部段重构策略，这些方法有效地利用了具有判别性的细粒度局部信息，从而显著提升了图像与文本在共享空间中的对齐质量，广泛和充分的实验证明了所提出策略的先进性和有效性。

在此特别感谢西安电子科技大学IPIU实验室对本论文的大力支持与重要研究贡献。

此项研究成果不仅标志着网易伏羲在多模态研究领域再次取得重要突破，也为特定领域的跨模态理解提供了全新的视角和技术支撑。优化图像与文本在特定场景下的交互准确度，这项工作为跨模态理解技术在实际应用场景中的提升奠定了坚实的基础。目前，网易伏羲的多模态理解能力已在网易集团的多个业务部门得到广泛应用，包括网易雷火、网易云音乐、网易元气等。这些应用覆盖了诸如游戏创新性文字捏脸玩法、跨模态资源搜索、个性化内容推荐等多种场景，展现了巨大的业务价值。

未来，随着研究的深入与技术进步，该成果有望促进人工智能技术在教育、医疗、电子商务等多个行业的广泛应用，为用户提供更加个性化和智能化的服务体验。网易伏羲也将持续深化与国内外顶尖学术机构的交流与合作，在更多前沿研究领域展开深入探索，共同推动人工智能技术的发展，为构建一个更高效、更智能的社会贡献力量。

扫描下方二维码，立即体验“丹青约”，享受“更懂你”的图文并茂的多模交互体验！

丹青约人工智能

具身智能的发展趋势：从理论探索到产业融合的演进路径

当前具身智能系统正从孤立的功能模块向一体化架构发展。传统机器人系统通常将感知、规划、控制等环节分离设计，导致信息流断裂与决策延迟。新一代具身智能架构强调端到端的学习与优化，通过多模态融合感知、统一表征学习和联合策略训练，实现从原始传感器输入到动作输出的直接映射。这种架构能够更好地处理现实世界中的不确定性，提高系统的适应性与鲁棒性。

2026-02-09 18:25:33

具身智能的发展趋势：迈向通用物理智能体的演进路径

具身智能正经历从任务专用向任务通用的关键转变。早期系统多针对单一场景（如仓库分拣、家庭递送）进行定制开发，行为模式固定、泛化能力弱。当前发展趋势聚焦于构建具备跨任务迁移能力的通用具身智能体，其核心在于发展统一的感知-决策-执行架构，使同一智能体能通过高层指令理解与底层技能复用，完成多样化物理任务。例如，一个机器人既能整理桌面，也能操作家电或协助烹饪。这种通用性依赖于基础模型的引入与模块化技能库的建设，标志着具身智能从“工具”向“伙伴”的角色升级。

2026-02-09 18:24:52

人工智能到具身智能：智能形态的演进与范式迁移

人工智能的发展正经历一场从“离身”到“具身”的深刻范式转变。传统人工智能主要关注在抽象符号或数据空间中进行推理、识别与生成，其智能与物理世界是割裂的。而具身智能则强调，智能的产生离不开一个拥有感知和行动能力的身体，以及与真实环境持续不断的交互。这一演进并非简单的技术升级，而是对智能本质理解的深化，标志着人工智能从“思考”走向“行动”，从“理解世界”走向“改变世界”的关键跨越。

2026-02-05 18:27:38

人工智能到具身智能：从数据驱动到物理交互的范式跃迁

传统人工智能（AI）主要建立在离身（disembodied）计算模型之上，其典型代表包括深度学习、大语言模型和计算机视觉系统。这类AI通过海量静态数据进行训练，擅长模式识别、文本生成、图像分类等任务，但其运行环境局限于数字空间，缺乏与物理世界的直接交互能力。它能回答“是什么”和“为什么”，却难以解决“怎么做”——例如，一个语言模型可以描述如何泡茶，但无法亲手拿起水壶、控制水温或判断茶叶是否泡好。这种脱离身体与环境的智能，在面对动态、不确定、需实时响应的真实世界时，暴露出泛化能力弱、常识缺失、安全风险高等根本性局限。

2026-02-05 18:26:42

多模态大模型赋能具身智能：开启机器感知与行动的新纪元

在人工智能技术飞速发展的今天，多模态大模型与具身智能的融合正成为推动机器从“感知世界”走向“理解并改变世界”的关键力量。这一交叉领域不仅代表着技术的前沿方向，更预示着通用人工智能实现的潜在路径。它通过赋予机器类似于人类的跨模态信息处理与物理交互能力，正在彻底改变机器人、智能体乃至整个人机交互生态的面貌。

2026-02-02 18:18:07

多模态大模型赋能具身智能：构建通用物理智能体的新范式

多模态大模型（Multimodal Large Models）能够同时理解与生成文本、图像、音频、视频等多种信息形式，具备强大的语义关联与常识推理能力。而具身智能强调智能体通过身体在物理环境中交互学习，形成对世界的动态理解。二者的融合逻辑在于：多模态大模型为具身智能体提供高层认知与任务分解能力，使其能理解自然语言指令、解析复杂场景语义并规划合理行为；具身智能则为大模型提供真实世界反馈，使其从“纸上谈兵”走向“知行合一”。这种“大脑+身体”的协同架构，正成为构建通用物理智能体的关键路径。

2026-02-02 18:11:49

具身智能的实际应用：从理论到实践的全面探索

具身智能的实际应用正在多个领域深入发展，从工业制造到家庭服务，从医疗健康到农业自动化，展现出广泛的应用前景和巨大的社会价值。这些应用不仅提高了生产效率和服务质量，也创造了新的商业模式和工作方式。随着传感器技术、控制算法和计算能力的持续进步，具身智能系统将变得更加灵活、智能和可靠。未来，具身智能应用将更加注重与人类的协同合作，发展出更自然的人机交互方式。多智能体系统的协同能力将进一步提升，实现更复杂的群体智能行为。同时，具身智能的伦理规范和安全标准也将逐步完善，确保技术发展与社会价值相统一。具身智能将继续推动各行业的数字化转型，为经济社会发展注入新的动力。

2026-01-30 18:28:38

具身智能的实际应用：从实验室走向真实世界的智能体实践

具身智能在家庭与商业服务场景中展现出显著价值。家庭助手机器人通过视觉、语音与触觉感知环境，理解“把水杯放到茶几上”等自然语言指令，并自主规划路径、避障、抓取与放置。在酒店、商场等公共场所，服务机器人可完成迎宾引导、物品配送、清洁消毒等任务，其行为不仅依赖预设程序，更基于对动态人流、临时障碍物的实时理解与响应。这类应用要求智能体具备情境理解、人机交互与安全共处能力，是具身智能从“能动”迈向“会做”的典型体现。

2026-01-30 18:27:42

评审结果公示｜2025年CCF-网易雷火联合基金二期

由网易伏羲与中国计算机学会（CCF）于2025年共同发起的“CCF-网易雷火联合基金二期”在历经80天的指南公开，课题征集，多层遴选等环节，本轮评审终于落下帷幕。二期基金项目围绕 “游戏与人工智能“ 发起多个热门研究方向。面向国内高校及科研院所的全职教师和研究人员，共计开放11个课题，吸引60+高校/研究机构报名。自启动以来，基金项目受到了全国高校学者的高度关注与积极响应。来自（排名不分先后）浙江大学、香港理工大学、北京理工大学、上海交通大学、南京大学、武汉大学、厦门大学、西安交通大学、合肥工业大学等知名高校与院所的专家学者提交了高质量申请，充分体现了学界对该项目的认可与期待。为确保评审过程的专业性与公正性，基金组委会围绕“业务落地潜力”、“研究方向匹配度”、“技术可行性”以及“团队基础”等多个维度，对所有申报项目进行了严格评估与多轮审议。经过专家委员会的综合评议与投票，本轮CCF-网易雷火联合基金11个课题项目全部获得资助。这些项目将在未来一年中获得资金支持与技术协作，推动其研究成果向实际应用场景转化，助力我国人工智能领域的持续创新发展。

2026-01-29 10:12:18

具身智能的基本原理：从理论到实践的全面解析

具身智能作为人工智能领域的重要发展方向，其基本原理建立在多学科交叉的基础之上。这一概念强调智能体通过物理身体与环境的交互来实现智能行为，与传统人工智能处理抽象符号的方式形成鲜明对比。具身智能的理论基础主要来源于认知科学、机器人学和控制系统理论，这些学科共同构成了理解具身智能的基本框架。认知科学中的具身认知理论为这一领域提供了重要的思想基础。该理论认为认知过程不仅发生在大脑中，还涉及身体与环境的动态交互。这种观点挑战了传统认知科学将心智视为独立于身体的信息处理系统的看法。在具身认知的视角下，智能体的身体形态、感知能力和运动能力都会影响其认知过程和行为表现。

2026-01-28 18:19:25