System and Engineering Group

MSR Asia-Shanghai

Articles

記事

不改架构、无需3D数据，强化学习如何让视频模型真正“理解”3D世界？

May 28, 2026

随着AI技术的快速发展，很多视频基础模型已经能够生成画面精美、风格多样的短片，但一个根本性问题始终未被解决：尽管模型擅长生成看起来逼真的画面，却并没有真正理解三维世界。当镜头旋转、推进或环绕时，这些模型生成的视频中的建筑会扭曲变形，物体会凭空消失，空间比例也常常前后矛盾。换句话说，这些模型学会了二维像素的统计规律，却尚未建立稳定的三维空间认知。为了解决这一问题，微软亚洲研究院推出了一种通过强化学…

記事

LLM2CLIP：以大语言模型重塑跨模态表征学习的文本基石

March 16, 2026

在跨模态表征学习中，将不同模态的信号映射至统一的共享表示空间，进而驱动检索、理解与生成等一系列下游任务，是其核心目标。而文本在所有模态中具有天然的独特性。它不仅是一种输入信号，更是人类对世界进行结构化认知、梳理概念体系以及开放世界知识的载体。正因为此，文本监督的质量，往往决定了跨模态表征空间的上限。更强大的文本监督信号能够引导模型在对齐过程中，学习到更复杂、更细粒度，也更具语义结构的表征空间。…