Nouvelles et reportages
无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸
编者按:此前,微软亚洲研究院提出了多模态模型 NUWA,它可以基于给定的文本、视觉或多模态输入生成图像或视频,并支持多种视觉艺术作品创建任务,包括文本到图像或视频的生成、图像补全、视频预测等。近日,微软亚洲研究院公开发表了新的研究成果:NUWA 的升级版——无限视觉生成模型 NUWA-Infinity,让视觉艺术创作趋于“无限流”,可生成任意大小的高分辨率图像或长时间视频。一起来感受一下 AI 的…
ICML 2022 | 机器学习前沿论文精选!
编者按:ICML 被认为是人工智能、机器学习领域最顶级的国际会议之一,在计算机科学界享有崇高的声望。ICML 2022 于7月17日-23日以线上线下结合的方式举办。今天我们精选了微软亚洲研究院在此次大会上发表的7篇论文,来为大家进行简要介绍,从强化学习、图神经网络、知识图谱表示学习等关键词带你一览机器学习领域的最新成果! 论文链接:https://arxiv.org/abs/2202.07995…
OSDI 2022 | 速来围观!微软亚洲研究院计算机系统领域最新论文!
编者按:OSDI(Operating Systems Design and Implementation)是计算机系统领域最顶级的学术会议之一,汇集了全球计算机科学家们对于计算机系统的前瞻性思考。第16届 OSDI 于2022年7月11日至13日召开,本次会议共有253篇论文投稿,接收49篇,接收率为19.4%。本文中,我们将分享微软亚洲研究院被 OSDI 2022收录的3篇论文,希望可以帮助大家…
科学智能(AI4Science)赋能科学发现的第五范式
未来十年,深度学习注定将会给自然科学带来变革性的影响。其结果具有潜在的深远意义,可能会极大地提高我们在差异巨大的空间和时间尺度上对自然现象进行建模和预测的能力。这种能力是否代表着科学发现新范式的曙光? 图灵奖获得者、前微软技术院士 Jim Gray 用“四种范式”描述了科学发现的历史演变。第一范式的起源可以追溯到几千年前,它纯粹是经验性的,基于对自然现象的直接观察。虽然在这些观察中,有许多规律是显…
AI与教育的深度融合,究竟什么是核心问题?
编者按:AI+教育是近年来教育行业乃至整个社会都非常关注的热点话题。相比于 AI 在其他领域的落地应用,AI+教育的进展一直相对缓慢。作为未来教育领域发展的大势所趋,AI+教育到底面临怎样艰难的挑战? 此前,微软亚洲研究院与华东师范大学就基于双方在各自领域的领先优势展开战略合作,希望依托计算机技术推进教育与人工智能的深度融合。目前,双方的合作已经形成了在学术界与产业界均具有引导性的创新研究成果,中…
渣画质视频秒变清晰,“达芬奇”工具集帮你自动搞定
编者按:是否时常“考古”一些老电影、老动漫来回忆旧日时光?你是否也有一些珍贵的录像,带你重温过去的美好?然而,我们已经习惯了高清体验,回头再看曾经的旧影像,画质或许“渣”的让人不忍直视。在这个多媒体内容爆发的时代,人们对视频内容的需求愈加强烈,视频素材的创作、增强及再创作技术也有了大幅提升。尽管利用现有的视频修复工具,视频编辑者也能让视频变得更高清,但其前提条件是需要有超高性能配置的电脑,并付出视…
CVPR 2022 | 一键解锁微软亚洲研究院计算机视觉领域前沿进展!
编者按:国际计算机视觉与模式识别会议(CVPR)是人工智能领域最具学术影响力的顶级会议之一。微软亚洲研究院也在4月成功举办了 CVPR 2022 论文分享会。今天,我们为大家精选了8篇微软亚洲研究院被 CVPR 2022 收录的优秀论文,带你探索计算机视觉领域的热点前沿!欢迎感兴趣的读者阅读论文原文。 论文链接:https://arxiv.org/abs/2203.09208 视频复原任务非常依赖…
夏炎:做科学研究与技术应用的“摆渡人”
编者按:科学研究与技术创新的过程总是充满了不确定性,科研人员无法提前计算创新的周期,也无法预料每个灵感所带来的最终结果。若想将一项研究成果落地并通过产品化的方式让更多人感受到前沿技术所带来的便利,研究工程师的参与尤为重要,他们需要全面掌握终端用户的需求,深入了解技术应用的深度与广度,打通各个环节的流程,有效地将算法模型与产品应用连接起来。然而知易行难,这一过程中的艰辛与技术落地时的成就感也只有亲身…
编者按:AI 合成语音如今已经屡见不鲜,然而在用户听来却不能让人产生与真人对话和阅读般的沉浸感。不过,微软亚洲研究院和微软 Azure 语音团队近日联合推出的全新端到端语音合成模型 NaturalSpeech,在 CMOS 测试中首次达到了真人说话水准。这将近一步提升微软 Azure 中合成语音的水平,让所有合成声音都惟妙惟肖。 文本到语音合成(Text to Speech,TTS)是一项根据文本…