Meta推出“阿波罗”多模态大模型:轻松理解一小时长视频|大模型日报
更新时间:2024-12-17 14:11 浏览量:5
今日值得关注的大模型前沿论文GenEx:一张图,任意生成高质量、可探索世界!Meta 推出多模态大模型 Apollo:轻松理解一小时长视频微软新作:大型行动模型 LAM 综述中科院、北航团队提出「视觉音乐桥接」,增强多模态音乐生成SnapGen:极小、快速的高分辨率“文生图”模型Lyra:高效、全认知多模态大语言模型EasyRef:即插即用的扩散模型适配方法微软提出「多模态潜在语言建模」,无缝整合离散、连续数据想要第一时间获取每日最新大模型热门论文?点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术分享群」。1.GenEx:一张图,任意生成高质量、可探索世界!理解、导航和探索三维物理现实世界,一直是人工智能发展的关键挑战。在这项工作中,来自约翰霍普金斯大学的研究团队通过提出 GenEx 向这一目标迈出了一步。GenEx 是一个能够规划复杂的具身世界探索的系统,由其生成的想象力引导,形成对周围环境的先验(预期),只需一张 RGB 图像就能生成整个三维一致的想象环境,并通过全景视频流使之栩栩如生。利用从虚幻引擎中提取的可扩展三维世界数据,GenEx 在物理世界中得到了完善,可以轻松捕捉到连续的 360 度环境,为智能体(agent)探索和互动提供了广阔的景观。GenEx 实现了高质量的世界生成,在长轨迹上具有鲁棒的循环一致性,并展示了强大的三维能力,如一致性和主动三维映射。在对世界的生成性想象力的支持下,GPT 辅助智能体能够执行复杂的具身任务,包括目标无关的探索和目标驱动的导航。这些智能体利用对物理世界未见部分的预测期望来完善自己的信念,模拟基于潜在决策的不同结果,并做出更明智的选择。研究团队表示,GenEx 可以在想象空间中推进具身人工智能,并为将这些能力扩展到现实世界的探索带来了潜力。论文链接:https://arxiv.org/abs/2412.09624项目地址:https://www.genex.world/