Meta推出“阿波罗”多模态大模型：轻松理解一小时长视频｜大模型日报

发布时间：2024-12-17 14:11:00 浏览量：54

今日值得关注的大模型前沿论文GenEx：一张图，任意生成高质量、可探索世界！Meta 推出多模态大模型 Apollo：轻松理解一小时长视频微软新作：大型行动模型 LAM 综述中科院、北航团队提出「视觉音乐桥接」，增强多模态音乐生成SnapGen：极小、快速的高分辨率“文生图”模型Lyra：高效、全认知多模态大语言模型EasyRef：即插即用的扩散模型适配方法微软提出「多模态潜在语言建模」，无缝整合离散、连续数据想要第一时间获取每日最新大模型热门论文？点击阅读原文，查看「2024必读大模型论文」合集，以及申请加入「大模型技术分享群」。1.GenEx：一张图，任意生成高质量、可探索世界！理解、导航和探索三维物理现实世界，一直是人工智能发展的关键挑战。在这项工作中，来自约翰霍普金斯大学的研究团队通过提出 GenEx 向这一目标迈出了一步。GenEx 是一个能够规划复杂的具身世界探索的系统，由其生成的想象力引导，形成对周围环境的先验（预期），只需一张 RGB 图像就能生成整个三维一致的想象环境，并通过全景视频流使之栩栩如生。利用从虚幻引擎中提取的可扩展三维世界数据，GenEx 在物理世界中得到了完善，可以轻松捕捉到连续的 360 度环境，为智能体（agent）探索和互动提供了广阔的景观。GenEx 实现了高质量的世界生成，在长轨迹上具有鲁棒的循环一致性，并展示了强大的三维能力，如一致性和主动三维映射。在对世界的生成性想象力的支持下，GPT 辅助智能体能够执行复杂的具身任务，包括目标无关的探索和目标驱动的导航。这些智能体利用对物理世界未见部分的预测期望来完善自己的信念，模拟基于潜在决策的不同结果，并做出更明智的选择。研究团队表示，GenEx 可以在想象空间中推进具身人工智能，并为将这些能力扩展到现实世界的探索带来了潜力。论文链接：https://arxiv.org/abs/2412.09624项目地址：https://www.genex.world/

Meta推出“阿波罗”多模态大模型：轻松理解一小时长视频｜大模型日报

相似文章