欢迎来到八仙过海的读后感

八仙过海的读后感

一行文本,生成3D动态场景 :Meta这个「一步到位」模型有点厉害

时间:2023-04-01 05:19:37 出处:娱乐阅读(143)

不(bú)再需要(yào)任何 3D 或 4D 数据 ,īshēnchéngDònMetazhgèyīdàtypeǒ来自 Meta 的行文(de)研究者首次提出(chū)了(le)可(kě)以(yǐ)从文本描述中(zhōng)生(shēng)成(chéng)三维动(dòng)态场景的(de)方法 MAV3D (Make-A-Video3D)。

仅输入一(yī)行文本 ,本生步对大雪节气的描述就(jiù)能生(shēng)成(chéng) 3D 动(dòng)态场景?

没错,成场景已经有(yǒu)研究者做到(dào)了(le) 。动d点厉可(kě)以(yǐ)看出(chū)来,模型目前的īshēnchéngDònMetazhgèyīdàtypeǒ(de)生(shēng)成(chéng)效果还处于(yú)初级阶段,只能生(shēng)成(chéng)一(yī)些简单的行文(de)对(duì)象。不(bú)过这(zhè)种「一(yī)步到(dào)位」的本生步对大雪节气的描述(de)方法仍然引(lead)起了(le)大(dà)量研究者的(de)关注 :

在(zài)最近的(de)一(yī)篇论文中(zhōng),来自 Meta 的成场景(de)研究者首次提出(chū)了(le)可(kě)以(yǐ)从文本描述中(zhōng)生(shēng)成(chéng)三维动(dòng)态场景的(de)方法 MAV3D (Make-A-Video3D) 。

  • 论文链接 :https://arxiv.org/abs/2301.11280
  • 项目链接 :https://make-a-video3d.github.io/

具体而言,动d点厉该(Should)方法运用 4D 动(dòng)态神经辐射场(NeRF),模型通过查(check)询基于(yú)文本到(dào)视频(T2V)扩散的īshēnchéngDònMetazhgèyīdàtypeǒ(de)模型(type) ,优化场景外观 、行文密度和(hé)运动(dòng)的本生步(de)一(yī)致性。任意机位或角度都可(kě)以(yǐ)观看到(dào)提供的(de)文本生(shēng)成(chéng)的(de)动(dòng)态视频输出(chū),并可(kě)以(yǐ)合成(chéng)到(dào)任何 3D 环境中(zhōng) 。

MAV3D 不(bú)需要(yào)任何 3D 或 4D 数据 ,T2V 模型(type)只对(duì)文本图像对(duì)和(hé)未标记的(de)视频进行训练。

让我(wǒ)们看一(yī)下 MAV3D 从文本生(shēng)成(chéng) 4D 动(dòng)态场景的(de)效果:

此外,它也(yě)能从图像直接到(dào) 4D,效果如下 :

研究者通过全面的(de)定量和(hé)定性实验证明了(le)该(Should)方法的(de)有(yǒu)效性 ,先前建立的(de)内部 baseline 也(yě)得到(dào)了(le)改进 。据悉 ,这(zhè)是(shì)第一(yī)个(gè)根据文本描述生(shēng)成(chéng) 3D 动(dòng)态场景的(de)方法 。

方法

该(Should)研究的(de)目标在(zài)于(yú)开发(fā)一(yī)项能从自然语言描述中(zhōng)生(shēng)成(chéng)动(dòng)态 3D 场景表征的(de)方法。这(zhè)极具挑战性,因为(wéi)既没有(yǒu)文本或 3D 对(duì),也(yě)没有(yǒu)用于(yú)训练的(de)动(dòng)态 3D 场景数据 。因此 ,研究者选择依靠预训练的(de)文本到(dào)视频(T2V)的(de)扩散模型(type)作(zuò)为(wéi)场景先验,该(Should)模型(type)已经学会(huì)了(le)通过对(duì)大(dà)规模图像 、文本和(hé)视频数据的(de)训练来建模场景的(de)真实外观和(hé)运动(dòng) 。

从更高层(layer)次来看 ,在(zài)给定一(yī)个(gè)文本 prompt p 的(de)情况下,研究可(kě)以(yǐ)拟合一(yī)个(gè) 4D 表征

分享到:

温馨提示:以上内容和图片整理于网络,仅供参考,希望对您有帮助!如有侵权行为请联系删除!

友情链接: