OpenAI释出可用文字提示快速生成3D模型的AI

OpenAI发表最新文字生成3D模型的人工智慧模型Point-E，研究人员提到，虽然Point-E模型所产生的3D模型品质，还未达最先进的水准，但是因为Point-E的样本生成速度快了其他方法一到两个量级，因此在部分用例可供使用者权衡使用。

目前文字生成图像模型爆炸性成长，先进的模型在数秒中内，就能够根据自然语言描述，快速生成高品质图像，这和目前3D模型生成发展，产生极大的对比，而由於3D生成的使用案例很广，可被用於虚拟实境、游戏和工业设计等，因此发展文字生成3D模型技术，对於普及3D内容创作有很大的发展潜力。

研究人员提到，目前使用文字产生3D合成模型的方法主要有两种，其一是直接使用文字和模型的资料对，或是未标记的3D资料训练模型，虽然这些模型可以利用现有的生成建模方法，有效地生成样本，但因为目前缺乏大规模3D资料集，因此很难广展其多样性和复杂文字提示。

另一种方法则是利用预训练文字图像模型，以最佳化可微分3D表示的方法，研究人员解释，这些方法通常能够处理复杂多样的文字提示，但需要更昂贵的最佳化过程才能生成每个样本。OpenAI的Point-E的目标则是结合文字到图像模型，以及图像到3D模型技术，来总和两种方法的优点。

文字到图像模型利用大量文字、图像对语料库，使Point-E能够遵循多样且复杂的提示，而图像到3D模型，则是在较小的图像、3D对资料集训练。因此Point-E从文字提示生成3D物件，首先是使用文字生成图像模型进行采样，然後将采样图像作为条件生成3D物件样本，这两个步骤可以在数秒钟内完成模型点云，不需要昂贵的最佳化程序。

研究人员最後使用回归方法，从点云生成网格，Point-E整个过程只要一到两分钟，就可以在单个GPU上生成3D模型，虽然目前Point-E所产生的模型品质较差，但在部分需要短回应时间的用例上，Point-E为一个权衡的方法。目前OpenAI已经在GitHub上发布预训练模型，以及评估程式码和模型。