OpenAI发表最新文字生成3D模型的人工智慧模型Point-E,研究人员提到,虽然Point-E模型所产生的3D模型品质,还未达最先进的水准,但是因为Point-E的样本生成速度快了其他方法一到两个量级,因此在部分用例可供使用者权衡使用。
目前文字生成图像模型爆炸性成长,先进的模型在数秒中内,就能够根据自然语言描述,快速生成高品质图像,这和目前3D模型生成发展,产生极大的对比,而由於3D生成的使用案例很广,可被用於虚拟实境、游戏和工业设计等,因此发展文字生成3D模型技术,对於普及3D内容创作有很大的发展潜力。
研究人员提到,目前使用文字产生3D合成模型的方法主要有两种,其一是直接使用文字和模型的资料对,或是未标记的3D资料训练模型,虽然这些模型可以利用现有的生成建模方法,有效地生成样本,但因为目前缺乏大规模3D资料集,因此很难广展其多样性和复杂文字提示。
另一种方法则是利用预训练文字图像模型,以最佳化可微分3D表示的方法,研究人员解释,这些方法通常能够处理复杂多样的文字提示,但需要更昂贵的最佳化过程才能生成每个样本。OpenAI的Point-E的目标则是结合文字到图像模型,以及图像到3D模型技术,来总和两种方法的优点。
文字到图像模型利用大量文字、图像对语料库,使Point-E能够遵循多样且复杂的提示,而图像到3D模型,则是在较小的图像、3D对资料集训练。因此Point-E从文字提示生成3D物件,首先是使用文字生成图像模型进行采样,然後将采样图像作为条件生成3D物件样本,这两个步骤可以在数秒钟内完成模型点云,不需要昂贵的最佳化程序。
研究人员最後使用回归方法,从点云生成网格,Point-E整个过程只要一到两分钟,就可以在单个GPU上生成3D模型,虽然目前Point-E所产生的模型品质较差,但在部分需要短回应时间的用例上,Point-E为一个权衡的方法。目前OpenAI已经在GitHub上发布预训练模型,以及评估程式码和模型。…