kMBRjund/0 🧊

Forwarded from CyanNAI | News&New Tech for AI (|̲̅S̲̅V̲̅I̲̅P̲̅|CyanFalse | IP归属地：太阳云耀斑)

”当使用过它（OpenAI新绘画模型）之后，我对Midjourney已经再也提不起一点兴趣了。“
这句“虎狼之词”出自一位OpenAI新图像生成平台的内测用户之口。显然，OpenAI已经再一次做好了掀桌子的准备，而这次他们所瞄准的，正是AI图像生成领域。

根据YouTube博主MattVidPro透露，他的一位粉丝在不久前获得了OpenAI新图像生成平台的内测资格，并向他悄悄透露了大量利用新平台生成的作品。

MattVidPro在视频中表示，据这位粉丝透露，OpenAI正在秘密测试一个全新的图像生成平台，该平台很可能是此前OpenAI所发布的文生图工具Dell-E 2的升级版。并且这次测试非常隐蔽——用户需要在一个仅能容纳400人的OpenAI独家测试服务器中访问该平台。

在进行了一段时间的尝试后，这位粉丝发现，新平台不仅能够创建具有头发、灯光、广告副本等细节特征的逼真图像，而且在生成连贯细节和遵循提示词方面具有极强的能力。在许多任务的执行效果上甚至可以吊打如今AI生成图领域名气最盛的Midjourney。

首先是连贯细节方面，了解AI图像生成模型的人可能会知道，当前绝大多数模型都无法准确处理生成图中的文字内容。Midjourney也同样拥有这项缺陷。一个来自互联网的例子是：“生成红色铅笔，上面印有‘welcome’的文字。”Midjourney虽然完成了红色铅笔的生成，但文字呈现方面可以说一塌糊涂。

但显然，OpenAI已经找到了解决这一问题的方法，在MattVidPro所展示的图片中，新平台在处理相似任务时的表现可以说非常炸裂。无论是生成写有博主ID的海报，还是生成《GTA5》的游戏盒子全都不在话下，并且图像中的主体文字内容完全没有出错。

除此之外，在面对较为复杂的提示词时，相比于Midjourney，OpenAI新平台所生成的图像内容显然更接近提示词的描述。这里一个典型的例子是根据以下提示生成图像：“在一场自行车比赛中，一名粉色小丑正在与一只熊猫击掌。自行车是由奶酪制成的，地面非常泥泞。他们在一个多雾的森林里骑车，熊猫很生气。”在Midjourney所给出的四张作品中，一只熊猫没有骑车，而其余三只的座驾都是没有出现奶酪元素的摩托而非自行车，并且四张图片中均没有出现小丑角色，熊猫的表情看起来也与生气毫不沾边

而OpenAI平台在相同任务上的表现则无需多言，所生成作品包含了提示中的几乎全部细节。

但根据OpenAI于3月所发表的论文，不少专业人士推测，该平台很可能利用了全新的“一致性模型”而非目前业内主流的“扩散模型”。

在这篇名为《Consistency Models》的论文中，OpenAI提到，一致性模型在训练速度上覆盖了扩散模型，能够“一步生成”，能够比扩散模型更快实现简单任务，且所用计算量要少10-2000倍。此外，一致性模型也允许“多步采样”，以计算换取样本质量。因此即使没有迭代过程，一致性模型也可以产生高质量结果，并能快速适用于实时任务。

与扩散模型相同，一致性模型也支持零样本数据编辑。例如在修补、着色或超分辨率任务中，一致性模型可以从预先训练的扩散模型中提取数据，也可以单独进行训练。根据OpenAI的说法，一致性模型能在所有非对抗性单步生成任务中胜过扩散模型。

并且以上所提到的两种训练方式都将“对抗训练”从中删除了。这是由于对抗训练过程较为复杂，虽然这更易于产生强大的神经网络，但对抗训练的方式也会导致模型预测的准确率下降。部分业内人士认为，这便是OpenAI新平台能够在处理连贯任务和遵循提示方面表现得更好的主要原因。

除此之外，一个没有太多依据的猜测是，在Dall-E 2发布的几个月前，OpenAI发表了几篇关于扩散模型的论文。如果从时间维度推测，新平台则很可能利用了全新的一致性模型。当然，以上这些也只是目前业内的普遍猜测，在OpenAI官方发声之前，估计我们也很难了解到更多关于该平台的技术细节。

而对于OpenAI为何要如此隐蔽的对该平台进行测试，根据博主MattVidPro的说法以及几个相关的图片案例来看，目前该平台似乎仍未完成全部的开发工作，一些细节方面的问题依然有待进一步完善。

首先便是一直以来都困扰着生成模型的“画手”问题，虽然在大部分情况下表现还算不错，但新平台偶尔也会在生成人物手部细节时犯错误。例如在这张“打喷嚏的粉发少女”中，我们可以清晰地看到人物的手指被描绘成了六根。

除此之外，根据粉丝的透露，目前该平台还没有设置任何安全限制，能够生成包含血腥暴力、色情等敏感元素的图像，甚至有时一些敏感图像会在没有提示的情况下弹出。视频中，MattVidPro分享了一张相对委婉的生成图像，并表示一些“有点出格的作品”并不方便公开展示。

对于OpenAI的下一步计划，不少网友也在Youtube上留下了自己的观点。部分人认为，由于GPT4目前已具有了多模态信息处理能力，OpenAI很可能会基于新平台在下一版ChatGPT中集成强大的AI生成图功能

151 views☁️𝓔𝓵𝓿𝓲𝓷 𝓢𝓽𝓪𝓻𝓻𝔂☁️ | IP属地: 𝕏, 09:55