AIGC技术周报|清华、北邮新研究:让文生图AI更懂你

OpenAGI:当大模型遇见领域专家

“愿原力与大型语言模型和领域专家同在。”

——由 ChatGPT 生成

人类的智慧有着将基础技能组合成复杂技能、进而解决复杂任务的卓越能力。该研究表示,除了开发大型、全面的智能模型外,为这些模型配备利用各种特定领域专家模型解决复杂任务的能力,对于实现通用人工智能(AGI)同样至关重要。

近期,大型语言模型(LLMs)展示了卓越的学习和推理能力,有望成为选择、综合和执行外部模型来解决复杂任务的控制器。该研究开发了一个名为 OpenAGI 的开源 AGI 研究平台,专门设计用于提供复杂的多步骤任务,并配备了特定任务的数据集、评估指标和多样化的可扩展模型。

OpenAGI 将复杂任务公式化为自然语言查询,作为输入传递给 LLMs。然后,LLMs 通过选择、综合和执行 OpenAGI 提供的模型来解决任务。此外,该研究提出了一种基于任务反馈的强化学习(RLTF)机制,使用任务解决结果作为反馈来改善 LLMs 的任务解决能力。以上,为自我改进的 AI 提供了一个反馈循环。

该研究认为,LLMs 操作各种专家模型解决复杂任务的范例,是实现 AGI 的一种有前途的方法。

论文链接:

https://arxiv.org/abs/2304.04370

清华、北邮团队:让文生图AI更懂你

文本-图像生成模型,包括自动回归和基于扩散的方法,在最近几年经历了快速的发展。然而,当前自我监督的预训练生成器还远远不够完美,一个主要的挑战在于使模型与人类的偏好相一致。

该研究提出了 ImageReward——第一个通用的文本到图像的人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。

这一模型的训练基于系统注释管道,涵盖评级和排名组件,收集了迄今为止 137000 个专家比较的数据集。在人类评估中,ImageReward 优于现有的评分方法(如比 CLIP 高出 38.6%),是文生图的理想自动评估指标。

下图展示了不同的文生图评分器中,从 64 个生成的图像中选出的 Top-1 图像。ImageReward 选择具有更好的文本连贯性和人类偏好的图像。在提示中,粗体大致表示内容,斜体表示风格或功能。

论文链接:

https://arxiv.org/abs/2304.05977

让霉霉笑得更开心,基于先验信息编辑人脸

在计算机视觉和图形学中,如何逼真地改变一张人像照片的光线、表情、头部姿势等,同时保留人物的身份和高频面部特征,是一个长期存在的问题。解决这个问题的难度,源于其根本上的欠约束性。

该研究解决了从同一个人的少量(如 20 张)肖像照片中学习特定个人面部先验信息的问题。使得编辑特定个人的外表(如表情和光线)同时保留他们的身份和高频面部细节成为可能。

该研究提出的名为 DiffusionRig 方法的关键是一个扩散模型,该模型以通过现场单个图像的现成估计器估计的粗略 3D 人脸模型为条件进行“装配”,学习将 3D 面部模型的简单渲染映射到给定人物的真实照片中。

DiffusionRig 采用粗略的物理渲染作为条件,以学习到的个人特征为基础来对输入图像进行编辑。编辑后的图像尊重渲染条件、保留身份信息,并展现高频面部细节。实验表明,DiffusionRig 在身份保存和真实感方面优于现有方法。

参考链接:

https://arxiv.org/abs/2304.06711

用“富文本”生成图像

纯文本已成为文生图的流行界面。然而,其有限的定制选项阻碍了用户准确描述所需的输出。例如,纯文本很难指定连续的数量,如精确的 RGB 颜色值或每个单词的重要性。

此外,为复杂场景创建详细的文本提示对于人类编写是繁琐的,对文本编码器来说也很难解释。为了应对这些挑战,该研究建议使用支持字体样式、大小、颜色和脚注等格式的富文本编辑器。

研究阐释了从富文本中提取每个单词的属性,以实现局部风格控制、显式标记重新加权、精确的颜色渲染和详细的区域合成,通过基于区域的扩散过程来实现这些能力。实验表明,这一方法在定量评估方面优于强基线。

此研究方法方法允许用户使用富文本编辑器描述图像,并支持各种文本属性,如字体族、大小、颜色和脚注等。根据从富文本提示中提取的这些文本属性,相较于普通文本,能够对文生图进行精确控制,涉及颜色、样式和物体细节。下图展示了分别采用普通文本(左图)与富文本(右图)生成的图片。

参考链接:

https://arxiv.org/abs/2304.06720

本文链接:https://my.lmcjl.com/post/18434.html

展开阅读全文

4 评论

留下您的评论.