AIGC技术周报｜清华、北邮新研究：让文生图AI更懂你

OpenAGI：当大模型遇见领域专家 “愿原力与大型语言模型和领域专家同在。” ——由 ChatGPT 生成人类的智慧有着将基础技能组合成复杂技能、进而解决复杂任务的卓越能力。该研究表示，除了开发大型、全面的智能模型外，为这些模型配备利用各种特定领域专家模型解决复杂任务的能力，对于实现通用人工智能（AGI）同样至关重要。近期，大型语言模型（LLMs）展 2024-02-24 0 Comments

OpenAGI：当大模型遇见领域专家

“愿原力与大型语言模型和领域专家同在。”

——由 ChatGPT 生成

人类的智慧有着将基础技能组合成复杂技能、进而解决复杂任务的卓越能力。该研究表示，除了开发大型、全面的智能模型外，为这些模型配备利用各种特定领域专家模型解决复杂任务的能力，对于实现通用人工智能（AGI）同样至关重要。

近期，大型语言模型（LLMs）展示了卓越的学习和推理能力，有望成为选择、综合和执行外部模型来解决复杂任务的控制器。该研究开发了一个名为 OpenAGI 的开源 AGI 研究平台，专门设计用于提供复杂的多步骤任务，并配备了特定任务的数据集、评估指标和多样化的可扩展模型。

OpenAGI 将复杂任务公式化为自然语言查询，作为输入传递给 LLMs。然后，LLMs 通过选择、综合和执行 OpenAGI 提供的模型来解决任务。此外，该研究提出了一种基于任务反馈的强化学习（RLTF）机制，使用任务解决结果作为反馈来改善 LLMs 的任务解决能力。以上，为自我改进的 AI 提供了一个反馈循环。

该研究认为，LLMs 操作各种专家模型解决复杂任务的范例，是实现 AGI 的一种有前途的方法。

论文链接：

https://arxiv.org/abs/2304.04370

清华、北邮团队：让文生图AI更懂你

文本-图像生成模型，包括自动回归和基于扩散的方法，在最近几年经历了快速的发展。然而，当前自我监督的预训练生成器还远远不够完美，一个主要的挑战在于使模型与人类的偏好相一致。

该研究提出了 ImageReward——第一个通用的文本到图像的人类偏好奖励模型——来解决生成模型中的各种普遍问题，并使它们与人类价值观和偏好保持一致。

这一模型的训练基于系统注释管道，涵盖评级和排名组件，收集了迄今为止 137000 个专家比较的数据集。在人类评估中，ImageReward 优于现有的评分方法（如比 CLIP 高出 38.6%），是文生图的理想自动评估指标。

下图展示了不同的文生图评分器中，从 64 个生成的图像中选出的 Top-1 图像。ImageReward 选择具有更好的文本连贯性和人类偏好的图像。在提示中，粗体大致表示内容，斜体表示风格或功能。

论文链接：

https://arxiv.org/abs/2304.05977

让霉霉笑得更开心，基于先验信息编辑人脸

在计算机视觉和图形学中，如何逼真地改变一张人像照片的光线、表情、头部姿势等，同时保留人物的身份和高频面部特征，是一个长期存在的问题。解决这个问题的难度，源于其根本上的欠约束性。

该研究解决了从同一个人的少量（如 20 张）肖像照片中学习特定个人面部先验信息的问题。使得编辑特定个人的外表（如表情和光线）同时保留他们的身份和高频面部细节成为可能。

该研究提出的名为 DiffusionRig 方法的关键是一个扩散模型，该模型以通过现场单个图像的现成估计器估计的粗略 3D 人脸模型为条件进行“装配”，学习将 3D 面部模型的简单渲染映射到给定人物的真实照片中。

DiffusionRig 采用粗略的物理渲染作为条件，以学习到的个人特征为基础来对输入图像进行编辑。编辑后的图像尊重渲染条件、保留身份信息，并展现高频面部细节。实验表明，DiffusionRig 在身份保存和真实感方面优于现有方法。

参考链接：

https://arxiv.org/abs/2304.06711

用“富文本”生成图像

纯文本已成为文生图的流行界面。然而，其有限的定制选项阻碍了用户准确描述所需的输出。例如，纯文本很难指定连续的数量，如精确的 RGB 颜色值或每个单词的重要性。

此外，为复杂场景创建详细的文本提示对于人类编写是繁琐的，对文本编码器来说也很难解释。为了应对这些挑战，该研究建议使用支持字体样式、大小、颜色和脚注等格式的富文本编辑器。

研究阐释了从富文本中提取每个单词的属性，以实现局部风格控制、显式标记重新加权、精确的颜色渲染和详细的区域合成，通过基于区域的扩散过程来实现这些能力。实验表明，这一方法在定量评估方面优于强基线。

此研究方法方法允许用户使用富文本编辑器描述图像，并支持各种文本属性，如字体族、大小、颜色和脚注等。根据从富文本提示中提取的这些文本属性，相较于普通文本，能够对文生图进行精确控制，涉及颜色、样式和物体细节。下图展示了分别采用普通文本（左图）与富文本（右图）生成的图片。

参考链接：

https://arxiv.org/abs/2304.06720

本文链接：https://my.lmcjl.com/post/18434.html

展开阅读全文

4 评论

擅长工具开发、爬虫采集技术、大数据统计处理！
座右铭：皇天不负有心人。

AIGC技术周报｜清华、北邮新研究：让文生图AI更懂你

OpenAGI：当大模型遇见领域专家

清华、北邮团队：让文生图AI更懂你

4 评论

留下您的评论. Cancel reply

OpenAGI：当大模型遇见领域专家

清华、北邮团队：让文生图AI更懂你

相关文章

4 评论

留下您的评论. Cancel reply