（小伞每日论文概读）视觉ChatGPT？让ChatGPT能画画的模型设计！

声明本篇文章的相关图片来源于论文：Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models 论文链接如下：https://arxiv.org/pdf/2303.04671.pdf 碍于本人的知识水平所限，本篇文章的总结可能存在不妥之处，如： 作为参考，请谨慎推理内容的真实性（人某种意义上与chatg 2023-09-14 0 Comments

声明

本篇文章的相关图片来源于论文：Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

论文链接如下：https://arxiv.org/pdf/2303.04671.pdf

碍于本人的知识水平所限，本篇文章的总结可能存在不妥之处，如：

作为参考，请谨慎推理内容的真实性（人某种意义上与chatgpt也没差）

欢迎各路大佬指出问题！

文章分类

领域定位：自然语言处理，计算机视觉
领域细分
- 大语言模型的多模态
- ChatGPT衍生产品

这篇文章的创新点在哪里？

整了一个prompt manager，让视觉模型能通过prompt manager与ChatGPT打配合，使得ChatGPT可以”生图“与”看图“
执行了大量的零样本实验（感觉这个说法是基于把ChatGPT当成黑箱模型来得到的，本篇文章的许多结论建立在这个假设上）

这篇文章的技术点在哪里？

顾名思义，技术点，即可以运用在工程项目上面的point，如下：

提示工程方法：基于chatgpt的提示工程方法。提示工程是一种基于”大大语言模型是个黑盒模型“得到的实验性理论，通过提示工程可以加强诸如chatgpt等大语言模型某些方面的表示能力。

基于提示工程实现的tricks
- 自我询问方法：让chatgpt自我对问题进行询问，从而提高chatgpt使用prompt manager的概率
- 主动问讯：主动向用户询问更多细节，减少GPT的主观臆断
- 规则限制：强制使用某些命名规则
- 定义了visual ChatGPT的作用：基于思维链路暗示CHatgpt的任务
- 可靠性：基于提示使chatgpt忠于视觉基础模型的输出
- 视觉模型列表可访问性支持：ChatGPT可以访问VFMs列表，以解决各种VL任务。
提示学习
- 思维链模型引导：通过思维链（CoT）方法引导ChatGPT

这篇论文的相关工作及其主线为？

涉及到的主线有3条：

大语言模型的发展
NLP与CV
视觉语言（VL）任务

这篇文章主要的设计是？

设计思路：
- 用户提出一个query（可能带图）
- query经过prompt manager，追加了一系列系统原则与提示交给chatgpt
- chatgpt返回一系列表述给prompt manager
- （判断若需要生图工作）prompt manager将部分表述交给VFMs（视觉模型们）进行生图操作
- VFMs将图像数据返回给prompt manager
- prompt manager基于图像数据生成图像语言
- 图像语言交给ChatGPT判断正确性，该过程不断迭代直到满足一定条件
- 输出处理后的语言与图像结果

整体架构设计：
- Prompt manager的基本设计
  - 系统原则
    - 定义了visual ChatGPT的作用：基于思维链路暗示CHatgpt的任务
    - VFMs可访问性：ChatGPT可以访问VFMs列表，以解决各种VL任务。使用哪个基础模型完全由ChatGPT模型本身决定，因此很容易支持新的vfm和VL任务。
    - 文件名敏感性：暗示其严格使用文件名以避免其混淆不同的图像文件
    - 思维链模型建模：引入了CoT辅助建模
    - 可靠性：基于提示使chatgpt忠于视觉基础模型的输出
    - 优先使用VFMs：构建的提示将引导ChatGPT优先利用vfm，而不是根据会话历史生成结果
  - 历史对话的处理
    - 多轮问题的字符串串接
    - 基于最大长度阈截断对话历史
  - 用户询问的处理
    - 一个用于提醒gpt使用vfm的提示
      - 它提示Visual ChatGPT使用基础模型，而不是仅仅依靠它的想象力
      - 它鼓励Visual ChatGPT提供由基础模型生成的特定输出，而不是像“您在这里”这样的通用响应。
    - 一个具有通用唯一标识符(UUID)的唯一文件名，并添加一个前缀字符串“image”表示相对目录
      - 新上传的图像不会被输入到ChatGPT，但会生成一个假的对话历史记录，其中一个问题说明了图像的文件名，而一个答案表明图像已被接收。
  - 模型输入输出步骤
    - 图像保存至image文件夹下，图像命名——名称+操作+预览名+组织名称
    - 使用这样的命名规则，它可以提示ChatGPT中间结果属性，即。图像，以及它是如何从一系列操作中生成的。
    - 自我问询方法：让ChatGPT通过在每一代结束时扩展一个后缀“Thought:”来不断地询问自己是否需要vfm来解决当前的问题
    - 主动向用户询问更多细节，减少GPT的主观臆断
- VFMs：基于视觉任务的模型
  - 支持22中不同任务的视觉模型，具备视觉任务上很好的扩展性

部分实验过程摘录

论文的详细内容详见https://arxiv.org/pdf/2303.04671.pdf欧~

本文链接：https://my.lmcjl.com/post/6247.html

展开阅读全文

4 评论

擅长工具开发、爬虫采集技术、大数据统计处理！
座右铭：皇天不负有心人。

（小伞每日论文概读）视觉ChatGPT？让ChatGPT能画画的模型设计！

声明

文章分类

这篇文章的创新点在哪里？

这篇文章的技术点在哪里？

这篇论文的相关工作及其主线为？

这篇文章主要的设计是？

部分实验过程摘录

4 评论

留下您的评论. Cancel reply

声明

文章分类

这篇文章的创新点在哪里？

这篇文章的技术点在哪里？

这篇论文的相关工作及其主线为？

这篇文章主要的设计是？

部分实验过程摘录

相关文章

4 评论

留下您的评论. Cancel reply