What…MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！

2023年4月22日上午9:29 • 人工智能概论

yizhihongxing

说在前面的话：

一个月前，OpenAI向外界展示了GPT-4如何通过手绘草图直接生成网站，令当时的观众瞠目结舌。

在GPT-4发布会之后，相信大家对ChatGPT的对话能力已有所了解。圈内的朋友们应该已经亲身体验过无论是文本生成、编写代码，还是上下文关联对话能力，这些功能都一次又一次地震撼着我们。

还记得发布会上，GPT-4展示的多模态能力，输入不仅仅局限于文字，还可以包括文本和图像，让我大开眼界。

例如：画个网站的草图，GPT4 就可以立马生成网站的 HTML 代码。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！

然而，时光荏苒！OpenAI至今尚未提供发布会上展示的多模态处理能力！

原本以为我们还需要再等上一段时间才能看到这一功能的更新，然而意想不到的是，我发现了这样一个项目。

这个项目被称为MiniGPT-4，由著名的阿卜杜拉国王科技大学的几位博士研究生共同完成。

更为重要的是，该项目完全开源！效果如视频中所展示的那样：

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！

MiniGPT-4在线体验DEMO

MiniGPT-4能够支持文本和图像输入，成功实现了多模态输入功能，实在令人叹为观止！

GitHub项目地址：https://github.com/Vision-CAIR/MiniGPT-4

在线体验链接：https://minigpt-4.github.io

另外作者还提供了网页 Demo，可以直接体验（这酸爽？）：

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！

MiniGPT-4介绍

MiniGPT-4利用一个投影层将BLIP-2的冻结视觉编码器与冻结的LLM（Vicuna）对齐。
我们分两个阶段训练MiniGPT-4。第一个传统预训练阶段使用大约500万个图像-文本对，在4个A100显卡上训练10小时。在第一阶段之后，Vicuna能够理解图像。但是，Vicuna的生成能力受到严重影响。
为解决这个问题并提高可用性，我们提出了一种新颖的方法，通过模型本身和ChatGPT共同创建高质量的图像-文本对。基于此，我们创建了一个小型（总共3500对）但高质量的数据集。
第二个微调阶段在该数据集的会话模板上进行训练，以显著提高其生成可靠性和整体可用性。令我们惊讶的是，这个阶段在计算上非常高效，仅使用单个A100花费约7分钟。
MiniGPT-4展现出许多类似于GPT-4演示的视觉-语言能力。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！

官方案例演示：

接下来，我将为大家展示几个示例。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！

实验结果表明，GPT-4的这些先进能力理论上可以归因于它采用了更加先进的大型语言模型。

这意味着，未来在图像、声音、视频等领域，基于这些大型语言模型所开发的应用，在实际效果上都将表现不俗。

这个项目验证了大型语言模型在图像领域的可行性。接下来，预计会有更多开发者加入，将GPT-4的能力扩展至音频、视频等领域，从而让我们得以欣赏到更多有趣且令人惊艳的AI应用。

近日，我深入研究了许多关于ChatGPT注册和变现的实用干活信息。为了方便我自己以后的学习和阅读，我整理了一些ChatGPT的操作技巧和实用工具：https://y3if3fk7ce.feishu.cn/docx/QBqwdyde7omVf4x69paconlgnAc

有兴趣的朋友们可以借此学习。

原文链接：https://www.cnblogs.com/aiaipro/p/17339975.html

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：What…MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！ - Python技术站

人工智能梦之果峰

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

【GPT开发】人人都能用ChatGPT4.0做Avatar虚拟人直播

上一篇 2023年4月22日

AIGC的阿克琉斯之踵

下一篇 2023年4月22日

卷积神经网络

卷积层计算 feature maps 和中间结果内存访问次数， mac（memory access cost-内存使用量）计算方法

卷积层计算 feature maps 和中间结果内存访问次数卷积层的输入是 224x224x3 ，把所有这些值读出来需要访问 150,528 次内存。如果卷积核是 KxKxCout ，还要乘上这个系数（因为每次卷积都要访问一遍）。以 stride=2, 卷积核个数为32为例，输出的 feature map 尺寸为 112x112x32，共计 401,4…

2023年4月5日
000
卷积神经网络

OpenCV(5)-图像掩码操作（卷积）-锐化

锐化概念图像平滑过程是去除噪声的过程。图像的主要能量在低频部分，而噪声主要集中在高频部分。图像的边缘信息主要也在高频部分，在平滑处理后，将会丢不部分边缘信息。因此需要使用锐化技术来增强边缘。平滑处理的本质是图像经过平均或积分运算，锐化进行逆运算（如微分）即可。微分运算是求信号变化频率，可以增强高频分量的作用。在对图像进行锐化处理前要确定图像有较高的信噪比…

2023年4月8日
000
基于Sklearn机器学习代码实战

本文主要跟随Datawhale的学习路线以及内容教程，详细介绍了机器学期常见的多个基础算法的基于sklearn的实现过程，内容丰富。 LinearRegression 线性回归入门数据生成为了直观地看到算法的思路，我们先生成一些二维数据来直观展现 import numpy as np import matplotlib.pyplot as plt def…

机器学习 2023年4月11日
000
tensorflow

Tensorflow暑期实践——DeepDream以噪声为起点

浙江财经大学专业实践深度学习tensorflow——阳诚砖 tensorflow_inception_graph.pb https://pan.baidu.com/s/1IbgQFAuqnGNjRQJGKDDOiA 提取码：2670 1.1 导入库 from __future__ import print_function import os from io…

2023年4月8日
000
《机器学习及实践–从零开始通往Kaggle竞赛之路》

在开始说之前一个很重要的Tip：电脑至少要求是64位的，这是我的痛。断断续续花了个把月的时间把这本书过了一遍。这是一本非常适合基于python入门的机器学习入门的书籍，全书通俗易懂且有代码提供。书中源代码连接为Ipython环境。主页君使用的是pycharm，python2.7，具体安转过程书本写的很详细。码完书中代码，有一点点点小不符（或许可能是因为平台…

机器学习 2023年4月11日
000
目标检测

Tensorflow Object_Detection 目标检测笔记

Code：https://github.com/tensorflow/models 编写时间：2017.7 记录在使用Object_Detection 中遇到的问题及解决方案 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Creating accura…

2023年4月8日
000
知识图谱实体对齐1：基于平移（translation）的方法

在知识图谱领域，最重要的任务之一就是实体对齐（entity alignment, EA）。实体对齐旨在从不同的知识图谱中识别出表示同一个现实对象的实体。由于embedding模块独立地学习知识图谱的emebddings，这使得多个知识图谱的embeddings落入到不同的向量空间中。而alignment模块旨在将两个知识图谱的embeddings统一（un…

机器学习 2023年4月11日
000
卷积神经网络

空洞卷积（Atrous Convolution）的优缺点

空洞卷积(atrous convolution)又叫扩张卷积(dilated convolution)，其实就是向卷积层引入了一个称为“扩张率（dilation rate）”的新参数，这个参数定义了卷积核处理数据时各值的间距。普通卷积和空洞卷积图示如下（以3*3卷积为例）（普通卷积）（空洞卷积）那么这样的结构是为了解决什么问题呢？这又不得…

2023年4月8日
000

合作推广

合作推广

返回顶部