What…MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

说在前面的话:

一个月前,OpenAI向外界展示了GPT-4如何通过手绘草图直接生成网站,令当时的观众瞠目结舌。

在GPT-4发布会之后,相信大家对ChatGPT的对话能力已有所了解。圈内的朋友们应该已经亲身体验过无论是文本生成、编写代码,还是上下文关联对话能力,这些功能都一次又一次地震撼着我们。

还记得发布会上,GPT-4展示的多模态能力,输入不仅仅局限于文字,还可以包括文本和图像,让我大开眼界。

例如:画个网站的草图,GPT4 就可以立马生成网站的 HTML 代码。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

然而,时光荏苒!OpenAI至今尚未提供发布会上展示的多模态处理能力!

原本以为我们还需要再等上一段时间才能看到这一功能的更新,然而意想不到的是,我发现了这样一个项目。

这个项目被称为MiniGPT-4,由著名的阿卜杜拉国王科技大学的几位博士研究生共同完成。

更为重要的是,该项目完全开源!效果如视频中所展示的那样:

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

MiniGPT-4在线体验DEMO

MiniGPT-4能够支持文本和图像输入,成功实现了多模态输入功能,实在令人叹为观止!

GitHub项目地址:https://github.com/Vision-CAIR/MiniGPT-4

在线体验链接:https://minigpt-4.github.io

另外作者还提供了网页 Demo,可以直接体验(这酸爽?):

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

MiniGPT-4介绍

  1. MiniGPT-4利用一个投影层将BLIP-2的冻结视觉编码器与冻结的LLM(Vicuna)对齐。
  2. 我们分两个阶段训练MiniGPT-4。第一个传统预训练阶段使用大约500万个图像-文本对,在4个A100显卡上训练10小时。在第一阶段之后,Vicuna能够理解图像。但是,Vicuna的生成能力受到严重影响。
  3. 为解决这个问题并提高可用性,我们提出了一种新颖的方法,通过模型本身和ChatGPT共同创建高质量的图像-文本对。基于此,我们创建了一个小型(总共3500对)但高质量的数据集。
  4. 第二个微调阶段在该数据集的会话模板上进行训练,以显著提高其生成可靠性和整体可用性。令我们惊讶的是,这个阶段在计算上非常高效,仅使用单个A100花费约7分钟。
  5. MiniGPT-4展现出许多类似于GPT-4演示的视觉-语言能力。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

官方案例演示:

接下来,我将为大家展示几个示例。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

实验结果表明,GPT-4的这些先进能力理论上可以归因于它采用了更加先进的大型语言模型。

这意味着,未来在图像、声音、视频等领域,基于这些大型语言模型所开发的应用,在实际效果上都将表现不俗。

这个项目验证了大型语言模型在图像领域的可行性。接下来,预计会有更多开发者加入,将GPT-4的能力扩展至音频、视频等领域,从而让我们得以欣赏到更多有趣且令人惊艳的AI应用。

近日,我深入研究了许多关于ChatGPT注册和变现的实用干活信息。 为了方便我自己以后的学习和阅读,我整理了一些ChatGPT的操作技巧和实用工具:https://y3if3fk7ce.feishu.cn/docx/QBqwdyde7omVf4x69paconlgnAc

有兴趣的朋友们可以借此学习。

原文链接:https://www.cnblogs.com/aiaipro/p/17339975.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:What…MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力! - Python技术站

(0)
上一篇 2023年4月22日
下一篇 2023年4月22日

相关文章

  • TensorFlow——实现线性回归算法

    import tensorflow as tf import numpy as np import matplotlib.pyplot as plt #使用numpy生成200个随机点 x_data=np.linspace(-0.5,0.5,200)[:,np.newaxis] noise=np.random.normal(0,0.02,x_data.sha…

    2023年4月7日
    00
  • 深度学习中卷积层和pooling层的输出计算公式(转)

    原文链接:https://blog.csdn.net/yepeng_xinxian/article/details/82380707 1.卷积层的输出计算公式class torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups…

    卷积神经网络 2023年4月8日
    00
  • 卷积,reLu,池化的意义

    1.卷积 提取局部特征 2.Relu 留下相关特征,去掉不相关特征,卷积之后的正值越大,说明与卷积核相关性越强,负值越大,不相关性越大。 3.池化 池化的目的: (1)留下最相关的特征,或者说留下最明显的特征。 (2)增大感受野,所谓感受野,即一个像素对应回原图的区域大小,假如没有pooling,一个3*3,步长为1的卷积,那么输出的一个像素的感受野就是3*…

    卷积神经网络 2023年4月8日
    00
  • 使用Anaconda3安装tensorflow,opencv,使其可以在spyder中运行

    使用Anaconda5.0.0 1.首选无论你是在cmd键入python,还是在Anaconda Prompt键入python,显示的都是Python3.6.然而在Spyder(tensorflow)中显示的python是3.5。主要的原因是tensorflow现在支持的最高版本是python3.5。 2.因为编程环境是在tensorflow。所以选择下载o…

    tensorflow 2023年4月8日
    00
  • 机器学习笔记(一)基本概念与单变量线性回归

    机器学习算法分类 传统机器学习算法主要包括以下五类:  回归:建立一个回归方程来预测目标值,用于连续型分布预测 分类:给定大量带标签的数据,计算出未知标签样本的标签取值 聚类:将不带标签的数据根据距离聚集成不同的簇,每一簇数据有共同的特征 关联分析:计算出数据之间的频繁项集合 降维:原高维空间中的数据点映射到低维度的空间中 (1)线性回归:找到一条直线来预测…

    机器学习 2023年4月10日
    00
  • pytorch Dataset数据集和Dataloader迭代数据集

    import torch from torch.utils.data import Dataset,DataLoader class SmsDataset(Dataset): def __init__(self): self.file_path = “./SMSSpamCollection” self.lines = open(self.file_path,…

    PyTorch 2023年4月8日
    00
  • ModuleNotFoundError: No module named ‘keras_retinanet.utils.compute_overlap’

    问题:在调用keras_retinanet 的时候提示上面错误       解决思路: 1、把keras_retinanet放入site-packages里面,未能解决问题 参考:成功解决ModuleNotFoundError: No module named ‘keras_retinanet.utils.compute_overlap’   2、提示没有,…

    2023年4月8日
    00
  • 昇腾实战丨DVPP媒体数据处理视频解码问题案例

    摘要:本期就分享几个关于DVPP视频解码问题的典型案例,并给出原因分析及解决方法 本文分享自华为云社区《DVPP媒体数据处理视频解码问题案例》,作者:昇腾CANN 。 DVPP(Digital Vision Pre-Processing)是昇腾AI处理器内置的图像处理单元,通过AscendCL媒体数据处理接口提供强大的媒体处理硬加速能力,主要功能包括图像编解…

    人工智能概论 2023年5月8日
    00
合作推广
合作推广
分享本页
返回顶部