What…MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

说在前面的话:

一个月前,OpenAI向外界展示了GPT-4如何通过手绘草图直接生成网站,令当时的观众瞠目结舌。

在GPT-4发布会之后,相信大家对ChatGPT的对话能力已有所了解。圈内的朋友们应该已经亲身体验过无论是文本生成、编写代码,还是上下文关联对话能力,这些功能都一次又一次地震撼着我们。

还记得发布会上,GPT-4展示的多模态能力,输入不仅仅局限于文字,还可以包括文本和图像,让我大开眼界。

例如:画个网站的草图,GPT4 就可以立马生成网站的 HTML 代码。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

然而,时光荏苒!OpenAI至今尚未提供发布会上展示的多模态处理能力!

原本以为我们还需要再等上一段时间才能看到这一功能的更新,然而意想不到的是,我发现了这样一个项目。

这个项目被称为MiniGPT-4,由著名的阿卜杜拉国王科技大学的几位博士研究生共同完成。

更为重要的是,该项目完全开源!效果如视频中所展示的那样:

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

MiniGPT-4在线体验DEMO

MiniGPT-4能够支持文本和图像输入,成功实现了多模态输入功能,实在令人叹为观止!

GitHub项目地址:https://github.com/Vision-CAIR/MiniGPT-4

在线体验链接:https://minigpt-4.github.io

另外作者还提供了网页 Demo,可以直接体验(这酸爽?):

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

MiniGPT-4介绍

  1. MiniGPT-4利用一个投影层将BLIP-2的冻结视觉编码器与冻结的LLM(Vicuna)对齐。
  2. 我们分两个阶段训练MiniGPT-4。第一个传统预训练阶段使用大约500万个图像-文本对,在4个A100显卡上训练10小时。在第一阶段之后,Vicuna能够理解图像。但是,Vicuna的生成能力受到严重影响。
  3. 为解决这个问题并提高可用性,我们提出了一种新颖的方法,通过模型本身和ChatGPT共同创建高质量的图像-文本对。基于此,我们创建了一个小型(总共3500对)但高质量的数据集。
  4. 第二个微调阶段在该数据集的会话模板上进行训练,以显著提高其生成可靠性和整体可用性。令我们惊讶的是,这个阶段在计算上非常高效,仅使用单个A100花费约7分钟。
  5. MiniGPT-4展现出许多类似于GPT-4演示的视觉-语言能力。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

官方案例演示:

接下来,我将为大家展示几个示例。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

实验结果表明,GPT-4的这些先进能力理论上可以归因于它采用了更加先进的大型语言模型。

这意味着,未来在图像、声音、视频等领域,基于这些大型语言模型所开发的应用,在实际效果上都将表现不俗。

这个项目验证了大型语言模型在图像领域的可行性。接下来,预计会有更多开发者加入,将GPT-4的能力扩展至音频、视频等领域,从而让我们得以欣赏到更多有趣且令人惊艳的AI应用。

近日,我深入研究了许多关于ChatGPT注册和变现的实用干活信息。 为了方便我自己以后的学习和阅读,我整理了一些ChatGPT的操作技巧和实用工具:https://y3if3fk7ce.feishu.cn/docx/QBqwdyde7omVf4x69paconlgnAc

有兴趣的朋友们可以借此学习。

原文链接:https://www.cnblogs.com/aiaipro/p/17339975.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:What…MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力! - Python技术站

(0)
上一篇 2023年4月22日
下一篇 2023年4月22日

相关文章

  • 【深度学习】循环神经网络

    【深度学习】循环神经网络 一、前馈式神经网络 其中输出层和输出层是对外部可见的,而隐含层存在于神经网络的黑箱中外部看不见(这也是隐含层的含义。只要隐含层足够的可以趋近现实中任何的一个函数),每一个圆圈代表着一个神经元。 神经元: 我们可以看出来他会把这个神经元的所有输入进行一个加权的求和,求和之后会进行一个非线性的变换进行输出,加权的过程会有一个常数进行偏置…

    2023年4月6日
    00
  • 密歇根大学28页最新《GANs生成式对抗网络综述:算法、理论与应用》最新论文,带你全面了解GAN技术趋势…

    来源:专知 【导读】生成式对抗网络(Generative Adversarial Networks,GANs)作为近年来的研究热点之一,受到了广泛关注,每年在机器学习、计算机视觉、自然语言处理、语音识别等上大量相关论文发表。密歇根大学Jie Gui博士等人近期发布了《A Review on Generative Adversarial Networks: A…

    2023年4月7日
    00
  • 《神经网络的梯度推导与代码验证》之CNN(卷积神经网络)前向和反向传播过程的代码验证

    在《神经网络的梯度推导与代码验证》之CNN的前向传播和反向梯度推导  中,我们学习了CNN的前向传播和反向梯度求导,但知识仍停留在纸面。本篇章将基于深度学习框架tensorflow验证我们所得结论的准确性,以便将抽象的数学符号和实际数据结合起来,将知识固化。更多相关内容请见《神经网络的梯度推导与代码验证》系列介绍。   提醒: 后续会反复出现$\boldsy…

    卷积神经网络 2023年4月8日
    00
  • python大战机器学习——人工神经网络

      人工神经网络是有一系列简单的单元相互紧密联系构成的,每个单元有一定数量的实数输入和唯一的实数输出。神经网络的一个重要的用途就是接受和处理传感器产生的复杂的输入并进行自适应性的学习,是一种模式匹配算法,通常用于解决分类和回归问题。   常用的人工神经网络算法包括:感知机神经网络(Perceptron Neural Nerwork)、反向传播网络(Back …

    机器学习 2023年4月13日
    00
  • Tensorflow之CNN卷积层池化层padding规则

    padding的规则 ·          padding=‘VALID’时,输出的宽度和高度的计算公式(下图gif为例)            输出宽度:output_width = (in_width-filter_width+1)/strides_width  =(5-3+1)/2=1.5【向上取整=2】     输出高度:output_height …

    2023年4月6日
    00
  • 在Keras模型中one-hot编码,Embedding层,使用预训练的词向量/处理图片

    最近看了吴恩达老师的深度学习课程,又看了python深度学习这本书,对深度学习有了大概的了解,但是在实战的时候, 还是会有一些细枝末节没有完全弄懂,这篇文章就用来总结一下用keras实现深度学习算法的时候一些我自己很容易搞错的点。  一、与序列文本有关 1.仅对序列文本进行one-hot编码 比如:使用路透社数据集(包含许多短新闻及其对应的主题,包括46个不…

    2023年4月8日
    00
  • 机器学习tips

    1 为什么随机梯度下降法能work? https://www.zhihu.com/question/27012077中回答者李文哲的解释   2 随机梯度下降法的好处? (1)加快训练速度(2)噪音可以使得跳出局部最优   3 权衡方差和偏差: 偏差反映的是模型的准确度(对训练数据的吻合程度),方差则反映模型的稳定性(对测试数据的泛化能力)。模型越复杂,偏差…

    机器学习 2023年4月12日
    00
  • 深度学习之生成对抗网络(Gan)

    概念: 生成对抗网络(GAN,Generative Adversatial Networks)是一种深度学习模型,近年来无监督学习上最具前景的方法之一。 模型主要通用框架有(至少)两个模块:生成模型(generative)和判别模型(Discriminative)的互相博弈学习产生的相当好的输出。 原始GAN理论中,并不要求G和D都是神经网络,但使用中一般均…

    2023年4月6日
    00
合作推广
合作推广
分享本页
返回顶部