What…MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

说在前面的话:

一个月前,OpenAI向外界展示了GPT-4如何通过手绘草图直接生成网站,令当时的观众瞠目结舌。

在GPT-4发布会之后,相信大家对ChatGPT的对话能力已有所了解。圈内的朋友们应该已经亲身体验过无论是文本生成、编写代码,还是上下文关联对话能力,这些功能都一次又一次地震撼着我们。

还记得发布会上,GPT-4展示的多模态能力,输入不仅仅局限于文字,还可以包括文本和图像,让我大开眼界。

例如:画个网站的草图,GPT4 就可以立马生成网站的 HTML 代码。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

然而,时光荏苒!OpenAI至今尚未提供发布会上展示的多模态处理能力!

原本以为我们还需要再等上一段时间才能看到这一功能的更新,然而意想不到的是,我发现了这样一个项目。

这个项目被称为MiniGPT-4,由著名的阿卜杜拉国王科技大学的几位博士研究生共同完成。

更为重要的是,该项目完全开源!效果如视频中所展示的那样:

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

MiniGPT-4在线体验DEMO

MiniGPT-4能够支持文本和图像输入,成功实现了多模态输入功能,实在令人叹为观止!

GitHub项目地址:https://github.com/Vision-CAIR/MiniGPT-4

在线体验链接:https://minigpt-4.github.io

另外作者还提供了网页 Demo,可以直接体验(这酸爽?):

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

MiniGPT-4介绍

  1. MiniGPT-4利用一个投影层将BLIP-2的冻结视觉编码器与冻结的LLM(Vicuna)对齐。
  2. 我们分两个阶段训练MiniGPT-4。第一个传统预训练阶段使用大约500万个图像-文本对,在4个A100显卡上训练10小时。在第一阶段之后,Vicuna能够理解图像。但是,Vicuna的生成能力受到严重影响。
  3. 为解决这个问题并提高可用性,我们提出了一种新颖的方法,通过模型本身和ChatGPT共同创建高质量的图像-文本对。基于此,我们创建了一个小型(总共3500对)但高质量的数据集。
  4. 第二个微调阶段在该数据集的会话模板上进行训练,以显著提高其生成可靠性和整体可用性。令我们惊讶的是,这个阶段在计算上非常高效,仅使用单个A100花费约7分钟。
  5. MiniGPT-4展现出许多类似于GPT-4演示的视觉-语言能力。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

官方案例演示:

接下来,我将为大家展示几个示例。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力!

实验结果表明,GPT-4的这些先进能力理论上可以归因于它采用了更加先进的大型语言模型。

这意味着,未来在图像、声音、视频等领域,基于这些大型语言模型所开发的应用,在实际效果上都将表现不俗。

这个项目验证了大型语言模型在图像领域的可行性。接下来,预计会有更多开发者加入,将GPT-4的能力扩展至音频、视频等领域,从而让我们得以欣赏到更多有趣且令人惊艳的AI应用。

近日,我深入研究了许多关于ChatGPT注册和变现的实用干活信息。 为了方便我自己以后的学习和阅读,我整理了一些ChatGPT的操作技巧和实用工具:https://y3if3fk7ce.feishu.cn/docx/QBqwdyde7omVf4x69paconlgnAc

有兴趣的朋友们可以借此学习。

原文链接:https://www.cnblogs.com/aiaipro/p/17339975.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:What…MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力! - Python技术站

(0)
上一篇 2023年4月22日
下一篇 2023年4月22日

相关文章

  • Keras实现CIFAR-10分类

      仅仅为了学习Keras的使用,使用一个四层的全连接网络对MNIST数据集进行分类,网络模型各层结点数为:3072: : 1024 : 512:10;   使用50000张图片进行训练,10000张测试: precision recall f1-score support airplane 0.61 0.69 0.65 1000 automobile 0.…

    2023年4月6日
    00
  • pytorch index_select()函数

    函数实现从当前张量中从某个维度选择一部分序号的张量 tensor.select_index(dim, index)对于一个二维张量feature: 第一个参数 参数0表示按行索引,1表示按列进行索引 第二个参数 是一个整数类型的一维tensor,就是索引的序号 二维张量举例: 三维张量举例: 另一种使用方式: torch.select_index(tenso…

    2023年4月6日
    00
  • keras中遇到的错误

    在运行其他开源keras项目时,遇到了一些问题: 1、在导入_obtain_input_shape时 from keras.applications.imagenet_utils import _obtain_input_shape 出现错误如下: ImportError: cannot import name ‘_obtain_input_shape’ 原…

    Keras 2023年4月8日
    00
  • YOLOv4:目标检测(windows和Linux下Darknet 版本)实施

    YOLOv4:目标检测(windows和Linux下Darknet 版本)实施 YOLOv4 – Neural Networks for Object Detection (Windows and Linux version of Darknet ) YOLOv4论文链接:https://arxiv.org/abs/2004.10934 链接地址:https…

    2023年4月6日
    00
  • hough forest目标检测原理

     霍夫森林是随机森林和霍夫投票在计算机视觉中的应用,可以用在物体检测,跟踪和动作识别。 09年cvpr上提出霍夫森林的文章——Class-Specific Hough Forests for Object Detection 关于hough变换,请看我之前的一篇博客Hough直线检测 关于随机森林,请看我的另一篇博客Random Forest随机森林算法 下…

    2023年4月7日
    00
  • 本章总结—循环神经网络(RNN),欢迎一起来学习~

    本章用3年NLP学习经验总结,西欧阿哥毕生心血 什么是循环神经网络 循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在以序列(sequence)数据为输出,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural net…

    2023年4月6日
    00
  • 使用Keras做OCR时报错:ValueError: Tensor Tensor is not an element of this graph

    现象 项目使用 Flask + Keras + Tensorflow 同样的代码在机器A和B上都能正常运行,但在机器C上就会报如下异常。机器A和B的环境是先安装的,运行、调试成功后才尝试在C上跑。 File “/Users/qhl/anaconda3/lib/python3.6/site-packages/keras/models.py”, line 102…

    Keras 2023年4月6日
    00
  • 论文赏析[NAACL19]无监督循环神经网络文法 (URNNG)

    原文链接: https://godweiyang.com/2019/04/20/NAACL19-URNNG/godweiyang.com 论文地址: Unsupervised Recurrent Neural Network Grammarsarxiv.org 代码地址: harvardnlp/urnnggithub.com 介绍 这篇是新鲜出炉的NAACL…

    2023年4月8日
    00
合作推广
合作推广
分享本页
返回顶部