InternGPT-基于指向语言驱动的视觉交互系统
May 24, 2023
前言
本文简单记录介绍一下InternGPT。
InternGPT可以让用户通过点击、拖动和绘制与聊天机器人进行多模态交互。支持图片上传后与聊天机器人进行多模态相关的对话和交互式操作图片等功能。
正文
一、什么是InternGPT
二、InternGPT功能
非常多的功能,包括移除遮盖的对象、交互式图像编辑、图像生成、交互式视觉问答、交互式图像生成和视频高光解说。此外,该项目还支持搜索引擎、语音助手、点击交互、交互式图像编辑、交互式图像生成、视频描述、视频密集描述、视频高光时刻截取等功能,最新版还支持音频生成图片功能。
三、InternGPT使用
最好手动在官方提供的model_zoo处下载模型参数,如果让脚本自动下载速度比较慢,其中主要模型组件是HuskyVQA
, SegmentAnything
, ImageOCRRecognition
,imagebing
和最新DragGAN
的复现模型。
然后安装好依赖,运行app.py即可打开gradio界面。
四、总结
InternGPT中视觉问答模型是HuskyVQA,基于llama训练而来,项目官方表示达到了业界顶尖水平,测试后发现效果确实不错。
其他的没有过多测试,主要最近比较忙,技术又迭代的太快:lol:
总的来说多模态统一已经是常态了,未来哪个大模型不支持多模态可能就out啦!
最后
参考文章:
声明
本文仅作为个人学习记录。
本文永久记录于区块链博客xlog。