QMMMS's Blog

MiniGPT-4:Enhancing Vision-Language Understanding with Advanced Large Language Models

读论文时间! 多模态大模型MiniGPT-4 内容整理自《大规模语言模型从理论到实践》 模型 MiniGPT-4 期望将来自预训练视觉编码器的图像信息与大语言模型的文本信息对齐,它的模 型架构如图所示。具体来说主要由三个部分构成:预训练的大语言模型 Vicuna,预训练的视觉编码器以及一个单一的线性投影层。 Vicuna 模型 Vicuna 是一个基于解码器的语言模...

LangChain 🦜️🔗 与知识增强生成

查看 jupyter notebook Knowledge augment prompt(知识增强提示)是一种用于在生成文本任务中引入外部知识 以提高生成文本的质量和准确性的技术。该技术可以与语言模型结合使用,以增强模型的能 力。 在传统的生成文本任务中,模型只能基于其已经学习到的训练数据进行生成。然而,训练数 据可能是有限或不完整的,导致生成的文本可能缺乏准确性或相关性。Knowle...

LangChain 🦜️🔗 基础概念与实战

查看 jupyter notebook 通常情况下,广泛使用的大模型是在大量公开可用的数据上进行预训练的,而构建在LLM之上的应用程序通常需要使用私有或领域特定的数据来增强这些模型。因此, LangChain的出现旨在为开发这类应用程序提供一个框架和支持。这个框架的目标是协助开 发者更容易地构建应用程序,利用LLM技术与自然语言进行交互。 请设想下面这几种场景:你拥有几本电子书,...

Adversarial Incomplete Multi-view Clustering

读论文时间! 多模态模型:AIMC 一份非官方代码实现,由于其实现的代码由VIGAN改写而来,可以参考VIGAN笔记 一、聚类模块的对齐 多模态对齐是指找到两种或多种模态的instances中sub-components之间的对应关系,例如:给定一张图片和一个描述,找到词或者短语对应图片中的区域;另一个例子是给定一个电影,将它和字幕或者书中的章节对齐。 多模态对齐分成两类...

VIGAN:Missing View Imputation with Generative Adversarial Networks

读论文时间! 多模态模型:VIGAN,官方代码 前置知识:AE、DAE、GAN、CycleGAN 一、简介 在如今许多领域中,数据由于来源的多样性。往往会造成某些数据缺失的问题,本文是利用自编码和生成对抗网络对缺失数据进行补全,主要处理的是多视角和多模态的缺失数据的问题,称为:解决缺失视角问题的生成对抗网络的填充方法。 二、所用的的一些方法 用到的有: 利用自编...