训练 MSVQA 与分析
运行项目方法 我们模型的代码仓库:Gitee,首先需要获取项目源代码并且放到深度学习服务器上。 准备数据集 MSVD-QA下载网址(需要上网下载) 视频文件下载网站,拉到底选择YouTubeClips.tar youtube_mapping.txt 下载网址(需要上网下载) 步骤: 第一个链接会下载下来一个压缩包,解压,里面有一个video文件夹。 把第二...
运行项目方法 我们模型的代码仓库:Gitee,首先需要获取项目源代码并且放到深度学习服务器上。 准备数据集 MSVD-QA下载网址(需要上网下载) 视频文件下载网站,拉到底选择YouTubeClips.tar youtube_mapping.txt 下载网址(需要上网下载) 步骤: 第一个链接会下载下来一个压缩包,解压,里面有一个video文件夹。 把第二...
读论文时间! 多模态模型:AIMC 一份非官方代码实现,由于其实现的代码由VIGAN改写而来,可以参考VIGAN笔记 一、聚类模块的对齐 多模态对齐是指找到两种或多种模态的instances中sub-components之间的对应关系,例如:给定一张图片和一个描述,找到词或者短语对应图片中的区域;另一个例子是给定一个电影,将它和字幕或者书中的章节对齐。 多模态对齐分成两类...
读论文时间! 多模态模型:VIGAN,官方代码 前置知识:AE、DAE、GAN、CycleGAN 一、简介 在如今许多领域中,数据由于来源的多样性。往往会造成某些数据缺失的问题,本文是利用自编码和生成对抗网络对缺失数据进行补全,主要处理的是多视角和多模态的缺失数据的问题,称为:解决缺失视角问题的生成对抗网络的填充方法。 二、所用的的一些方法 用到的有: 利用自编...
赛题 可以看作是 Kaggle 比赛的一个复刻 算能杯——面向Stable Diffusion的图像提示语优化专项赛的目标为创建一个模型来预测给定生成图像的文本提示。参赛选手将在包含Stable Diffusion 2.0生成的各种(提示、图像)对的数据集上进行预测,通过了解潜在存在的提示、图像之间关系的可逆性。参赛选手通过构建一个模型来预测给定生成图像的文本提示。并把这个文本提...
跑模型时间! 来自 Hugging Face 强化学习课程。 Huggy 是 Hugging Face 制作的深度强化学习环境,基于Unity MLAgents 团队的项目 Puppo the Corgi。该环境是使用Unity 游戏引擎和MLAgents创建的。ML-Agents 是 Unity 游戏引擎的工具包,它允许我们使用Unity 创建环境或使用预制环境来训练我们的智能体...
跑模型时间! 来自HuggingFace 🤗 强化学习课程 我们将训练我们智能体(月球着陆器)正确登陆月球。为此,智能体需要学习调整其速度和位置(水平、垂直和角度)以正确着陆。 每一步: 我们的代理从 环境中接收状态(S0) —— 我们接收游戏的第一帧(环境)。 根据该 状态 (S0), 代理采取 行动 (A0) —— 我们的代理将向右移动。 环境转换到 新状...
视频课程:https://www.bilibili.com/video/BV1a44y1H7Jc 视频课程补充篇:https://www.bilibili.com/video/BV1Cr4y1V7mF 代码地址:https://github.com/lansinuote/Huggingface_Toturials 代码地址2(做了一点修改,做完实验的结果):https...
跑模型时间! 论文笔记:https://qmmms.github.io/posts/DualVGR-A-Dual-Visual-Graph-Reasoning-Unit/ 挑选服务器 在论文中,实验都是在两个NVIDIA RTX 2080Ti GPU上运行的,在实际训练中,显存至少需要8GB,请注意这个最低限度。 在自己的实验中选用了一块RTX 3080,14 min 可以...
读论文时间! 是 DualVGR 的改进,大部分与其相同 前置知识:ResNet、ResNeXt、GNN、GCN、GAT、LSTM、BiLSTM、GloVe、知识蒸馏 介绍 视频问答旨在模型需要对视频以及视频对应的问题进行分析与理解后,对该问题的正确答案进行分类,答案的类别即在一个固定数量的答案集中。为了解决该任务,本方法搭建了一个基于知识蒸馏的视频问答模型,一个以包括了视...
知识蒸馏(Knowledge Distillation,KD)是为了解决如何训练一个轻量并且高性能的深度学习模型这个问题出现的。 知识蒸馏通常意义指一种教师-学生式的训练架构,在训练完成大规模复杂的教师模型后,将已训练的教师模型的知识蒸馏出来供相对简单的学生模型学习,而学生模型只需要以轻微的损失计算为代价便可学习到教师模型中丰富的知识。 若是以模型压缩为目的,学生模型往往是一种轻量而高效...