跑模型时间! 论文笔记:https://qmmms.github.io/posts/DualVGR-A-Dual-Visual-Graph-Reasoning-Unit/ 挑选服务器 在论文中,实验都是在两个NVIDIA RTX 2080Ti GPU上运行的,在实际训练中,显存至少需要8GB,请注意这个最低限度。 在自己的实验中选用了一块RTX 3080,14 min...
语言模型发展 统计语言模型SLM 词序列 w1w2…wm 作为一个句子出现的可能性大小可以表示为: [P(w_1w_2…w_m)] 由于这个联合概率的参数量十分巨大,直接计算十分困难。 根据条件概率,可以表示为(可以看作单词逐个生成的过程): [P(w_1w_2…w_m)=\prod_{i=1}^mP(w_i w_1w_2…w_{i-1}...
读论文时间! 是 DualVGR 的改进,大部分与其相同 前置知识:ResNet、ResNeXt、GNN、GCN、GAT、LSTM、BiLSTM、GloVe、知识蒸馏 介绍 视频问答旨在模型需要对视频以及视频对应的问题进行分析与理解后,对该问题的正确答案进行分类,答案的类别即在一个固定数量的答案集中。为了解决该任务,本方法搭建了一个基于知识蒸馏的视频问答模型,一个以包...
知识蒸馏(Knowledge Distillation,KD)是为了解决如何训练一个轻量并且高性能的深度学习模型这个问题出现的。 知识蒸馏通常意义指一种教师-学生式的训练架构,在训练完成大规模复杂的教师模型后,将已训练的教师模型的知识蒸馏出来供相对简单的学生模型学习,而学生模型只需要以轻微的损失计算为代价便可学习到教师模型中丰富的知识。 若是以模型压缩为目的,学生模型往往是一种轻量而高效...
读论文时间! 官方代码:https://github.com/MM-IR/DualVGR-VideoQA 前置知识:ResNet、ResNeXt、GNN、GCN、GAT、LSTM、BiLSTM、GloVe 介绍 图像问答和视频问答之间存在两个区别: 除了外观信息外,视频问答还需要了解运动信息以回答问题。 视频问答需要在物体上执行时空推理,而图像问答只需要在...
读论文时间! 图注意力网络:GAT 参考: 前置知识:GNN、GCN https://zhuanlan.zhihu.com/p/660987867 https://zhuanlan.zhihu.com/p/81350196 https://blog.csdn.net/weixin_51426083/article/details/12...
自然语言处理研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理技术发展经历了基于规则的方法、基于统计学习的方法和基于深度学习的方法三个阶段。自然语言处理由浅入深的四个层面分别是形式、语义、推理和语用,当前正处于由语义向推理的发展阶段。 词向量学习模型 是一种将自然语言中的字词转换为计算机可以理解的稠密向量的方法,基本思想就是用词来预测词。其中包含两种算法:CB...
读论文时间! 生成对抗网络:GAN 参考: https://blog.csdn.net/qq_15719613/article/details/134029786 GAN论文逐段精读 相关工作 生成对抗网络相比于之前一些生成式的模型,之前的一些生成式模型是要学习数据到底是什么样的一个分布,然而生成对抗网络只需要生成的东西和原来的看上去像就...
读论文时间! 词嵌入模型:GloVe 参考: https://blog.csdn.net/qq_44579321/article/details/128120877 https://blog.csdn.net/qq_22795223/article/details/105737651 介绍 glove是斯坦福大学的一个开源项目,于 201...
参考:https://blog.csdn.net/weixin_45727931/article/details/114369073 先简单聊聊RNN的结构。最简单的一层RNN网络结构如下图所示: 其中,每个箭头都表示一个权值,输入为向量X,输出向量为Y,隐含层向量为H。一层指的是有一层隐含层。也可以根据具体需求设计多层,一般层数取2-10。时间步共享参数。 RNN模块 ...
发现新版本的内容。