首页
QMMMS's Blog
取消

强化学习介绍

来自 HuggingFace 🤗 强化学习课程 与 《大规模语言模型 从理论到实践》 强化学习(Reinforcement Learning,RL)研究的问题是智能体(Agent)与环境(Environment) 交互的问题,其目标是使智能体在复杂且不确定的环境中最大化奖励(Reward)。 强化学习基本框 架如图所示,主要由两部分组成:智能体和环境。在强化学习过程中,智能体...

LLM有监督微调概述

有监督微调(Supervised Finetuning, SFT)又称指令微调(Instruction Tuning),是指在已经训练好的语言模型的基础上,通过使用有标注的特定任务数据进行进一步的微调,从而使得模型具备 遵循指令的能力。 经过海量数据预训练后的语言模型虽然具备了大量的“知识”,但是由于其训练时的目标仅是进行下一个词的预测,此时的模型还不能够理解并遵循人类自然语言形式的指令。...

LLM分布式训练概述

没钱也没环境自己做计算集群分布式训练实验,看看别人怎么做吧。 分布式训练(Distributed Training)是指将机器学习或深度学习模型训练任务分解成多个子任务,并在多个计算设备上并行地进行训练。 促使人们设计分布式训练系统的一个最重要的原因就是单个计算设备的算力已经不足以支撑 模型训练。 大语言模型参数量和所使用的数据量都非常巨大,因此都采用了分布式训练架构完成训...

HuggingFace 🤗 工具集快速使用入门&中文任务示例

视频课程:https://www.bilibili.com/video/BV1a44y1H7Jc 视频课程补充篇:https://www.bilibili.com/video/BV1Cr4y1V7mF 代码地址:https://github.com/lansinuote/Huggingface_Toturials 代码地址2(做了一点修改,做完实验的结...

训练 DualVGR

跑模型时间! 论文笔记:https://qmmms.github.io/posts/DualVGR-A-Dual-Visual-Graph-Reasoning-Unit/ 挑选服务器 在论文中,实验都是在两个NVIDIA RTX 2080Ti GPU上运行的,在实际训练中,显存至少需要8GB,请注意这个最低限度。 在自己的实验中选用了一块RTX 3080,14 min...

LLM概述

语言模型发展 统计语言模型SLM 词序列 w1w2…wm 作为一个句子出现的可能性大小可以表示为: [P(w_1w_2…w_m)] 由于这个联合概率的参数量十分巨大,直接计算十分困难。 根据条件概率,可以表示为(可以看作单词逐个生成的过程): [P(w_1w_2…w_m)=\prod_{i=1}^mP(w_i w_1w_2…w_{i-1}...

基于知识蒸馏的视频问答模型

读论文时间! 是 DualVGR 的改进,大部分与其相同 前置知识:ResNet、ResNeXt、GNN、GCN、GAT、LSTM、BiLSTM、GloVe、知识蒸馏 介绍 视频问答旨在模型需要对视频以及视频对应的问题进行分析与理解后,对该问题的正确答案进行分类,答案的类别即在一个固定数量的答案集中。为了解决该任务,本方法搭建了一个基于知识蒸馏的视频问答模型,一个以包...

知识蒸馏简要介绍

知识蒸馏(Knowledge Distillation,KD)是为了解决如何训练一个轻量并且高性能的深度学习模型这个问题出现的。 知识蒸馏通常意义指一种教师-学生式的训练架构,在训练完成大规模复杂的教师模型后,将已训练的教师模型的知识蒸馏出来供相对简单的学生模型学习,而学生模型只需要以轻微的损失计算为代价便可学习到教师模型中丰富的知识。 若是以模型压缩为目的,学生模型往往是一种轻量而高效...

DualVGR: A Dual-Visual Graph Reasoning Unit

读论文时间! 官方代码:https://github.com/MM-IR/DualVGR-VideoQA 前置知识:ResNet、ResNeXt、GNN、GCN、GAT、LSTM、BiLSTM、GloVe 介绍 图像问答和视频问答之间存在两个区别: 除了外观信息外,视频问答还需要了解运动信息以回答问题。 视频问答需要在物体上执行时空推理,而图像问答只需要在...

Graph Attention Networks

读论文时间! 图注意力网络:GAT 参考: 前置知识:GNN、GCN https://zhuanlan.zhihu.com/p/660987867 https://zhuanlan.zhihu.com/p/81350196 https://blog.csdn.net/weixin_51426083/article/details/12...