Graph Attention Networks

发表于 2024/02/04 更新于 2025/02/08

作者 赛博升哥

10 分钟阅读

读论文时间！
图注意力网络：GAT
参考：
前置知识：GNN、GCN
https://zhuanlan.zhihu.com/p/660987867
https://zhuanlan.zhihu.com/p/81350196
https://blog.csdn.net/weixin_51426083/article/details/128340275

介绍

图注意力网络(Graph Attention Networks， GAT)，处理的是图结构数据。它通过注意力机制（Attention Mechanism）来对邻居节点做聚合操作，实现了对不同邻居权重的自适应分配，大大提高了图神经网络的表达能力。

核心观点：GAT (Graph Attention Networks) 采用 Attention 机制来学习邻居节点的权重, 通过对邻居节点的加权求和来获得节点本身的表达

上图为注意力架构参考：普通注意力、Self-Attention与Multi-head Attention

从GNN到GCN再到GAT：

GNN：权重依靠人为设定或学习得到
GCN：依赖于图结构决定更新权重。$H^{(l+1)}=\sigma(\hat{D}^{−1/2}\hat{A}\hat{D}^{−1/2}H^{(l)}W^{(l)})$
GAT：GAT是对于GCN在邻居权重分配问题上的改进。注意力通过Multi-head Attention 进行学习，相比于GCN的更新权重纯粹依赖于图结构更具有合理性。

贡献：

引入masked self-attentional layers 来改进前面图卷积graph convolution的缺点
对不同的相邻节点分配相应的权重，既不需要矩阵运算，也不需要事先知道图结构
四个数据集上达到SOTA的准确率

模型

注意力机制

注意力机制是深度神经网络（DNN）中的一种重要机制，其灵感来源于人类处理信息的方式。由于人类的信息处理能力有限，我们往往会选择性地关注信息的一部分，忽略其他不太重要的信息。

类似地，注意力机制的目标是对给定的信息进行权重分配，将注意力集中在对系统来说最重要的信息上，从而使得网络可以更加关注重要的部分并进行重点加工。

Attention函数的本质可以被描述为一个查询（query）到一系列（键key-值value）对的映射。

其中，有一个待处理的信息源Source和一个表示条件或先验信息的Query。信息源中包含多种信息，我们将每种信息都表示成键值对（Key-Value）的形式，其中Key表示信息的关键信息，Value表示该信息的具体内容。注意力机制的目标是根据Query，从信息源Source中提取与Query相关的信息，即Attention Value。

\[Attention(Query,Source)=\sum_isimilarity(Query, Key_i)\cdot Value_i\]

上式中Query，Key，Value，Attention Value在实际计算时均可以是向量形式。相关度最直接的方法是可以取两向量的内积（用内积去表示两个向量的相关度是DNN里面常用的方法，对于两个单位向量，如果内积接近1，代表两向量接近重合，相似度就高）。

计算注意力系数（attention coefficient）

结合上图，GAT的核心思想就是针对节点 i 和节点 j，GAT首先学习了他们之间的注意力权重 $a_{i,j}$（如左图所示），然后，基于注意力权重 ${a_1, … , a_6}$ 来对节点 ${1, 2, … ,6}$ 的表示 ${h_1, … , h_6}$ 加权平均，进而得到节点1的表示 ${h}’_1$

对于顶点 i ，有顶点自己的特征 $h_i$，有它在图上邻居 $\mathcal{N}_i$，逐个计算它的邻居们和它自己之间的相似系数：

\[e_{ij} =a\left( \left[ Wh_i \big| \big| Wh_j \right] \right),j \in \mathcal{N}_i\]

解读一下这个公式：

首先一个共享参数 W的线性映射对于顶点的特征进行了增维，当然这是一种常见的特征增强（feature augment）方法
对于顶点 i,j 的变换后的特征进行了拼接（concatenate） $\left[ \cdot \big| \big| \cdot\right]$
最后 $a(\cdot)$ 把拼接后的高维特征映射到一个实数上，作者是通过 single-layer feedforward neural network实现的。

有了相关系数，离注意力系数就差归一化了！其实就是用个softmax：

\[\alpha_{ij}=\frac{\exp\left( \text{LeakyReLU}(e_{ij}) \right)}{\sum_{k\in \mathcal{N}_i}{\exp\left( \text{LeakyReLU}(e_{ik}) \right)}}\]

加权求和（aggregate）

根据计算好的注意力系数，把特征加权求和（aggregate）一下。

\[h_i^{'}=\sigma\left( \sum_{j\in \mathcal{N}_i}{\alpha_{ij}W}h_j \right)\]

$h_i^{‘}$就是GAT输出的对于每个顶点 i 的新特征（融合了邻域信息）

看着还有点单薄，可以加入多头注意力机制（multi-head attention），即对上式调用K组相互独立的注意力机制，然后将输出结果拼接在一起，当然，为了减少输出的特征向量的维度，可以将拼接操作替换成平均操作：

\[h_i^{'}(K)= \overset{K}{\underset{k=1}{\big| \big|}} \sigma\left( \sum_{j\in \mathcal{N}_i}{\alpha_{ij}^k W^k}h_j \right)\]

多头图注意力层的优势在于能够学习多组不同的注意力机制，使得模型可以充分考虑不同节点之间的相关性和重要性。通过增加注意力头数K，可以进一步提高模型的表达能力。

到此为止，我们完成了一层GAT运算。本质上， GAT只是将原本GCN的标准化函数替换为使用注意力权重的邻居节点特征聚合函数。其余部分和普通的GCN和GNN思想相同。

深度学习

读论文

本文由作者按照 CC BY 4.0 进行授权

Graph Attention Networks

介绍

相关工作

模型

注意力机制

计算注意力系数（attention coefficient）

加权求和（aggregate）

热门标签