【深度学习3】Self-Attention注意力机制(李宏毅)

news/2024/7/4 7:15:03

2021 - 自注意力机制(Self-attention)(上)_哔哩哔哩_bilibili

2021 - 自注意力机制 (Self-attention) (下)_哔哩哔哩_bilibili

目录

三种输入输出间关系

常规方法

注意力机制原理

Self-attention的问题

和其他网络对比

在Graph上的应用

更多

三种输入输出间关系

 3种类型的输出,只讲第一种类型

常规方法

 但是句子长度有长有短,这种方法不合适

注意力机制原理

 展开:

 计算a1和后面所有输入之间的相关性α

  计算α的两种方式,将两个输入分别乘wq和wk矩阵,结果再处理得到α,左边方法最常用。

 具体流程,计算出自相关和互相关后经过softmax或者Relu都可以:

 

 

矩阵化计算 

 

 

 只需学习wq、wk、wv三个矩阵的参数

 multi-head Self-attention

因为一个Q和V只负责了一个种类的相关性,需要多个Q和K,负责多个总类的相关性。

Q K V分别乘一个矩阵分成两个,分开相乘,最后的b1和b2拼起来作为最后的结果。 

Self-attention的问题

没有对每个词向量的位置编码,少了位置信息。(没有距离远近之分,天涯若比邻)

拼接position encoding

 当句子太长,会导致相关性矩阵太大,可以只考虑一部分不考虑全局。

CNN就是简化版的Self-attention,如果Self-attention 参数设置合适可以达到和CNN一样的效果。

每一个像素pixel是一个长度为3的向量。

和其他网络对比

数据量越大self-attention训练效果越好,数据量少了CNN效果好,因为弹性小。

和RNN对比,RNN容易忘记长的序列,并且不能平行处理, ST天涯若比邻。

RNN接近淘汰了快,可以被S-AT代替。

在Graph上的应用

 在图上计算S-AT时,只需计算有edge相连的边就好,不用全部计算了。

 没有关联相关性就不用SAT计算,直接是0。

把S-AT用在Grapu上是某一种类型的GNN。

更多

更多S-AT的变行可以看下面这两篇论文的介绍。


http://www.niftyadmin.cn/n/3538195.html

相关文章

saltstack的探索-grains

saltstack的探索-grains 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091929394959697989910010110210310410510610710810911011111211311…

【深度学习4】GNN图神经网络介绍(李沐)

目录 介绍 图的定义 数据的图的表示 1、图片的图表示(11:50) 2、文本的图表示 3、分子的图表示 4、社交网络的图表示 数据统计 三大类问题 1、图层面的任务 2、顶点层面的任务 3、边级层面的任务 将图用在机器学习上的挑战 1、挑战 …

【深度学习5】GCN 图卷积神经网络原理

目录 前言 GCN是做什么的 GCN主要思想 数学原理 GCN长什么样 GCN为什么是这个亚子 GCN有多牛 其他关于GCN的点滴 参考文章: 何时能懂你的心——图卷积神经网络(GCN) - 知乎 (zhihu.com) 2020年,我终于决定入门GCN - 知…

ELSE 技术周刊(2018.01.01期)

业界动态 小程序又搞事情,H5 开发的春天来了! 就在刚刚,微信官方公布了几个小程序爆炸性的新闻,在 2017 年的年底,这个新闻似乎是在告诉大家,小程序能做的事越来越多,2018 年你再也没法再忽视它…

【深度学习6】图神经网络库 PyTorch Geometric(PYG)手动安装流程(绝对成功)

目录 PyTorch Geometric简介 安装PyTorch Geometric PyTorch Geometric简介 官方网站:PyG Documentation — pytorch_geometric documentation (pytorch-geometric.readthedocs.io) PyTorch Geometric 中设计了一种新的表示图数据的存储结构,也是 PyT…

UTF-8 UTF-16 UTF-32 比较

优点 UTF-8 兼容 ASCII能适应许多 C 库中的 \0 结尾惯例没有字节序问题良好的多语种支持(相对 GBK 等跟语种绑定的编码方式)以英文和西文符号比较多的场景下(例如 HTML/XML),编码较短由于是变长,字符空间足…

网站logo

2019独角兽企业重金招聘Python工程师标准>>> 网站logo即打开首页时浏览器所展示的网站标志性的图片&#xff1a; 1、ico图片 2、页面<head></head>加入如下代码&#xff0c;一般将图片和首页文件放到同一路径下。 <link rel"shortcut icon&qu…

pytest 失败用例重试

https://www.cnblogs.com/jinzhuduoduo/articles/7017405.html http://www.lxway.com/445949491.htm https://www.cnblogs.com/feiyi211/p/6625841.html 转载于:https://www.cnblogs.com/dieyaxianju/p/8179183.html