输入序列
注意力热力图
点击查看注意力权重
Query-Key-Value机制
Query (查询)
当前token想要什么信息
Key (键)
每个token提供什么信息
Value (值)
实际传递的信息内容
理解Transformer的核心:注意力机制
当前token想要什么信息
每个token提供什么信息
实际传递的信息内容
Q: Query矩阵 (查询)
K: Key矩阵 (键)
V: Value矩阵 (值)
dk: Key的维度
√dk: 缩放因子,防止梯度消失
自注意力: 序列内部的关系,每个词关注其他词
多头注意力: 并行计算多组注意力,捕捉不同特征
掩码注意力: 只能看到之前的词,用于生成任务
缩放点积: 除以√d防止softmax饱和