注意力竞技场 - Attention机制

点击查看注意力权重

当前token想要什么信息

每个token提供什么信息

实际传递的信息内容

注意力类型:

头数 (Heads): 1

温度 (Temperature): 1.0

维度 (d_model): 64

Attention(Q, K, V) = softmax( QK^T √d_k )V

Q: Query矩阵 (查询)

K: Key矩阵 (键)

V: Value矩阵 (值)

d_k: Key的维度

√d_k: 缩放因子，防止梯度消失

序列长度: 0

参数量: 0

计算复杂度: O(n²)

自注意力: 序列内部的关系，每个词关注其他词

多头注意力: 并行计算多组注意力，捕捉不同特征

掩码注意力: 只能看到之前的词，用于生成任务

缩放点积: 除以√d防止softmax饱和