👁️ 注意力竞技场

理解Transformer的核心:注意力机制

输入序列

注意力热力图

点击查看注意力权重

Query-Key-Value机制

Query (查询)

当前token想要什么信息

Key (键)

每个token提供什么信息

Value (值)

实际传递的信息内容

注意力配置

注意力公式

Attention(Q, K, V) = softmax( QKT √dk )V

Q: Query矩阵 (查询)

K: Key矩阵 (键)

V: Value矩阵 (值)

dk: Key的维度

√dk: 缩放因子,防止梯度消失

统计信息

序列长度: 0
参数量: 0
计算复杂度: O(n²)

示例句子

学习关卡

💡 游戏说明

🔑 核心概念

自注意力: 序列内部的关系,每个词关注其他词

多头注意力: 并行计算多组注意力,捕捉不同特征

掩码注意力: 只能看到之前的词,用于生成任务

缩放点积: 除以√d防止softmax饱和