📥 多模态输入
视觉 (Vision)
文本 (Text)
音频 (Audio)
🔄 融合过程
视觉编码器
文本编码器
音频编码器
⬇️
融合策略
等待融合...
⬇️
融合特征
🎯 融合结果
执行融合后查看结果...