来源:机器之心Pro编辑:蛋酱、杜伟Attention 还在卷自己。当上下文包含大量 Token 时,如何在忽略干扰因素的同时关注到相关部分,是一个至关重要的问题。然而,大量研究表明,标准注意力在这种情况下可能会出现性能不佳的问题。标准多头注意力的工作原理是使用点积比较当前查询向量与上下文 Toke