Glosario · Español

Mecanismo de atención

El componente del transformer que permite a cada token en una secuencia atender a otros tokens.

Español · Spanish

Definición

La atención calcula relaciones ponderadas entre cada par de tokens en una secuencia. Esto es lo que da a los transformers su capacidad de razonamiento de largo alcance. La atención multi-cabeza ejecuta muchos cómputos de atención en paralelo, cada uno aprendiendo diferentes patrones relacionales. Las variantes modernas (FlashAttention, atención dispersa) hacen que la atención sea computacionalmente tratable en secuencias largas.

Ejemplo

En "El gato se sentó en la alfombra porque estaba cansado", la atención ayuda al modelo a vincular "estaba" a "gato" en lugar de "alfombra".

Cómo Vedwix usa esto

Conceptual; rara vez algo que ajustamos directamente excepto en modelos entrenados a medida.

Trabajando en un proyecto de Mecanismo de atención?

Mecanismo de atención.

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto

Mecanismo de atención

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto