TECNOLOGÍAS

Context Window

La cantidad máxima de texto que un LLM puede considerar a la vez, medida en tokens, y la razón por la que no puedes simplemente pegar toda tu base de conocimiento en cada prompt.

Última revisión: 2026-06-02 porKevin Riedl wiki ↗

La ventana de contexto es la memoria de trabajo del modelo para una sola petición, medida en tokens (un token es aproximadamente tres cuartos de una palabra). Todo tiene que caber dentro de ella: tu prompt de sistema, el historial de la conversación, cualquier documento que pegues y la respuesta que genera el modelo. Si superas la ventana, el modelo literalmente no puede ver el desbordamiento.

“Simplemente pon todo en el prompt” falla por tres razones incluso cuando la ventana es grande. Primero, el coste: la mayoría de los proveedores cobran por token, así que meter un documento enorme en cada llamada multiplica la factura. Segundo, la latencia: más tokens significa una respuesta más lenta. Tercero, y menos obvio, la calidad, los modelos atienden de forma menos fiable a la información enterrada en medio de un contexto muy largo, así que más no siempre es mejor. Un prompt enfocado a menudo supera a uno hinchado.

Esta es exactamente la razón por la que existe RAG. En lugar de volcar todo tu corpus en la ventana, recuperas solo el puñado de fragmentos relevantes para cada pregunta y envías solo esos. Obtienes el beneficio de una gran base de conocimiento sin pagar por procesarlo todo en cada petición. La ventana de contexto es el presupuesto, la recuperación es cómo lo gastas con sensatez.

La conclusión práctica: trata la ventana de contexto como un recurso escaso con etiqueta de precio, no como espacio gratis. Diseñamos en torno a ese presupuesto de forma deliberada bajo Inteligencia Artificial.

// FAQ

Preguntas frecuentes

Preguntas frecuentes

La cantidad máxima de texto que un LLM puede procesar en una petición, medida en tokens. El prompt de sistema, el historial de la conversación, los documentos pegados y la respuesta generada tienen que caber todos dentro de ella.
Coste, latencia y calidad. Más tokens cuestan más y responden más lento, y los modelos atienden de forma menos fiable a la información enterrada en un contexto muy largo. Un prompt enfocado normalmente supera a uno hinchado.
RAG existe para gestionarla. En lugar de cargar todo tu corpus en la ventana, recuperas solo los fragmentos relevantes por pregunta, obteniendo el beneficio de una gran base de conocimiento sin pagar por procesarlo todo cada vez.