TECNOLOGÍAS

Context Window

Lo máximo que un LLM puede considerar a la vez, medido en tokens, y la razón de que no puedas pegar toda tu base de conocimiento en cada prompt.

Última revisión: 2026-06-02 porKevin Riedl wiki ↗

La ventana de contexto es la memoria de trabajo del LLM para una sola petición, medida en tokens (un token es aproximadamente tres cuartos de una palabra). Todo tiene que caber dentro de ella: tu prompt de sistema, el historial de la conversación, cualquier documento que pegues y la respuesta que genera el modelo. Si superas la ventana, el modelo literalmente no puede ver el desbordamiento.

“Simplemente pon todo en el prompt” falla por tres razones incluso cuando la ventana es grande. Primero, el coste: la mayoría de los proveedores cobran por token, así que meter un documento enorme en cada llamada multiplica la factura. Segundo, la latencia: más tokens significa una respuesta más lenta. Tercero, y menos obvio, la calidad, los modelos atienden de forma menos fiable a la información enterrada en medio de un contexto muy largo, así que más no siempre es mejor. Un prompt enfocado a menudo supera a uno hinchado.

Esta es exactamente la razón por la que existe RAG . En lugar de volcar todo tu corpus en la ventana, recuperas solo el puñado de fragmentos relevantes para cada pregunta y envías solo esos. Obtienes el beneficio de una gran base de conocimiento sin pagar por procesarlo todo en cada petición. La ventana de contexto es el presupuesto; la recuperación y una buena ingeniería de prompts son cómo lo gastas con sensatez.

Ejemplo del efecto «perdido en el medio» que sorprende a los equipos: una empresa pega un documento de política de 40 páginas en el prompt y hace una pregunta cuya respuesta está en la página 20. El modelo, con el documento entero técnicamente dentro de su ventana, igual se equivoca, porque la atención se degrada para el material enterrado en medio de un contexto largo. El mismo modelo, al que se le entregan solo los dos párrafos relevantes que la recuperación extrajo, responde correctamente. Las ventanas más grandes no arreglaron el problema; un contexto mejor dirigido sí. Esta es la parte contraintuitiva que los founders pasan por alto cuando un nuevo modelo sale con un tamaño de ventana que acapara titulares: más capacidad no es más fiabilidad.

La conclusión práctica: trata la ventana de contexto como un recurso escaso con etiqueta de precio, no como espacio gratis. Las ventanas más grandes bajan la presión pero no la eliminan, y el coste y la latencia siguen escalando con lo que metes. Diseñamos en torno a ese presupuesto de forma deliberada bajo Inteligencia Artificial .

¿Qué es una ventana de contexto? +

La cantidad máxima de texto que un LLM puede procesar en una petición, medida en tokens. El prompt de sistema, el historial de la conversación, los documentos pegados y la respuesta generada tienen que caber todos dentro de ella.

¿Por qué no poner simplemente todo en el prompt? +

Coste, latencia y calidad. Más tokens cuestan más y responden más lento, y los modelos atienden de forma menos fiable a la información enterrada en un contexto muy largo. Un prompt enfocado normalmente supera a uno hinchado.

¿Cómo se relaciona la ventana de contexto con RAG? +

RAG existe para gestionarla. En lugar de cargar todo tu corpus en la ventana, recuperas solo los fragmentos relevantes por pregunta, obteniendo el beneficio de una gran base de conocimiento sin pagar por procesarlo todo cada vez.

Preguntas frecuentes