Context Window
La cantidad máxima de texto que un LLM puede considerar a la vez, medida en tokens, y la razón por la que no puedes simplemente pegar toda tu base de conocimiento en cada prompt.
La ventana de contexto es la memoria de trabajo del LLM para una sola petición, medida en tokens (un token es aproximadamente tres cuartos de una palabra). Todo tiene que caber dentro de ella: tu prompt de sistema, el historial de la conversación, cualquier documento que pegues y la respuesta que genera el modelo. Si superas la ventana, el modelo literalmente no puede ver el desbordamiento.
“Simplemente pon todo en el prompt” falla por tres razones incluso cuando la ventana es grande. Primero, el coste: la mayoría de los proveedores cobran por token, así que meter un documento enorme en cada llamada multiplica la factura. Segundo, la latencia: más tokens significa una respuesta más lenta. Tercero, y menos obvio, la calidad, los modelos atienden de forma menos fiable a la información enterrada en medio de un contexto muy largo, así que más no siempre es mejor. Un prompt enfocado a menudo supera a uno hinchado.
Esta es exactamente la razón por la que existe RAG. En lugar de volcar todo tu corpus en la ventana, recuperas solo el puñado de fragmentos relevantes para cada pregunta y envías solo esos. Obtienes el beneficio de una gran base de conocimiento sin pagar por procesarlo todo en cada petición. La ventana de contexto es el presupuesto; la recuperación y una buena ingeniería de prompts son cómo lo gastas con sensatez.
Ejemplo del efecto «perdido en el medio» que sorprende a los equipos: una empresa pega un documento de política de 40 páginas en el prompt y hace una pregunta cuya respuesta está en la página 20. El modelo, con el documento entero técnicamente dentro de su ventana, igual se equivoca, porque la atención se degrada para el material enterrado en medio de un contexto largo. El mismo modelo, al que se le entregan solo los dos párrafos relevantes que la recuperación extrajo, responde correctamente. Las ventanas más grandes no arreglaron el problema; un contexto mejor dirigido sí. Esta es la parte contraintuitiva que los founders pasan por alto cuando un nuevo modelo sale con un tamaño de ventana que acapara titulares: más capacidad no es más fiabilidad.
La conclusión práctica: trata la ventana de contexto como un recurso escaso con etiqueta de precio, no como espacio gratis. Las ventanas más grandes bajan la presión pero no la eliminan, y el coste y la latencia siguen escalando con lo que metes. Diseñamos en torno a ese presupuesto de forma deliberada bajo Inteligencia Artificial.