TECNOLOGÍAS

RAG

Retrieval-Augmented Generation

Inyecta contexto relevante en el prompt del LLM en tiempo de ejecución, sacado de tus propios datos, para que el modelo responda desde tu conocimiento y no desde sus datos de entrenamiento.

Última revisión: 2026-05-24 porKevin Riedl wiki ↗

RAG es la arquitectura que permite a un LLM responder a preguntas sobre datos en los que no fue entrenado. El mecanismo es directo: coge la pregunta del usuario, recupera los chunks más relevantes de tu corpus (vía búsqueda vectorial, por keywords o híbrida), mételos en el prompt y deja que el modelo responda.

Por qué existe RAG: entrenar un modelo con tus datos privados es caro, lento y queda obsoleto en cuanto tus datos cambian. RAG lo evita tratando los datos como contexto en tiempo de ejecución. Trade-off: la calidad de la recuperación se vuelve el cuello de botella. Un modelo con mal contexto produce respuestas erróneas con seguridad.

Verdad poco sexy sobre RAG: el 80 % del trabajo es hacer bien la recuperación (estrategia de chunking, elección de embeddings, reranking, búsqueda híbrida) y el 20 % el modelo en sí. Los vendors que venden RAG como una feature de un clic venden la parte fácil.

// FAQ

Preguntas frecuentes

Preguntas frecuentes

RAG si los datos cambian, son privados o son específicos del cliente. Fine-tuning si el conocimiento es estable y necesitas un tono o estilo muy concreto. Para casi todo lo empresarial, RAG. Fine-tuning está sobrevendido; suele ser caro, complejo y se queda obsoleto la próxima vez que cambien tus datos.
Porque el chunking, el reranking y el filtrado por metadatos son el 80 % del trabajo y nadie los hace en la demo. La búsqueda vectorial pura encuentra cosas „similares" sin saber si son relevantes. Sin reranking ni filtros, el LLM recibe contexto plausible pero equivocado y responde con seguridad falsa.
Empieza por algo barato y bien documentado (text-embedding-3-large de OpenAI, Cohere embed v3, o un open-weights como bge-large) y mide en tu corpus con un eval real. El „mejor" embedding cambia cada seis meses; el dataset de evaluación que tú construyas es lo que sigue valiendo el año que viene.