RAG
Retrieval-Augmented Generation
Inyecta contexto relevante en el prompt del LLM en tiempo de ejecución, sacado de tus propios datos, para que el modelo responda desde tu conocimiento y no desde sus datos de entrenamiento.
RAG es la arquitectura que permite a un LLM responder a preguntas sobre datos en los que no fue entrenado. El mecanismo es directo: coge la pregunta del usuario, recupera los chunks más relevantes de tu corpus (vía búsqueda vectorial, por keywords o híbrida), mételos en el prompt y deja que el modelo responda.
Por qué existe RAG: entrenar un modelo con tus datos privados es caro, lento y queda obsoleto en cuanto tus datos cambian. RAG lo evita tratando los datos como contexto en tiempo de ejecución. Trade-off: la calidad de la recuperación se vuelve el cuello de botella. Un modelo con mal contexto produce respuestas erróneas con seguridad.
Verdad poco sexy sobre RAG: el 80 % del trabajo es hacer bien la recuperación (estrategia de chunking, elección de embeddings, reranking, búsqueda híbrida) y el 20 % el modelo en sí. Los vendors que venden RAG como una feature de un clic venden la parte fácil.