TECNOLOGÍAS

Vector Database

Una base de datos que almacena texto como vectores numéricos para que puedas buscar por significado en lugar de por palabras clave exactas.

Última revisión: 2026-06-02 porKevin Riedl wiki ↗

Una base de datos vectorial almacena embeddings: representaciones numéricas de texto (o imágenes, o audio) donde el significado similar se asigna a puntos cercanos en el espacio. En lugar de coincidir con palabras clave exactas, incrustas la consulta del usuario de la misma manera y pides a la base de datos los vectores más cercanos. Eso es búsqueda por similitud, y es lo que permite a un sistema encontrar «cómo cancelo mi plan» cuando el documento en realidad dice «procedimiento de terminación de la suscripción».

En una canalización RAG esta es la capa de recuperación. La calidad de tus respuestas depende en gran medida de ella: buenos embeddings y buena búsqueda devuelven los fragmentos correctos para alimentar al LLM , los malos alimentan basura y el modelo resume esa basura con confianza. Por eso la recuperación, no el modelo, suele ser donde los proyectos RAG tienen éxito o fracasan.

Aquí está la parte que los proveedores se saltan: a menudo no necesitas una base de datos vectorial dedicada. Si tu corpus es pequeño (miles, no millones de fragmentos), una extensión vectorial sobre el Postgres que ya ejecutas (pgvector) es más simple, más barata y un sistema menos que operar. Si tu búsqueda es mayormente por palabras clave, la búsqueda de texto completo simple puede superar directamente a la búsqueda vectorial. Recurre a una base de datos vectorial especializada cuando la escala, la latencia o la búsqueda híbrida a gran volumen lo justifiquen de verdad, no porque esté en el diagrama de arquitectura.

Ejemplo de sobreingeniería de esto: un equipo que construye un asistente interno de documentos sobre unos pocos miles de páginas recurre a una base de datos vectorial gestionada, una canalización de embeddings separada y un servicio de reranking antes de tener un solo usuario. Ahora operan cuatro sistemas para responder preguntas que pgvector sobre su Postgres existente habría manejado, y cada uno es una cosa nueva que monitorizar, asegurar y pagar. La versión aburrida se lanza en una semana y escala bien hasta que el corpus es genuinamente grande. Recurre a la base de datos especializada cuando los números lo fuercen (millones de vectores, presupuestos de latencia estrictos, búsqueda híbrida de alto volumen), no porque el diagrama de arquitectura parezca más serio con ella.

Elegimos deliberadamente la opción lo bastante aburrida bajo Inteligencia Artificial , porque cada sistema adicional es una cosa más que mantener viva a las 3 de la madrugada.

¿Para qué se usa una base de datos vectorial? +

Para buscar por significado en lugar de por palabras clave exactas. El texto se almacena como embeddings (vectores numéricos), y las consultas devuelven las coincidencias más cercanas. Es la capa de recuperación en la que se apoyan la mayoría de los sistemas RAG.

¿Necesito una base de datos vectorial dedicada? +

A menudo no. Para corpus pequeños, una extensión vectorial de Postgres como pgvector es más simple y más barata. Para búsqueda con muchas palabras clave, la búsqueda de texto completo puede ganar. Recurre a una base de datos vectorial especializada solo cuando la escala, la latencia o la búsqueda híbrida lo justifiquen.

¿Qué son los embeddings? +

Representaciones numéricas de texto donde el significado similar cae en puntos cercanos en el espacio vectorial. Permiten a un sistema hacer coincidir una consulta con contenido relevante incluso cuando la redacción es completamente diferente.

Preguntas frecuentes