Plantilla de alcance para un MVP de IA: criterios de aceptación, set de evaluación, puerta de lanzamiento y qué va en el SoW
Definir el alcance de un MVP de IA es distinto de un MVP de software normal porque el sistema es probabilístico, no determinista. "El usuario puede restablecer la contraseña" es un binario que puedes escribir como prueba de aprobado o fallo. "El asistente responde correctamente" no lo es, porque la misma pregunta puede dar respuestas distintas cuando cambian la versión del modelo, la temperatura o la formulación. Así que reemplazas "funciona" por cuatro cosas que deben quedar nombradas en el statement of work antes de que cambie de manos el dinero: un set de evaluación versionado con respuestas de referencia, una métrica objetivo con su umbral sobre ese set, una puerta de lanzamiento que decide la salida a producción, y el manejo explícito del caso incierto más un rollback. Si el alcance de un proveedor dice "construir un asistente de IA" sin nada de eso, ha definido el alcance de una demo, y pagarás esa brecha durante el endurecimiento. Más abajo hay una plantilla lista para copiar.
Este es el documento que los fundadores hacen circular internamente antes de comprar. Está escrito desde el lado de quien construye, con las preguntas incómodas hechas explícitas. Las fechas regulatorias son vigentes a mediados de 2026 y van con sus reservas donde están en movimiento.
¿Quieres poner a prueba este alcance antes de firmar con una agencia?
Reserva una consulta gratuitaPor qué "funciona" no funciona para la IA
En el software normal, la aceptación es binaria: dada la entrada X, comprueba la salida Y, listo. Un LLM da una salida distinta para la misma entrada entre una ejecución y otra, así que "el chatbot responde con precisión" no tiene ninguna prueba detrás. No hay número, ni set definido, ni mínimo, nada que aprobar y nada que disputar cuando la calidad es mala. La solución es estadística, no binaria. Aceptas una tasa medida sobre un set definido, idealmente promediada entre varias ejecuciones, y para comprobaciones de regresión reproducibles fijas la temperatura en cero donde el caso de uso lo permita. La segunda trampa llega de inmediato: un arreglo para un caso rompe en silencio otro, así que el set de evaluación tiene que ejecutarse como puerta en cada cambio de prompt o de modelo, no una sola vez al final. Ese único giro, de "funciona" a "supera esta vara sobre este set, siempre", es todo el sentido de definir bien el alcance de una construcción de IA.
Qué debe fijar el statement of work de un MVP de IA
Cada sección se gana su lugar. Las que sostienen todo son el set de evaluación, los criterios de aceptación y la puerta de lanzamiento.
| Sección | Qué debe fijar |
|---|---|
| Problema + un resultado | Una frase. El único trabajo del usuario que el MVP debe hacer. Todo lo que no lo sirva queda fuera de alcance. |
| Dentro y fuera de alcance | Dos listas. La lista de lo que queda fuera de alcance es la que sostiene todo: nombra las cosas tentadoras que no vas a construir (multiidioma, voz, fine-tuning, móvil) para que se conviertan en change requests, no en supuestos. |
| Especificación funcional + de comportamiento de la IA | Requisitos normales más el comportamiento de la IA: tarea, tono, comportamiento de rechazo (cuándo debe decir "No lo sé"), requisito de citas y fallback ante baja confianza o ausencia de acierto en el retrieval. Aquí codificas el caso incierto. |
| Criterios de aceptación | Métrica objetivo más umbral sobre un set de evaluación nombrado. Nunca "funciona". Ejemplos más abajo. |
| El set de evaluación | Cuántos casos (alrededor de 100 es un mínimo viable para un MVP, ~200 para un set más completo; diez no te dicen casi nada), de quién son las respuestas de referencia (un experto del dominio de tu lado, no solo el proveedor) y cómo se puntúa cada caso: comprobaciones deterministas para campos objetivos, un LLM-as-judge con aprobado o fallo binario para la calidad matizada, revisión humana para calibrar. |
| Puerta de lanzamiento + rollback | La vara medible para salir a producción, acordada por producto, ingeniería y QA antes de escribir las pruebas, más un disparador de auto-rollback y un criterio de kill. |
| Datos | Fuentes, procedencia, derechos de uso (entrenamiento y retrieval), manejo de PII y residencia. La API del modelo que ve los prompts es un subencargado: necesita un DPA y una configuración de no-entrenamiento y cero retención, no condiciones de consumidor. |
| No funcionales | Presupuesto de latencia (en UIs de streaming, el time-to-first-token es el SLA principal), presupuesto de coste por acción (los tokens de salida cuestan varias veces los de entrada, y los flujos agénticos despliegan una acción en muchas llamadas) y registro de cada llamada al modelo. |
| Seguridad y cumplimiento | Autenticación, modelo de permisos y aislamiento por inquilino, GDPR (registro de actividades de tratamiento, base legal, DPIA para alto riesgo, DPAs de subencargados) y transparencia del EU AI Act donde la aplicación habla con usuarios. |
| Hitos, pago, IP, traspaso | Fases de discovery, construcción, evaluación y endurecimiento, lanzamiento, con pago por fase. La IP se te asigna al pagar. Una lista nombrada de artefactos de traspaso. |
Criterios de aceptación: mal frente a bien
Esta es la sección que decide si puedes exigirle algo a un proveedor.
Mal, porque no hay número, ni set, ni mínimo: "el chatbot responde correctamente a las preguntas de los clientes", "el asistente es preciso y útil", "el modelo rara vez alucina", "funciona bien en las pruebas".
Bien, sobre el set de evaluación de 100 casos acordado con respuestas de referencia fijas:
- al menos 90% de respuestas fieles, ancladas en el contexto recuperado, puntuadas por un LLM-as-judge con aprobado o fallo binario y calibradas contra etiquetas humanas;
- al menos 85% de relevancia de la respuesta;
- menos del 2% de salidas dañinas o que violan políticas, como puerta dura en la que una sola salida dañina bloquea el lanzamiento;
- rechaza o escala en al menos el 95% de los casos de prueba no respondibles;
- p95 time-to-first-token por debajo de 2 segundos, p95 de la respuesta completa por debajo de 4 segundos;
- coste por debajo de EUR 0,05 por conversación con el modelo acordado;
- sin regresión por debajo de ningún mínimo en la ejecución de evaluación antes de un deploy.
Trata los umbrales exactos como puntos de partida para negociar según tu riesgo, no como dogma. Los proveedores suelen citar fidelidad igual o superior a 0,75 y alucinación por debajo del 5% (1% para casos de alto riesgo) como puntos de partida de producción; fija los tuyos según cuánto te cuesta una respuesta equivocada. El set de evaluación que defines aquí es la misma evidencia que pedirá la diligencia técnica de un inversor, lo cual cubrimos en la lista de comprobación de diligencia técnica para MVPs de IA, y los métodos de puntuación están en cuándo merece la pena construir evaluaciones de LLM.
La plantilla de alcance lista para copiar
Pégala, rellena los corchetes, borra lo que no aplique. Hazla circular antes de aceptar una sola propuesta.
Alcance / SoW de MVP de IA, [Nombre del proyecto]
Fecha [fecha] · Versión [v0.1] · Responsable [nombre]
1. Problema + un resultado. Problema: [una frase]. El único resultado que este MVP debe entregar: [usuario] puede [hacer X] para que [Y].
2. Alcance. Dentro de alcance: [funcionalidad 1], [funcionalidad 2]. Fuera de alcance, solo por change request: [multiidioma], [voz], [fine-tuning], [móvil].
3. Funcional + comportamiento de la IA. Funcional: [lista]. Comportamiento de la IA: tarea [exactamente qué], tono [conciso, sin especulación], citas [debe o no debe anclarse en fuentes], rechazo [cuando esté fuera de alcance o con baja confianza, decir "No lo sé" o escalar], fallback [modelo secundario, respuesta en caché o traspaso a un humano].
4. Criterios de aceptación. Sobre el set de evaluación acordado de [100] casos: fidelidad >= [90]%; relevancia >= [85]%; salidas dañinas < [2]% (un solo fallo bloquea el lanzamiento); rechazo correcto >= [95]% en casos no respondibles; p95 time-to-first-token < [2]s; p95 respuesta completa < [4]s; coste por conversación < [EUR 0.05] con el modelo [X]; sin regresión por debajo de ningún mínimo antes del deploy.
5. Set de evaluación. Tamaño [100] casos ([X] camino feliz, [Y] borde, [Z] no respondibles). Responsable de las respuestas de referencia: [experto del dominio del cliente]. Puntuación: comprobaciones deterministas para [campos objetivos], LLM-as-judge aprobado o fallo para [calidad], revisión humana para calibración. Almacenado y versionado en [ubicación].
6. Puerta de lanzamiento + rollback. Salida a producción cuando se cumplan todos los mínimos de la Sección 4, con visto bueno de [producto] + [ingeniería] + [QA]. Rollback: si [métrica] cae por debajo de [mínimo] durante una [ventana], revertir automáticamente. Criterio de kill: no desplegar si [fidelidad < X% o cualquier salida dañina].
7. Datos. Fuentes [lista], procedencia y derechos [por fuente], PII [qué y cómo se maneja], residencia [región de la UE]. Proveedor del modelo: DPA firmado, sin entrenamiento, cero retención.
8. No funcionales. Presupuestos de latencia y coste como en la Sección 4. Observabilidad: registrar cada llamada al modelo (prompt, respuesta, tokens, coste) en [herramienta], alerta diaria de coste en [umbral].
9. Seguridad + cumplimiento. Autenticación [método], permisos y aislamiento por inquilino [modelo], GDPR (registro de actividades de tratamiento, base legal, DPIA si es de alto riesgo, DPAs de subencargados), transparencia del Artículo 50 del EU AI Act desde el 2 de agosto de 2026 si la aplicación habla con usuarios, sin un plan que asuma un retraso no promulgado.
10. Hitos + pago. Discovery, construcción, evaluación y endurecimiento, lanzamiento, pago por fase. La IP se asigna a [cliente] al pagar. Traspaso: set de evaluación y resultados, registro de prompts y modelos, diagrama de arquitectura y de flujo de datos, runbook, acceso a logs, credenciales. Visto bueno: cliente [__] proveedor [__] fecha [__].

"Si el alcance no puede decirte, en números, cómo se ve lo bastante bueno y qué pasa cuando el modelo se equivoca, no es un alcance. Es un deseo. El set de evaluación y la puerta de lanzamiento son las dos líneas que convierten una demo de IA en algo que de verdad puedes comprar."
Una nota sobre el AI Act
Si tu aplicación interactúa con usuarios, los deberes de transparencia del Artículo 50 del EU AI Act, incluido decir a los usuarios que están tratando con IA, aplican desde el 2 de agosto de 2026 y apenas se ven afectados por los cambios propuestos. La mayoría de las obligaciones de alto riesgo también vencían entonces. Un acuerdo provisional en 2026 empujaría los deberes independientes de alto riesgo a finales de 2027, pero a mediados de 2026 eso todavía no es ley y solo entra en vigor con la adopción formal. No definas tu plan de cumplimiento en torno a un retraso que no se ha promulgado.
Preguntas frecuentes
¿Cómo se escriben los criterios de aceptación para una funcionalidad de IA?
¿Qué es un set de evaluación?
¿Quién debería ser dueño del set de evaluación?
¿Cómo se puntúan los casos de evaluación?
¿Qué es una puerta de lanzamiento para una app de LLM?
¿Qué va en un statement of work de IA?
¿Por qué no puedo escribir simplemente "la IA responde correctamente" en el alcance?
¿Cómo manejo el caso en que la IA se equivoca o no está segura?
¿Qué cláusulas de datos necesita el SoW de un MVP de IA?
¿Afecta el EU AI Act al alcance de mi MVP de IA?
Reflexiones finales
El alcance de un MVP de IA solo es tan bueno como su set de evaluación y su puerta de lanzamiento. Esas dos líneas convierten un vago "constrúyennos un asistente" en algo a lo que se puede exigir a un proveedor y que un inversor respetará más adelante.
Así que antes de aceptar una propuesta, escribe el único resultado, traza la línea de lo que queda fuera de alcance, define la métrica y el mínimo sobre un set que sea propiedad de tu propio experto, decide qué pasa cuando el modelo no está seguro, y nombra la vara que le permite salir a producción. La plantilla de arriba es el punto de partida. Rellénala primero, y las propuestas que recibas tratarán de lo mismo, que es la única forma de compararlas.
¿Quieres tener el set de evaluación y la puerta de lanzamiento integrados en el alcance de tu MVP?
Reserva una consulta gratuita