Plantilla de alcance para un MVP de IA: criterios de aceptación, set de evaluación, puerta de lanzamiento y qué va en el SoW

Definir el alcance de un MVP de IA es distinto de un MVP de software normal porque el sistema es probabilístico, no determinista. "El usuario puede restablecer la contraseña" es un binario que puedes escribir como prueba de aprobado o fallo. "El asistente responde correctamente" no lo es, porque la misma pregunta puede dar respuestas distintas cuando cambian la versión del modelo, la temperatura o la formulación. Así que reemplazas "funciona" por cuatro cosas que deben quedar nombradas en el statement of work antes de que cambie de manos el dinero: un set de evaluación versionado con respuestas de referencia, una métrica objetivo con su umbral sobre ese set, una puerta de lanzamiento que decide la salida a producción, y el manejo explícito del caso incierto más un rollback. Si el alcance de un proveedor dice "construir un asistente de IA" sin nada de eso, ha definido el alcance de una demo, y pagarás esa brecha durante el endurecimiento. Más abajo hay una plantilla lista para copiar.

Este es el documento que los fundadores hacen circular internamente antes de comprar. Está escrito desde el lado de quien construye, con las preguntas incómodas hechas explícitas. Las fechas regulatorias son vigentes a mediados de 2026 y van con sus reservas donde están en movimiento.

¿Quieres poner a prueba este alcance antes de firmar con una agencia?

Reserva una consulta gratuita

Por qué "funciona" no funciona para la IA

En el software normal, la aceptación es binaria: dada la entrada X, comprueba la salida Y, listo. Un LLM da una salida distinta para la misma entrada entre una ejecución y otra, así que "el chatbot responde con precisión" no tiene ninguna prueba detrás. No hay número, ni set definido, ni mínimo, nada que aprobar y nada que disputar cuando la calidad es mala. La solución es estadística, no binaria. Aceptas una tasa medida sobre un set definido, idealmente promediada entre varias ejecuciones, y para comprobaciones de regresión reproducibles fijas la temperatura en cero donde el caso de uso lo permita. La segunda trampa llega de inmediato: un arreglo para un caso rompe en silencio otro, así que el set de evaluación tiene que ejecutarse como puerta en cada cambio de prompt o de modelo, no una sola vez al final. Ese único giro, de "funciona" a "supera esta vara sobre este set, siempre", es todo el sentido de definir bien el alcance de una construcción de IA.

Qué debe fijar el statement of work de un MVP de IA

Cada sección se gana su lugar. Las que sostienen todo son el set de evaluación, los criterios de aceptación y la puerta de lanzamiento.

Sección	Qué debe fijar
Problema + un resultado	Una frase. El único trabajo del usuario que el MVP debe hacer. Todo lo que no lo sirva queda fuera de alcance.
Dentro y fuera de alcance	Dos listas. La lista de lo que queda fuera de alcance es la que sostiene todo: nombra las cosas tentadoras que no vas a construir (multiidioma, voz, fine-tuning, móvil) para que se conviertan en change requests, no en supuestos.
Especificación funcional + de comportamiento de la IA	Requisitos normales más el comportamiento de la IA: tarea, tono, comportamiento de rechazo (cuándo debe decir "No lo sé"), requisito de citas y fallback ante baja confianza o ausencia de acierto en el retrieval. Aquí codificas el caso incierto.
Criterios de aceptación	Métrica objetivo más umbral sobre un set de evaluación nombrado. Nunca "funciona". Ejemplos más abajo.
El set de evaluación	Cuántos casos (alrededor de 100 es un mínimo viable para un MVP, ~200 para un set más completo; diez no te dicen casi nada), de quién son las respuestas de referencia (un experto del dominio de tu lado, no solo el proveedor) y cómo se puntúa cada caso: comprobaciones deterministas para campos objetivos, un LLM-as-judge con aprobado o fallo binario para la calidad matizada, revisión humana para calibrar.
Puerta de lanzamiento + rollback	La vara medible para salir a producción, acordada por producto, ingeniería y QA antes de escribir las pruebas, más un disparador de auto-rollback y un criterio de kill.
Datos	Fuentes, procedencia, derechos de uso (entrenamiento y retrieval), manejo de PII y residencia. La API del modelo que ve los prompts es un subencargado: necesita un DPA y una configuración de no-entrenamiento y cero retención, no condiciones de consumidor.
No funcionales	Presupuesto de latencia (en UIs de streaming, el time-to-first-token es el SLA principal), presupuesto de coste por acción (los tokens de salida cuestan varias veces los de entrada, y los flujos agénticos despliegan una acción en muchas llamadas) y registro de cada llamada al modelo.
Seguridad y cumplimiento	Autenticación, modelo de permisos y aislamiento por inquilino, GDPR (registro de actividades de tratamiento, base legal, DPIA para alto riesgo, DPAs de subencargados) y transparencia del EU AI Act donde la aplicación habla con usuarios.
Hitos, pago, IP, traspaso	Fases de discovery, construcción, evaluación y endurecimiento, lanzamiento, con pago por fase. La IP se te asigna al pagar. Una lista nombrada de artefactos de traspaso.

Criterios de aceptación: mal frente a bien

Esta es la sección que decide si puedes exigirle algo a un proveedor.

Mal, porque no hay número, ni set, ni mínimo: "el chatbot responde correctamente a las preguntas de los clientes", "el asistente es preciso y útil", "el modelo rara vez alucina", "funciona bien en las pruebas".

Bien, sobre el set de evaluación de 100 casos acordado con respuestas de referencia fijas:

al menos 90% de respuestas fieles, ancladas en el contexto recuperado, puntuadas por un LLM-as-judge con aprobado o fallo binario y calibradas contra etiquetas humanas;
al menos 85% de relevancia de la respuesta;
menos del 2% de salidas dañinas o que violan políticas, como puerta dura en la que una sola salida dañina bloquea el lanzamiento;
rechaza o escala en al menos el 95% de los casos de prueba no respondibles;
p95 time-to-first-token por debajo de 2 segundos, p95 de la respuesta completa por debajo de 4 segundos;
coste por debajo de EUR 0,05 por conversación con el modelo acordado;
sin regresión por debajo de ningún mínimo en la ejecución de evaluación antes de un deploy.

Trata los umbrales exactos como puntos de partida para negociar según tu riesgo, no como dogma. Los proveedores suelen citar fidelidad igual o superior a 0,75 y alucinación por debajo del 5% (1% para casos de alto riesgo) como puntos de partida de producción; fija los tuyos según cuánto te cuesta una respuesta equivocada. El set de evaluación que defines aquí es la misma evidencia que pedirá la diligencia técnica de un inversor, lo cual cubrimos en la lista de comprobación de diligencia técnica para MVPs de IA, y los métodos de puntuación están en cuándo merece la pena construir evaluaciones de LLM.

La plantilla de alcance lista para copiar

Pégala, rellena los corchetes, borra lo que no aplique. Hazla circular antes de aceptar una sola propuesta.

Alcance / SoW de MVP de IA, [Nombre del proyecto]
Fecha [fecha] · Versión [v0.1] · Responsable [nombre]

1. Problema + un resultado. Problema: [una frase]. El único resultado que este MVP debe entregar: [usuario] puede [hacer X] para que [Y].

2. Alcance. Dentro de alcance: [funcionalidad 1], [funcionalidad 2]. Fuera de alcance, solo por change request: [multiidioma], [voz], [fine-tuning], [móvil].

3. Funcional + comportamiento de la IA. Funcional: [lista]. Comportamiento de la IA: tarea [exactamente qué], tono [conciso, sin especulación], citas [debe o no debe anclarse en fuentes], rechazo [cuando esté fuera de alcance o con baja confianza, decir "No lo sé" o escalar], fallback [modelo secundario, respuesta en caché o traspaso a un humano].

4. Criterios de aceptación. Sobre el set de evaluación acordado de [100] casos: fidelidad >= [90]%; relevancia >= [85]%; salidas dañinas < [2]% (un solo fallo bloquea el lanzamiento); rechazo correcto >= [95]% en casos no respondibles; p95 time-to-first-token < [2]s; p95 respuesta completa < [4]s; coste por conversación < [EUR 0.05] con el modelo [X]; sin regresión por debajo de ningún mínimo antes del deploy.

5. Set de evaluación. Tamaño [100] casos ([X] camino feliz, [Y] borde, [Z] no respondibles). Responsable de las respuestas de referencia: [experto del dominio del cliente]. Puntuación: comprobaciones deterministas para [campos objetivos], LLM-as-judge aprobado o fallo para [calidad], revisión humana para calibración. Almacenado y versionado en [ubicación].

6. Puerta de lanzamiento + rollback. Salida a producción cuando se cumplan todos los mínimos de la Sección 4, con visto bueno de [producto] + [ingeniería] + [QA]. Rollback: si [métrica] cae por debajo de [mínimo] durante una [ventana], revertir automáticamente. Criterio de kill: no desplegar si [fidelidad < X% o cualquier salida dañina].

7. Datos. Fuentes [lista], procedencia y derechos [por fuente], PII [qué y cómo se maneja], residencia [región de la UE]. Proveedor del modelo: DPA firmado, sin entrenamiento, cero retención.

8. No funcionales. Presupuestos de latencia y coste como en la Sección 4. Observabilidad: registrar cada llamada al modelo (prompt, respuesta, tokens, coste) en [herramienta], alerta diaria de coste en [umbral].

9. Seguridad + cumplimiento. Autenticación [método], permisos y aislamiento por inquilino [modelo], GDPR (registro de actividades de tratamiento, base legal, DPIA si es de alto riesgo, DPAs de subencargados), transparencia del Artículo 50 del EU AI Act desde el 2 de agosto de 2026 si la aplicación habla con usuarios, sin un plan que asuma un retraso no promulgado.

10. Hitos + pago. Discovery, construcción, evaluación y endurecimiento, lanzamiento, pago por fase. La IP se asigna a [cliente] al pagar. Traspaso: set de evaluación y resultados, registro de prompts y modelos, diagrama de arquitectura y de flujo de datos, runbook, acceso a logs, credenciales. Visto bueno: cliente [__] proveedor [__] fecha [__].

"Si el alcance no puede decirte, en números, cómo se ve lo bastante bueno y qué pasa cuando el modelo se equivoca, no es un alcance. Es un deseo. El set de evaluación y la puerta de lanzamiento son las dos líneas que convierten una demo de IA en algo que de verdad puedes comprar."

Una nota sobre el AI Act

Si tu aplicación interactúa con usuarios, los deberes de transparencia del Artículo 50 del EU AI Act, incluido decir a los usuarios que están tratando con IA, aplican desde el 2 de agosto de 2026 y apenas se ven afectados por los cambios propuestos. La mayoría de las obligaciones de alto riesgo también vencían entonces. Un acuerdo provisional en 2026 empujaría los deberes independientes de alto riesgo a finales de 2027, pero a mediados de 2026 eso todavía no es ley y solo entra en vigor con la adopción formal. No definas tu plan de cumplimiento en torno a un retraso que no se ha promulgado.

Preguntas frecuentes

¿Cómo se escriben los criterios de aceptación para una funcionalidad de IA?

No como "funciona." Defines una métrica objetivo y un umbral sobre un set de evaluación nombrado, por ejemplo al menos 90% de respuestas fieles sobre un set de 100 casos, menos del 2% de salidas dañinas, latencia p95 por debajo de 4 segundos y coste por debajo de EUR 0,05 por conversación. Como el sistema es probabilístico, aceptas una tasa medida entre varias ejecuciones, no un único aprobado o fallo.

¿Qué es un set de evaluación?

Un set versionado y propio de casos de entrada representativos con respuestas de referencia acordadas, usado para medir la calidad de forma objetiva y para detectar regresiones en cada cambio de prompt o de modelo. Alrededor de 100 casos es un mínimo viable para un MVP, unos 200 para un set más completo. Diez casos no te dicen casi nada.

¿Quién debería ser dueño del set de evaluación?

Un experto del dominio de tu lado, no solo el proveedor. La persona que sabe cómo se ve una respuesta correcta debe definir las respuestas de referencia, o estarás dejando que quien construye corrija sus propios deberes.

¿Cómo se puntúan los casos de evaluación?

De tres maneras, a menudo combinadas: comprobaciones de código deterministas para campos objetivos como fechas, IDs y forma del JSON; un LLM-as-judge para la calidad matizada, usando aprobado o fallo binario en vez de una escala de 1 a 5; y revisión humana para construir y calibrar al juez.

¿Qué es una puerta de lanzamiento para una app de LLM?

La vara medible que decide la salida a producción: los umbrales que el sistema debe alcanzar sobre el set de evaluación, acordados por producto, ingeniería y QA antes de escribir cualquier prueba. Por debajo de la vara no despliegas. También define un disparador de rollback y un criterio de kill.

¿Qué va en un statement of work de IA?

Problema y un resultado, dentro y fuera de alcance, requisitos funcionales más una especificación de comportamiento de la IA (tono, rechazo, citas, fallback), criterios de aceptación como métrica más umbral sobre un set de evaluación, el set de evaluación en sí, la puerta de lanzamiento y el rollback, derechos de datos y PII y residencia, no funcionales (latencia, coste por acción, registro), seguridad y cumplimiento, e hitos, pago, IP y artefactos de traspaso.

¿Por qué no puedo escribir simplemente "la IA responde correctamente" en el alcance?

Porque el modelo es no determinista. La misma pregunta puede dar respuestas distintas, así que "correctamente" no tiene ninguna prueba detrás. Necesitas un set definido, una métrica y un mínimo, o no hay nada que aprobar ni nada que disputar cuando la calidad es mala.

¿Cómo manejo el caso en que la IA se equivoca o no está segura?

Especifícalo en el alcance: una ruta de rechazo o de "No lo sé", escalado a un humano, o un fallback. Luego pruébalo incluyendo casos no respondibles en el set de evaluación y exigiendo al sistema que rechace o escale en, digamos, al menos el 95% de ellos.

¿Qué cláusulas de datos necesita el SoW de un MVP de IA?

Procedencia y derechos de uso para los datos de entrenamiento y de retrieval, manejo de PII, residencia de datos en la UE donde sea relevante, y un DPA con el proveedor del modelo configurado para no entrenar y cero retención. La API del modelo que ve los prompts del usuario es un subencargado.

¿Afecta el EU AI Act al alcance de mi MVP de IA?

Si tu aplicación interactúa con usuarios, los deberes de transparencia del Artículo 50 aplican desde el 2 de agosto de 2026. La mayoría de las obligaciones de alto riesgo también vencían entonces; un retraso propuesto movería los deberes independientes de alto riesgo a finales de 2027, pero eso todavía no es ley, así que no definas el alcance en torno a ello.

Reflexiones finales

El alcance de un MVP de IA solo es tan bueno como su set de evaluación y su puerta de lanzamiento. Esas dos líneas convierten un vago "constrúyennos un asistente" en algo a lo que se puede exigir a un proveedor y que un inversor respetará más adelante.

Así que antes de aceptar una propuesta, escribe el único resultado, traza la línea de lo que queda fuera de alcance, define la métrica y el mínimo sobre un set que sea propiedad de tu propio experto, decide qué pasa cuando el modelo no está seguro, y nombra la vara que le permite salir a producción. La plantilla de arriba es el punto de partida. Rellénala primero, y las propuestas que recibas tratarán de lo mismo, que es la única forma de compararlas.

¿Quieres tener el set de evaluación y la puerta de lanzamiento integrados en el alcance de tu MVP?