Construcción, gobierno y pruebas de una Oficina GPT para selección

El equipo buscaba aumentar productividad y reducir tareas repetitivas en el área de selección. La idea inicial era sencilla: automatizar procesos como el análisis de CVs, la documentación tras entrevistas, el procesamiento de peticiones y el matching entre candidatos y vacantes.
Los primeros prototipos fueron muy eficaces, logrando automatizar el análisis de CVs y recuperar candidatos olvidados, mejorando la eficiencia en un 65%.
Contexto

👉🏻 Proliferación de prompts usados por cada recruiter sin control de versiones.
👉🏻 Falta de fiabilidad en plataformas como ChatGPT, Claude o Google ADK con un 60% de fallos en las salidas.
👉🏻 Errores difíciles de reproducir, pérdida de scripts y regresión a procesos manuales.
👉🏻 Uso real de los sistemas: solo el 30% donde realmente serían útiles.
El Reto
Conforme crecieron los usos, aparecieron los problemas:
Era evidente que el reto no era “crear buenos prompts”, sino industrializar su uso.

a) Gobierno y control
-
Inventario completo de procesos y modelos, logrando una centralización del 100% de los prompts y scripts utilizados.
-
Repositorios centralizados con control de versiones en GitHub.
-
Documentación y trazabilidad de cambios lo que permitió una reducción del 70% en los errores causados por falta de seguimiento de versiones.


La solución con novanot-IA
b) Pruebas automatizadas y control de calidad
-
Uso avanzado de Promptfoo extendido con scripts propios.
-
Validación de JSONs, detección de inferencias incorrectas y medición de consistencia.
-
Evaluación estadística de estabilidad mejorando la precisión de los modelos en un 40%
-
Exploración de modelos “juez” que validan salidas de otros modelos, mejorando la fiabilidad de las salidas en un 60%.
c) Seguridad y fiabilidad
-
Nuevos tests de ciberseguridad para detectar prompt injections en CVs y solicitudes, con una reducción del 80% en riesgos de manipulación.
-
Identificación de riesgos reales de manipulación, exfiltración o alteración del pipeline.
-
Bases para un despliegue controlado y medible. con un aumento del 50% en la estabilidad del sistema
A partir del diagnóstico, se diseñó una arquitectura robusta basada en:
Resultado
Eliminación del caos de versiones y variabilidad entre usuarios, mejorando la eficiencia en la gestión de scripts en un 90%.
Marco de madurez que permite despliegues estables, con versiones verificadas, reduciendo el 30% de los fallos previos en el proceso de despliegue.
Mayor fiabilidad gracias a pruebas repetitivas, métricas y logs de uso, con una reducción del 60% de incidencias de fallos de modelo.
Preparación para un escalado seguro, gobernado y medible del uso de LLMs, con un incremento proyectado del 40% en el uso de modelos de IA.


Tras la implantación del modelo:



¿Quieres implementar IA generativa de forma gobernada, segura y estable en tu organización?
Te acompañamos en todo el ciclo.
