Construcción, gobierno y pruebas de una Oficina GPT para selección

El equipo buscaba aumentar productividad y reducir tareas repetitivas en el área de selección. La idea inicial era sencilla: automatizar procesos como el análisis de CVs, la documentación tras entrevistas, el procesamiento de peticiones y el matching entre candidatos y vacantes.

Los primeros prototipos fueron muy eficaces, logrando automatizar el análisis de CVs y recuperar candidatos olvidados, mejorando la eficiencia en un 65%.

Contexto

👉🏻 Proliferación de prompts usados por cada recruiter sin control de versiones.

👉🏻 Falta de fiabilidad en plataformas como ChatGPT, Claude o Google ADK con un 60% de fallos en las salidas.

👉🏻 Errores difíciles de reproducir, pérdida de scripts y regresión a procesos manuales.

👉🏻 Uso real de los sistemas: solo el 30% donde realmente serían útiles.

El Reto

Conforme crecieron los usos, aparecieron los problemas:

Era evidente que el reto no era “crear buenos prompts”, sino industrializar su uso.

a) Gobierno y control

Inventario completo de procesos y modelos, logrando una centralización del 100% de los prompts y scripts utilizados.
Repositorios centralizados con control de versiones en GitHub.
Documentación y trazabilidad de cambios lo que permitió una reducción del 70% en los errores causados por falta de seguimiento de versiones.

La solución con novanot-IA

b) Pruebas automatizadas y control de calidad

Uso avanzado de Promptfoo extendido con scripts propios.
Validación de JSONs, detección de inferencias incorrectas y medición de consistencia.
Evaluación estadística de estabilidad mejorando la precisión de los modelos en un 40%
Exploración de modelos “juez” que validan salidas de otros modelos, mejorando la fiabilidad de las salidas en un 60%.

c) Seguridad y fiabilidad

Nuevos tests de ciberseguridad para detectar prompt injections en CVs y solicitudes, con una reducción del 80% en riesgos de manipulación.
Identificación de riesgos reales de manipulación, exfiltración o alteración del pipeline.
Bases para un despliegue controlado y medible. con un aumento del 50% en la estabilidad del sistema

A partir del diagnóstico, se diseñó una arquitectura robusta basada en:

Resultado

Eliminación del caos de versiones y variabilidad entre usuarios, mejorando la eficiencia en la gestión de scripts en un 90%.

Marco de madurez que permite despliegues estables, con versiones verificadas, reduciendo el 30% de los fallos previos en el proceso de despliegue.

Mayor fiabilidad gracias a pruebas repetitivas, métricas y logs de uso, con una reducción del 60% de incidencias de fallos de modelo.

Preparación para un escalado seguro, gobernado y medible del uso de LLMs, con un incremento proyectado del 40% en el uso de modelos de IA.

Tras la implantación del modelo:

Caso de éxito Oficina GPT para selección