En DCS nos encontramos en búsqueda de un perfil senior para desempeñarse como Líder Técnico en Proyecto de Servicio SRE.
Este perfil no es un ejecutor de tickets.
Es un agente de cambio estratégico.
Sus responsabilidades se dividen en tres áreas principales:
- Liderazgo técnico y arquitectura de fiabilidad: liderar técnicamente al nuevo equipo SRE; colaborar con Cloud Engineers y Arquitectura para definir y validar estándares técnicos transversales; así como diseñar e implementar soluciones de automatización complejas.
Adicionalmente ser el referente técnico en el diseño de arquitecturas de servicios resilientes, escalables y observables.
- Mentoría y desarrollo de capacidades internas: mentorizar activamente a los 6 SREs en formación (ex-SysOps) para desarrollar sus habilidades en áreas como programación (Python/Go), Infraestructura como Código, observabilidad y resolución de problemas complejos; liderando sesiones de knowledge transfer, talleres prácticos y revisiones de código para elevar el nivel técnico general del equipo y a su vez crear y validar runbooks ejemplares y enseñar al equipo a documentar de manera efectiva.
- Gestión estratégica de la fiabilidad: liderar la respuesta técnica durante incidentes mayores, guiando al equipo en la resolución y en el análisis post-mortem para identificar y solucionar las causas raíz; trabajar con los equipos de desarrollo y negocio para definir e implementar los primeros SLOs para los servicios más críticos; así como también analizar el stack tecnológico actual y proponer mejoras estratégicas, evaluando nuevas herramientas y procesos para potenciar la operación.
Tareas diarias y semanales
Para dar una idea del día a día, se espera que el SRE Senior dedique su tiempo a:
- 40% - Ingeniería y Automatización: Escribir código (Python/Go/Bash), crear módulos de Terraform/Ansible, desarrollar pipelines de CI/CD, implementar soluciones de monitoreo avanzado.
- 30% - Mentoría y Revisiones: Revisiones de Pull Requests de los SREs en formación, sesiones de pair programming, workshops técnicos, responder dudas y guiar en la resolución de problemas.
- 20% - Diseño y Estrategia: Participar en reuniones de arquitectura, definir estándares con SRE Gobierno, analizar métricas de fiabilidad y planificar las próximas iniciativas de mejora.
- 10% - Respuesta a Incidentes (On-call): Participar en la rotación de guardias (on-call) y liderar la respuesta a incidentes críticos cuando ocurran.
Conocimientos técnicos y experiencia requerida:
- Excluyente manejo avanzado de GCP: Experiencia demostrable con GKE IAM, GCE, Cloud SQL, Networking (VPCs, Firewalls), Cloud Storage.
- Deseable manejo de AWS: Experiencia con EKS, EC2, S3, RDS, IAM
- Manejo avanzado de Terraform: creacion de modulos reutilizables y gestion de estados remotos
- Manejo avanzado de Ansible (o similar)
- Manejo avanzado de Python o Go: herramientas y automatizaciones complejas e interacción con APIs.
- Solido domino de Bash para tareas de automatización en Linux
- Manejo avanzado de Kubernetes y Docker
- Experiencia y conocimientos avanzados de CI/CD y DevOps; diseñañdo y manteniendo pipelines complejos
- Manejo de Herramientas como GitLab CI, Jenkins, Bitbucket Pipelines o similares.
- Solida experiencia con alguna de las sgtes herramientas: Datalog (ideal), Prometheus/Grafana, Dynatrace, New Relic
- Sólidos conocimientos en la definición de SLOs/SLIs, dashboards, alertas y análisis de logs y trazas (APM).
Habilidades Blandas:
- Excelentes habilidades de comunicación y mentoría.
- Capacidad para explicar conceptos técnicos complejos de manera sencilla.
- Mentalidad de Blameless Post-mortem (análisis de incidentes sin culpas).
- Proactividad, autonomía y un fuerte sentido de ownership