SRE engineer
ОТП Банк. IT · зарплата не указана · Москва · HH · опубликовано 28 мая 2026 г.
Описание вакансии
Кто мы:
Команда разработки продуктов с дополнительной ценностью. Глобальная задача команды - интегрировать продажи продуктов с доп.ценностью (страховых и сервисных продуктов) во все возможные каналы (сеть отделений, POS, Mobile, web) и все возможные CJ выдачи других продуктов (POS кредиты, кредиты наличными, автокредиты, кредитные карты и т.д.).
Также запускаем нефинансовое направление: подробности на интервью.
Основная задача поддержки — обеспечить стабильную работу бизнеса продуктов с дополнительной ценностью.
Наш стек:
Linux Kubernetes PostgreSQL RabbitMQ Kafka MinIO Nginx Grafana, VictoriaMetrics, Gmonit Jira, Confluence, BitBucket, TeamCity Чем предстоит заниматься:
Поддержка, сопровождение и мониторинг сервисов и интеграций как с внутренними сервисами банка, так и внешними партнерами Управление инцидентами и обеспечение надежности работы ИТ систем Обеспечение отказоустойчивой работы Минимизация влияния внешних систем на бизнес-процессы продуктов с дополнительной ценностью Диагностика проблем, анализ логов и поиск корневых причин ошибок Настройка и сопровождение систем мониторинга Участие в обеспечении резервного копирования и реализации планов восстановления (DRP) Мы ожидаем:
Уверенные навыки диагностики и устранения сбоев Linux-систем через CLI (командную строку) Практический опыт анализа и устранения инцидентов в Linux-среде Навыки автоматизации эксплуатационных задач с использованием Bash/Shell и/или Python Опыт работы с Kubernetes, Docker, Prometheus, Grafana, ELK/OpenSearch или аналогичными платформами Практический опыт работы с SQL и эксплуатационной диагностики СУБД Опыт анализа производительности и диагностики СУБД Практический опыт сопровождения API и межсервисных интеграций Навыки диагностики API-взаимодействий в проде Практический опыт работы с системами мониторинга и наблюдаемости Практический опыт анализа инцидентов с использованием систем централизованного логирования Понимание процессов поддержки и эксплуатации production-систем Опыт работы с ITSM-процессами: управление инцидентами, проблемами и изменениями Понимание принципов наблюдаемости, мониторинга и эксплуатационной надёжности сервисов Навыки анализа инцидентов и поиска корневых причин проблем (RCA — Root Cause Analysis, анализ корневых причин) Будет плюсом:
Опыт работы с практиками SRE (Site Reliability Engineering — инженерное обеспечение надёжности сервисов) Понимание принципов CI/CD (Continuous Integration / Continuous Delivery — непрерывная интеграция и поставка изменений)