Site Reliability Engineer (Middle / Senior)
Kaspi.kz · зарплата не указана · Алматы · HH · опубликовано 29 апреля 2026 г.
Описание вакансии
Мы находимся в поиске инженеров SRE (Middle и Senior) для развития и поддержки наших ключевых высоконагруженных сервисов — SuperApp и OPay .
Наша глобальная цель — строить надежную, масштабируемую и отказоустойчивую архитектуру, обеспечивая бесперебойную работу сервисов, которыми ежедневно пользуются миллионы клиентов. Если вы любите автоматизировать рутину, глубоко копать причины инцидентов и внедрять инженерные практики — будем рады видеть вас в команде!
Чем предстоит заниматься:
Для уровня Middle:
• Обеспечение стабильности и высокой доступности сервисов (SuperApp / OPay).
• Внедрение и мониторинг метрик SLI/SLO, оперативное реагирование на алерты.
• Деплой и сопровождение сервисов в Production.
• Поддержка и развитие пайплайнов CI/CD.
• Участие в on-call дежурствах и процессе Incident Management.
• Разбор инцидентов (участие в RCA и составлении postmortem).
• Базовый анализ производительности системы, поиск узких мест.
• Автоматизация рутинных операционных задач (снижение toil).
Для уровня Senior (дополнительно к задачам Middle):
• Проектирование архитектуры отказоустойчивых и масштабируемых систем.
• Управление Error Budget, самостоятельное проведение и лидирование процессов RCA/postmortem.
• Прогнозирование нагрузки (Capacity planning) и подготовка инфраструктуры к пикам.
• Оптимизация процессов доставки кода (Lead time, MTTR, Change failure rate).
• Развитие сквозного Observability (метрики, логи, распределенная трассировка).
• Внедрение, адаптация практик SRE в продуктовых командах.
• Участие в принятии ключевых архитектурных решений и менторство инженеров в команде.
Что мы ожидаем от вас:
Обязательный стек для Middle:
• Уверенное администрирование Linux.
• Хорошее понимание принципов SRE (SLO, Error budget, Toil).
• Уверенные знания Kubernetes (опыт работы с Helm, базовый k8s networking).
• Опыт настройки CI/CD (GitLab CI / Jenkins) и работы с IaC (Ansible).
• Опыт выстраивания мониторинга (Prometheus, Grafana, VictoriaMetrics или аналоги) и работы с логами (ELK / OpenSearch).
• Понимание сетевого стека и базовых протоколов (TCP/IP, HTTP/HTTPS, DNS).
• Опыт эксплуатации БД (PostgreSQL, MongoDB, Redis) и базовое понимание Kafka.
• Опыт работы с системами управления секретами (Vault).
• Опыт Troubleshooting в production-среде и понимание практик Chaos Engineering.
Ожидания от Senior (дополнительно):
• Глубокая экспертиза в Linux и Kubernetes (написание Operators, понимание CRD, сложный networking).
• Опыт построения CI/CD пайплайнов на уровне всей платформы.
• Продвинутый уровень владения IaC (Ansible, модульность, написание ролей по best practices).
• Опыт работы с Service Mesh (Istio / Linkerd / Cilium).
• Глубокое понимание сетей и балансировки трафика (L4/L7, NGINX, Citrix).
• Коммерческий опыт работы с Highload-системами и облачными провайдерами (Huawei Cloud, AWS, Azure).
• Уверенная эксплуатация и оптимизация производительности Kafka, PostgreSQL, MongoDB, Redis.
• Опыт внедрения полноценного Observability (metrics + logs + tracing).
• Практический опыт нагрузочного тестирования (k6 или аналоги).
Что мы предлагаем:
• Работу над масштабным финтех-продуктом с современной микросервисной архитектурой.
• Поддержку инженерных инициатив.
• Конкурентную заработную плату (обсуждается индивидуально по итогам технических интервью).
• Прозрачную систему перформанс-ревью и возможности для роста.
• Комфортный формат работы и сильное техническое комьюнити внутри компании.
• Возможность развиваться вместе с нашим бизнесом.
• Свобода действий и ответственность за результат
• Гибкий график (начало рабочего дня, удаленка по необходимости)
• Комфортные условия работы, обучение, годовой бонус