ID 2751
Unknown company · зарплата не указана · РФ и дружественные страны · Telegram · опубликовано 25 мая 2026 г.
Описание вакансии
MLOps
Senior
Длительность проекта
до конца года
Объем участия в проекте
Высокая нагрузка
160 ч/мес
Формат взаимодействия
Удаленно
Требуемая локация специалиста
РФ и дружественные страны
Доступность специалиста
по МСК
Требуемое гражданство специалиста
любое
Обязательные
требования
Опыт коммерческого администрирования Linux и управления производственными кластерами Kubernetes;
Уверенное владение Helm (написание чартов, управление релизами);
Продвинутый опыт построения и поддержки пайплайнов CI/CD (GitLab CI/CD или аналоги);
Понимание принципов безопасности: опыт работы с Keycloak/OAuth2, управление секретами через Vault;
Глубокие знания в области Observability: стек Prometheus/Grafana, OpenSearch;
Навыки написания скриптов для автоматизации (Python, Bash);
Продвинутый уровень использования AI-инструментов разработки: Claude Code, Open Code, Qwen Code или аналогов (rules, skills, agents, MCP);
Представление о подходах к построению AI-агентов, tool calling, RAG, function calling;
Опыт интеграции с LLM API или inference-серверами;
Понимание особенностей LLM-инференса: latency, throughput, batching, context length, token usage;
Понимание принципов подготовки данных для AI/ML/LLM-сценариев: RAG, embeddings, evaluation datasets, telemetry;
Понимание принципов построения ETL/ELT-процессов;
Опыт работы с большими объемами данных и оптимизации их обработки;
Базовый или практический опыт работы с экосистемой Hadoop;
Понимание принципов хранения данных в HDFS или S3-совместимых объектных хранилищах;
Понимание форматов хранения данных: Parquet, ORC, Avro, Iceberg;
Базовый или практический опыт работы с MPP-движками.
Дополнительные
требования
Опыт поддержки и администрирования Big Data-сервисов: Trino, Airflow, ClickHouse, Kafka, Hadoop, Redis;
Опыт разработки внутреннего тулинга и утилит на Python;
Опыт оптимизации работы GPU в Kubernetes (device plugins, мониторинг VRAM, планирование задач);
Опыт эксплуатации LLM-инференса в production;
Опыт построения RAG-систем;
Опыт работы с базами данных MSSQL, PostgreSQL, ClickHouse;
Опыт работы с LangChain, LangGraph или аналогичными фреймворками;
Опыт оптимизации GPU-инференса и стоимости LLM-сервисов;
Опыт работы в enterprise-среде с повышенными требованиями к безопасности.
Задачи на проекте
Администрирование инфраструктуры AI-сервисов: поддержка и масштабирование Kubernetes-кластеров с GPU-нодами, развертывание и оптимизация сервисов инференса (vLLM, LightLLM);
Развитие CI/CD: проектирование и улучшение пайплайнов в GitLab CI/CD, ускорение сборок;
Автоматизация рутины: замена ручных операций на автоматизированные сценарии, разработка ботов и агентов для поддержки команды;
MLOps: автоматизация жизненного цикла ML-моделей - от обучения и тестирования до деплоя и мониторинга дрейфа данных;
Observability: настройка комплексного логирования, мониторинга и алертинга (Prometheus, Grafana, OpenSearch) для всех компонентов системы;
Поддержка инфраструктуры: администрирование серверов команды, обеспечение отказоустойчивости и безопасности;
Интеграция агентских систем: участие в подготовке данных, разработке, интеграции и деплое автономных AI-агентов и LLM-приложений;
Поиск и внедрение новых решений: поиск, деплой и тестирование opensource-инструментов для расширения возможностей AI-агентов и сервисов.
Этапы отбора
1 этап- тех. интервью
Описание проекта и команды
Проект для крупного банка.
Стек проекта:
Языки: Python, Java, Bash.
Оркестрация и CI/CD: Kubernetes (k8s), GitLab CI/CD, Helm.
Базы данных и Big Data: MSSQL, PostgreSQL, ClickHouse, Hadoop, Trino, Airflow, Redis, Spark.
Observability: Grafana, Prometheus, OpenSearch.
ML & AI Infrastructure: vLLM, LightLLM, GPU-ноды, agents, MCP Gateway, Weaviate, Milvus.
Безопасность: Keycloak, OAuth2, HashiCorp Vault.