Senior AI Engineer

Beeline, ТМ · зарплата не указана · Алматы · HH · опубликовано 12 мая 2026 г.

Компания Beeline, ТМ

Источник HH

Опубликовано 12 мая 2026 г.

Зарплата зарплата не указана

Описание вакансии

Мы развиваем AI-направление и создаем прикладные AI-продукты на базе GenAI, LLM, RAG, embeddings, vector search и AI-агентов. Команда занимается не только прототипами, а полноценной разработкой AI-сервисов: от проектирования архитектуры и backend-интеграций до промышленного запуска, мониторинга и дальнейшего развития решений. Нам нужен Senior AI Engineer, который умеет строить LLM-based продукты end-to-end: проектировать AI-логику, разрабатывать backend-сервисы, интегрировать cloud и локальные LLM, работать с данными, векторными хранилищами и доводить решения до production. Роль предполагает работу на стыке AI engineering, backend engineering и product engineering, с высоким уровнем самостоятельности и ответственности за техническое качество решений.
Обязанности:
• Проектировать и разрабатывать AI-продукты и AI-функциональность на базе LLM, RAG, embeddings, vector search и agentic-подходов.
• Разрабатывать backend-сервисы на Python для AI-продуктов, LLM-интеграций и пользовательских сценариев.
• Строить wrapper-based LLM-решения: prompt orchestration, structured output, tool/function calling, context management, guardrails.
• Проектировать и реализовывать RAG-пайплайны: подготовка данных, chunking, embeddings, retrieval, reranking, формирование контекста, оценка качества ответов.
• Интегрировать LLM через cloud API, локальные inference-сервисы и OpenAI-compatible endpoints.
• Работать с локальными или self-hosted LLM: запуск, интеграция, настройка и эксплуатация через Ollama, LM Studio, Hugging Face Transformers, TGI, vLLM или аналоги.
• Работать с векторными базами данных и хранилищами знаний, включая ChromaDB и аналоги.
• Интегрировать AI-сервисы с backend-системами, веб-приложениями, ботами, внутренними порталами и внешними API.
• Проектировать надежные API и интеграции: REST, webhooks, authentication, authorization, rate limits, retries, idempotency.
• Готовить AI-сервисы к production: логирование, мониторинг, error handling, tracing, алертинг, контроль деградации качества.
• Оптимизировать AI-сценарии по качеству, latency, стабильности, стоимости и использованию вычислительных ресурсов.
• Участвовать в CI/CD, контейнеризации, деплое и эксплуатации AI-сервисов.
• Разбирать бизнес-требования, предлагать технические варианты реализации и оценивать ограничения.
• Брать ownership за AI-функциональность end-to-end: от архитектуры и реализации до запуска и поддержки.
• Взаимодействовать с backend, frontend, QA, DevOps и product-командами.
Требования:
• Уверенный senior-level опыт в разработке AI/LLM-продуктов, backend-сервисов или платформенных решений.
• Сильная инженерная база: умение проектировать надежные сервисы, API, интеграции и production-ready архитектуру.
• Глубокий hands-on опыт с LLM-based продуктами: orchestration logic, prompt pipelines, structured output, tool/function calling, context management.
• Практический опыт работы с cloud LLM-провайдерами и API: OpenAI, Anthropic, Azure OpenAI, Gemini или аналоги.
• Опыт работы с локальными или self-hosted LLM: запуск, интеграция и эксплуатация моделей через Ollama, LM Studio, Hugging Face Transformers, TGI, vLLM или аналогичные инструменты.
• Понимание базовых принципов LLM inference: context window, batching, streaming, quantization, GPU/CPU resource usage, latency и throughput.
• Опыт интеграции локальных моделей в backend-сервисы через OpenAI-compatible API, REST API или custom inference endpoints.
• Понимание trade-off между cloud LLM API и локальными моделями: качество, стоимость, latency, безопасность данных и требования к инфраструктуре.
• Опыт построения RAG-решений: подготовка данных, chunking, embeddings, retrieval, vector search, reranking, evaluation.
• Опыт работы с векторными хранилищами: ChromaDB, pgvector, Milvus, Pinecone, Weaviate или аналоги.
• Сильная разработка на Python и опыт с backend-фреймворками: FastAPI, Flask, Django или аналоги.
• Понимание современных backend-подходов: async processing, queues, caching, retries, idempotency, rate limiting.
• Опыт проектирования интеграций с внутренними и внешними системами: REST API, webhooks, auth/authz, OAuth2/JWT.
• Уверенная работа с базами данных и хранилищами: relational databases, key-value stores, object storage; понимание схем, индексов, транзакций и оптимизации запросов.
• Практический опыт вывода сервисов в production: logging, monitoring, tracing, alerting, error handling, incident support.
• Опыт с Docker, CI/CD и базовое понимание Kubernetes, deployment, scaling и эксплуатации сервисов.
• Понимание cloud-инфраструктуры и managed services, желательно AWS.
• Понимание рисков LLM-приложений: hallucinations, prompt injection, data leakage, access control, guardrails.
• Умение работать с требованиями высокого уровня: самостоятельно уточнять ограничения, выбирать технический подход и доводить решение до результата.
• Готовность брать ownership за AI-функциональность end-to-end: от дизайна решения до production и поддержки.
• Английский язык не ниже Upper-Intermediate: чтение документации, техническая коммуникация, участие в обсуждениях.
В сопроводительном письме, пожалуйста, укажите свои зарплатные ожидания, спасибо! ❤️
Наши условия ниже :)

Навыки

Docker
CI/CD
REST API
aut/authz
OAuth2/JWT
RAG
LLM
Prompt Engineering
Prompt Orchestration
Английский — B2 — Средне-продвинутый

Открыть вакансию в ленте