Ведущий AI-инженер
CЛК · от 200 000 RUB · Москва · HH · опубликовано 8 мая 2026 г.
Описание вакансии
О компании
Мы создаём продукт нового класса: персональный AI-агент — для руководителей и команд, которым важна приватность данных и независимость от облаков. Наш агент работает локально, на устройстве клиента, умеет думать, помнить и действовать — в режиме 24/7.
Мы небольшая и быстрая команда. Нам нужен человек, который не просто умеет строить AI-системы, а понимает, как они должны работать в реальной жизни .
Кого ищем
Ведущего AI-инженера и архитектора — человека, который берёт на себя полную техническую ответственность за платформу: от архитектуры агента до инфраструктуры и деплоя на железо клиента.
Это не позиция «сделать пару LLM-запросов». Это проектирование живой системы с памятью, инструментами, оркестрацией и реальными пользователями.
Что предстоит делать
• Проектировать и развивать мультиагентную on-premise AI-платформу : оркестратор, планировщик инструментов, multi-LLM роутинг, управление контекстом.
• Строить и улучшать гибридную систему памяти : RAG (pgvector) + GraphRAG (LightRAG / ArangoDB), политики записи, дедупликация, чистота данных.
• Разрабатывать агентные воркфлоу : n8n, кастомные webhook-цепочки, триггеры, cron-задачи, интеграция с внешними сервисами.
• Обеспечивать инфраструктуру : Docker Compose, развёртывание на Mac и Linux-серверах, мониторинг, логирование, резервирование.
• Работать с локальными LLM : Qwen3 / llama.cpp / vLLM, квантизация, тюнинг производительности под Apple Silicon и x86.
• Поддерживать кросс-платформенный деплой : один и тот же стек работает на Mac и на Linux-сервере (bare metal или VPS) в dev/staging — без расхождений в поведении.
• Участвовать в формировании продуктовой архитектуры : онбординг клиентов, конфигурирование агента, первичная настройка устройства (AP Mode, визорд, Chat-UI).
• Писать технические ТЗ и документацию для подрядчиков и внутренней команды.
Что важно для нас
Обязательно:
• Опыт проектирования и реализации агентных AI-систем (LLM Agents, Tool Calling, Multi-agent Orchestration) — не теоретический, а с продакшн-результатом.
• Глубокое понимание RAG-архитектур : dense retrieval, hybrid search, GraphRAG, управление namespace и чистотой графа.
• Уверенный Python, опыт с pgvector / ArangoDB или аналогами, Docker / Docker Compose.
• Опыт работы с on-premise и private AI — развёртывание на собственном железе, без облаков.
• Опыт развёртывания и эксплуатации AI-стека на Linux (Ubuntu/Debian) и macOS (Apple Silicon) — понимание отличий в сетевом стеке, systemd, оптимизации под ARM vs x86.
• Умение делать полный цикл в одиночку или в маленькой команде : архитектура → разработка → деплой → поддержка.
Будет плюсом:
• Опыт с vLLM, llama.cpp, Ollama , работа с квантизированными моделями.
• Знание специфики Apple Silicon (Metal, MLX, llama.cpp с GPU-offload) — тюнинг производительности инференса на Mac Mini.
• Опыт сборки кросс-платформенных образов Docker (linux/arm64 + linux/amd64).
• Kubernetes, MLOps / LLMOps, Grafana / Prometheus / InfluxDB.
• Опыт построения команды с нуля или технического лидерства.
• Опыт в промышленных или enterprise-проектах — понимание, что значит «сложный заказчик».
• Scala, Kafka, Cassandra — как дополнение к основному стеку.
Что мы предлагаем
• Работу над реальным продуктом , который уже продаётся и используется — не R&D ради R&D.
• Полную техническую автономию : архитектурные решения принимаешь ты, не комитет из 15 человек.
• Формат работы: гибрид или удалённо , командировки по договорённости.
• Возможность вырасти в технического директора по мере масштабирования продукта.
• Конкурентная зарплата — обсуждается индивидуально, исходя из уровня кандидата.
Стек
Python · n8n · Docker Compose · PostgreSQL + pgvector · LightRAG · Qdrant · Ollama · Qwen3 · llama.cpp / vLLM · Mac Mini M4 Pro (Apple Silicon) · Linux (Ubuntu/Debian, bare metal и VM) · FastAPI · Telegram Bot API · OCR · systemd · Nginx
Как отозваться
Напишите нам коротко:
• Что вы уже строили из перечисленного — желательно со ссылками или описанием.
• Что из задач в этой вакансии вам близко больше всего.
• Почему AI.
• Когда готовы начать
Мы читаем каждый отклик лично и отвечаем быстро.