Senior Data Scraping & AI Pipeline Engineer (Python / LLM)

Quiver · зарплата не указана · Тбилиси · HH · опубликовано 14 апреля 2026 г.

Компания Quiver

Источник HH

Опубликовано 14 апреля 2026 г.

Зарплата зарплата не указана

Описание вакансии

Мы ищем инженера-архитектора данных, для которого не существует нерешаемых задач по парсингу. Нам нужен топ-специалист, способный не просто собирать данные, но и выстраивать интеллектуальные конвейеры обработки, обогащения и анализа информации с помощью LLM.
Если вы знаете, как обойти любую антифрод-защиту, и умеете превращать сырой HTML в структурированные инсайты с помощью нейросетей — эта вакансия для вас.
Что предстоит делать:
Парсинг и сбор данных:
• Проектирование и разработка масштабируемых систем сбора данных.
• Обход сложных систем защиты от ботов (Cloudflare, DataDome, Akamai, кастомные решения), настройка ротации прокси и сессий.
• Мониторинг качества собираемых данных, реализация логики автовосстановления парсеров при изменении верстки.
AI-обработка и пайплайны:
• Интеграция LLM (OpenAI, Claude, локальные модели) в процессы обработки данных: классификация, извлечение сущностей (NER), сентимент-анализ, профилирование.
• Проектирование гибридных систем: rule-based фильтрация + LLM-принятие решений.
• Построение structured output пайплайнов: JSON-схемы с валидацией, автоматическая генерация отчётов.
• Построение пайплайнов обогащения данных и ICP-сегментации (скоринг лидов, оценка digital-зрелости компаний).
Инфраструктура и хранение:
• Разработка архитектуры хранения и быстрого поиска по собранным данным (PostgreSQL, полнотекстовый поиск, векторные базы данных).
• Создание конвейеров автоматизации бизнес-процессов (аутрич, мониторинг, аналитика) на базе n8n / Airflow.
Что мы ожидаем от кандидата:
Обязательно:
• Опыт коммерческой разработки на Python от 4 лет, из них фокус на Web Scraping / Data Engineering от 3 лет.
• Уверенное владение инструментами парсинга: Playwright, Selenium, Puppeteer, Scrapy, BeautifulSoup, aiohttp.
• Практический опыт обхода антибот-систем, работы с headless-браузерами, решения проблем с CAPTCHA.
• Опыт работы с LLM API (OpenAI, Claude ) для задач извлечения данных, классификации и обогащения — обязателен.
• Опыт промпт-инжиниринга: structured output, chain-of-thought, few-shot, валидация схем.
• Глубокое понимание архитектуры баз данных (PostgreSQL), опыт работы с большими объемами данных.
• Опыт построения автоматизированных пайплайнов (n8n, Airflow, cron, Docker).
• Умение декомпозировать сложные задачи и самостоятельно принимать архитектурные решения.
Будет плюсом:
• Опыт работы с векторными базами данных (Pinecone, Milvus, Qdrant) и построения RAG-систем.
• Опыт парсинга Telegram, Discord, закрытых форумов и маркетплейсов.
Мы предлагаем:
• Полностью удаленный формат работы.
• Задачи, требующие нестандартного подхода и глубокой технической экспертизы.
• Полная свобода в выборе инструментов и архитектурных решений.
• Бюджет на инфраструктуру, прокси, API и любые необходимые инструменты.

Навыки

Python
HTML
PostgreSQL
Airflow
Docker

Открыть вакансию в ленте