Data Engineer/Инженер данных/Разработчик ETL
Прямой работодатель Леруа Мерлен ( leroymerlin.ru )
Опыт работы от 1 года до 3х лет
Леруа Мерлен – французская компания, которая является безоговорочным лидером на рынке товаров для ремонта и обустройства дома. В настоящее время мы создаем свои продукты для клиентов, меняем ландшафт внутренних приложений для работы наших сотрудников и делаем много интересного)
Мы – новая команда Даты в логистике, которой предстоит развить культуру работы с данными и их применения для принятия ключевых стратегических и операционных решений. И для этого нам нужен опытный дата инженер. В команде есть 3 ключевых направления:
- Техническое развитие даты. Функции этого направления - обеспечить наличие и консистетность данных из систем источников в едином месте для создания аналитической отчетности
- Прозрачность - сделать логистику прозрачной для её сотрудников и сотрудников других отделов, а также дать возможность сотрудникам принимать решения базируясь на данных, а не на интуиции. Команда работает над разработкой онлайн дашбордов на базе оперативных данных и разработкой системы контроля ключевых операционных и финансовых метрик на базе аналитических данных.
- Реализация ML проектов – в этом блоке мы планируем работать над проектами по оптимизации логистических процессов (склада, транспортировки, контроля поставок..) разрабатывая ML инструменты для улучшения алгоритма выбора просчета логистических объектов.
Задачи, которые предстоят:
-Организация Data Quality тестов: сбор и анализ метрик, написание скриптов для проверки, создание мониторинга для запуска скриптов и отслеживания метрик.
-Интеграция систем иcточников в GreenPlum, Postgres.
-Продуктивизация ML моделей и участие в проектах по созданию Data Science инструментов.
Обязанности подробнее:
- Обеспечить сбор и организовать процесс загрузки данных в аналитические системы, включая получение структурированных и не структурированных данных из различных источников, подготовку, очистку и предобработку данных из внешних источников, построение агрегатов.
- Создавать и улучшать процессы обработки данных.
- Разрабатывать схемы подключения новых источников в DataLake.
- Принимать участие в архитектурных решениях.
- Разрабатывать процедуры формирования детального слоя данных и слоя витрин DataLake.
- Реализовывать процессы CI/CD и мониторинга разработанных процессов обработки данных (Grafana, Prometheus).
- Писать manual и automated DQ тесты.
- Документировать свою работу в Confluence.
- Работать в Jira.
Требования к кандидатам:
- Знания принципов работы БД, построения ХД.
- Опыты работы разработки ETL процессов (SSIS, NiFi, Pentaho, Informatica, Spark).
- Имеет опыт работы с системами контроля версий (Git).
- Опыт работы с высоконагруженными распределенными системами хранения и обработки данных.
- Отличное знание SQL, опыт оптимизации запросов.
- Опыт самостоятельного ведения проектов, прямого общения с бизнесом.
- Желание обучаться и развиваться;.
- Опыт разработки на Python/Scala или Java будет большим плюсом.
Наш стек:
- SQL
- Git
- Python/Scala
- Apache Apache Nifi, Superset, Spark
- Kafka
- GreenPlum
- Airflow.
Мы предлагаем:
- Оформление по ТК РФ, оплата больничного и отпуска.
- Возможность профессионального развития и карьерного роста.
- Оплачиваемый полис добровольного медицинского страхования (включая стоматологию) после 3 месяцев работы в компании.
- Дотации на питание.
- Офис в 5 минутах от метро Шаболовская.
- Участие в конференциях, во внутренних, и внешних митапах.
- Компенсацию питания и мобильной связи.
- Гибкий график и возможность периодически работать удалённо.
- Тренажерный зал в офисе.