Data engineer
Прямой работодатель Леруа Мерлен ( leroymerlin.ru )
Москва, Россия
Джуниор • Миддл • Сеньор
25 января 2021
Работа в офисе
Опыт работы любойот 160 000 ₽
Опыт работы любойот 160 000 ₽
Короткая ссылка: gkjb.ru/hSNU
Описание вакансии
Мы – новая команда Даты в логистике, которой предстоит развить культуру работы с данными и их применения для принятия ключевых стратегических и операционных решений. И для этого нам нужен опытный дата инженер. В команде есть 3 ключевых направления:
- Техническое развитие даты. Функции этого направления - обеспечить наличие и консистетность данных из систем источников в едином месте для создания аналитической отчетности
- Прозрачность - сделать логистику прозрачной для её сотрудников и сотрудников других отделов, а также дать возможность сотрудникам принимать решения базируясь на данных, а не на интуиции. Команда работает над разработкой онлайн дашбордов на базе оперативных данных и разработкой системы контроля ключевых операционных и финансовых метрик на базе аналитических данных.
- Реализация ML проектов – в этом блоке мы планируем работать над проектами по оптимизации логистических процессов (склада, транспортировки, контроля поставок..) разрабатывая ML инструменты для улучшения алгоритма выбора просчета логистических объектов.
Задачи, которые могут стать твоими:
- Развертывание DWH для near-real-time данных
- Интеграция данных из логистических систем (WMS, TMS, SWP, YMS и т.д.) в DataLake (GreenPlum)
- Организация процесса поддержки интеграционных решений и хранилищ исторических и оперативных данных
- Создание масштабных витрин под систему логистических метрик.
Обязанности:
- Обеспечить сбор и организовать процесс загрузки данных в аналитические системы, включая получение структурированных и не структурированных данных из различных источников, подготовку, очистку и предобработку данных из внешних источников, построение агрегатов
- Создавать и улучшать процессы обработки данных
- Разрабатывать схемы подключения новых источников в DataLake
- Принимать участие в архитектурных решениях
- Разрабатывать процедуры формирования детального слоя данных и слоя витрин DataLake
- Реализовывать процессы CI/CD и мониторинга разработанных процессов обработки данных (Grafana, Prometheus)
- Писать manual и automated DQ тесты
- Документировать свою работу в Confluence
- Работать в Jira
Требования:
- Знания принципов работы БД, построения ХД;
- Опыты работы разработки ETL процессов (SSIS, NiFi, Pentaho, Informatica, Spark);
- Имеет опыт работы с системами контроля версий (Git);
- Опыт работы с высоконагруженными распределенными системами хранения и обработки данных;
- Отличное знание SQL, опыт оптимизации запросов;
- Опыт самостоятельного ведения проектов, прямого общения с бизнесом;
- Желание обучаться и развиваться;
- Опыт разработки на Python/Scala или Java будет большим плюсом.
Технологический стэк
- SQL
- Git
- Python/Scala
- Apache Apache Nifi, Superset, Spark
- Kafka
- GreenPlum
- Airflow