Data Engineer
Прямой работодатель Flocktory ( flocktory.com )
Опыт работы любойот 200 000 до 300 000 ₽
Flocktory (Qiwi Group) - Высокотехнологичная компания, резидент Сколково, один из лидеров рынка Marketing Technologies
Сайт: www.flocktory.com ;
Дата основания: 2012
Наша команда: 100+ (Москва/Мадрид)
Оборот: 700 млн.рублей в год (наша выручка стабильно растет на 40% от года к году)
Клиенты: 200+ крупных E-Commerce/ритейлеров, банков, страховых компаний (Lamoda, М.Видео, АльфаБанк, S7, L'Oreal и др.)
Награды: Только за последние несколько лет мы стали:
- Победителем в в номинации «Innovation Award for email marketing» премии Mar Tech Star
- Победителем в номинации «Автоматизация маркетинга» и «Лояльность и Конверсия» крупнейшей отраслевой премии «Большой Оборот»
- Лауреатом премии Adindex Awards в номинации Direct Marketing и CRM, входит в число лидеров профессионального рейтинга Digital Index 2017
- Одним из первых участников проекта AI Russia - открытой библиотеки проектов, созданных с использованием искусственного интеллекта (проект Альянса по развитию искусственного интеллекта, в который входят Mail.ru Group, МТС, «Яндекс», Сбер, «Газпром нефть», РФПИ
А вот чем занимаются дата-инженеры Flocktory в разные моменты их насыщенной профессиональной жизни.
Проектирование и реализация аналитического хранилища для нужд BI, data science и бизнес-подразделений
О чём это:
- Данных много, данные разные, и поэтому обязательно нужно прорабатывать модель этих данных, принимать решения о том, как и где они будут храниться. Разные продукты = разные профили нагрузки; разные профили нагрузки = разные БД. Что Postgres-у хорошо, то для Redis-а смерть, и наоборот. Поэтому мы используем микс MPP-баз, традиционных RDBMS, Kafka, NoSQL и распределенных файловых систем. В той или иной степени придётся прикоснуться к большинству из них.
- Данных много, данные разные, и к ним нужно обеспечить эффективный доступ: для аналитически настроенных подразделений подойдёт SQL и даже Python, а менее технические пользователи хотят красивые однокнопочные инструменты и chatops. Всё это нужно разрабатывать, поддерживать и развивать.
- Данных много, данные разные, и обязательно нужно понимать, какие откуда берутся, как устроена цепочка их преобразования, какую схему имеет таблица X, что в ней означает столбец Y, для каких запросов оптимизирована таблица Z и т. д. А это значит… верно, управление метаданными. Работа с Hive metastore, Apache Atlas и т. п. - это всё здесь.
Проектирование и реализация ETL- и аналитических процессов в гетерогенном хранилище
Нужно, чтобы эти хранилища хорошо и вовремя наполнялись. А ещё нужно, чтобы поверх них стабильно работала не самая тривиальная аналитика (довольно-таки за рамками простого filter + save), да ещё иногда и в потоковом режиме. Поэтому неизбежно придётся:
- Писать пакетные Spark-джобы на Scala;
- Писать стриминговые Flink-джобы - опять-таки на Scala;
- Разрабатывать самостоятельные пайплайны и обёртки над Spark-джобами на Airflow;
- Конфигурировать и расширять Kafka connect под выгрузку в / из Kafka.
Выстраивание автоматизированных процессов сквозного контроля качества данных. Или, переводя на человеческий язык:
- Поднимать на новые высоты автоматизированную и развесистую data quality систему на базе Airflow;
- Давать нетехническим пользователям интерактивные дашборды, где хорошо видно, всё ли в порядке с данными;
- Развивать систему мониторинга и алертинга, постигая некоторые неочевидные тонкости Prometheus, Grafana и Cloudwatch
Оптимизация производительности ETL и аналитики
Это задачи вроде таких:
- Разобраться, почему в стриминговой джобе без состояния столь неприлично долгие full GC-паузы;
- Затюнить использование памяти в Flink 1.11 (и при этом не сойти с ума);
- Оптимизировать вон тот запрос из 5 джойнов, который стал в последнее время подлагивать;
- Разобраться, отчего СУБД на HDD в целом работает прилично, но время от времени прямо-таки встаёт колом.
Кого мы ищем
Человека, которого описание работы выше не оттолкнуло, а наоборот. А ещё здорово, если у вас вот такой профессиональный профиль:
- Опыт хотя бы с одним из open-source планировщиков: Apache Airflow, Apache Oozie, да;
- Владение SQL на уровне написания запросов с агрегацией, вложенностью и разными видами join-ов;
- Желателен практический опыт разработки на Scala (опыт type class-эквилибристики не обязателен);
- Базовое понимание внутреннего устройства реляционных баз данных и MPP-систем (Vertica, Greenplum, Presto и т. п.);
- Знание или готовность изучить Python;
- Опыт работы с Hadoop (прежде всего YARN);
- Опыт работы с Apache Spark (batch / streaming / structured streaming) и / или Apache Flink;
- Опыт работы с Kafka;
- Знание Clojure на уровне чтения кода (не только своего);
- Опыт работы с AWS / GCE / Azure;
- Опыт работы с Docker, системами оркестрации контейнеров: Kubernetes, Rancher, Docker Swarm и т. п.
Облако тэгов: Spark, Flink, Hadoop, Airflow, Oozie, Luigi, Python, ETL, Kafka, Postgres, Vertica, AWS
Мы предлагаем:
- Стать частью динамично растущей компании;
- Работу в сильной команде разработки;
- Работу в продуктовых кроссфункциональных командах;
- Возможность работать в атмосфере поддержки, проявлять инициативу;
- Возможность решать интересные задачи;
- Полностью официальную зарплату, 200-250K net (возможно больше, зависит от вашего опыта, знаний и потенциала);
- ДМС со стоматологией после испытательного срока;
- Частичную компенсацию аренды жилья рядом с офисом;
- Доступ ко всем обучающим мероприятиям группы;
- Внешние программы обучения и участие в конференциях;
- Современный комфортный офис в двух минутах ходьбы от ст.м. Тверская;
- Чай, кофе, фрукты в офисе;
- Работаем с 10 до 19:00