Эта вакансия была перемещена в архив. Возможно она уже не актуальна и рекрутер больше не принимает отклики на эту вакансию. Вы можете найти актуальные похожие вакансии

Data Engineer

Прямой работодатель Flocktory ( flocktory.com )

Москва, Россия

Миддл

Аналитика, Data Science, Big Data • Инженер • Разработчик • Python • Scala • Apache Spark • Hadoop • PostgreSQL • Vertica • SaaS/PaaS

25 марта 2021

Работа в офисе
Опыт работы любойот 200 000 до 300 000 ₽

Работодатель Flocktory

Короткая ссылка: gkjb.ru/hT8r

Описание вакансии

Flocktory (Qiwi Group) - Высокотехнологичная компания, резидент Сколково, один из лидеров рынка Marketing Technologies

Сайт: www.flocktory.com ;

Дата основания: 2012

Наша команда: 100+ (Москва/Мадрид)

Оборот: 700 млн.рублей в год (наша выручка стабильно растет на 40% от года к году)

Клиенты: 200+ крупных E-Commerce/ритейлеров, банков, страховых компаний (Lamoda, М.Видео, АльфаБанк, S7, L'Oreal и др.)

Награды: Только за последние несколько лет мы стали:

Победителем в в номинации «Innovation Award for email marketing» премии Mar Tech Star
Победителем в номинации «Автоматизация маркетинга» и «Лояльность и Конверсия» крупнейшей отраслевой премии «Большой Оборот»
Лауреатом премии Adindex Awards в номинации Direct Marketing и CRM, входит в число лидеров профессионального рейтинга Digital Index 2017
Одним из первых участников проекта AI Russia - открытой библиотеки проектов, созданных с использованием искусственного интеллекта (проект Альянса по развитию искусственного интеллекта, в который входят Mail.ru Group, МТС, «Яндекс», Сбер, «Газпром нефть», РФПИ

А вот чем занимаются дата-инженеры Flocktory в разные моменты их насыщенной профессиональной жизни.

Проектирование и реализация аналитического хранилища для нужд BI, data science и бизнес-подразделений

О чём это:

Данных много, данные разные, и поэтому обязательно нужно прорабатывать модель этих данных, принимать решения о том, как и где они будут храниться. Разные продукты = разные профили нагрузки; разные профили нагрузки = разные БД. Что Postgres-у хорошо, то для Redis-а смерть, и наоборот. Поэтому мы используем микс MPP-баз, традиционных RDBMS, Kafka, NoSQL и распределенных файловых систем. В той или иной степени придётся прикоснуться к большинству из них.
Данных много, данные разные, и к ним нужно обеспечить эффективный доступ: для аналитически настроенных подразделений подойдёт SQL и даже Python, а менее технические пользователи хотят красивые однокнопочные инструменты и chatops. Всё это нужно разрабатывать, поддерживать и развивать.
Данных много, данные разные, и обязательно нужно понимать, какие откуда берутся, как устроена цепочка их преобразования, какую схему имеет таблица X, что в ней означает столбец Y, для каких запросов оптимизирована таблица Z и т. д. А это значит… верно, управление метаданными. Работа с Hive metastore, Apache Atlas и т. п. - это всё здесь.

Проектирование и реализация ETL- и аналитических процессов в гетерогенном хранилище

Нужно, чтобы эти хранилища хорошо и вовремя наполнялись. А ещё нужно, чтобы поверх них стабильно работала не самая тривиальная аналитика (довольно-таки за рамками простого filter + save), да ещё иногда и в потоковом режиме. Поэтому неизбежно придётся:

Писать пакетные Spark-джобы на Scala;
Писать стриминговые Flink-джобы - опять-таки на Scala;
Разрабатывать самостоятельные пайплайны и обёртки над Spark-джобами на Airflow;
Конфигурировать и расширять Kafka connect под выгрузку в / из Kafka.

Выстраивание автоматизированных процессов сквозного контроля качества данных. Или, переводя на человеческий язык:

Поднимать на новые высоты автоматизированную и развесистую data quality систему на базе Airflow;
Давать нетехническим пользователям интерактивные дашборды, где хорошо видно, всё ли в порядке с данными;
Развивать систему мониторинга и алертинга, постигая некоторые неочевидные тонкости Prometheus, Grafana и Cloudwatch

Оптимизация производительности ETL и аналитики

Это задачи вроде таких:

Разобраться, почему в стриминговой джобе без состояния столь неприлично долгие full GC-паузы;
Затюнить использование памяти в Flink 1.11 (и при этом не сойти с ума);
Оптимизировать вон тот запрос из 5 джойнов, который стал в последнее время подлагивать;
Разобраться, отчего СУБД на HDD в целом работает прилично, но время от времени прямо-таки встаёт колом.

Кого мы ищем

Человека, которого описание работы выше не оттолкнуло, а наоборот. А ещё здорово, если у вас вот такой профессиональный профиль:

Опыт хотя бы с одним из open-source планировщиков: Apache Airflow, Apache Oozie, да;
Владение SQL на уровне написания запросов с агрегацией, вложенностью и разными видами join-ов;
Желателен практический опыт разработки на Scala (опыт type class-эквилибристики не обязателен);
Базовое понимание внутреннего устройства реляционных баз данных и MPP-систем (Vertica, Greenplum, Presto и т. п.);
Знание или готовность изучить Python;
Опыт работы с Hadoop (прежде всего YARN);
Опыт работы с Apache Spark (batch / streaming / structured streaming) и / или Apache Flink;
Опыт работы с Kafka;
Знание Clojure на уровне чтения кода (не только своего);
Опыт работы с AWS / GCE / Azure;
Опыт работы с Docker, системами оркестрации контейнеров: Kubernetes, Rancher, Docker Swarm и т. п.

Облако тэгов: Spark, Flink, Hadoop, Airflow, Oozie, Luigi, Python, ETL, Kafka, Postgres, Vertica, AWS

Мы предлагаем:

Стать частью динамично растущей компании;
Работу в сильной команде разработки;
Работу в продуктовых кроссфункциональных командах;
Возможность работать в атмосфере поддержки, проявлять инициативу;
Возможность решать интересные задачи;
Полностью официальную зарплату, 200-250K net (возможно больше, зависит от вашего опыта, знаний и потенциала);
ДМС со стоматологией после испытательного срока;
Частичную компенсацию аренды жилья рядом с офисом;
Доступ ко всем обучающим мероприятиям группы;
Внешние программы обучения и участие в конференциях;
Современный комфортный офис в двух минутах ходьбы от ст.м. Тверская;
Чай, кофе, фрукты в офисе;
Работаем с 10 до 19:00

Специализация
Аналитика, Data Science, Big Data Инженер Разработчик Python Scala Apache Spark Hadoop PostgreSQL Vertica
Отрасль и сфера применения
SaaS/PaaS
Уровень должности
Миддл

Data Engineer

Прямой работодатель Flocktory ( flocktory.com )

Вакансии от "Flocktory"

Еще интересные вакансии