⚠︎ Архивная вакансия
Эта вакансия была перемещена в архив. Возможно она уже не актуальна и рекрутер больше не принимает отклики на эту вакансию. Вы можете  найти актуальные похожие вакансии

Data Engineer

Прямой работодатель  Flocktory ( flocktory.com )
Москва, Россия
Миддл
Аналитика, Data Science, Big Data • Инженер • Разработчик • Python • Scala • Apache Spark • Hadoop • PostgreSQL • Vertica • SaaS/PaaS
25 марта 2021
Работа в офисе
Опыт работы любой
от 200 000 до 300 000 ₽
Работодатель  Flocktory
Описание вакансии

Flocktory (Qiwi Group) - Высокотехнологичная компания, резидент Сколково, один из лидеров рынка Marketing Technologies

Сайт: www.flocktory.com ; ​

Дата основания: 2012

Наша команда: 100+ (Москва/Мадрид)

Оборот: 700 млн.рублей в год (наша выручка стабильно растет на 40% от года к году)

Клиенты: 200+ крупных E-Commerce/ритейлеров, банков, страховых компаний (Lamoda, М.Видео, АльфаБанк, S7, L'Oreal и др.)

Награды: Только за последние несколько лет мы стали:

  • Победителем в в номинации «Innovation Award for email marketing» премии Mar Tech Star
  • Победителем в номинации «Автоматизация маркетинга» и «Лояльность и Конверсия» крупнейшей отраслевой премии «Большой Оборот»
  • Лауреатом премии Adindex Awards в номинации Direct Marketing и CRM, входит в число лидеров профессионального рейтинга Digital Index 2017
  • Одним из первых участников проекта AI Russia ​ - открытой библиотеки проектов, созданных с использованием искусственного интеллекта (проект Альянса по развитию искусственного интеллекта, в который входят Mail.ru Group, МТС, «Яндекс», Сбер, «Газпром нефть», РФПИ

 

А вот чем занимаются дата-инженеры Flocktory в разные моменты их насыщенной профессиональной жизни.

Проектирование и реализация аналитического хранилища для нужд BI, data science и бизнес-подразделений

О чём это:

  • Данных много, данные разные, и поэтому обязательно нужно прорабатывать модель этих данных, принимать решения о том, как и где они будут храниться. Разные продукты = разные профили нагрузки; разные профили нагрузки = разные БД. Что Postgres-у хорошо, то для Redis-а смерть, и наоборот. Поэтому мы используем микс MPP-баз, традиционных RDBMS, Kafka, NoSQL и распределенных файловых систем. В той или иной степени придётся прикоснуться к большинству из них.
  • Данных много, данные разные, и к ним нужно обеспечить эффективный доступ: для аналитически настроенных подразделений подойдёт SQL и даже Python, а менее технические пользователи хотят красивые однокнопочные инструменты и chatops. Всё это нужно разрабатывать, поддерживать и развивать.
  • Данных много, данные разные, и обязательно нужно понимать, какие откуда берутся, как устроена цепочка их преобразования, какую схему имеет таблица X, что в ней означает столбец Y, для каких запросов оптимизирована таблица Z и т. д. А это значит… верно, управление метаданными. Работа с Hive metastore, Apache Atlas и т. п. - это всё здесь.

Проектирование и реализация ETL- и аналитических процессов в гетерогенном хранилище

Нужно, чтобы эти хранилища хорошо и вовремя наполнялись. А ещё нужно, чтобы поверх них стабильно работала не самая тривиальная аналитика (довольно-таки за рамками простого filter + save), да ещё иногда и в потоковом режиме. Поэтому неизбежно придётся:

  • Писать пакетные Spark-джобы на Scala;
  • Писать стриминговые Flink-джобы - опять-таки на Scala;
  • Разрабатывать самостоятельные пайплайны и обёртки над Spark-джобами на Airflow;
  • Конфигурировать и расширять Kafka connect под выгрузку в / из Kafka.

Выстраивание автоматизированных процессов сквозного контроля качества данных. Или, переводя на человеческий язык:

  • Поднимать на новые высоты автоматизированную и развесистую data quality систему на базе Airflow;
  • Давать нетехническим пользователям интерактивные дашборды, где хорошо видно, всё ли в порядке с данными;
  • Развивать систему мониторинга и алертинга, постигая некоторые неочевидные тонкости Prometheus, Grafana и Cloudwatch

Оптимизация производительности ETL и аналитики

Это задачи вроде таких:

  • Разобраться, почему в стриминговой джобе без состояния столь неприлично долгие full GC-паузы;
  • Затюнить использование памяти в Flink 1.11 (и при этом не сойти с ума);
  • Оптимизировать вон тот запрос из 5 джойнов, который стал в последнее время подлагивать;
  • Разобраться, отчего СУБД на HDD в целом работает прилично, но время от времени прямо-таки встаёт колом.

Кого мы ищем

Человека, которого описание работы выше не оттолкнуло, а наоборот. А ещё здорово, если у вас вот такой профессиональный профиль:

  • Опыт хотя бы с одним из open-source планировщиков: Apache Airflow, Apache Oozie, да;
  • Владение SQL на уровне написания запросов с агрегацией, вложенностью и разными видами join-ов;
  • Желателен практический опыт разработки на Scala (опыт type class-эквилибристики не обязателен);
  • Базовое понимание внутреннего устройства реляционных баз данных и MPP-систем (Vertica, Greenplum, Presto и т. п.);
  • Знание или готовность изучить Python;
  • Опыт работы с Hadoop (прежде всего YARN);
  • Опыт работы с Apache Spark (batch / streaming / structured streaming) и / или Apache Flink;
  • Опыт работы с Kafka;
  • Знание Clojure на уровне чтения кода (не только своего);
  • Опыт работы с AWS / GCE / Azure;
  • Опыт работы с Docker, системами оркестрации контейнеров: Kubernetes, Rancher, Docker Swarm и т. п.

Облако тэгов: Spark, Flink, Hadoop, Airflow, Oozie, Luigi, Python, ETL, Kafka, Postgres, Vertica, AWS

Мы предлагаем:

  • Стать частью динамично растущей компании;
  • Работу в сильной команде разработки;
  • Работу в продуктовых кроссфункциональных командах;
  • Возможность работать в атмосфере поддержки, проявлять инициативу;
  • Возможность решать интересные задачи;
  • Полностью официальную зарплату, 200-250K net (возможно больше, зависит от вашего опыта, знаний и потенциала);
  • ДМС со стоматологией после испытательного срока;
  • Частичную компенсацию аренды жилья рядом с офисом;
  • Доступ ко всем обучающим мероприятиям группы;
  • Внешние программы обучения и участие в конференциях;
  • Современный комфортный офис в двух минутах ходьбы от ст.м. Тверская;
  • Чай, кофе, фрукты в офисе;
  • Работаем с 10 до 19:00

Специализация
Аналитика, Data Science, Big DataИнженерРазработчикPythonScalaApache SparkHadoopPostgreSQLVertica
Отрасль и сфера применения
SaaS/PaaS
Уровень должности
Миддл