⚠︎ Архивная вакансия
Эта вакансия была перемещена в архив. Возможно она уже не актуальна и рекрутер больше не принимает отклики на эту вакансию. Вы можете  найти актуальные похожие вакансии

SRE Team Lead

Прямой работодатель  Skyeng ( skyeng.ru )
Москва, Россия
Сеньор • Тимлид/Руководитель группы • Руководитель отдела/подразделения
Информационные технологии • SRE • Образование • СМИ, Медиа и индустрия развлечений
12 августа 2020
Удаленная работа • Работа в офисе
Опыт работы любой
Работодатель  Skyeng
Описание вакансии

Мы в Skyeng меняем традиционное образование с помощью технологий. Сейчас в нашей IT-команде более 350 сотрудников, включая 160+ разработчиков. Наша разработка — это 40 независимых и быстрых продуктовых команд с опытными тимлидами и продактами.

Наши продукты — это онлайн-платформа Vimbox, Android и IOS-приложения, словари, браузерные расширения, внутренние CRM и финансовые системы. В 2020 году Skyeng вошел в топ 10 IT-компаний России.

Наша инфраструктура — это более 200 железных серверов и виртуальные машины в AWS и Яндексе. Мониторинг у нас построен на основе Prometheus, New Relic, Sentry, Kibana. А деплой с помощью Jenkins. Инфраструктура разработки - классический LNPP стек (для полнотекстового поиска: Linux, Nginx, PostgreSQL, PHP). Мы почти завершили миграцию на docker инфраструктуру на базе docker swarm и в 2021 перейдем на kubernetes.

Для общения и документации у нас современные инструменты: Slack, Hangouts, JIRA, Confluence, Github.

Мы не любим бюрократии: мы не боимся ошибаться, а если так происходит, то проводим post mortem, разбираем ошибки и работаем дальше.

Чем предстоит заниматься: повысить стабильность Skyeng

  • Построить мониторинг и алертинг на основании бизнес метрик;
  • Наладить процесс дежурства 24/7 с быстрыми фиксами, от дежурного инженера и эскалациями, если проблема не решается дежурным. Написание регламентов для дежурных;
  • Разбор инцидентов, предложение мер о недопущении инцидентов;
  • Составление модели рисков для приложений Skyeng, предложение как снижать потери для бизнеса от падений;
  • Консультирование команд разработки о том как строить отказоустойчивые приложения.


Требования

1. Управленческие

  • Опыт управления небольшим коллективом технических специалистов (1-2 человека) от года;
  • Умение приоритезировать задачи, аргументировать свою позицию;
  • Навык убеждать других делать его задачу;
  • Умение слышать других.

2. Бизнесовые

  • Опыт работы с бизнес метриками;
  • Понимание бизнес ценности процесса мониторинга;
  • Возможность разобраться как строится модель экономики компании: что в первую очередь следует мониторить.

3. Технические навыки

  • Опыт работы с веб сервисами на linux. Умение экстренной починки: удалить лишние логи, если место закончилось, убить процесс, который съел все оперативку и т. д.;
  • Алертинг: как добиться баланса между количеством шума и скоростью реакции;
  • Умение рассказать во что будет упираться процесс мониторинга+алертинга на разных этапах построения мониторинга;
  • Понимание принципов работы средств мониторинга (опыт 2 года):
    • Time-series database;
    • Умение объяснить как отличить шум от сигнала;
    • Опыт с grafana, prometheus обязательный от 2х лет;
    • Опыт с graphite, zabbix — будет плюсом.
  • Системное мышление:
    • Умение выделить надсистему для вверенной системы;
    • Умение выделить ключевых заинтересованных лиц и согласовать требования к вверенной системе.
  • Опыт построения мониторинга на основании бизнес метрик;
  • Умение вручную построить дашборд в графане по имеющимся данным или запросить данные у разработки.
     

Пара причин работать с нами

  • Меняем образование — это важная цель в глобальном масштабе, делать социально-важное нереально круто, попробуй!
  • Сильная команда. Средний уровень разработчиков в компании — senior. Есть чему поучиться, есть с кем обсудить то, что уже знаешь;
  • Уникальный опыт: действительно сложные проблемы, которые можно встретить только в нагруженных проектах и сильно растущих компаниях;
  • Учимся сами: регулярные доклады разработчиков внутри компании, участие и выступления на конференциях;
  • Хакатоны и командные сборы в раз