2025-08-21

Выбор в пользу производительности: почему S7 Airlines остановилась на CedrusData

Опыт миграции S7 Airlines с Dremio на высокопроизводительный движок CedrusData за 3 месяца

S7 Airlines, крупнейшая частная авиакомпания России и одна из трёх лучших в Восточной Европе по версии Skytrax, активно использует данные для оптимизации бизнес-процессов. Компания создала собственную платформу данных, изначально использующую SQL-движок зарубежного поставщика. В связи с преимуществами использования российского продукта, созданного на базе постоянно совершенствующегося свободного ПО, S7 Airlines выбрала CedrusData.

Ситуация до внедрения

Подготовка пользовательских отчетов была нетривиальной, длительной. Перемещение данных между системами увеличивало общее время подготовки отчетности, а анализ ошибок в ETL-процессах требовал существенно больше времени. Сложность системы затрудняла ad-hoc анализ. Каждый запрос бизнес пользователя требовал создания нового отчета, четких требований, привлечения специалистов и инженеров, что приводило к задержкам в предоставлении актуальной информации.

Факторы, повлиявшие на выбор нового решения

  • Ограничения масштабирования предыдущего решения (Dremio).
  • Недостатки community-версии Dremio, включая отсутствие необходимой поддержки и функций безопасности.
  • Высокая нагрузка на источники данных.

Цели

  • Быстрый и безопасный SQL-доступ к корпоративным данным.
  • Расширение аналитических возможностей.
  • Сокращение времени получения данных.
  • Переход на российское ПО.
  • Повышение доверия к данным и их прозрачности.
  • Интерактивность в исследовании данных (ad-hoc, self-service).
  • Сокращение времени на подготовку отчетности.
  • Ускорение обработки сложных запросов.
  • Анализ данных в режиме, близком к реальному времени (Запросы к топикам Kafka).
  • Упрощение доступа к данным для бизнес-пользователей.

Решение

S7 Airlines выбрала CedrusData после тестирования нескольких решений. Ключевыми критериями были скорость, производительность, масштабируемость и безопасность. CedrusData продемонстрировал высокую скорость выполнения запросов, горизонтальную  масштабируемость, простоту развертывания, безопасную архитектуру и возможности очень гибкой конфигурации. На простых тестах CedrusData показал те же результаты, что Dremio, но при пятикратно меньших вычислительных ресурсах.

CedrusData используется для доступа к данным в PostgreSQL, ClickHouse, Oracle, Vertica, Data Lake (S3+Parquet/Iceberg) и Kafka. Миграция с Dremio заняла 3 месяца, а через 9 месяцев старые сервисы были отключены, так как их никто не использовал.

Платформой данных пользуются приложения, аналитики и разработчики
«Мы — не единственная команда, создающая технологии для работы с данными. Процесс совершенствования непрерывно продолжается в разных направлениях, постепенно ситуация меняется к лучшему. Часть отчетов работает напрямую с источниками, часть — через другие платформы, а часть — через новый движок CedrusData. Минимизация времени подготовки отчетов была не единственной целью. Мы стремились упростить инфраструктуру, внедрить self-service подход и улучшить взаимодействие между командами.»

Юрий Гаврилов, владелец продукта платформы данных S7 Airlines

Преимущества CedrusData для S7 Airlines

  • Объединение и агрегация данных из разных систем без перемещения.
  • Ad-hoc анализ и создание собственных представлений.
  • Быстрый поиск данных в разнородных источниках.
  • Поддержка self-service инструментов и Data Mesh.
  • Снижение нагрузки на источники данных при меньших ресурсах.

Результаты

Внедрение CedrusData позволило S7 Airlines:

  • Объединять и агрегировать большие объемы данных с высокой скоростью.
  • Сократить время получения результатов анализа.
  • Реализовать новые аналитические возможности.
  • Предоставить специалистам возможность самостоятельного исследования данных.
  • Упростить использование данных для бизнес-аналитики (например, в маркетинге).
  • Повысить уровень безопасности доступа к данным.
В результате мы сократили трудозатраты: пользователи получили возможность самостоятельно строить отчеты и простые ETL-процессы с помощью dbt, обходить узкие места и, что самое важное, стали больше доверять данным, которые загружают сами. Интересно, что новые подходы оказались гораздо более устойчивыми к изменениям и воспринимаются позитивно. Внедрять их стало проще и менее болезненно. Еще одним важным плюсом стала перестройка правил доступа к данным.

Юрий Гаврилов, владелец продукта платформы данных S7 Airlines

Планы на будущее

  • Миграция рабочих нагрузок, перемещение данных в Data Lake/Lakehouse (новый S3).
  • Развитие self-service на базе каталога данных Datahub и QueryBook.
  • Развитие инструментов управления данными и концепции Data Mesh (включая применение ИИ и таких продуктов как Apache Seatunnel и др).
  • Развитие мониторинга для анализа данных и повышение качества данных.
  • Более тесная интеграция инструментов и компонентов с CedrusData.
  • Замена metastore на новый встроенный metastore в CedrusData.
  • Включение и адаптация нового типа коннектора Arrow Flight.
  • Изучить, реализовать и внедрить новые подходы использования UI CedrusData. 

В цифрах

  • Пользователи: ~200 (43 команды)
  • Кластеры CedrusData: 2
  • Ядра: 156
  • Запросы: ~113 000+ в месяц (будет больше) 
  • Объем данных: 56 ТБ (без учета внешних источников)

Целевые потребители: Бизнес-аналитики, руководители, разработчики, data-инженеры, исследователи данных.

Департаменты-пользователи: Коммерческий, продаж, планирования, программа лояльности, маркетинг, ИТ и другие.

Источники данных: PostgreSQL, ClickHouse, Data Lake, Oracle, Vertica, Kafka, MSSQL (Возмжно Quickwit).

Сценарии использования: Ad-hoc запросы, аналитические песочницы, управление данными, поставка данных в приложения, ETL.

Хотя предстоит еще много работы, порядок значительно улучшился. Пользователи видят только необходимые им данные, ведутся логи, — прямые доступы минимизированы. Новые доступы предоставляются по прозрачной схеме, хотя, пока не всегда быстро, но мы работаем над этим и знаем, как улучшить ситуацию.

Юрий Гаврилов, владелец продукта платформы данных S7 Airlines