Apache Druid

Druid – это ориентированное на столбцы распределенное хранилище данных с открытым исходным кодом, написанное на Java

Официальный сайт

Категория: Метка:

Описание

Apache Druid – это колоночная открытая база данных, написанная на Java.

Druid спроектирован с целью быстрой обработки больших, редко изменяющихся массивов данных и немедленного предоставления доступа к ним. Он был разработан с целью обслуживания и поддержания 100% времени безотказной работы перед лицом развертывания кода, сбоев машин и других возможностей производственной системы. Это может быть полезно и для бэк-офисных случаев, но проектные решения были явно направлены на постоянную работу.

Друид подходит для продуктов, которые требуют приема данных в реальном времени из одного большого потока данных. Особенно, если вы ориентируетесь на работу без простоя и создаете свой продукт поверх ориентированного на время суммирования входящего потока данных. Говоря о скорости запроса, важно уточнить, что означает «быстрый»: с друидом он полностью находится в пределах возможности для достижения запросов, которые выполняются менее чем через секунду через триллионы строк данных.

Особенности Druid

  • Колоночное хранение данных
  • Мощная параллельная обработка данных
  • Возможность работы в режиме реального времени или в фоновом режиме
  • Облачная отказоустойчивая архитектура
  • Быстрая фильтрация
  • Точные и аппроксимированные вычисления
  • OLAP БД

    Ключевые особенности OLAP сценария работы

    • Подавляющее большинство запросов - на чтение;
    • Данные обновляются достаточно большими пачками (> 1000 строк), а не по одной строке, или не обновляются вообще;
    • Данные добавляются в БД, но не изменяются;
    • При чтении, вынимается достаточно большое количество строк из БД, но только небольшое подмножество столбцов;
    • Таблицы являются «широкими», то есть, содержат большое количество столбцов;
    • Запросы идут сравнительно редко (обычно не более сотни в секунду на сервер);
    • При выполнении простых запросов, допустимы задержки в районе 50 мс;
    • Значения в столбцах достаточно мелкие - числа и небольшие строки (пример - 60 байт на URL);
    • Требуется высокая пропускная способность при обработке одного запроса (до миллиардов строк в секунду на один сервер);
    • Транзакции отсутствуют;
    • Низкие требования к консистентности данных;
    • В запросе одна большая таблица, все таблицы кроме одной маленькие;
    • Результат выполнения запроса существенно меньше исходных данных - то есть, данные фильтруются или агрегируются; результат выполнения помещается в оперативку на одном сервере.
    ...

Аналоги и альтернативы для Apache Druid

Apache Druid - похожие продукты (инструменты, решения, сервисы)

Amazon Athena

Amazon Athena – это интерактивный сервис запросов, позволяющий просто анализировать данные в...

Apache Pinot

Apache Pinot (Incubating) - распределенное хранилище данных OLAP в реальном времени

MongoDB

MongoDB — документоориентированная система управления базами данных (СУБД) с открытым исходным кодом,...

ClickHouse

ClickHouse - столбцовая система управления базами данных (СУБД) для онлайн обработки аналитических...

Сравнение Apache Druid и похожих решений

Рассмотрим плюсы и минусы, преимущества Apache Druid относительно других решений

Смотреть все сравнения с Apache Druid

Отзывы

Отзывов пока нет.

Будьте первым, кто оставил отзыв на “Apache Druid”

Ваш адрес email не будет опубликован. Обязательные поля помечены *