Apache Pinot

Apache Pinot (Incubating) — распределенное хранилище данных OLAP в реальном времени

Категории: OLAP БД, Разработка Метки: OLAP БД, OLAP БД

Описание

Apache Pinot — это распределенное хранилище данных OLAP в реальном времени, которое используется для предоставления масштабируемой аналитики в реальном времени с низкой задержкой. Он может принимать данные из автономных источников данных (таких как Hadoop и простые файлы), а также из онлайн-источников (таких как Kafka). Pinot рассчитан на горизонтальное масштабирование.

Особенности Apache Pinot

Колонно-ориентированная база данных с различными схемами сжатия, такими как длина цикла, фиксированная длина битов
Сменные технологии индексации — отсортированный индекс, битовый индекс, инвертированный индекс, индекс звездного дерева
Возможность оптимизировать план запроса / выполнения на основе метаданных запроса и сегмента.
Прием пищи в режиме реального времени от Kafka и прием пищи от Hadoop
SQL-подобный язык, который поддерживает выбор, агрегацию, фильтрацию, группирование, упорядочение по, отдельные запросы к фактическим данным
Поддержка многозначных полей
Горизонтально масштабируемый и отказоустойчивый

Ограничения сервиса

Пино не является заменой для базы данных, то есть он не может быть использован в качестве источника хранилища правды, не может изменять данные
Хотя Pinot поддерживает текстовый поиск, он не заменяет поисковую систему, т.е. релевантность не поддерживается.
Запрос не может охватывать несколько таблиц. Используйте соединитель Presto-Pinot для объединения и других функций.

Пино работает очень хорошо для запроса данных временных рядов с большим количеством измерений и метрик. Пример. Запрос (просмотры профиля, эффективность рекламной кампании и т. Д.) Аналитическим способом (кто просматривал этот профиль за последние недели, сколько объявлений было кликнуто за кампанию).