Введение
Метод обработки данных: Kappa – архитектура
Заключение
Список использованной литературы
Введение
Архитектура для обработки больших данных позволяет принимать, обрабатывать и анализировать данные, которые являются слишком объемными или слишком сложными для традиционных систем баз данных. Время, когда организации начинают использовать большие данные, зависит от возможностей пользователей и их средств. Для некоторых это могут быть сотни гигабайт данных, а для других - сотни терабайт. По мере совершенствования средств для работы с большими наборами данных изменяется и значение больших данных. Зачастую этот термин связан со значением, которое можно извлечь из наборов данных с помощью расширенной аналитики, а не исключительно с размером данных. Хотя в этих случаях они обычно достаточно большие.
С годами ландшафт данных изменился. Кроме того, появились новые возможности для работы с данными. Стоимость хранилища значительно снизилась, в то время как стоимость средств для сбора данных продолжает расти. Некоторые данные поступают в ускоренном темпе, их постоянно нужно собирать и просматривать. Другие данные поступают более мед-ленно, но в очень больших блоках. Они часто содержат данные журналов за десятилетия. Вы может сталкиваться c проблемой расширенной аналитики или проблемой, для решения которой требуется использовать машинное обучение. Это задачи, которые архитектура для обработки больших данных предназначена решить.
Метод обработки данных: Kappa – архитектура
Архитектура потоковой передачи - это определенный набор техно-логий, которые работают вместе для обработки потоковой обработки, то есть практики выполнения действий с серией данных во время их создания.
Во многих современных развертываниях Apache Kafka действует как хранилище для потоковых данных, а затем несколько потоковых процессоров могут воздействовать на данные, хранящиеся в Kafka, для получения нескольких выходных данных. Некоторые потоковые архитектуры включают в себя рабочие процессы как для потоковой обработки, так и для пакетной обработки , что либо влечет за собой другие технологии для обработки крупномасштабной пакетной обработки, либо с использованием Kafka в качестве центрального хранилища, как указано в архитектуре Kappa.
Прежде всего отметим, что при общих целях построения надежной и быстрой системы обработки больших данных, подходы лямбда и каппа не конкурируют друг с другом, а могут использоваться вместе для разных случаев. В частности, для надежной работы с озером данных (Data Lake) на базе Apache Hadoop и моделями машинного обучения для прогнозирования будущих событий на основе исторических данных, следует выбрать Лямбда-подход.
С другой стороны, если необходимо недорого развернуть Big Data систему для эффективной обработки уникальных событий в реальном времени без исторического анализа, Каппа-архитектура отлично справится с этой задачей. Каппа подходит для тех алгоритмов Machine Learning, которые обучаются в режиме онлайн и не нуждаются в пакетном уровне. Таким образом, для Kappa характерны следующие достоинства:
• повторная обработка данных нужна только при изменении кода;
• требуется меньше ресурсов в связи с одним путем обработки данных;
• на сервисном уровне в качестве неканонического хранилища можно использовать практически любую базу данных.
Если вы ищете архитектуру, которая более надежна в обновлении озера данных, а также эффективна в разработке моделей машинного обучения для надежного прогнозирования наступающих событий, вам следует использовать архитектуру Lambda, поскольку она использует преимущества пакетного уровня и Скорость слоя, чтобы обеспечить меньше ошибок и скорости.
С другой стороны, если вы хотите развернуть архитектуру больших данных с использованием менее дорогого оборудования и требовать от нее эффективной обработки на основе уникальных событий, происходящих во время выполнения, выберите архитектуру Kappa для своих нужд обработки данных в реальном времени.
1. Кривко О.Б., Информационные технологии. М.: СОМИНТЭК. 2001.
2. Смирнова Г. Н., Сорокин А. А., Тельнов Ю. Н., «Проектирование экономических информационных систем. Учебник». Москва «Финансы и статистика», 2003.
3. Мещеряков С. В., Иванов В. Н., «Эффективные технологии со-здания информационных систем». Спб «Политехника», 2005.