Информация о статье
2022 г., Том 27, № 3, с.46-65
Белов В.А., Ильин Д.Ю., Никульчев Е.В.
Оценка эффективности обработки больших объемов данных в реляционных и колоночных форматах
Эффективное хранение данных — одна из важнейших задач при проектировании любой информационной системы. Рост потребностей в обработке больших объемов данных спровоцировал появление большого количества средств для их хранения. В связи с этим возникает необходимость выбора форматов хранения на этапе проектирования. Выбор форматов влияет на параметры вычислительной среды (объем, время обработки данных), а также аппаратных ресурсов. Статья посвящена разработке методики оценки эффективности обработки больших данных в зависимости от выбора реляционного или колоночного формата. Представлено исследование двух популярных способов хранения и обработки больших данных: реляционная база данных PostgreSQL и хранение в файлах колоночного формата Apache Parquet с обработкой с помощью фреймворка Apache Hive.
[полный текст] [ссылка на elibrary]
Ключевые слова: большие данные, форматы хранения данных, реляционные базы данных, PostgreSQL, Apache Hive
doi: 10.25743/ICT.2022.27.3.005
Библиографическая ссылка: Белов В.А., Ильин Д.Ю., Никульчев Е.В. Оценка эффективности обработки больших объемов данных в реляционных и колоночных форматах // Вычислительные технологии. 2022. Т. 27. № 3. С. 46-65
|
|
|