ГОСТ Р 70466—2022
- обзор эталонной архитектуры больших данных и объяснение ее ключевых понятий;
- описание процесса применения эталонной архитектуры больших данных.
При использовании серии стандартов ИСО/МЭК 20547 настоящий стандарт будет полезен в сле
дующих случаях:
- для получения общего представления о применении эталонной архитектуры больших данных
необходимо использовать содержание разделов 5—7;
- для разработки архитектуры больших данных и приведения ее в соответствие с эталонной архи
тектурой необходимо использовать описание процесса, рассмотренного в разделе 8.
6 Стандартизация больших данных: мотивация и цели
В отчете за 2019 г. международная исследовательская и консалтинговая компания International
Data Corporation (IDC) прогнозировала мировые доходы от использования и аналитики больших данных
в размере 189,1 млрд долл. США, что на 12 % больше, чем в 2018 г., а также совокупный ежегодный
рост за 5 лет на 13,2 % с доходами, превышающими 274,3 млрд долл. США в 2022 г. [15].
Покупатели и потенциальные пользователи систем больших данных вынуждены иметь дело со
взрывным ростом областей применения новых технологий в условиях, когда определение и понимание
термина «большие данные» еще не устоялось. Для того чтобы заинтересованные стороны понимали,
что они покупают и внедряют, необходимы четко выстроенные процессы их взаимодействия с потенци
альными поставщиками технологий и услуг.
Примечания
1 Понятие «система больших данных» предусматривает использование парадигмы и инженерии больших
данных.
2 Понятие «инженерия больших данных» предусматривает перспективные способы использования незави
симых ресурсов для построения масштабируемых систем данных в тех случаях, когда требуется создание новых
архитектур для эффективного хранения, обработки и анализа с учетом характеристик массивов данных.
3 Понятие «парадигма больших данных» предусматривает распределение систем данных по горизонтально
связанным независимым ресурсам для обеспечения масштабируемости в целях эффективной обработки больших
массивов данных.
Потенциальная ценность результатов анализа больших данных стимулирует внедрение систем
больших данных в организациях, поэтому необходимо понимать возможные проблемы и ответствен
ность, связанные с их контролем и управлением. По оценкам компании IDC, предприятия имеют обя
зательства или несут ответственность почти за 80 % информации в цифровом пространстве и должны
быть готовы к решению задач обеспечения ее достоверности, авторского права и конфиденциальности
персональных данных. Кроме того, по оценке компании IDC, по состоянию на 2020 г. более 40 % дан ных
в цифровом пространстве требуют обеспечения надежной защиты, а объем этих данных растет
быстрее, чем все цифровое пространство [15]. Возникающие риски означают, что организации должны
иметь возможность идентифицировать угрозы, определять и формулировать политики безопасности,
выявлять источники данных и решать задачи по их управлению, а также внедрять технические сред ства
контроля и документировать их применение для обеспечения реализации этих политик с целью
ограничения ответственности организации при неконтролируемом использовании данных, которыми
она управляет.
Наконец, очень немногие организации, имеющие дело с большими данными, работают исклю
чительно с собственными данными. Это означает, что системы, с помощью которых решаются задачи
сбора и анализа больших данных, должны иметь возможность безопасного обмена данными и надеж
ного взаимодействия. Фактически передача огромного объема больших данных между системами ча сто
становится нецелесообразной, что во многих случаях обуславливает необходимость применения
аналитических инструментов на уровнях интероперабельности данных, программного обеспечения и
приложений.
Изучение существующего ландшафта больших данных, рыночных требований к стандартизации
области больших данных позволило определить следующие приоритеты:
a) сценарии использования больших данных, определения, словари и эталонные архитектуры
(например, система, данные, платформы, онлайн/офлайн и т. д.);
b
) спецификации и стандартизация метаданных, включая их источники;
c) прикладные модели (например, пакетной обработки, потоковые и т. д.);
3