Cектор технологий обработки сверхбольших объемов данных

RU / EN

Сектор технологий обработки сверхбольших объёмов данных выполняет исследования в области технологий работы с данными сверхбольшого объёма (big data), решая научно-технические задачи получения, передачи, распределенного хранения и обработки данных ДЗЗ, создания интеллектуальных банков данных и метаданных.

Коллектив сектора обладает многолетним опытом работы в области информационных технологий параллельной обработки и распределенного хранения данных ДЗЗ, имеет фундаментальные научные результаты, полученные при выполнении шести проектов РФФИ.

В настоящее время коллектив сектора включает трех докторов наук и двух кандидатов наук. Всего сектор насчитывает 7 сотрудников. Начальник сектора – д.т.н. С.Б. Попов.

Базовым оборудованием сектора является программно-аппаратный комплекс обработки структурированных и неструктурированных данных сверхбольшого объёма в следующем составе:

специализированный программно-аппаратный комплекс хранения и аналитического анализа структурированных данных IBM Puredata for Analytics (Netezza) с объёмом дискового пространства без учета сжатия не менее 96ТБайт (с учетом 4-х кратного сжатия данных);
комплекс серверов IBM System X для подсистемы распределённого хранения и аналитической обработки неструктурированных данных с использованием программного обеспечения IBM Infosphere BigInsights, в т.ч. сервер управления IBM x3630 M4 (два процессора Intel Xeon Processor E5-2450v2; 96 Гбайт памяти; 2 диска по 600ГБ) и четыре сервера обработки данных IBM x3630 M4 (два процессора Intel Xeon Processor E5-2450v2; 96 Гбайт оперативной памяти; 8TB дисковой памяти).

Краткое описание решаемых задач и плана работ.

Формирование и преобразование потоков данных ДЗЗ на современном этапе характеризуется значительным увеличением объема информации, расширением набора сохраняемых данных за счёт как использования гиперспектральных датчиков ДЗЗ, так и привлечения дополнительной неструктурированной информации из разнородных источников. Современные тенденции мониторинга поверхности Земли, предполагающие использование потоков гиперспектральных данных, формируемых на регулярной основе с минимальным периодом обновления, диктуют необходимость качественных изменений в области информационных технологий получения, передачи, распределенного хранения и обработки данных ДЗЗ. Наиболее перспективным подходом осуществления указанных изменений является использование методологии Big Data. Переход к распределённым системам, объединение в единую сеть высокопроизводительных вычислительных комплексов с гетерогенной архитектурой и информационных хранилищ нового поколения позволит решить задачи хранения, преобразования и анализа сверхбольших мультикомпонентных потоков данных, извлечения и формализации знаний из всего комплекса информации.

Получение новых научных результатов здесь существенным образом опирается на специфику обрабатываемой космической информации (цифровых изображений ДЗЗ и сопутствующей информации), которая характеризуется географической привязкой изображений, различием в координатных системах их представления, мультивременным, мультизональным (многоспектральным) и разномасштабным характером получаемых изображений, их сверхбольшими размерами и, как следствие, огромным объемом цифровых данных, порождающим проблемы при их передаче и хранении, и т.д.

В проекте в качестве основных архитектурных решений при создании информационных хранилищ данных ДДЗ предлагается использовать технологии обработки и хранения сверхбольших данных (Big Data). В первую очередь это относится к выбору распределённого подхода как при хранении, так и при обработке данных.

Распределённая архитектура информационной инфраструктуры обеспечит возможности значительного масштабирования как по объёму хранимой информации, так и по производительности вычислительных подсистем единого комплекса работы с данными ДЗЗ, адаптации структуры программно-аппаратных средств при изменении технологий предварительной обработки поступающей информации и расширении состава задач комплексного тематического анализа.

Технологии Big Data позволят расширить спектр существующих источников данных, сохранить всю, возможно неструктурированную, «сырую» информацию со всеми сопутствующими метаданными, связями, временными и пространственными метками.

Путём последующего отбора, структурирования и агрегации данных, формирования на их основе спектра взаимодополняющих и/или альтернативных математических моделей информация постепенно превратится в знание. Большой вклад в формирование знаний обеспечит регулярность получения данных ДЗЗ с минимальным периодом их обновления. Именно формируемые на основе данных ДЗЗ знания за счет их структурности и активности, способности к расширению и уточнению путем накопления новых фактов и установления новых связей позволят совершенствовать процесс принятия решений, значимых для общества.

Для решения указанных задач в проекте предполагается разработка эффективных методов отображения данных ДЗЗ, методов их обработки на программно-аппаратную инфраструктуру распределённого хранения и анализа сверхбольших данных.

Учитывая значительное возрастание объёма данных при переходе к гиперспектральным изображениям, предлагается рассматривать в качестве концептуальной единицы хранения/обработки не единый «гиперкуб» данных, а набор его фрагментов.

Распределённый характер хранения пространственных данных требует разработки эффективных схем декомпозиции данных, которые должны учитывать технологические ограничения используемых программно-аппаратных средств, особенности информационной структуры алгоритмов обработки.

В проекте будут исследованы различные варианты отображения распределённого представления гиперспектральных данных на инфраструктуру Hadoop, в частности, фрагменты, полученные в результате применения конкретной схемы декомпозиции, могут выступать как составные единицы хранения единого массива данных в распределённой файловой системе хранения, или как объекты в нереляционных базах данных с использованием модели «ключ-значение» или столбцово-ориентированной модели хранения.

При реализации указанных вариантов предполагается обобщить используемые в настоящее время при организации хранения информации в рамках технологий Big Data основные подходы для пространственно упорядоченных данных. В проекте предлагается повысить степень интеллектуальности доступа к данным, используя новый оригинальный вариант организации распределённого хранения гиперспектральных изображений в виде федерации независимых взаимодействующих сервисов. Каждый фрагмент гиперспектрального изображения представляется в виде отдельного сервиса, взаимодействие с которым осуществляется как с удалённым объектом в соответствии с его внешним интерфейсом. Такое увеличение уровня косвенности доступа к данным обеспечит прозрачное преобразование и согласование различных форматов хранения/использования данных при организации многоэтапной обработки в распределённой системе с использованием приложений от различных производителей. «Интеллектуальность» объектов хранения и наличие у них связей с другими фрагментами «своего» изображения позволит децентрализовано проводить в фоновом режиме оптимизацию размещения данных в распределённой системе, взаимное согласование и геометрическую коррекцию фрагментов, из координатную привязку.

Как дополнительное направление исследований планируется разработка нового оригинального метода представления гиперспектральных данных без использования упорядоченной развертки, то есть переход от представления гиперспектрального изображения в виде единого трехмерного массива с неявно заданной разверткой к неупорядоченному набору отсчетов, которые в явном виде хранят информацию о пространственных координатах. Данное представление наилучшим образом соответствует вычислительной парадигме MapReduce при распределённой организации поэлементной обработки гиперспектральной информации, однако операции, которые предполагают совместную обработку некоторого количества соседних точек подстилающей поверхности (аналог локальной обработки изображений на основе скользящего окна) требуют разработки принципиально новых методов организации вычислений.

Общий план работ включает следующие этапы:

Этап 2014 года:
1. Разработка эффективных схем пространственной декомпозиции данных ДЗЗ, в том числе гиперспектральных.
2. Разработка и исследование метода отображения распределённого представления гиперспектральных данных на инфраструктуру Hadoop с использованием распределённой файловой системы хранения.
Этап 2015 года:
1. Разработка метода представления гиперспектральных данных без использования упорядоченной развертки.
2. Разработка и исследование методов отображения распределённого представления гиперспектральных данных на инфраструктуру Hadoop с использованием нереляционных баз данных в рамках модели «ключ-значение» и/или столбцово-ориентированной модели хранения.
3. Разработка и исследование методов организации распределённой обработки гиперспектральных данных в рамках инфраструктуры Hadoop.
Этап 2016 года:
1. Разработка методов организации вычислений распределённой обработки гиперспектральных данных, организованных без использования упорядоченной развертки.
2. Создание распределённой системы хранения гиперспектральных изображений в виде федерации независимых взаимодействующих сервисов.
3. Создание интеллектуальных банков данных и метаданных космических изображений по технологии Big Data.