Разработка принципов построения адаптивных систем тонкого мониторинга суперкомпьютеровНИР

Developing principles of adaptive fine grained monitoring systems for supercomputers

Источник финансирования НИР

грант РФФИ

Этапы НИР

# Сроки Название
1 1 января 2016 г.-31 декабря 2016 г. Разработка принципов построения адаптивных систем тонкого мониторинга суперкомпьютеров
Результаты этапа: В рамках работ по проекту было проведено теоретическое исследование датчиков, используемых для мониторинга производительности. Было предложено деление датчиков по типу выдаваемого значения, по моменту изменения значения датчика, по способу измерения состояния системы, которое отражает данный датчик. Деление датчиков по типу выдаваемого значения: текущее значение и счетчик, накапливающий результаты. Деление по моменту изменения значения датчика: в момент изменения измеряемой величины и с каким-то периодом. Деление по способу измерения состояния системы, которое отражает данный датчик: измерения в любой момент или измерение при помощи сэмплирования. На примере датчиков использования памяти и датчиков объема передаваемых и принимаемых через интерфейс данных было проведено изучение шаблонов использования ресурсов, измеряемых этими датчиками. Были предложены методы практического исследования характера изменений датчиков. Были предложены отдельные методы для разных классов датчиков: датчиков, быстрое изменение которых встречается в реальных программах (типа датчиков объема данных); датчиков, которые хотя и могут меняться быстро, но такое быстрое изменение создаст много накладных расходов, и поэтому маловероятно в реальных программах (датчики использования памяти). Была исследована точность значений датчиков уровня загрузки процессора. Получена зависимость точности от интервала опроса датчика. Было проведено исследование интервала изменений данных, на основе которых вычисляются значения этих датчиков. Было показано, что из-за использования сэмплирования данные этого датчика могут существенно отличаться от ожидаемых данных.
2 1 января 2017 г.-31 декабря 2017 г. Разработка принципов построения адаптивных систем тонкого мониторинга суперкомпьютеров
Результаты этапа: В рамках работ по проекту было продолжено исследование датчиков загрузки процессора в условиях, приближенных к тем, которые имеются при выполнении реальных задач. Было проведено исследование датчиков объема выделенной памяти. Были проанализированы данные выполнения реальных задач, и получены данные по шаблонам изменения значению датчиков занятого объема оперативной памяти. Для исследования свойств датчиков объема и количества пакетов, проходящих через сетевые интерфейсы, был разработан метод получения трасс трафика InfiniBand, который позволяет получить максимально детальные данные (с точностью до каждого пакета данных) о трафике. На основе предложенного метода был выработан способ получения некоторых интегральных коммуникационных свойств реальных параллельных программ. Для получения практической возможности построения адаптивных систем был реализован метод создания отчета о ходе выполнения параллельной программы с возможностью изменения детальности получаемой информации.
3 1 января 2018 г.-31 декабря 2018 г. Разработка принципов построения адаптивных систем тонкого мониторинга суперкомпьютеров
Результаты этапа: На заключительном этапе выполнения проекта было реализовано динамическое изменение интервала опроса датчиков на вычислительных узлах и интервала усреднения данных. Для этого была реализована возможность загружать в модуль, выдающий управляющие сообщения, скрипты на языке Lua. Эти скрипты по приходящим извне командам или по реакции на какие-то события в агенте могут посылать управляющие сообщения, меняющие настройки таймеров, задающих указанные интервалы. Для определения необходимости увеличения интервала опроса датчиков на вычислительном узле был реализован модуль, осуществляющий вычисление скорости изменения значения датчика. На основании выдачи скорости изменения датчика объема свободной оперативной памяти принимается решение об изменении интервала опроса датчиков. Кроме того, для сигнализации серверной части о необходимости изменения интервала усреднения в пакет данных, передаваемых серверной части, вставляется дополнительный псевдодатчик. при получении пакета данных, содержащих этот псевдодатчик, серверная часть также изменяет интервал усреднения данных. На основании проведенных экспериментов сформулированы рекомендации по выбору интервалов опросов датчиков и усреднения данных в серверной части.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".