ИСТИНА |
Войти в систему Регистрация |
|
ФНКЦ РР |
||
Исследование принципов проектирования архитектуры и организации программно-аппаратных сред высокопроизводительных вычислительных систем и суперкомпьютеров. Анализ взаимосвязи между постоянно усложняющейся архитектурой вычислительных систем и недетерминированностью их функционирования. Повышение эффективности использования суперкомпьютерных систем и работы параллельных приложений. Разработка новых комплексных методов оценки вариативности производительности и масштабируемости приложений под влиянием шумов программно-аппаратной среды, возникающих в суперкомпьютерных вычислительных системах.
Investigation of the principles of architecture design and organization of software and hardware environments for high-performance computing systems and supercomputers. Analysis of the relationship between the ever more complex architecture of computing systems and the non-determinism of their functioning. Improving the efficiency of using supercomputer systems and parallel applications. Development of new complex methods for assessing the variability of performance and scalability of applications under the influence of the noise of the software and hardware environment arising in supercomputer computing systems.
Научная и прикладная значимость заявленных результатов освещена в разделе обзора состояния предметной области и актуальности исследований. В рамках выполнения проекта планируется получить следующие результаты: Год 1 · Прототип измерения помехоустойчивости на основе ручного инструментирования (WP1, JSC) · Моделирование производительности с использованием стандартных HW/SW счетчиков (WP2, TUDa) · Методы обнаружения межузлового шума (WP3, МГУ) · Методы обнаружения влияния шума на приложения (WP4, МГУ) · Анализ методов детального описания масштабируемости алгоритмов/реализаций (WP5, МГУ) Год 2 · Устойчивый к шумам метод измерения на основе автоматического инструментирования (WP1, JSC) · Метод построения модели производительности на основе подсчета базовых блоков (WP2, TUDa) · Анализ шумов, возникающих на реальных вычислительных системах (WP3, МГУ) · Пилотная шумо-ориентированная версия JobDigest (WP4, МГУ) · Анализ динамических характеристик реальных приложений (WP5, МГУ) Год 3 · Анализ устойчивости к шуму оценен FZJ (WP1, JSC) · Моделирование производительности с предварительным статическим анализом, оцененным TUDa (WP2, TUDa) · Модели для индуцированного шумом изменения времени выполнения (WP3, МГУ) · Программная реализация всех разработанных методов шумочувствительного анализа (WP4, МГУ) · Методы детального описания устойчивости к шуму алгоритмов, включенных в энциклопедию AlgoWiki (WP5, МГУ) · Интегрированный рабочий процесс методов и инструментов анализа чувствительности к шуму (WP6, все организации)
Коллектив проекта с российской стороны имеет многолетний опыт поддержки и сопровождения Суперкомпьютерного комплекса Московского университета, крупнейшего СКЦ России. Число пользователей СКЦ более 4000, число активных исследовательских проектов - более 300. Большое разнообразие пользовательских приложений по всему спектру областей применения дает исключительно благоприятную почву для исследований в области анализа динамических свойств приложений. Тесный контакт с ведущими СКЦ России и мира дает возможность апробировать и оценивать качество получаемого результата в ходе исследований на широком спектре программно-аппаратных платформ. Более того, партнеры по предлагаемому проекту имеют опыт совместной работы и уже успешно сотрудничали в совместном проекте HOPSA (HOlistic Performance System Analysis), финансируемом Европейской комиссией и Министерством образования и науки Российской Федерации. В период с 2011 по 2013 год они создали вместе с другими партнерами интегрированную диагностическую инфраструктуру для комбинированного анализа производительности приложений и системного уровня - первая была предоставлена европейской стороной, а вторая (анализ данных системного мониторинга) - российскими партнерами по проекту. Начиная с общесистемного мониторинга производительности отдельных задач, автоматизированный рабочий процесс направляет результаты поиска потенциальных узких мест либо разработчикам приложений, либо системным администраторам с рекомендациями о том, как определить их первопричину с помощью более мощных диагностических инструментов.
* Разработан и реализован подход к оценке уровня шума, который базируется на использовании коллективных операций MPI. * На основе предложенного подхода разработан программный пакет для отслеживания и анализа уровня шума. * Также для решения задачи постоянного мониторинга уровня шума вычислительной системы предложен подход на основе регулярного запуска специальных тестов после выполнения пользовательских приложений. * Проведена классификация источников шумов, которые могут влиять на поведение суперкомпьютерных приложений. * Предложен подход к изучению шумов различных типов и оценке их влияния на поведение суперкомпьютерных приложений. * Для основных источников шумов разработаны и апробированы на практике методы для генерации, измерения и оценки производимых ими шумов. Также проведенное исследование позволило выявить, какие из распространенных бенчмарков и типовых ядер наиболее и наименее подвержены влиянию определенных типов шумов. * Далее, предложены и разработаны возможные методы для выявления суперкомпьютерных приложений, схожих в части влияния шумов. * Помимо этого, выполнена реализация и апробация расширения существующей системы отчетов JobDigest за счет информации о шуме на суперкомпьютере, методы для получения которой были разработаны в рамках направления WP3. * Выполнен анализ описания динамических характеристик реализаций алгоритмов в энциклопедии AlgoWiki и выявлены слабые места. * Предложены два способа модификации метрики масштабируемости. * Выделены описания реализаций алгоритмов для конкретных программно-аппаратных платформ. * Разработаны методы описания реализаций алгоритмов в энциклопедии AlgoWiki с учётом шума среды. * Исследована возможность классификации алгоритмов, методов решения задач и самих задач по степени зависимости от шума среды.
грант РФФИ |
# | Сроки | Название |
1 | 15 января 2021 г.-25 декабря 2021 г. | ExtraNoise - комплексный анализ производительности суперкомпьютерных приложений в условиях системного шума реальных программно-аппаратных сред |
Результаты этапа: Все заявленные работы выполнены в полном объеме | ||
2 | 1 января 2022 г.-31 декабря 2022 г. | ExtraNoise - комплексный анализ производительности суперкомпьютерных приложений в условиях системного шума реальных программно-аппаратных сред |
Результаты этапа: Несмотря на сложные условия работ в 2022г., все основные поставленные задачи выполнены. В связи с ограничениями во взаимодействии с российской стороной, установленными со стороны немецкого грантодателя, ряд согласованных работ над проектом существенно усложняется. Тем не менее, общий план работ над проектом в 2023г. предлагается сохранить, подразумевая, очевидно, невозможность апробации разработанных российской стороной подходов на стороне немецких коллег. | ||
3 | 1 января 2023 г.-10 января 2024 г. | ExtraNoise - комплексный анализ производительности суперкомпьютерных приложений в условиях системного шума реальных программно-аппаратных сред |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".