ИСТИНА |
Войти в систему Регистрация |
|
ФНКЦ РР |
||
Наиболее производительные и, прежде всего, передовые высокопроизводительные вычислительные системы традиционно являются основой суперкомпьютерных центров (СКЦ) в виду высокой сложности и стоимости как установки, так и эксплуатации. Доступ для исследователей, конечных пользователей, к таким ресурсам может осуществляться множеством способов - от выделенного режима, характерного, в частности, для относительно небольших систем, до режима центра коллективного пользования с сотнями одновременно работающих пользователей c разделением прав доступа, различными логическими разделами систем и прочими особенностями. В работе современного суперкомпьютерного центра задействовано огромное количество процедур и объектов. Это сами вычислительные системы и их компоненты, а значит и связанные с этим системы мониторинга и комплекс систем поддержки работоспособности. Это конечные пользователи, динамически объединяющиеся в рабочие группы, со своими особенностями режима доступа, требованиям к программному окружению и т.д. Это и сама логика организации работ, от процедуры предоставления первичного доступа, до контроля использования ресурсов, организации экспертиз и оценки эффективности и корректности использования ресурсов и так далее. В общей сложности число объектов и типовых процедур исчисляется тысячами и более, что очевидно не позволяет эффективно этим управлять в ручном режиме. Традиционно каждый СКЦ решает задачу выстраивания процесса функционирования самостоятельно, при этом зачастую существенно опираясь на имеющийся опыт эксплуатации прошлых систем. Помимо положительного опыта, к сожалению, бывает привнесено и избыточное усложнение регламента доступа, и другие факторы, снижающие общую продуктивность центра. В рамках данного проекта предполагается систематизировать имеющийся опыт передовых СКЦ, на основе чего формализовать технологическую цепочку функционирования суперкомпьютерного центра путем создания формальной модели СКЦ, разработать инструменты работы с данной моделью, а также инструменты анализа, которые способны помочь оптимизировать рутины и процесс предоставления доступа держателям и администраторам суперкомпьютерных систем, при этом сделают указанные процессы более понятными и для рядовых пользователей. В рамках апробации подхода на основе разработанной модели и инструментов ее обработки предполагается провести расширение некоммерческой системы Octoshell (open source) поддержки функционирования суперкомпьютерного центра, используемую в СКЦ МГУ, что может существенно способствовать повышению ее гибкости и, как следствие, более активному внедрению в практику ведущих отечественных суперкомпьютерных центров с существенно отличающимися масштабами и регламентами доступа для повышения их полезной отдачи
The most productive and, above all, advanced high-performance computing systems have traditionally been the basis of supercomputer centers in view of the high complexity and cost of both installation and operation. Access for researchers, end users, to such resources can be carried out in a variety of ways - from the dedicated mode, which is typical, in particular, for relatively small systems, to the mode of a collective use center with hundreds of simultaneously working users. The workflow of a modern supercomputer center involves a huge number of procedures and objects. These are the computing systems themselves, their logical partitions, monitoring and support for their performance. These are end users who are dynamically united in working groups, with their own access mode features, requirements for the software environment, etc. This is the very logic of the organization of work, from the procedure for providing primary access, to monitoring the use of resources, organizing examinations and evaluating the effectiveness and correct use of resources. In total, the number of objects and standard procedures amounts to thousands or more, which obviously does not allow you to effectively manage this manually. Traditionally, each supercomputer center solves the problem of building a process functioning independently, while often relying heavily on existing experience in operating past systems. In addition to a positive experiment, unfortunately, excessive complication of access regulations and other factors that reduce the overall productivity of the center can also be introduced. Within the framework of this project, it is planned to formalize the technological chain of the functioning of the supercomputer center by creating a formal model of supercomputer center, to develop tools for working with this model, as well as analysis tools that can help optimize routines and the process of providing access to holders and administrators of supercomputer systems, while making these processes more understandable for ordinary users. As part of the testing of the approach on the basis of the developed model and its processing tools, it is planned to expand the Octoshell open source system for supporting the functioning of the supercomputer center used at the HPC center of Moscow State University, which can significantly increase its flexibility and, as a result, more actively introduce leading domestic supercomputer centers into practice differing scales and regulations of access for increase of their useful return.
1. Аналитический детальный обзор принципов организации и функционирования ведущих российских и зарубежных СКЦ 2. Создана формальная модель организации и функционирования суперкомпьютерных центров В том числе 1.1 Сформирован набор ключевых характеристик организации и функционирования суперкомпьютерных центров 1.2 Выделены типовые процедуры и рутины функционирования СКЦ 1.3 Выделен набор типовых сценариев функционирования СКЦ 3. Разработаны методы обработки и анализа разработанной модели, ориентированных на все категории пользователей В том числе, поддерживающие 3.1 Возможность проведения анализа цепочки на предмет выявления проблемных этапов для суперкомпьютерного центра, описанного в терминах модели, и соответствующей оптимизации 3.2 Возможность сконфигурировать работу системы Octoshell с учетом индивидуальных особенностей, описанных в рамках модели 4. Обобщение полученных результатов, их распространение среди целевой аудитории в рамках ведущих суперкомпьютерных конференций Указанные результаты: - обладают научной ценностью в виде систематизации и формализации сложившейся практики СКЦ, - обладают высокой практической значимостью, т.к. результаты позволят ускорить внедрение систем поддержки функционирования СКЦ в ряде российских вычислительных центров и повысить их эффективную отдачу.
1. Коллектив в течение многих лет выполняет работы, связанные с суперкомпьютерным комплексом Московского университета, включая его сопровождение и выполнение научных исследований по суперкомпьютерной тематике. Коллектив имеет доступ к суперкомпьютерному комплексу Московского Университета, включая суперкомпьютер «Ломоносов-2» - самый мощный суперкомпьютер России и стран СНГ (~1700 вычислительных узлов, пиковая производительность 4,9 ПФлопс). 2. Упомянутый накопленный опыт вместе с налаженным контактом с ведущими российскими и зарубежными СКЦ лег в основу создания некоммерческой системы поддержки функционирования суперкомпьютерного центра, что позволило существенно упростить доступность систем МГУ для пользователей, дать мощный расширяемый инструмент для администрирования. Вместе с тем Octoshell был изначально ориентирован на решение задач СКЦ МГУ и в нем отсутствовала развитая поддержка логики СКЦ как пользовательского сервиса. В рамках предложенного подхода предлагается решить данную проблему, упростив внедрение системы даже в тех СКЦ, регламент работы которых существенно отличается от СКЦ МГУ. 3. Имеется большой опыт в исследовании структуры потока задач, особенностей и эффективности запусков пользовательских приложений, что важно, в непосредственном контакте с конечными пользователями систем. Это дает возможность лучше понимать точку зрения потребителей вычислительных ресурсов и проблем, с которыми они сталкиваются при их получении. 4. Члены коллектива в составе различных групп имеют богатый опыт выполнения прикладных исследований, опирающихся на формальные модели и методы работы с ними. Таким образом, имеется глубокое понимание проблематики и существенный задел для переосмысления накопленного багажа и расширение функционала используемых систем с учетом российского и мирового опыта.
грант РФФИ |
# | Сроки | Название |
1 | 19 февраля 2020 г.-26 декабря 2020 г. | Разработка и реализация модели организации и функционирования суперкомпьютерных центров и методов ее анализа |
Результаты этапа: Этап 1: Первичный анализ, формирование базовых моделей и методов их обработки - Проведено выделение набора ключевых характеристик организации и функционирования суперкомпьютерных центров - Осуществел сбор данных в соответствии с выделенным набором характеристик по организации и функционированию суперкомпьютерных центров - три Российских СКЦ и 1 зарубежный - Выделены рутины функционирования СКЦ - Выделен набор типовых сценариев и ключевых процедур функционирования СКЦ - Сформирована базовая модель организации и функционирования суперкомпьютерных центров в соответствии с результатами проведенного анализа - Разработан подход к базовым методам автоматизированной обработки разработанной модели, ориентированных на все категории пользователей - Проведен поиск возможных путей оптимизации для выделенных моделей организации и функционирования суперкомпьютерных центров - Сформированы требованя к программной реализации системы поддержки функционирования СКЦ в соответствии с результатами проведенного анализа применительно к СКЦ | ||
2 | 24 марта 2021 г.-28 декабря 2021 г. | Разработка и реализация модели организации и функционирования суперкомпьютерных центров и методов ее анализа |
Результаты этапа: Проведено: Уточнение набора ключевых характеристик организации и функционирования суперкомпьютерных центров на основании опыта первого года работ Сбор данных в соответствии с уточненным набором характеристик по организации и функционированию суперкомпьютерных центров - дополнительно не менее 3 вычислительных центров, включая зарубежные Уточнение рутин функционирования СКЦ Уточнение набора типовых сценариев и ключевых процедур функционирования СКЦ Уточнение модели организации и функционирования суперкомпьютерных центров в соответствии с результатами проведенного анализа и вновь полученными данными Расширение методов автоматизированной обработки разработанной модели, ориентированных на все категории пользователей Программная реализация пилотной версии системы поддержки функционирования СКЦ в соответствии с результатами проведенного анализа на примере крупного СКЦ (например, СКЦ МГУ) Формирование предложений по оптимизации организации и функционирования СКЦ на основе построенных моделей и результатов их анализа | ||
3 | 1 января 2022 г.-31 декабря 2022 г. | Разработка и реализация модели организации и функционирования суперкомпьютерных центров и методов ее анализа |
Результаты этапа: Все заявленные задачи решены |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".