Развитие методов расчета турбулентных течений на суперкомпьютерах - НИР | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Руководитель НИР: Краснопольский Б.И.
Ответственные исполнители: Медведев А.В., Никитин Н.В., Чулюнин А.Ю.
Участники НИР: Куприй Р.М., Медведев А.В., Петрушов А.А., Пиманов В.О., Сергеенко К.М., Страдомский С.С.
Подразделение: 102 Лаборатория общей аэродинамики
Срок исполнения: 3 августа 2018 г. - 30 июня 2021 г.
Номер договора (контракта, соглашения): 18-71-10075
Номер ЦИТИС: АААА-А18-118121990079-0
Тип: Фундаментальная
Приоритетное направление научных исследований: Высокопроизводительные информационно-вычислительные технологии
ПН России: Информационно-телекоммуникационные системы
Направление технологического прорыва России: Стратегические информационные технологии
Критическая технология России: Технологии и программное обеспечение распределенных и высокопроизводительных вычислительных систем
Рубрики ГРНТИ:
- 28.17.19 Математическое моделирование
- 28.17.23 Моделирование физических процессов
Ключевые слова: многосеточные методы, осреднение по ансамблю, блочные итерационные методы, вихреразрешающие методы, распараллеливание по времени, производительность и масштабируемость, турбулентность, высокопроизводительные вычислительные системы
eddy-resolving methods, multigrid methods, parallel in time methods, ensemble averaging, block iterative methods, high performance compute systems, performance and scalability
Описание:
Научные и индустриальные задачи, связанные с моделированием турбулентных течений жидкости и газа, являются одними из наиболее распространенных приложений, для расчета которых широко используются суперкомпьютеры. В практике таких расчетов набирают популярность вихреразрешающие методы моделирования турбулентных течений, которые, считается, обеспечивают более высокую точность результатов по сравнению с моделями турбулентности на основе уравнений Навье-Стокса, осредненных по Рейнольдсу (RANS). Использование вихреразрешающих методов, однако, сопряжено с рядом сложностей. Для разрешения значимых пространственных масштабов в актуальных научных задачах и инженерных приложениях требуются большие расчетные сетки, а для осреднения и набора турбулентной статистики – длительное интегрирование по времени. Проблема ускорения расчетов турбулентных течений на многопроцессорных вычислительных системах традиционно решается за счет пространственной декомпозиции задачи, однако часто этого оказывается недостаточно для решения задачи за требуемое время. Узким местом стандартных алгоритмов в расчетных кодах, основанных на сеточных методах, является низкая вычислительная нагрузка в пересчете на один байт данных (показатель flop per byte). Ограниченность пропускной способности шины памяти приводит к ситуации, когда реальная производительность алгоритма измеряется единицами процентов от пиковой производительности вычислительной системы. Эти проблемы приводят к необходимости совершенствования численных методов и алгоритмов моделирования турбулентных течений в рамках вихреразрешающих методов, а также разработки новых подходов, направленных на повышение реальной производительности и масштабируемости расчетов. Акцент в исследованиях, проводимых в рамках данного проекта, будет сделан на алгоритмы распараллеливания вычислений по времени. Применение техники распараллеливания по времени для длительных нестационарных расчетов турбулентных течений в рамках вихреразрешающих методов является новым направлением исследований, активно развивающимся в последние несколько лет. В ряде работ была показана принципиальная возможность преодоления порога сильной масштабируемости методов за счет распараллеливания по времени при достаточно больших накладных затратах, а также возможность общего ускорения расчета за счет повышения вычислительной эффективности применяемых методов. Одним из основных открытых вопросов, без которого не представляется возможным использование данной методики, и ответ на который должен быть дан в ходе настоящего проекта, является область ее применимости и эквивалентность результатов расчетов в рамках стандартных методик и методик с распараллеливанием по времени. Развитие данных методик, сокращение накладных затрат на распараллеливание вычислений и поиск дополнительных путей повышения их эффективности также относятся к ключевым вопросам исследования, обладающим существенной научной новизной.
Abstract:
The scientific and industrial tasks related to the modeling of turbulent fluid and gas flows are among the most common high performance computing applications which are widely used on supercomputers. In practice, the eddy-resolving methods of modeling turbulent flows, which are believed to provide a better accuracy of the simulation results versus the turbulence approach based on the Reynolds-averaged Navier-Stokes equations (RANS), are gaining popularity. The use of eddy-resolving methods, however, involves a number of difficulties. To accurately resolve different spatial scales in the state-of-the-art scientific problems and engineering applications, the high resolution grids are required, and the long-term integration over time is required for the averaging and turbulent statistics. The problem of accelerating the turbulent flows calculations on multiprocessor computing systems has traditionally been solved using the domain decomposition of the problem, but this is often not enough to solve the problem for a given timeframe. The bottleneck of the standard grid based algorithms is the low computational load in terms of one byte of data (the flop per byte indicator). The limited bandwidth of the memory bus leads to a situation where the real performance of the algorithm is measured in the units of percent of the peak performance of the computer system. These problems lead to the need to improve numerical methods and algorithms of modeling turbulent flows within the framework of eddy-resolving methods, as well as to develop new approaches aimed to improve the real productivity and scalability of calculations. The emphasis of the studies proposed in this project will be made on algorithms of parallel computations in time. The use of the parallel in time technique for the long non-stationary simulations of turbulent flows within the framework of eddy-resolving methods is a new direction of research that has been actively developed in the last few years. A number of papers have shown in principal the possibility to overcome the threshold of strong scalability of methods using the parallelization over the time with sufficiently large overhead costs, as well as the possibility of general acceleration of the calculation by increasing the computational efficiency of used methods. One of the main open questions, without which it is not possible to use this methodology, and the answer to which should be given during this project, is the scope of its applicability and the equivalence of the results of calculations using the parallelization over time within the framework of standard techniques. The development of these methods, the reduction of overhead costs of the parallel computations and the search for additional ways to increase their efficiency, also relate to the key issues of the research, which have a significant scientific novelty.
Планируемые результаты:
К основным научным результатам, которые должны быть получены в ходе данного проекта, следует отнести: 1. Заключение о возможности и целесообразности использования различных алгоритмов распараллеливания по времени для моделирования турбулентных течений в рамках вихреразрешающих подходов. Оценки влияния различных факторов на масштабируемость и ускорение расчета. 2. Описание и критерии выбора оптимальной стратегии генерации нескольких нескоррелированных состояний одного и того же турбулентного течения. 3. Алгоритм расчета турбулентных течений с осреднением по нескольким состояниям течений, использующий для решения систем линейных алгебраических уравнений блочные итерационные методы подпространства Крылова. 4. Алгоритм распараллеливания по времени типа parareal для моделирования течений несжимаемой жидкости, использующий возможности ускорения расчета за счет одновременного моделирования нескольких временных отрезков и блочные итерационные методы подпространства Крылова для решения систем линейных алгебраических уравнений. Ожидается, что создаваемая методика моделирования турбулентных течений в рамках вихреразрешающих методов должна обеспечить возможность существенного сокращения общего времени расчета и повышения эффективности использования многопроцессорных вычислительных систем как для научных, так и прикладных задач. На завершающем этапе проекта запланированы работы по оценке эффективности создаваемой в проекте расчетной методики и перспектив ее применения в прикладных расчетах. Результаты этой деятельности позволят вынести заключение о возможности практического использования созданных наработок. Ожидаемые результаты исполнения проекта содержат существенный элемент новизны, расширяющий современные знания о методах распараллеливания вычислений по времени для задач моделирования турбулентных течений, и, как минимум, не уступают мировому уровню.
Добавил в систему: Краснопольский Борис Иосифович

Источник финансирования НИР

грант РНФ

Этапы НИР

#	Сроки	Название
1	3 августа 2018 г.-31 декабря 2018 г.	Развитие методов расчета турбулентных течений на суперкомпьютерах
Результаты этапа: В соответствии с календарным планом работ отчет за этап с 03.08.2018 по 30.06.2019 будет подготовлен в июне 2019 года.
2	1 января 2019 г.-30 июня 2019 г.	Развитие методов расчета турбулентных течений на суперкомпьютерах
Результаты этапа: Общепринятая в настоящее время точка зрения на моделирование турбулентных течений в рамках вихреразрешающих методов исходит из рассмотрения явления турбулентности как стохастического процесса. Интересующие распределения физических полей и величин определяются в результате осреднения по некоторому репрезентативному ансамблю состояний, характеризующему исследуемое явление. Для статистически стационарных турбулентных течений имеет место гипотеза об эргодичности, в силу которой в расчётах осреднение по ансамблю возможно заменить осреднением по времени (и однородным пространственным направлениям, при наличии). Это даёт основания полагать, что осреднение по времени и сочетание осреднения по времени и по ансамблю реализаций должно обеспечивать идентичные результаты в рамках точности, определяемой размером выборки при осреднении. Сопоставление базовых характеристик турбулентных течений, полученных в рамках расчётов с осреднением по времени и сочетанием осреднения по времени и по ансамблю реализаций для ряда задач (течение в плоском канале, обтекание массива кубов на стенке канала, течение в тройнике) и моделей турбулентности (DNS, LES) подтверждает эквивалентность получаемых характеристик. Для задачи о моделировании течения в плоском канале было замечено, что осреднение по времени и по ансамблю реализаций позволяет обеспечить сопоставимую точность расчёта при существенно меньшем суммарном интервале интегрирования по времени, чем только при осреднении по времени. Хотя данный факт является существенным для оптимизации расчётной процедуры с осреднением по времени и ансамблю реализаций, на данный момент нет аргументированного обоснования данного результата. Обоснование выбора величины интервала осреднения для каждого из моделируемых состояний было одним из вопросов проводимого исследования. Была предпринята попытка определения некоторого характеристического масштаба времени для турбулентного течения и установления связи этого интервала с общим интервалом осреднения. Для количественного представления масштаба памяти в турбулентных течениях используется так называемый интегральный масштаб T_INT, определяемый через корреляционные функции разнесённых по времени пульсаций скорости. В однородной изотропной турбулентности интегральный масштаб един для любых компонент скорости и одинаков во всех точках пространства. В общем случае T_INT принимает разные значения для разных компонент скорости и меняется в пространстве. Точная величина интегрального масштаба может быть определена только по результатам моделирования течения, что исключает априорное использование этого критерия. Поэтому представляется важным отыскание хотя бы приближенных оценок этой величины исходя из некоторых общих представлений об исследуемом течении. Помимо интегрального масштаба, используется характерное время жизни турбулентных структур T_l. Формальное определение T_l совпадает с определением интегрального масштаба T_INT. Отличие состоит в том, что корреляционная функция вычисляется не при фиксированном значении продольной координаты пульсаций, а с некоторым сдвигом вдоль направления потока, при котором достигается максимальное значение корреляции для данного интервала времени. Это позволяет учесть конвективный снос турбулентных структур основным потоком. Значение T_l в пристенном слое более, чем в 3 раза превосходит T_INT. Выполнена оценка времени жизни турбулентных структур в плоском канале на разных расстояниях от стенки для нескольких значений числа Рейнольдса Re_tau=180, 390 и 590. Полученные значения для Re_tau=180 в пристенном слое по порядку величины совпадают с опубликованными ранее результатами. При этом обнаружено, что с удалением от стенки эти масштабы растут, увеличиваясь в 3-4 раза во внешнем потоке на максимальном удалении от стенок. Для турбулентных течений в литературе часто встречается ещё один характерный масштаб времени, называемый временем оборота вихря (“turnover time”). Согласно идеям А.Н. Колмогорова, поведение турбулентности в инерционном интервале масштабов определяется величиной кинетической энергии k и диссипацией энергии \epsilon. Время, за которое большие вихри теряют большую часть своей энергии, таким образом, можно определить как T_t = k / \epsilon. Масштаб T_t чисто технологически более прост для определения, чем интегральные масштабы, поскольку не требует вычисления корреляций между величинами, разнесёнными во времени. В случае обнаружения прозрачной связи между рассмотренными временными масштабами, масштаб T_t мог бы выступать в роли меры периода временного осреднения. Мы надеемся, что более точные количественные данные, которые планируется получить в ходе продолжения работ по проекту, позволят установить связь искомых временных масштабов с интегральными характеристиками потока в конкретном случае турбулентного течения в плоском канале и обосновать возможность сокращения суммарного интервала осреднения при сочетании осреднения по времени и ансамблю реализаций. Эти результаты планируется распространить и на другие течения, что позволит априорно оценивать необходимый период осреднения по времени. Ещё один важный элемент использования множественных реализаций для ускорения статистического осреднения состоит в способе построения множества статистически независимых реализаций течения. Очевидный путь состоит во множественном дублировании процесса выхода на турбулентный режим, стартуя с некоторого случайного набора начальных данных. Выход на турбулентный режим, однако, может потребовать значительных затрат вследствие длительного времени интегрирования до установления течения. Более экономичной тактикой может оказаться расчёт переходного этапа для единственной реализации с дальнейшим множественным распространением полученного поля путём добавления к нему некоторых случайных возмущений и последующего интегрирования до выхода на установившийся режим. Для описанного сценария расчёта получена оценка ожидаемого общего ускорения при внесении возмущений в некоторый момент до или после выхода на статистически стационарный режим. На основе полученных оценок показано, что сокращение вычислительных затрат на моделирование процесса выхода на режим является существенным в плане общего ускорения алгоритма, так как позволяет сократить на 10-20% общее время расчёта и существенно расширить область применимости алгоритма. Внесение возмущений в процессе выхода на режим предполагает наличие оценки времени декорреляции для различных состояний, полученных путём добавления возмущений к единичному состоянию. При отсутствии соответствующей априорной информации может быть использован другой сценарий расчёта, когда возмущения вносятся уже после выхода на статистически стационарный режим. Второй сценарий хотя и незначительно уступает первому (в пределах единиц процентов), может быть более удобен в практических расчётах, поскольку позволяет отслеживать степень декорреляции моделируемых состояний перед началом осреднения. Несмотря на наличие большого количества библиотек и фреймворков для решения систем линейных алгебраических уравнений на высокопроизводительных вычислительных системах, регулярно возникает потребность в разработке новых библиотек, реализующих новый функционал или обеспечивающих эффективную работу на новом оборудовании. Библиотека итерационных методов XAMG, разрабатываемая в ходе реализации проекта, решает обе задачи: обеспечивает возможность решения систем линейных алгебраических уравнений со многими правыми частями и предполагает эффективную работу солверов на многоузловых высокопроизводительных вычислительных системах с многоядерными центральными процессорами и графическими ускорителями. При реализации вычислений на центральных процессорах уделено особое внимание вопросу векторизации вычислений. На данный момент библиотека имеет общую структуру, позволяющую эффективно решать системы уравнений с несколькими правыми частями на многоузловых многоядерных системах на основе использования библиотеки MPI, и необходимые средства конфигурирования. По мере завершения стадии активной разработки данной специализированной библиотеки и добавления гибридной многоуровневой модели распараллеливания MPI+Posix ShM + CUDA, созданные наработки планируется разместить в открытом доступе. В процессе работы над библиотекой XAMG была предложена аналитическая модель времени исполнения для итерационных методов подпространства Крылова, и в частности, семейства методов стабилизированных би-сопряженных градиентов. С помощью предложенной модели проведена оценка области применимости оригинального алгоритма BiCGStab и модифицированных вариантов, таких как Reordered BiCGStab, Improved BiCGStab и Pipelined BiCGStab. Для указанных алгоритмов предложены дополнительные модификации, направленные на группирование векторных операций. Это позволяет переиспользовать уже загруженные в процессор из памяти данные для последовательного выполнения нескольких операций с векторами, и тем самым уменьшить время выполнения данных алгоритмов. Причём, если для оригинального метода BiCGStab рассмотренная процедура слияния векторных операций обеспечивает выигрыш порядка 10%, то для модифицированных методов данная процедура позволяет сократить объем передаваемых между процессором и оперативной памятью данных в процессе выполнения операций с векторами почти вдвое. Соответствующие теоретические оценки были полностью подтверждены результатами численных экспериментов. Перекрытие коммуникаций и вычислений – популярный приём нивелирования латентности коммуникационных операций. Чтобы оценить достижимую степень сокрытия латентности тех или иных MPI-операций на конкретной вычислительной системе, рационально использовать специализированные микробенчмарки. На базе инфраструктуры бенчмарков IMB создан расширенный набор бенчмарков IMB-ASYNC. Разработанная группа бенчмарков и методика тестирования позволяют максимально близко к практическим задачам оценить эффективность алгоритмов, основанных на асинхронном исполнении неблокирующих коммуникаций, и принять решение о целесообразности реализации таких алгоритмов на данной вычислительной системе при данном системном программном обеспечении. Апробация одного из бенчмарков на основе операции Allreduce на суперкомпьютере Ломоносов-2 с использованием библиотеки Intel MPI версии 2017.1 показала, что использование механизма стимуляции асинхронной передачи сообщений на основе прогресс-тредов даёт положительную эффективность лишь в нескольких точках измерений, и эти результаты демонстрируют высокую волатильность от запуска к запуску. Для большинства расчётных точек эффективность сокрытия коммуникаций оказывается отрицательной, что приводит к фактическому замедлению в десятки раз. Сокрытие коммуникаций простым совмещением коммуникаций и вычислений, а также с использованием «ручного прогресса» также не даёт существенного положительного эффекта. Таким образом, сокрытие латентности коллективных коммуникаций при использовании библиотеки Intel MPI 2017.1 на суперкомпьютере Ломоносов-2 на сообщениях небольшого размера оказывается практически невозможным. Созданные наработки и исходные коды разработанных бенчмарков размещены в открытом доступе по адресу https://github.com/a-v-medvedev/mpi-benchmarks. Сформирован набор тестовых задач, связанных с моделированием турбулентных течений в рамках вихреразрешающих подходов, который планируется использовать в дальнейшем для итоговой оценки эффективности развиваемого подхода. В частности, в число задач, для которых характерно проведение длительного осреднения по времени, вошло несколько задач турбулентного тепломассообмена в жидкостях с низкими числами Прандтля и задача о моделировании турбулентного обтекания облунённых поверхностей. В ходе численных исследований показано, что для указанных задач характерна потребность длительного интегрирования по времени для получения достоверных результатов осреднения, что делает их хорошими примерами задач, для которых может быть востребована предлагаемая расчётная методика, сочетающая осреднение по времени с осреднением по ансамблю реализаций.
3	1 июля 2019 г.-31 декабря 2019 г.	Развитие методов расчета турбулентных течений на суперкомпьютерах
Результаты этапа: В соответствии с календарным планом работ отчет за этап с 01.07.2019 по 30.06.2020 будет подготовлен в июне 2020 года.
4	1 января 2020 г.-30 июня 2020 г.	Развитие методов расчета турбулентных течений на суперкомпьютерах
Результаты этапа: К основным вопросам проводившегося на втором этапе исследования следует отнести изучение, обоснование и количественное описание возможности повышения точности осреднения при комбинации осреднения по времени и по ансамблю реализаций. На примере задачи расчёта турбулентного течения в плоском канале при Re_tau=180 воспроизведён замеченный ранее в публикациях факт сокращения длительности интервала осреднения при сохранении точности расчета в случае комбинации осреднения по времени и по ансамблю независимых реализаций турбулентного течения. При этом установлено, что выигрыш в сокращении интервала осреднения нелинейным образом зависит от длительности осреднения каждой реализации. Максимальный выигрыш более, чем в 2 раза достигается при интервале осреднения для каждой реализации T~20, тогда как увеличение длительности осреднения каждой реализации в 5 раз сводит выигрыш в точности осреднения практически до нуля. Для обоснования наблюдаемых результатов была предпринята попытка построения упрощённой модели оценки точности осреднения. Из теории случайных процессов известно, что дисперсия среднего одинаково распределенных случайных величин должна убывать пропорционально 1/N, где N - количество осредняемых реализаций. Таким образом, при осреднении по времени дисперсия среднего значения должна убывать ~1/T, когда масштаб времени осреднения существенно превосходит масштаб декорреляции. Было проанализировано поведение зависимости интегральной характеристики, описывающей неоднородность среднего поля скорости в трансверсальном направлении, от длительности интервала осреднения. Наблюдаемая зависимость демонстрирует качественное отличие от ожидаемой асимптотики: если на малых временах осреднения ожидаемая зависимость соблюдается, то при увеличении длины интервала осреднения начинает существенно отклоняться, и демонстрирует замедление сходимости. Кроме того, асимптотика скорости сходимости вида 1/T не может обосновать имеющее место кратное сокращение интервала осреднения при осреднении по ансамблю реализаций. Исходя из поведения интегральных характеристик точности осреднения, а также известных результатов других авторов, было сделано предположение о наличии нескольких характерных масштабов времени, присутствующих в рассматриваемой задаче и влияющих на точность осреднения результатов. В качестве модели рассмотрены два характерных масштаба времени со своим вкладом в ошибку осреднения. Малый, «быстрый» масштаб (T0~2), определяемый поведением автокорреляционной функции, характеризует затухание ошибки осреднения для мелкомасштабных пульсаций в потоке. Второй, «медленный» масштаб (T1~50-100) характеризует масштаб времени на крупномасштабное перестроение потока ввиду наличия долго живущих вихревых структур. Использование модели с двумя характерными существенно разными масштабами времени, где суммарная ошибка осреднения представляется в виде двух слагаемых, затухающих на существенно разных временных масштабах, позволяет описать наблюдаемое поведение интегральных величин в процессе осреднения. Указанная модель с двумя характерными масштабами времени также позволяет обосновать факт кратного сокращения времени осреднения при комбинации осреднения по времени и по ансамблю реализаций, и существенную зависимость этого эффекта от длительности осреднения каждой реализации. В ходе дальнейших исследований планируется завершить детальную верификацию предложенной модели на нескольких различных задачах и использовать ее при оценке ожидаемого ускорения расчета за счет одновременного моделирования нескольких реализаций течения. Одним из этапов верификации данной модели будет сопоставление входящих характерных временных масштабов с реальными масштабами, присутствующими в турбулентном течении. С этой целью для турбулентного течения в плоском канале при трех числах Рейнольдса обозначены и рассчитаны четыре различных характерных масштаба времени турбулентного течения: два варианта формулировки периода оборота вихря, интегральный масштаб времени и время жизни турбулентных структур. Характерный временной масштаб, непосредственно связанный со свойством стохастичности турбулентного течения, определяет временной период сохранения памяти о текущем состоянии. Для течения в плоском канале проведена работа по определению характерного времени жизни турбулентных структур для трех течений с числами Рейнольдса Re_tau=180, 390 и 590, и рассчитаны соответствующие корреляционные масштабы. Показано, что при всех числах Рейнольдса корреляционные временные масштабы для всех компонент скорости увеличиваются с удалением от стенки. При этом максимальные величины отвечают продольной компоненте скорости. Проверена гипотеза о двойном масштабировании времени жизни турбулентных структур во внешнем потоке и в пристенном слое, когда во внешнем потоке масштабами являются глобальные величины, а в пристенном - вязкие масштабы. При двух наибольших из рассмотренных чисел Рейнольдса наблюдается значительная степень универсальности в распределениях величин характерных масштабов поперек канала. Как и предполагалось заранее, в пристенной области имеется масштабирование на пристенные масштабы, а во внешней области - на глобальные масштабы потока, хотя максимальные значения несколько увеличиваются с ростом Re. При наименьшем числе Рейнольдса это масштабирование нарушается, что вероятно объясняется существенным взаимным влиянием условий течения в пристенной и во внешней областях. По направлению, связанному с повышением эффективности использования многопроцессорных вычислительных систем, активное внимание было уделено развитию библиотеки решения систем линейных алгебраических уравнений (СЛАУ) со многими правыми частями. Решение СЛАУ при моделировании несжимаемых турбулентных течений занимает подавляющую часть времени расчета, и повышение эффективности этих методов имеет не менее важное практическое значение, как и совершенствование алгоритмов расчета. За отчетный период в развиваемой специализированной библиотеке решения СЛАУ со многими правыми частями XAMG была внедрена иерархическая схема распараллеливания на основе низкоуровневой гибридной модели программирования MPI+Posix Shared Memory. В соответствии с текущими особенностями устройства подсистемы памяти вычислительных систем, выделено три логических уровня иерархии: вычислительный узел / numa-узел / вычислительное ядро. При этом, для каждого вычислительного процесса обеспечена минимизация обращений к нелокальной памяти и количество процессов, задействованных в MPI-обменах. Данный подход реализован для всех алгоритмов из состава библиотеки, включая: для нескольких вариантов методов подпространства Крылова, многосеточного метода, метода Якоби, Гаусса-Зейделя и ряд других. Проведено предварительное тестирование производительности библиотеки XAMG в сравнении с широко используемой библиотекой hypre до масштаба нескольких десятков вычислительных узлов. Для идентичного набора методов решения СЛАУ библиотека XAMG обеспечивает ускорение расчета в пределах одного вычислительного узла в 1.3-1.5 раза по сравнению с hypre. При этом, за счет использования многоуровневой модели распараллеливания удается добиться линейной масштабируемости на рассмотренных масштабах. Обозначен ряд дальнейших доработок и оптимизаций кода, которые должны обеспечить дополнительное ускорение до 20-30%. По мере реализации этих доработок исходные коды библиотеки XAMG будут размещены в открытом доступе. Расширен функционал созданного ранее бенчмарка для оценки степени асинхронности неблокирующих глобальных коммуникаций. Проведена серия замеров эффективности перекрытия вычислений и коммуникаций на доступных вычислительных системах («Ломоносов-2» СКЦ МГУ, «HPC-4» СКЦ Курчатовского института) в различных режимах использования. Анализ полученных результатов позволяет сделать следующие выводы: 1. Практически наблюдаемая эффективность перекрытия вычислений и коммуникаций не достигает 100%. Эффективность на сообщениях малого размера заметно ниже, чем на сообщениях большого размера. 2. Эффективность перекрытия для операций глобальной редукции на маленьких сообщениях, играющая ключевую роль для таких модифицированных итерационных методов как Reordered BiCGStab или Pipelined BiCGStab, на практике имеет отрицательные значения. Это ставит под сомнение эффективность применения указанных методов на протестированных вычислительных системах. 3. Общая картина эффективности существенно отличается на различных системах и различных версиях MPI. Это позволяет сделать вывод о том, что применение бенчмарка IMB-ASYNC, а также разработанной методологии измерений имеет смысл для получения важной информации о свойствах вычислительной системы. Данная информация даёт возможность подбора подходящих вычислительных методов и, возможно, даёт повод для обновления, отладки и настройки системного программного обеспечения. Исходные коды бенчмарка IMB-ASYNC с расширенным функционалом доступны в репозитории по адресу: https://github.com/a-v-medvedev/mpi-benchmarks
5	1 июля 2020 г.-31 декабря 2020 г.	Развитие методов расчета турбулентных течений на суперкомпьютерах
Результаты этапа: В соответствии с календарным планом работ отчет за этап с 01.07.2020 по 30.06.2021 будет подготовлен в июне 2021 года.
6	1 января 2021 г.-30 июня 2021 г.	Развитие методов расчета турбулентных течений на суперкомпьютерах
Результаты этапа: В ходе работ по проекту предложена и апробирована формализованная процедура генерации множества декоррелированных реализаций турбулентного течения. Она предполагает использование для генерации множества реализаций единичной реализации установившегося турбулентного течения, на которую накладываются случайные шумы конечной амплитуды. Для оценки момента декорреляции реализаций при дальнейшем интегрировании полученных полей скорости предложен критерий на основе поведения кросс-корреляционной функции для компонент скорости между разными реализациями, которые должны отслеживаться в нескольких характерных точках расчётной области. Важный с практической точки зрения вопрос — выбор момента начала осреднения. Если момент декорреляции реализаций или выхода течения на статистически стационарный режим не может быть задан с достаточной точностью исходя из априорных соображений, вместо непрерывного осреднения по времени с момента начала осреднения и до окончания расчёта предлагается проводить осреднение по относительно коротким интервалам непосредственно с начала расчёта, а соответствующие результаты осреднения сохранять на диск. Исходя из анализа поведения кросс-корреляционной функции, в итоговое осреднение между этими интервалами могут включаться только те отрезки, для которых уже была достигнута декорреляция реализаций. Теоретические оценки эффективности различных сценариев генерации некоррелированных реализаций турбулентного течения и их влияние на общее ускорение расчёта рассматривались в ходе первого этапа проекта. Описанный выше подход чуть менее эффективен в сравнении с опцией внесения возмущений в ветвления реализаций турбулентного течения на переходном этапе, однако более чётко формализован и не требует непосредственного участия исследователя в процессе проведения расчёта. Таким образом, предложенный алгоритм позволяет существенно снизить объем накладных расходов на генерацию множества некоррелированных реализаций течения, и, тем самым, расширить диапазон применимости алгоритма с осреднением по ансамблю реализаций и повысить фактическое ускорение расчета. Завершена основная стадия разработки и тестирования библиотеки решения систем линейных алгебраических уравнений со многими правыми частями XAMG. Исходный код библиотеки вместе с вспомогательными скриптами для компиляции выложены в публичном репозитории (https://gitlab.com/xamg/xamg). Завершается разработка версии кода для графических ускорителей. По мере готовности, данные наработки также будут выложены в свободном доступе. Проведённое исследование эффективности библиотеки показало, что для единичной правой части производительность разработанной библиотеки XAMG оказывается, в среднем, на 10-15% выше (а в отдельных случаях — до 5-6 раз), чем для библиотеки hypre при использовании идентичной конфигурации численных методов (на 1 узле кластера). Использование гибридной модели распараллеливания MPI+POSIX shared memory позволяет получить заметно лучшие результаты масштабируемости, и на масштабе нескольких десятков узлов библиотека XAMG превосходит hypre вдвое. Одновременное решение СЛАУ со многими правыми частями, что является ключевой особенностью библиотеки XAMG, позволяет получить дополнительное 2-2.5 кратное ускорение расчёта в пересчёте на один вектор правой части. В библиотеке XAMG исследовано и реализовано несколько вариантов использования смешанной точности вычислений для чисел с плавающей точкой. Широко-распространенный вариант, когда пониженная точность вычислений используется только для расчета предобуславливателя, обеспечил ускорение порядка 10-15%. Дополнительно предложен способ внедрения смешанной точности для решения СЛАУ на основе алгоритма итерационного уточнения решения. Идея подхода состоит в использовании двух вложенных итерационных методов: тривиального «внешнего» итерационного метода типа метода простой итерации, который выполняет все вычисления с двойной точностью, и целевого итерационного метода, работающего с числами с плавающей точкой одинарной точности. Такой подход позволяет выполнять подавляющую часть вычислений с одинарной точностью, при этом обеспечивая требуемую точность решения. Показано, что благодаря подходящему выбору критериев остановки итерационного процесса для вложенного метода оказывается возможным добиться такой же или даже превосходящей скорости сходимости, как и для идентичного метода с двойной точностью. В общей сложности, такой подход позволяет добиться ускорения расчётов для единичной правой части в 1.5-1.6 раза. Предложенный алгоритм был протестирован в том числе в связке с вычислительным кодом для моделирования турбулентных течений; использование конфигурации численных методов решения СЛАУ с алгоритмом итерационного уточнения решения и пониженной точностью позволило получить ускорение всего расчёта в 1.5 раза. Применение метода итерационного уточнения решения оказывается ещё более перспективным в случае вычислений со множеством правых частей. Проведённое оценочное тестирование показало, что для процессоров с набором инструкций AVX-512 заметно возрастает выигрыш от вычислений с одинарной точностью. Если для двойной точности вычислений он остаётся порядка 2-2.5 в пересчете на один вектор правой части, то для вычислений с одинарной точностью он возрастает до 3-3.5, что, в свою очередь, обеспечивает увеличение выигрыша во времени решения в пересчёте на один вектор с 2-2.3 до 3 раз. Для детального тестирования разрабатываемых вычислительных приложений (в частности, библиотеки XAMG) создана универсальная система регрессионного тестирования, которая позволяет определять вновь внесённые в программный код ошибки в полностью автоматическом режиме с использованием подхода непрерывной интеграции программного кода («continuous integration»). Созданные компоненты системы тестирования учитывают специфику задачи автоматического тестирования в отношении вычислительных MPI-приложений, чем выгодно отличаются от имеющихся свободных систем непрерывной интеграции. Наработки внедрены в рабочий процесс и опубликованы в виде свободного программного кода в публичном репозитории (https://github.com/a-v-medvedev/testsuite). Разработан оригинальный оптимизационный алгоритм для подбора параметров методов решения СЛАУ. Алгоритм основан на сочетании генетического алгоритма и предобученной нейронной сети, которая применяется в качестве предварительного фильтра для векторов параметров, подаваемых на вход генетического алгоритма. Основная оптимизация выполняется с помощью генетического алгоритма, тогда как применение нейросети в виде пред-фильтра позволяет ускорить процесс сходимости генетического алгоритма и обеспечить более стабильную и глубокую сходимость. Отличительной особенностью разработанного алгоритма является отсутствие необходимости высокоточного предсказания нейросетью фактического времени решения СЛАУ для конкретной матрицы системы. Проведённые численные эксперименты показали, что для обучения нейросети могут успешно использоваться данные, полученные для модельной тестовой задачи, тогда как оптимизироваться — параметры для различных СЛАУ с существенно более сложной топологией расчётных сеток. Разработанный алгоритм протестирован на ряде систем уравнений, использовавшихся при моделировании турбулентных течений. Алгоритм позволил определить комбинации параметров, которые обеспечивают время решения, на 30-50% меньшее, чем времена, полученные после детального и чрезвычайно трудоёмкого ручного подбора параметров, проводившегося перед расчётом соответствующих задач. Завершена работа над специализированным бенчмарком IMB-ASYNC, который реализует измерение степени асинхронности выполнения неблокирующих операций MPI. В рамках созданного комплекса IMB-ASYNC реализованы алгоритмы, позволяющие оценить эффективность перекрытия коммуникаций и вычислений для большинства видов неблокирующих операций стандарта MPI, включая неблокирующие обмены точка-точка, неблокирующие коллективные операции, неблокирующие односторонние коммуникации и неблокирующие соседские коллективные операции. Исходный код комплекса IMB-ASYNC опубликован в публичном репозитории (https://github.com/a-v-medvedev/mpi-benchmarks). Изучено текущее состояние проблемы программно-аппаратной поддержки асинхронности в MPI-коммуникациях. В ходе экспериментов на вычислительных системах СКЦ МГУ и СКЦ Курчатовского института выявлены практические недостатки и преимущества решений для поддержки асинхронных коммуникаций, предлагаемых библиотеками MPI OpenMPI 4.0 и Intel MPI 2019.9. Отмечен значительный прогресс в поддержке асинхронности коммуникаций по принципу прогресс-нити в наиболее свежих версиях библиотеки Intel MPI. Разработанная методика одновременного моделирования нескольких реализаций турбулентного течения нашла своё применение, в частности, при моделировании течений в каналах прямоугольной формы. В течениях в каналах прямоугольной формы имеется только одна однородная координата, по которой можно проводить статистическое осреднение. Это требует проведение расчётов на существенно более длительных интервалах времени. Для повышения эффективности использования многопроцессорной техники применялась тактика совмещения осреднения по времени с осреднением по независимым реализациям.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

	ИСТИНА	Войти в систему Регистрация
	ФНКЦ РР
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ФНКЦ РР

Развитие методов расчета турбулентных течений на суперкомпьютерахНИР

Development of novel methods for supercomputer modeling of turbulent flows

Источник финансирования НИР

Этапы НИР

Прикрепленные к НИР результаты