Поиск новых решений ресурсоемких задач биоинформатики и молекулярного моделирования с использованием GPU-ускорителейНИР

New solutions to the demanding problems of bioinformatics and molecular modeling with the use of GPU-accelerators

Соисполнители НИР

МГУ имени М.В.Ломоносова Координатор

Источник финансирования НИР

грант РФФИ

Этапы НИР

# Сроки Название
1 1 марта 2017 г.-31 декабря 2017 г. Поиск новых решений ресурсоемких задач биоинформатики и молекулярного моделирования с использованием GPU-ускорителей
Результаты этапа: Проведен анализ междисциплинарной литературы по теме GPU-реализаций программ в компьютерной биологии. Проанализированы семейства алгоритмов биоинформатики с точки зрения теоретической возможности и практической значимости их реализации на GPU и определены задачи, в которых эти алгоритмы применяются. Сформулированы фундаментальные принципы GPU-ориентированной реализации алгоритма MATT для построения парных выравниваний эволюционно родственных белков. Предложена консервативная модель оценки эффективности GPU-реализации алгоритма MATT, основанная на сравнении с максимально достижимой производительностью при исполнении в режиме общей памяти на классических процессорах.
2 1 января 2018 г.-31 декабря 2018 г. Поиск новых решений ресурсоемких задач биоинформатики и молекулярного моделирования с использованием GPU-ускорителей
Результаты этапа: Продолжены работы по развитию параллельного алгоритма parMatt для построения множественного выравнивания структур белков. Предложена и реализована схема асинхронного парного выравнивания структур, проведены экспериментальные исследования предложенной схемы. Исследована возможность переноса вычислений алгоритма parMatt на графические ускорители. Проведен сравнительный анализ вычислительной эффективности и масштабируемости молекулярной динамики (МД), реализованной в пакете AMBER, на реальных биологических системах с применением классического силового поля FF14SB с 4-х центровой моделью воды TIP4P-Ew, а также нового многообещающего поля FF15IPQ с 3-х центровой моделью воды SPC/Eb – на GPU и CPU. Проведен анализ различных реализаций алгоритма молекулярного докинга на GPU и CPU. Показано, что GPU-ускорители способны существенно ускорить решение задачи докинга одного лиганда в один рецептор по сравнению с CPU.
3 1 января 2019 г.-31 декабря 2019 г. Поиск новых решений ресурсоемких задач биоинформатики и молекулярного моделирования с использованием GPU-ускорителей
Результаты этапа: В рамках проекта были проанализированы ресурсозатратные задачи компьютерной биологии, основанные на использовании методов молекулярной динамики, докинга/скрининга, а также сравнительного биоинформатического анализа эволюционно родственных белков на различных уровнях структурной организации, изучена эффективность существующих программных решений, дана оценка ускорения на GPU по сравнению с CPU, проанализирована возможность повышения производительности решений на основе GPU. Оригинальность проведенного исследования заключалась, в том числе, в том, что сравнение эффективности решений на GPU проводилось не с одним ядром многоядерного процессора (как это часто делается в большинстве современных исследований), а с CPU в режиме MPI, что позволяет более реалистично оценивать возможности графических ускорителей на фоне максимальной производительности классических вычислителей. В работе были использованы оригинальные выборки реальных биологических данных, а также уникальное оборудование (в том числе, новый раздел «pascal» суперкомпьютера «Ломоносов-2», оснащенный Tesla P100 и Xeon Gold; кластер Polus, оснащенный Tesla P100 и Power8) и специализированное программное обеспечение для профилирования (в том числе, инструментальные средства Extrae и Paraver на оборудовании MareNostrum-IV суперкомпьютерного центра Барселоны). Показано, что использование GPU является обоснованным и востребованным на практике для решения таких задач компьютерной биологии, в которых вычислительная сложность одной стадии единого комплексного решения существенно преобладает над всеми остальными – за счет ускорения соответствующей стадии. Ярким примером такой ситуации являются задачи на основе метода молекулярной динамики, программное решение которой на GPU уже существует и открывает новые возможности для изучения конформационной подвижности белков. Напротив, GPU-решения в биоинформатике пока еще недостаточно развиты. С использованием оригинального подхода впервые предложено решение задачи сравнительного биоинформатического анализа совокупностей белков на уровне 3D-структур с использованием GPU. На основе детального исследования кода предложены пути усовершенствования алгоритма МАТТ для построения множественных выравниваний 3D-структур белков. В рамках создания нового решения задачи на GPU разработано программное обеспечение parMATT – гибридная MPI/pthreads/OpenMP ре-имплементация алгоритма МАТТ, первый в мире инструмент биоинформатики для построения множественного 3D-структурного выравнивания белков на суперкомпьютере с использованием классических ускорителей. С применением оригинального подхода выявлены наиболее ресурсоемкие стадии алгоритма МАТТ и разработана соответствующая, первая в мире в этом классе, ре-имплементация на GPU – программа cudaMATT. Сравнение cudaMATT и parMATT позволило наглядно продемонстрировать возможности графических ускорителей в сравнении с классическими CPU. Обе программы являются пионерными в области высокопроизводительных вычислений в структурной биоинформатике и будут полезны для решения широкого спектра задач: анализ данных о 3D-структурах белков в больших масштабах позволит более эффективно решать существующие задачи компьютерной биологии, а также искать новые подходы к изучению соотношения структура-функция в белках. Полученные результаты и разработанные оригинальные решения прошли обсуждение с профильными специалистами, а также представлены в среде ученых, работающих в области естественных наук: разработаны два ресурса в сети интернет для широкой демонстрации результатов проекта (https://biokinet.belozersky.msu.ru/parmatt и https://biokinet.belozersky.msu.ru/gpuinfo); результаты проекта представлены в виде четырех устных докладов на трех международных конференциях в различных областях науки (биоинформатики, суперкомпьютерного моделирования/компьютерным технологиям, а также общей биологии); результаты проекта опубликованы в рецензируемых научных изданиях, в том числе, в ведущем мировом журнале Bioinformatics издательства Oxford University Press (https://doi.org/10.1093/bioinformatics/btz224), что будет способствовать повышению статуса отечественной школы HPC и биоинформатики в России и за рубежом, и позволяет коллективу исполнителей заявить о своем лидерстве в новой и актуальной области мировой науки – использовании высокопроизводительных вычислений для систематического анализа суперсемейств белков.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".