Структурная динамика нуклеосом и их взаимодействий: поиск подходов для диагностики и лечения онкологических заболеванийНИР

Structural dynamics of nucleosomes and their interactions: looking for approaches to diagnose and treat cancer

Источник финансирования НИР

грант РНФ

Этапы НИР

# Сроки Название
1 2 августа 2021 г.-30 июня 2022 г. Структурная динамика нуклеосом и их взаимодействий: поиск подходов для диагностики и лечения онкологических заболеваний
Результаты этапа: ====Пакет задач 1. Атомистическая молекулярная динамика нуклеосом ==== --- Задача 1.1. “Изучение динамики и взаимодействий гистоновых хвостов в нуклеосомах” (Год 1-2 )--- Подготовлены полноатомные модели нуклеосом в различных начальных состояниях. Системы были построены на основе кристаллической структуры нуклеосомы (PDB ID 1KX5) с разрешенными гистоновыми хвостами. В целях уменьшить эффект последовательности ДНК на состояния связывания хвостов, были подготовлены модели с исходной кристаллической ДНК, с кристаллической ДНК в обратной ориентации и 601 последовательностью ДНК. Также были подготовлены модели нуклеосом в растворе с разной ионной силой (50, 150 и 500 мМ NaCl), так как в силу ионной силы взаимодействия положительно-заряженных хвостов с отрицательно-заряженной ДНК предполагается влияние ионной силы раствора на кинетику процессов. Проведен ряд параллельных расчетов методом молекулярной динамики систем нуклеосом с полноразмерными гистоновыми хвостами. Для описанных выше систем были получены длинные траектории молекулярной динамики длинной 1-15 микросекунд. Во всех случаях наблюдалась быстрая конденсация хвостов на ДНК (исходные системы имели не связанные с ДНК хвосты, см. рис.1.1.1а). Подобраны параметры моделирования (количество одновременных расчетов, использование методов ускорения выборки - enhanced sampling) для достижения полноценной выборки конформационных состояний. Подготовлены соответствующие файлы запуска параллельных расчетов на вычислительных узлах volta суперкомпьютера Ломоносов-2. Наилучшая производительность была достигнута при постановке 8 параллельных расчетов на один узел и составила 184 нс/день (при этом загруженность обоих GPU вычислительного узла достигала выше 80%). Построен ансамбль конформаций хвостов в составе нуклеосомы для каждого из пяти гистоновых хвостов на основе полученных длинных траекторий молекулярной динамики (см. рис.1.1.1а). Проведен кластерный анализ конформаций хвостов в самой длинной траектории молекулярной динамики (15 мкс), подбораны параметры кластерного анализа. Были получены отдельные состояния с отличной ориентаицией хвостов относительно супервитка ДНК (см. рис.1.1.1б). Показано что переход между ними происходит в микросекундном масштабе, однако для более точной характеристики кинетики переходов между состояниями проводился дальнейший анализ. Настроены методы анализа переходов между подсостояниями на основе подхода марковский цепей с помощью программы PyEmma [Scherer et al., 2015]. Так как нуклеосома является симметричной структурой и имеет по две копии каждого гистона в аналогичных окружениях, то ансамбли конформаций двух копий каждого хвоста были объединены. Подобрана метрика, наилучшим образом описывающая переходы между состояниями связывания с ДНК и параметры дискретизации конформационного пространства; выделены отдельные состояния и подсостояния. Проведен анализ полученного ансамбля состояний и подсостояний, построены модели перехода между различными состояниями на основе марковских моделей и скрытых марковских моделей. На рисунке 1.1.2 приведен пример построения модели переходов между состояниями для N-хвоста гистонов H2A, построенной на основе скрытой марковской модели. Полученные характерные времена жизни состояний лежат в области значений 5-20 мкс. --- Задача 1.2. “Изучение влияния мутаций гистонов на динамику нуклеосом”. (Год 1-2 ) --- Построены атомистические модели нуклеосом с введением замен, соответствующих известным онкомутациям, в том числе в положениях, задействованных в формировании интерфейса взаимодействия глобулярных частей нуклеосомы. Используя кристаллическую структуру нуклеосомы (PDB ID 3LZ0) и данные и положениях онкомутаций в гистонах [Espiritu et al., 2021], [Nacev et al., 2019], были построены ряд атомистических моделей; в соответствующие позиции вписывались онкозамены и полученные структуры восстанавливались от грубых нарушений (перекрываний атомов, плохих торсионных углов и др.). Среди известных онкомутаций встречаются мутации гистоновых хвостов, которые, предположительно, могут оказывать влияние на свойства хроматина аналогично действию посттрансляционных модификаций. Однако часто встречаются и онкомутации глобулярной части гистонов, влияние которых сложно предсказать. Одна из гипотез состоит в том, что они могут изменять динамику нуклеосом и влиять на ее стабильность. Для некоторых из этой группы онкомутаций были построены атомистические модели. Проведен предварительный анализ динамики сайтов мутаций в уже имеющихся траекториях динамики канонических нуклеосом. На основе 10-микросекундной траектории молекулярной динамики были выделены участки, формирующие стабильные контакты димеров Н2А-Н2В с тетрамером (Н3-Н4)2 (пороговым значением было 90% кадров траектории с наличием каждого из контактов). Изображение аминокислот, формирующих эти стабильные контакты, в трехмерной структуре представлены на рисунке 1.2.1а. Среди них выделены позиции, в которых известны онкомутации. Для этих трех положений был проведен расчет энергии взаимодействия гистона, несущего мутацию, с нуклеосомой при появлении в онко-положении каждой из 20 аминокислот (рис.1.2.1б). Как и ожидалось, самая маленькая энергия соответствует аминокислотам, присутствующим в канонической нуклеосоме. Замена Q55H в Н3 гистоне оказалось самой высокой по энергии среди другие возмонжых замен в этом положении, вероятно, она может вызвать заметные изменения динамики в этом сайте. Для этих онкомутаций были построены атомистические модели (рис.1.2.1в). В этих моделях сохраняется взаимодействие между остатками, формирующими стабильный контакт (вохможно, дальнейшие расчеты МД смогут показать отличие в стабильности этих контактов). Интересным оказалось то, что замена на серин в Н2В гистоне в положении 93 даже на этапе восстановления структуры от грубых нарушений потеряла стабильный контакт, при этом сформировалось близкое взаимодействие с соседним лейцином. Было замечено, что в глобулярных частях также возникают мутации, меняющие заряд в ряде положений. К таким положениями относятся остатки 97 Н3, 61 Н2А и 65 Н2В. В этих положениях встречаются замены отрицательно-заряженых глутаматов либо на нейтральные глутамины, либо на положительно-заряженные лизины. Были построены атомистические системы с заменами в этих положениях на глутамины и лизины и проведены молекулярно-динамические расчеты этих систем с мутациями. Полученные траектории представлены в виде наложения кадров на рисунке 1.2.1г. Из анализа эффектов таких замен на динамические свойства нуклеосомы была выявлена повышенная подвижность глобулярной части гистонов Н2А и Н2В в сравнении с канонической системой; большого влияния на тетрамер Н3-Н4 не было выявлено. ===Пакет задач 2. Исследование многообразия последовательностей белков гистонов. ==== --- Задача 2.1. “Модернизации базы данных HistoneDB и алгоритмов классификации гистонов” (Год 1). Завершен перенос программного кода базы данных HistoneDB с языка Python 2 на Python 3. Так как идентификаторы последовательностей GI устарели, вместо них выбраны актуальные идентификаторы - accession version. Текущая версия, развернутая на лабораторном сервере, доступна по адресу https://histdb.intbio.org. Проведены модернизация и обновление алгоритма поиска и классификации гистоновых последовательностей. Ранее используемый алгоритм состоял из одного блока классификации последовательностей по гистоновым вариантам. Проведенная статистика результатов прежнего алгоритма показала ряд несоответствий с известной нам биологической информацией о гистоновых белках. Для улучшения качества классификации обновленный алгоритм состоит из двух блоков (см. Рис. 2.1.1): классификация последовательностей по гистоновым типам; классификация последовательностей по гистоновым вариантам внутри каждого гистонового типа. Некоторые гистоновые последовательности сравнительно далеки друг от друга при сравнении их идентичности. Поэтому для возможности их обнаружения классификация по гистоновым типам использует скрытые марковские модели для “гистоновых фолдов”. При этом гистоновые последовательности в рамках одного гистонового варианта как правило идентичны друг другу. В связи с этим, классификация последовательностей по гистоновым вариантам основана на применении алгоритма выравниваний BLASTP. Проведен статистический анализ качества работы обновленных алгоритмов. Для этого проведена количественная оценка последовательностей гистоновых вариантов в базе данных (см. рис. 2.1.3). Построено таксономическое распределение последовательностей гистонов. Также, для некоторых случаев построены выравнивания аминокислотных последовательностей. Проведено сравнение статистических результатов с прежним алгоритмом. В результате устранены обнаруженные неточности в работе прежнего алгоритма, а также повысилось количество обнаруживаемых гистоновых последовательностей. Результаты статистических сравнений можно видеть на графиках (см. рис. 2.1.2 -3). Произведено наполнение базы данных на основе анализа всех известных последовательностей белков (база данных nr GenBank) с использованием обновленного алгоритма. А также осуществлен статистический анализ базы данных и визуализация результатов, которые показали увеличение числа последовательностей (в 2,3 раза) по сравнению с базой данных, основанной на старых алгоритмах. Разработаны части базы данных, связанные с хранением, классификацией и анализом гистонов человека и их онкомутаций. Разработано веб-приложение, к которому подключена наполненная база данных на основе анализа всех известных последовательностей белков (база данных nr GenBank). В базу были добавлены 6503 мутации в человеческих гистонах с уточнением типа мутации и аминокислотной замены. Также написан шаблон для отрисовки мутаций на графиках типа loliplot. ====Пакет задач 3. Структурный анализ нуклеосом и комплексов нуклеосом с белками хроматина === --- Задача 3.1. “Доработка сервиса анализа структур нуклеосом NuclDB” (Год 1-2). — Обновлена база структур нуклеосом и их комплексов с белками хроматина. Обнаружено и добавлено 40 новых структур из которых 39 были опубликованы в 2021-2022 годах. Обнаружена структура нуклеосомы патогенного микроорганизма (PDB 7D69, http://nucldb.intbio.org/structure/7D69). Откорректирован алгоритм определения состава нуклеосом, для корректного определения геометрии нуклеосом. В обновленной базе находится 393 структуры нуклеосом (на начало выполнения проекта в базе было 353 структуры) Добавлена возможность анализа взаимодействий гистонов с белками хроматина на уровне первичной последовательности белков. Дополнительно добавлена возможность анализа контактов гистонов и ДНК с остальными компонентами нуклеосом и белками хроматина. Создан инструментарий для анализа и интерактивной визуализации молекулярных взаимодействий внутри нуклеосом и их комплексов, который доступен пользователям БД на вкладке “analyze contacts” для каждой структуры. Данный инструментарий позволяет выявлять контакты и в интерактивном режиме получать информацию о взаимодействующих аминокислотах (информация во всплывающих подсказках). Добавлена возможность структурной аннотации последовательностей гистонов компонентами вторичной структуры (пример анализа показан на рисунке 3.1.1), подготовлен задел для визуальной аннотации последовательностей дополнительными разметками (физико-химическими свойствами, доменной организацией и другими картами свойств аминокислот) Разработана страница с интерактивной обобщенной статистической информацией о всех известных структурах нуклеосом и их комплексов. Данная страница доступна по адресу https://nucldb.intbio.org/statistic_plots; с помощью данной страницы можно визуально оценить число известных на данный момент структур с подразделением по критериям разрешения, метода и принадлежности структуры комплексу с белками хроматина. Графики также позволяют интерактивно получить список взаимодействующих аминокислот и их партнеров (внешний вид страницы показан на рисунке 3.1.2). Разработаны критерии оценки качества структур внутри групп структур, полученных одинаковым экспериментальным методом. Для структур, полученных при помощи метода рентгеноструктурного анализа выбран параметр R-free. Для структур, полученных методом крио электронной микроскопии, наилучшим образом показала себя комбинация суммарных рейтингов MolProbity и EMRinger [Williams et al., 2018; Barad et al., 2015]. Создан программный модуль, для загрузки карт электронной плотности из базы данных EMDB с последующей оценкой качества структуры. Разработаны критерии оценки схожести структур: разработан подход к отбору атомов, находящихся во всех структурах, на основе структурного выравнивания по элементам вторичной структуры гистонов. Рассчитаны матрицы сходства структур по критериям “среднеквадратичное отклонения атомных координат” и “среднеквадратичное отклонения межатомных расстояний” последний критерий продемонстрировал большую чувствительность к изменениям внутри структур. Создано предварительное древо схожести структур друг с другом (https://nucldb.bioeng.ru/struct_phylo_tree). Разработан автоматический информатор появления новых структур нуклеосом. Информатор раз в неделю обновляет список структур. Результаты работы информатора находятся на странице (https://nucldb.bioeng.ru/new_structures ). ====Пакет задач 4. Биоинформатический и геномный анализ организации белков хроматина в норме и при патологии ===== --- Задача 4.1. “Изучение доменной организации белков хроматина и их физико-химических свойств”.(Год 1) ---- Разработан набор методов и подготовлены скрипты на языке Python для комплексного анализа последовательностей белков хроматина (физико-химические свойства, аминокислотный состав, доменная архитектура, неупорядоченные регионы, сигнатуры пост-трансляционных модификаций, предпочтения кодонов). Реализована возможность строить интерактивные графики (пример рис. 4.1.1) для белков человека. Проведен комплексный анализ белков хроматина и их классификация. Были выделены наборы белков человека по описанным критериям (п. 1.3.4.1.). Сводная таблица анализа представлена на рис. 4.1.2, А. Белки хроматина стат. значимо отличаются от белков цитоплазмы по 11 из 15 проанализированных признаков: неупорядоченная фракция, фракция регионов низкой сложности, фракции заряженных, ароматических, алифатических, гидрофобных аминокислот, общий заряд, отношение заряда к массе и среднее значение гидрофобности. Длины белков хроматина стат. значимо отличаются от ядерных (медианное значение белков хроматина больше), но не от цитоплазменных. Медианные значения длин: ядро 454 < цитоплазма 552 < хроматин 574. Не смотря на то, что белки хроматина стат. значимо не отличаются от белков цитоплазмы по фракции доменов, они отличаются по неупорядоченной фракции. Медианные значения фракций IDR: хроматин 0.23, ядро 0.28, цитоплазма 0.16. Гидрофобность: медианное значение gravy белков ядра и хроматина ниже, чем белков цитоплазмы: хроматин -0.63 < ядро -0.51 < цитоплазма -0.42. Фракции аминокислот: в белках хроматина выше фракция положительно и отрицательно заряженных, маленьких а.о., а фракция ароматических, алифатических, гидрофобных, а.о. ниже, чем в белках цитоплазмы. Заряд: распределение функции вероятности зарядов в белках ядра и хроматина смещено в область более положительных значений. В белках хроматина и ядра % положительно заряженных белков больше, по сравнению с цитоплазменными (47, 42.3 и 26.3, соответственно). Экстремальный заряд (<q1, >q3): непредставленность экстремально-заряжено положительных белков (описываемое в литературе) наблюдается только в группе цитоплазменных. Проанализирован заряд в белках разных функциональных групп, рис. 4.1.2, Г. Из функциональных групп положительно заряженные белки ожидаемо преобладают в Histones, HMG, DNA modifications. А отрицательно заряженные в Transcription associated, Histone chaperones, Telomere region, Histone tail cleavage. Нейтрально-заряженных белков нет в группах Histones, DNA modifications, TF pioneer, Histone tail cleavage, Telomere region. Заряды белковых хвостов. Заряд в белках хроматина (скользящее окно = 30 ак) на N-, С-концах положителен, в то время как в белках ядра и цитоплазмы отрицателен. В части анализа доменной организации было выявлено, что по количеству доменов белки хроматина отличаются от белков ядра (1.00e-02 < p <= 5.00e-02) - в белках ядра увеличена фракция белков с 1 доменом, другие группы не отличаются. По разнообразию доменов (=количеству уникальных доменов) белки хроматина также отличаются только от ядерных (p <= 1.00e-04). Был проведен анализ доменного разнообразия белков хроматина. В белках хроматина выявлен 51 домен, в более, чем в 10-ти белках встречаются: RRM_1, zf-C2H2, Helicase_C, PHD, DEAD, zf-RanBP, Chromo, SNF2-rel_dom, Bromodomain. Далее был поставлен вопрос о ковстречаемости доменов, считывающих пост-трансляционные модификации гистонов. Отдельной задачей стоял поиск в литературе доменов, считывающих ПТМ гистонов и соотнесение названий с идентификаторами в Pfam. В результате, выявлены 8 кластеров доменных архитектур, в белках хроматина, в которых присутствуют домены, считывающие ПТМ гистонов (рис. 4.1.2, В). Более детального изучения требует граф ковстречаемости доменов, узнающих ПТМ гистонов в белках хроматина человека (рис. 4.1.2, Б). Подготовлены скрипты для агрегации и унификации данных о белках, приводящих к разделению фаз и соответствующих экспериментальных условиях. В начале работы в негативный набор для обучения классификатора входили белки из негативных наборов, на которых обучали классификаторы deePhase (Saar et al. 2021), PSAP (van Mierlo et al. 2021), PSPredictor (Sun et al. 2020) с учетом разработанных критериев для формирования негативного набора (описаны в 1.3.4.1). Проанализирована взаимосвязь доменной организации и физико-химических свойств белков хроматина с их способностью участвовать в разделении жидких фаз (liquid-liquid phase separation) и образовании конденсатов, проведен отбор признаков, существенно влияющих на разделение фаз. Был построен классификатор машинного обучения с алгоритмом градиентного бустинга над решающими деревьями (библиотека XGBoost). Гиперпараметры подобраны оптимально, переобучения не происходит (рис. 4.1.3, Б). Точность классификатора 0.85, std 0.05, ROC AUC (площадь под кривой ошибок) на тестовых данных 0.87 (рис. 4.1.3, А). Для предсказаний негативного класса: precision 0.84, recall 0.80, F1-score 0.82; для предсказаний положительного класса: precision 0.79, recall 0.83, F1-score 0.81. Также была предпринята попытка векторизовать информацию о количестве и качестве белковых доменов, однако выявить какие-то статистически значимые для предсказаний домены не удалось. В качестве признаков, важных для предсказания, выявлены фракции альфа-спиралей, фракции регионов низкой сложности, а также фракции полярных, маленьких и алифатических, Y, R, F аминокислот (рис. 4.1.3, В); что, в целом, согласуется с данными литературы.
2 1 июля 2022 г.-30 июня 2023 г. Структурная динамика нуклеосом и их взаимодействий: поиск подходов для диагностики и лечения онкологических заболеваний
Результаты этапа: ====Пакет задач 1. Атомистическая молекулярная динамика нуклеосом ==== --- Задача 1.1. “Изучение динамики и взаимодействий гистоновых хвостов в нуклеосомах” (Год 1-2 ) Из анализа литературы выбраны положения и посттрансляционные модификации для проведения расчетов. Подготовлены полноатомные структуры нуклеосом с полноразмерными гистоновыми хвостами с введением модификаций. На основе кристаллической структуры нуклеосомы (PDB ID 1KX5) были получены структуры с заменами K/A и R/A в хвостах Н3 и с фосфосерином (Pser) в положении Н3 57 в цепях A и E. Подготовлены соответствующие файлы топологии и модифицированные силовые поля. Новый остаток - фосфосерин - был внесен в силовое поле AMBER14SB + parambsc1 + cufix [Maier et al., 2015; Yoo and Aksimentiev, 2018] . Проведены расчеты молекулярной динамики систем с модификациями с использованием разработанного ранее подхода постановки параллельных расчетов. Расчеты проведены как для трипептидов, так и для нуклеосом. В качестве контроля проведен расчет трипептида Ala-Ser-Ala. Путем анализа двугранных углов Рамачандрана в траекториях трипептидов и нуклеосом было показано, что параметризация корректна, при этом в конкретном положении нуклеосомы ПТМ вызывает локальную перестройку Построен конформационный ансамбль хвостов с модификациями и без них. Охарактеризована динамика хвостов с модификациями. Введение заряд-экранирующих ПТМ в хвосты Н3 ожидаемо привели к снижению взаимодействий хвостов с отрицательно-заряженной ДНК. Более интересные результаты были обнаружены при моделировании фосфосерина. Введение этой ПТМ в близкой к хвосту области Н3 гистона не повлияло на динамику хвостов значительно, однако уже на достигнутых временах можно наблюдать изменения локальной динамики ɑN-спирали гистона Н3. Показано, что внесение отрицательно-заряженной ПТМ приводит к нарушению водородной связи основной цепи 53 и 57 остатков, формирующей ɑ-спиральную локальную структуру; таким образом нарушается стабильность С-конца ɑN-спирали Н3 гистонов . Также было выявлено значительное уменьшение числа контактов 53 и 57 остатков с ДНК . Сформулированы гипотезы о механизмах влияния модификации H3S57ph на функционирование нуклеосом. Предположительно, данная модификация приводит к дестабилизации нуклеосомы и увеличивает динамику откручивания ДНК из-за наблюдаемого нарушения контактов ɑN-спирали Н3 гистона с ДНК. Это предположение подкрепляют и данные о других модификациях ɑN-спирали Н3, для которых уже показаны свидетельства их дестабилизирующей роли [Bowman and Poirier, 2015]. Также это согласуется с ранее показанным нами участием ɑN-спирали Н3 в откручивании ДНК [Armeev et al., 2021]. --- Задача 1.2. “Изучение влияния мутаций гистонов на динамику нуклеосом”. (Год 1-2 ) --- Проведены дополнительные расчеты молекулярной динамики с онкомутациями (в том числе с учетом новых экспериментальных данных). Создана атомистическая модель нуклеосомы на основе структуры PDB ID 3LZ0 с заменой L51M в гистонах Н2А. Данная замена описана как онкомутация [Espiritu et al., 2021] и представляет интерес, поскольку находится во внутренней части нуклеосомы и, предположительно, оказывает эффект в онкопроцессах путем изменения динамики нуклеосом. Получена траектория молекулярной динамики нуклеосомы с заменой L51M H2A длиной 1 мкс . Дальнейший анализ МД траекторий был проведен для описанной траектории и двух траекторий, полученных в прошлом году . Проведен сравнительный анализ молекулярной динамики канонических нуклеосом и нуклеосом с онкомутациями. Для сравнения использовалась траектория динамики канонической нуклеосомы, рассчитанная нами ранее [Armeev et al., 2021]. Оценено влияние мутаций на общую стабильность нуклеосом. Системы с мутациями демонстрировали интенсивную динамику откручивания ДНК , однако кинетика откручивания требует большего числа траекторий и их длин, поэтому исследование было сконцентрировано на анализе тонких мод пластичности. Проведены расчеты подвижности канонических нуклеосом и нуклеосом с онкомутациями в нуклеосомальной системе координат. В траекториях с зарядовыми заменами глутаматов наблюдали эффект усиленного отклонения С-концов а2-спиралей Н2А гистонов от центра нуклеосомы (наиболее ярко выражен для системы с заменами E/K, . Для системы с заменой L51M было показано изменение локальной структуры а2-спиралей гистонов в области замены . Проанализированы локальные изменения вокруг области онкомутаций (изменение контактов с окружением, локальных флуктуаций). Этот анализ проводился для описания связи между первичной структурой а2-спиралей с их пластичностью на уровне нуклеосомы. В частности, зарядовые замены глутамата приводят к изменению взаимодействий с другими глутаматами ɑ2-спиралей гистонов . А замена L51M (неполярная аминокислота на полярную незаряженную) на гидрофобном интерфейсе взаимодействия Н2А и Н2В приводит к изменению локальной геометрии ɑ2-спиралей . Это согласуется с данными о снижении температуры плавления димера при введении такой замены [Bhattacharya et al., 2017]. Установлено влияние мутаций на тонкие моды подвижности нуклеосом, влияющие на динамику ДНК в нуклеосоме. Нами выделена и описана мода изгиба димера гистонов Н2А-Н2В, для которой показана роль в откручивании и скольжении ДНК. Для смоделированных систем было показано изменение динамики этой моды . На основе результатов анализа траекторий МД Сформулированы гипотезы, объясняющие влияние онкомутаций на динамику хроматина. При появлении онкомутаций в глобулярной части гистонов происходит изменение локальной динамики и перестройка внутригистоновых контактов, приводящая к изменению пластичности гистонов (в частности моды изгиба ɑ2-спиралей). Показана связь этой пластичности с динамикой ДНК [Kniazeva et al., 2022], из чего вытекает предположение о влиянии онкомутаций на динамику ДНК в нуклеосомах через изменение пластичности глобулярной части гистонов. ===Пакет задач 2. Исследование многообразия последовательностей белков гистонов. ==== --- Задача 2.2. “Разработка программных средств для анализа и анализ многообразия аминокислотных последовательностей гистонов человека, включая онкомутации (Год 2)”.--- Проведен анализ вариаций последовательностей гистонов человека. Из курируемого набора базы данных HistoneDB отобраны аминокислотные последовательности гистонов человека. Для этих последовательностей построены множественные выравнивания с использованием программы MUSCLE. Анализ вариаций показал, что аминокислотные последовательности могут отличаться как значительно, так и всего несколькими аминокислотными остатками. Наименее консервативным оказались короткие гистоны семейства H2A. Некоторые обнаруженные вариации оказались в в позициях, играющих важную роль в структуре нуклеосомы. Проведен анализ расположения вариаций последовательностей гистонов человека в структуре нуклеосомы. Проведен количественный анализ вариаций, обнаруженных в ходе анализа построенных множественных выравниваний аминокислотных последовательностей гистонов человека. Полученные результаты отражены в структуре нуклеосомы . Проведена оценка влияния вариаций последовательностей гистонов человека на свойства нуклеосомы (стабильность, близость к сайтам модификаций и сайтам связывания с белками хроматина). Для этого отобраны самые популярные вариации для каждой позиции в аминокислотной последовательности варианта гистона. В качестве модели выбрана структура PDB - 3AZK. С помощью программы FoldX в нее внесены замены, соответствующие обнаруженным вариациям в аминокислотных последовательностях гистонов человека. Произведены расчеты энергий в программе FoldX для полученных структур. Рассчитан параметр DDG (Delta Delta G), который позволяет оценить влияние вариаций на стабильность нуклеосомы. На основе проведенного сравнительного анализа результатов были выявлены наиболее значимые вариации . Произведен анализ тех же вариаций на близость к сайтам модификаций и сайтам связывания с белками хроматина. Изучены и проанализированы небольшие вариации аминокислотной последовательности между изоформами канонических гистонов. Для этого отобраны аминокислотные последовательности, относящиеся к каноническим гистонам, из курируемого набора базы данных HistoneDB. Построены и проанализированы множественные выравнивания последовательностей . Самыми дивергентными оказались NP_734466 и NP_733759 из семейств H2A и H2B, соответственно. Ивестно, что они являются факторами материнского эффекта [Huynh et al., 2016], а также показано [Franklin and Zweidler, 1977], что экспрессия этих генов H2AC1 и H2BC1, кодирующих данные гистоны, усиливает перепрограммирование клеток, вызванное факторами Яманаки (OSKM-факторыми), в клетках человека. Проведен анализ онкомутаций гистонов человека. Для этого получены данные об онкомутациях в гистонах человека с помощью портала cBioPortal. Произведена оценка данных мутаций на стабильность нуклеосомы. Для этого построены модели путем внесения замен в структуру PDB - 3AZK, соответствующие мутациям. Замены внесены с использованием программы FoldX. Для каждой мутации рассчитан параметр DDG. Зафиксированы наиболее значимые онкомутации гистонов человека. Также проанализированные мутации картированы на аминокислотную последовательность. Для этого построены графики вида loliplot на основе шаблона, разработанного в прошлом году. ====Пакет задач 3. Структурный анализ нуклеосом и комплексов нуклеосом с белками хроматина === --- Задача 3.1. “Доработка сервиса анализа структур нуклеосом NuclDB” (Год 1-2). --- Был доработан сервис анализа структур нуклеосом NuclDB, в ходе доработки были созданы новые и доработаны имеющиеся методы обработки и визуализации структур. В БД было включено более 100 новых структур вышедших за 2022-2023 годы (https://nucldb.intbio.org/statistic_plots). Был разработан алгоритм построения и визуализации профилей структурных выравниваний на основе сравнения всех структур с референсной. Создан инструмент для интерактивной визуализации и сравнения структурных выравниваний компонентов нуклеосом (пример https://nucldb.intbio.org/analyze_aligned?pdbids=3AFA,1KX5,3LZ0). Полученные выравнивания использованы для анализа профилей контактов гистонов и ДНК с другими компонентами нуклеосом. Создан инструмент для интерактивной визуализации таких профилей (пример визуализациипо ссылке https://nucldb.intbio.org/analyze_contacts?pdbids=3AFA,1KX5,3LZ0). Данные результаты подготовлены к публикации в виде препринта (doi: 10.1101/2023.04.17.537230). Для структур проведена аннотация последовательностей их физико-химическими свойствами (площадь доступная растворителю, индекс гидрофобности и индекс разупорядоченности). Создан алгоритм визуализации свойств аминокислот и ДНК, на сравнительных графиках с выравниванием последовательностей по структуре (пример доступен по ссылке https://nucldb.intbio.org/compare_components?pdbids=3AFA,1KX5,3LZ0). --- Задача 3.2. “Систематический анализ структурных взаимодействий нуклеосом с белками хроматина с учетом гомологии белков и возможных онкомутаций белков человека” (Год 2) – Был проведен сравнительный анализ всех известных структур нуклеосом и их комплексов. Для этого была построена трехмерная модель усредненного белка-интерактора нуклеосомы. Получившиеся распределения описывают вероятность обнаружить ту или иную группу атомов вблизи поверхности нуклеосомы Показано, что интерфейс нуклеосомы заселен неоднородно, присутствуют области частого и редкого связывания. Заряженные группы интеракторов также распределены вдоль поверхности нуклеосомы неоднородно. Показано, что большинство интеракторов связываются с областями ДНК вблизи входа и выхода из нуклеосомы. Рассчитана консервативность аминокислотных остатков в белковых партнерах нуклеосом. Профили консервативности были учтены при построении статистической модели взаимодействия нуклеосом с белками-интеракторами Показано, что большая часть взаимодействующих с нуклеосомой интеракторов отличается низкой вариативностью, что свидетельствует о высокой специфичности взаимодействий. Структуры интеракторов были аннотированы онкомутациями. Статистически значимые повторяющиеся мутации были проаннотированы сервисом Cancer HotSpot [Chang et al., 2018]. Для визуализации положений онкомутаций создан интерактивный инструмент в NuclDB на графиках визуализации графиков контактов компонентов нуклеосом (пример https://nucldb.intbio.org/structure/6UPK, вкладка Analyze contacts). ====Пакет задач 4. Биоинформатический и геномный анализ организации белков хроматина в норме и при патологии ===== ----Задача 4.2. “Разработка методов предсказания влияния мутаций и гибридных онкобелков на свойства хроматина” (Год 2).--- Разработаны методы предсказания влияния мутаций и гибридных онкобелков на функционирование белков хроматина (связывание с нуклеосомой, узнавание пост-трансляционных модификаций, участия в разделение жидких фаз). Разработан программный пакет на языке python, который интегрирует в себе информацию об онкомутациях белков хроматина, гибридных слитых онкобелков хроматина, белок-белковых контактов по данным из структур нуклеосом и их комплексов, а также основные посттрансляционные модификации гистонов. Программный пакет был использован для классификации контактов гистонов с негистоновыми белками хроматина на следующие типы: есть ли в месте контакта сайт ПТМ гистонов (метилирования или ацетилирования), рекуррентная статистически значимая онкомутация (missense или nonsense). В результате анализа контактов гистонов с негистоновыми белками хроматина было выявлено, что из 7246 аминокислотных контактов в 96 и 81 находятся рекуррентные онкомутации гистонов и негистоновых белков хроматина, соответственно. В 32 и 36 контактах находятся сайтах метилирования и ацетилирования гистонов, соответственно. Проанализированы известные онкологические генные и геномные аберрации в белках хроматина на предмет их влияния с помощью разработанных методов и классификатора машинного обучения, построенного в результате выполнения задачи 4.1, год 1. При анализе гибридных онко-белков было выявлено, что из 9489 последовательностей в результате предсказания разработанным классификатором машинного обучения 2188 классифицируются как разделяющие фазы жидкость-жидкость. Обучение классификатора проводилось на сбалансированных классах, точность составила 0.89. Среди белков, классифицированных как разделяющие жидкие фазы, 53% белков образованы из 2-ух белков с данными свойствами, 44% из 1 белка с данными свойствами и 3% из белков с отсутствующими свойствами разделения жидких фаз. Р

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".