Структурная динамика нуклеосом и их взаимодействий: поиск подходов для диагностики и лечения онкологических заболеваний.НИР

Structural dynamics of nucleosomes and their interactions: identifying approaches for the diagnosis and treatment of cancer.

Источник финансирования НИР

грант РНФ

Этапы НИР

# Сроки Название
1 8 августа 2018 г.-30 июня 2019 г. Структурная динамика нуклеосом и их взаимодействий: поиск подходов для диагностики и лечения онкологических заболеваний.
Результаты этапа: == Пакет задач 1. Моделирование внутренней пластичности октамера гистонов в нуклеосоме == -- Задача 1.1. Построить модели конформационных перестроек димеров H3-H4 в нуклеосомах необходимых для взаимодействий с ремоделерами SNF2h и SWI/SNF (Годы 1-3) -- 1.1.1. Была выполнена подготовка полноатомных моделей димеров и тетрамеров гистонов H3-H4 (см. Рис. 1.1.1). Для этого нами была создана система скриптов по подготовке систем к молекулярной динамике на основе пакета GROMACS (доступна публично по адресу https://github.com/intbio/gmx_template ), созданы на основе послединих литературных данных файлы силовых полей ( доступны публично по адресу https://github.com/intbio/gromacs_ff ). Модели систем также доступны публично по адресу https://github.com/intbio/nucl_gmx . 1.1.2. Были разработаны обобщенные переменные на основе известных экспериментальных данных, отражающих конформационные перестройки димера в эксперименте. Для этого был проанализирован ряд статей (включая [Sinha et al., 2017; Bilokapic et al., 2018b, 2018a; Kitevski-LeBlanc et al., 2018; Deindl et al., 2013]), а также изучена равновесная молекулярная динамика гистонов. В результате для анализа использовалось три типа переменных: (1) количество контактов между отдельными аминокислотами и их белковым окружением (отражает изменение подвижности боковых цепей аминокислот, наблюдаемое в ЯМР экспериментах), (2) углы между альфа-спиралями гистонов (отражает наблюдаемые в электронной микроскопии деформации гистонового ядра), (3) деформация ДНК (отражает возможную деформацию ДНК хеликазными доменами ремоделеров). Переменные проиллюстрированы на рисунке 1.1.2, в таблице 1.1.2 приведены примеры изменения обобщенных переменных в экспериментальных работах. 1.1.3. Был выполнен подбор параметров методов метадинамики, ускоренной динамики, адиабатически смещенной динамики, динамики с обменом репликами для моделирования пластичности димера гистонов. Для этого проводились различные тестовые расчеты, также был создан протокол для оптимизации параметров метадинамики и адиабатической динамики, на основе которого был сделан обучающий модуль для студентов (доступен по ссылке https://github.com/intbio/MolModEdu/tree/master/PLUMED ) . Подбор параметров для динамики с обменом репликами осуществлялся с использованием сервера (http://folding.bmc.uu.se/remd/). Например, для системы димер Н3-Н4 в растворе были рассчитаны вероятности перехода между структурами и, исходя из этих данных, было выбрано 56 реплик для параллельного моделирования с обменом репликами в интервале температур 300-350 К. 1.1.4. Были проведены тестовые и основные расчеты различными методами. Для этого проводились расчеты в программе GROMACS 2018 с использованием суперкомпьютера Ломоносов-2. Для подготовки систем к расчетам и для обработки траекторий были закуплены комплектующие и собран отдельный сервер на основе ОС Linux, на котором были установлены необходимые программы для обработки и установлена система многопользовательских интерактивных сред программирования Jupyter Hub. Управление расчетами было автоматизировано на основе написанных скриптов в системе Jupyter Notebook. Таким образом была реализована возможность проведения расчетов полноатомной молекулярной динамики на временах до 10 микросекунд. 1.1.5. Были разработаны алгоритмов оценки конформационных и динамических перестроек димеров. Для этого был создан алгоритм, реализованный в Jupyter Notebook на языке python 3.7, для комплексного анализа полученных траекторий. Для контроля качества расчетов производится расчет среднеквадратичных отклонений атомов вдоль траектории, а также изменение физических параметров в ходе моделирования (температуры системы, давления, потенциальной и кинетической энергии системы, размер расчетной ячейки, энтропия и некоторые другие). Реализован анализ общих геометрических параметров - расстояние между центрами масс и расстояние между скрещивающимися в пространстве центральными спиралями гистонов, радиус инерции (радиус гирации). Для анализа подвижности гистонов были реализованы методы анализа средних по траектории флуктуаций атомов вдоль траектории, флуктуации С-альфа атомов, усредненные по траектории и в развернутом по времени виде, флуктуации боковых цепей аминокислотных остатков вдоль траектории. Для анализа конформационной подвижности нуклеотидов (для систем с ДНК) был создан код для расчета флуктуаций атомов фосфора, усредненных по траектории и в развернутом по времени виде. Также в общий алгоритм включен метод кластерного анализа для нахождения наиболее устойчивых конформаций. Для поиска характерных мод движения реализован вычислительный алгоритм, включающий метод главных компонент, основанный на решении задачи на собственные значения и вектора матрицы ковариаций атомов, а также анализ проекций траектории на полученные собственные вектора. Также был создан алгоритм аппроксимирующий альфа-спирали цилиндрами с последующим расчетом углов между осями цилиндров. Иллюстрация типичных результатов анализа приведена на Рисунке 1.1.3. 1.1.6. Было изучено влияние дисульфидных сшивок (типа H3F104C-H4V43C) на динамику димеров и тетрамеров гистонов. Для этого были созданы молекулярно-динамические системы димеров и тетрамеров с заменами некоторых аминокислот на цистеины и введением дисульфидных связей согласно работе [Sinha et al., 2017]. Аминокислоты лейцин-82 и фенилаланин-104 в гистоне H3, а также валин-43 и валин-81 в H4 были заменены на цистеины. При использовании определенных команд программы GROMACS были созданы дисульфидные мостики между полученными цистеинами. Первая сшивка (sCx1) находится между положениями H3C104 и H4C43, вторая сшивка (sCx2) находится между H3C82 (Рисунок 1.1.4, интерактивная модель доступна по ссылке https://intbio.org/grant_2018_RNFmoluch/h3_h4_both_crosslinks.html ). Были созданы отдельные системы с каждой из этих сшивок, а также система с обеими сразу (dCx) с ДНК и без нее. Также были проведены расчеты систем димеров и тетрамеров с и без ДНК. Был проведен сравнительный анализ динамики различный систем, выявлено влияние сшивок на различные моды подвижности. == Пакет задач 2. Моделирование и анализ взаимодействий нуклеосом с пептидами. (Годы 1-3) == -- Задача 2.1. Провести структурный и энергетический анализ известных взаимодействий пептидов/ мотивов белков с кислотным лоскутом нуклеосомы (включая пептид LANA, белок CENP-C, антитело PL2-6). (Годы 1-2) -- 2.1.1. Был проведен анализ всех имеющихся структур нуклеосом с белками на предмет деталей их взаимодействия с кислотным лоскутом нуклеосомы. Для этого реализован автоматизированный алгоритм поиска структур, содержащих белки гистоны, в базе данных PDB c использованием программной библиотеки pypdb. Поиск осуществлялся путем сравнение последовательностей алгоритмом BLAST c гистонами из структуры нуклеосомы X. laevis (PDB код 1kx5). Найденные структуры классифицировались по присутствию коровых гистонов и наличию ДНК, негистоновых полипептидов и линкерного гистона H1. Идентификаторы структур гистонов, коров и нуклеосом с белками записывались в отдельный список (со списком можно ознакомиться по ссылке https://intbio.org/2018_nucl_pept/data/sorted.html ). Далее структуры анализировались с помощью автоматизированного пайплайна путем построения контактных карт, анализа различных типов взаимодействий (гидрофобные, гидрофильные контакты, солевые мостики, водородные связи). Использовался также метод гидрофобного потенциала, реализованный в программе PLATINUM, электростатические потенциал анализировался в программе APBS. На рисунке 2.1.1А приведена локализация одного из пептидов вблизи кислотного лоскута, а на рисунке 2.1.1Б приведено структурное выравнивания ряда пептидов, взаимодействующих с кислотным лоскутом нуклеосомы. На рисунке 2.1.2 представлена характерная карта контактов для пептида CENP-C с аминокислотными остатками кислотного лоскута. 2.1.2. Данные о взаимодействиях пептидов были обобщены в виде модели фармакофора. Для этого использовался сервис PHARMIT. Визуализация модели фармакофора для пептида LANA приведена на рисунке 2.1.3. 2.1.3. Были разработаны методы автоматизированного анализа взаимодействий нуклеосом с белками в структурах PDB. Для этого были написаны соответствующие скрипты на языке Python с использованием библиотеки MDAnalysis, а также программы VMD. 2.1.4. Было проведено изучение строения поверхности кислотного лоскута в плане его электростатических, гидрофобных свойств и способностей образовывать контакты с пептидами. Для этого строились карты электростатического потенциала, рассчитанные в программе APBS (см. Рисунок 2.1.1), карты гидрофобного потенциала рассчитанные с помощью программы PLATINUM (см. Рисунок 2.1.4) и карты контактов (см. Рисунок 2.1.2). 2.1.5. Были созданы молекулярно-динамические модели нуклеосом, взаимодействующих с пептидами в области кислотного лоскута, включая пептид LANA, пептид CENP-C (в этом случае будет использовать вариант центромерной нуклеосомы), фрагмент антитела PL2-6 (в этом случае использовалась модель построенная по гомологии), а также ацетилированным и неацетилированным хвостом гистона H4. Структуры для LANA и CENP-C были взяты из PDB. PL2-6 был построен по гомологии с CENP-C с помощью программы Modeller. Пространственное расположение хвоста гистона H4 было получено применением ротационных и трансляционных матриц из структуры pdbid 1KX5 при помощи библиотеки MDAnalysis. Для получения ацетилированного хвоста гистона H4 K16 был заменён на K16ac. Этот сайт был выбран как взаимодействующий с кислотным лоскутом и важный для ингибирования формирования нуклеосомных фибрилл. Ацетиллизин был создан и параметризован с помощью созданной нами программной библиотеки GIFTEd ( https://github.com/intbio/GIFTEd ) . 2.1.6. Проведены молекулярно-динамические расчеты и оценена стабильность и динамика взаимодействий пептидов с нуклеосомой. Расчеты проводились на суперкомпьютере Ломоносов-2, рассчитаны траектории длинной от 50 нс. Стабильность и динамика в первую очередь оценивалась по среднеквадратичным флуктуациям атомов с использованием разработанных протоколов (см. Рисунок 1.1.3.). Для детализированной оценки стабильности, строились зависимости контактных карт от времени моделирования. В случае пептида CENP-C показано, что пептид формирует с нуклеосомой долгоживущие контакты с кислотным лоскутом, а также поддерживает гидрофобное взаимодействие триптофана 126 (Рисунок 2.1.5 д). Изображения систем, для которых проводились молекулярно-динамические расчеты приведены на Рисунке 2.1.5 а)-г). 2.1.7. Проведена оценка энергии связывания пептидов с нуклеосомой с помощью эмпирических подходов программы. Для этого с помощью программы FoldX ( http://foldxsuite.crg.eu/) проведена оценка энергии связывания ряда пептидов. Предварительно структуры нуклеосом с пептидами были отрелаксированы с использованием пакета FoldX и оценены энергии их связывания. Далее каждый из аминокислотных остатков пептида, взаимодействующий с кислотным лоскутом нуклеосомы, был последовательно заменен на 20 канонических аминокислот. Для каждой мутации было рассчитано изменение энергии связывания с нуклеосомой (ΔΔG). Расчет изменения энергии взаимодействия при мутациях был проведен с использованием пакета FoldX. Пример получаемого графика приведен на Рисунке 2.1.6. В результате анализа данных были сформулированы рациональные предложения по оптимизации энергии связывания пептидов с кислотным лоскутом. =Пакет задач 3. Биоинформатический анализ интерактома нуклеосом, разработка базы данных по взаимодействиям нуклеосом. (Годы 1-3).= -- Задача 3.1. Анализ и классификация всех имеющихся в открытом доступе данных по взаимодействию нуклеосом с белками хроматина у человека (Годы 1-2). -- 3.1.1. Создан обновленный список всех известных генов гистонов человека (с разбивкой на гены и псевдогены) и соответствующих им белков, включая сплайс изоформы. Для этого проводился анализ данных из баз данных MS_HistoneDB [El Kennani et al., 2017], HGNC (Gene Family: Histones) и консультаций с группой консорциума HGNC, ведущей в настоящее время пересмотр номенклатуры генов гистонов человека. Была создана таблица, где для каждого гистонового гена имеется следующая информация: название по HGNC , NCBI gene ID, ENSG идентификатор по системе Ensembl, ENST идентификатор транскрипта, ENSP идентификатор белка, Uniprot ID, тип гистона, принадлежность к классу канонических гистонов, функциональность (белок-кодирующий или псевдоген), биотип гена по Ensembl, название белка по [Talbert et al., 2012] и краткое название белка для использования его в скриптах. Созданные таблицы генов и белков гистонов доступны по ссылкам ( https://intbio.org/grant_2018_RNFmoluch/histone_genes.html https://intbio.org/grant_2018_RNFmoluch/histone_proteins.html ) . Количество кодирующих генов гистонов человека идентифицированных на данный момент - 92 (включая H1), количество псевдогенов - 30. 3.1.2. Разработан автоматизированный программный код, который подгружает информацию о взаимодействиях гистонов и других белков из баз данных IntAct, BioGRID, STRING и др. Для баз данных IntAct [Hermjakob et al., 2004] , BioGRID [Stark et al., 2006], STRING [von Mering et al., 2003] разработаны программные коды, обрабатывающие загруженную информацию и позволяющие проводить анализ белков, с которыми взаимодействуют (физически или функционально) гистоны. Обработка загруженных данных заключается в следующем: фильтрация взаимодействий (оставляем только те, в которых участвуют гистоны), приведение идентификаторов к виду имени гена по HGNC, дополнение информации о типе и “каноничности” (относится ли он к классу канонических гистонов или вариантным гистонам). В качестве анализа данных проводилось построение интерактивных гистограмм о количестве взаимодействий для каждого гистона, которые сгруппированы по типу и каноничности, а также для каждого гистонового типа строятся гистограммы с количеством взаимодействующих с ними партнеров: общих для гистонового типа, уникальных для данного гистона и взаимодействующий с несколькими гистонами (пример интерактивной гистограммы для канонических гистонов H3 приведены по ссылке https://intbio.org/grant_2018_RNFmoluch/numb_of_int_h3_can.html ). Сводные данные по количеству взаимодействий загруженных из баз данных приведены в Таблице 3.1.1. Общее количество взаимодействий загруженных из баз данных составило 13887, после корректировки данного списка с учетом идентичности генов канонических гистонов общее количество парных взаимодействий составило 48054. На Рисунке 3.1.1. Приведена гистограмма всех взаимодействий для каждого гена гистона, отклассифицированная по типу и классу гистонов (она же доступна по ссылке https://intbio.org/grant_2018_RNFmoluch/number_of_interactors_from_all_db.html ) 3.1.3. Реализована прозрачная конвертация информации о взаимодействиях между различными форматами, включая идентификаторы генов и/или белков. Для этого использована система bioDBnet: db2db [Mudunuri et al., 2009]. 3.1.4. Составлена схема для рациональной функциональной иерархической классификации белков взаимодействующих с нуклеосомами на основе анализа литературы (напр. ремоделеры разных типов, белки взаимодействующие с пост-трансляционными модификациями гистонов, шапероны различных классов, пионерные транскрипционные факторы и т.д.). При составлении классификации и "референсного набора" взаимодействующих с гистонами белков были проанализированы следующие литературные источники: [Musselman et al., 2012; Xu et al., 2017] содержащие информацию о белках, считывающих пост-трансляционные модификации (ПТМ) гистонов; [Burgess and Zhang, 2013] - информация о гистоновых шаперонах; [Mani et al., 2017; Zhang et al., 2016] - ремоделлеры хроматина, [Khare et al., 2012] - белки, наносящие и стирающие ПТМ, [Han et al., 2018] - транскрипционные факторы, [Mayran and Drouin, 2018]- пионерные трансрипционные факторы, [Cubeñas-Potts and Corces, 2015] - архитектурные белки хроматина. Также использовались результаты функционального обогащения взаимодействующих с гистонами белков (Gene Ontology Consortium 2015). Высшие уровни иерархии составленной классификации представлены на Рисунке 3.1.2. 3.1.5. Оценено качество имеющейся в базах данных информации ( в том числе исходя из первичных данных литературы) и выработаны критерии отбора данных по уровню их качества. Для оценки качества имеющейся информации было проведено выявление в итоговом интерактоме негистоновых белков хроматина, относящихся к определенным функциональным категориям, взятым из литературных источников, описанных выше (см. Таблицу 3.1.2). В целом, процент присутствующих белков для основных классов белков хроматина находится в диапазоне 72-94 %. Низкую представленность транскрипционных факторов из базы данных TRUST (37%) и архитектурных белков (19%) можно объяснить пространственной и временной специфичностью взаимодействий. С другой стороны оценка качества имеющихся данных была проведена путем выявления интеракторов, точно не взаимодействующих с гистонами и не относящихся к ядру клетки. Такие категории (например, миофибриллы, филоподии, реснички, микросомы, подосомы, фокальные контакты, белки клеточной адгезии и т.д.) были выявлены с помощью классификации Gene Ontology. К таким категориям относится 324 белка (13,9 % от всех интеракторов), информация о большинстве из которых приходит из базы данных BioGrid. Важным наблюдением явилось также весьма небольшое пересечение информации о взаимодействиях между тремя базами данных (см. Рис. 3.1.3.). Разработанная нами корректировка данных, учитывающая идентичность многих генов канонических гистонов, несколько улучшает ситуацию - количество парных взаимодействий присутствующих в базах данных BioGrid, IntAct и STRING увеличивается до 609. 3.1.6. Проведен анализ полученного интерактома, в том числе используя различные онтологии (такие, как Gene Ontology), данные о биохимических/сигнальных путях взаимодействий и собственную разработанную иерархическую классификацию. Для этого сначала провели классификацию полученного интерактома с помощью системы Gene Ontology, затем проводилась достаточно кропотливая ручная реклассификация с учетом данных литературы и специализированных баз данных. В конечном итоге была получена классификация всех интеракторов на базе разработанной нами иерархической классификации белков, взаимодействующих с нуклеосомами. Результат классификации приведен в таблице 3.1.3. Наибольшее количество из классифицированных интеракторов относятся к классам транскрипционных факторов, белков, взаимодействующих с пост-трансляционными модификациями гистонов, и ремоделеров. 3.1.7. Были разработаны автоматизированные методы поиска информации о структурах взаимодействующих комплексов белков хроматина человека и нуклеосом из баз данных PDB и EMDB с учетом анализа комплексов, формируемых гомологичными белками из других организмов. Для этого был разработан пайплайн для поиска потенциально взаимодействующих с белками нуклеосом белков человека в базе данных PDB. Написанный код позволяет находить идентификаторы белковых цепей в базе данных UniProt с использованием ресурса SIFTS (https://www.ebi.ac.uk/pdbe/docs/sifts/index.html), имея в качестве исходной информации идентификаторы структур PDB, в которых помимо прочего имеются фрагменты нуклеосомных белков. Эти идентификаторы затем используются для получения FASTA последовательностей, соответствующих данным белкам. Далее проводится локальное выравнивание полученных FASTA последовательностей по базе человеческих генов RefSeq с использованием программы blastp (https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE=Proteins), выбирается последовательность белка с наименьшим E-value. Далее делается запрос к базе данных NCBI Protein по Accession Number этих последовательностей с использованием утилиты Entrez (https://github.com/jordibc/entrez), который позволяет получить HGNC идентификатор гена потенциально взаимодействующего человеческого белка. В результате получена таблица с генами потенциально взаимодействующих белков нуклеосомы и других белков человека по базе данных PDB. Для базы данных EMDB сначала получали список PDB идентификаторов структур, которые использовались для фиттинга полученной в экспериментах электронной плотности. Далее вся проделанная работа аналогична описанной ранее. В результате получена таблица с генами потенциально взаимодействующих белков нуклеосомы и других белков человека по базе данных EMDB.
2 1 июля 2019 г.-30 июня 2020 г. Структурная динамика нуклеосом и их взаимодействий: поиск подходов для диагностики и лечения онкологических заболеваний.
Результаты этапа: =Пакет задач 1. Моделирование внутренней пластичности октамера гистонов в нуклеосоме. (Годы 1-3).= -- Задача 1.1. Построить модели конформационных перестроек димеров H3-H4 в нуклеосомах необходимых для взаимодействий с ремоделерами SNF2h и SWI/SNF. - Годы 1-2 -- Созданы молекулярно-динамические модели различных нуклеосом в полноатомном представлении. В частности, стандартные модели нуклеосом, модели с дисульфидными сшивками H3F104C - H4V43C и H3L82C-H4V43C, а также модели нуклеосом с каталитической субъединицей ремоделера Snf2 пекарских дрожжей (Рис. 1.1.1). Проведено моделирование нуклеосом методом равновесной динамики на временах до 5 микросекунд. Проведен подбор параметров с целью моделирования пластичности нуклеосом различными продвинутыми методами (метадинамикой, адиабатически смещенной динамикой (ABMD), динамикой с обменом репликами). Исследована пластичность нуклеосом вдоль ряда координат реакций, вовлеченных в ремоделирование нуклеосом. В частности в сотрудничестве с лабораторией проф. Blaine Bartholomew (MD Anderson Cancer Center) и проф. Anna Panchenko (Ontario Institute for Cancer Research) изучены модели возможных конформационных перестроек нуклеосом на основе экспериментальных данных по сшиванию боковых цепей лизинов гистонов. Результаты опубликованы в журнале Cell Reports [Hada et al., 2019]. Разработаны алгоритмы оценки конформационных и динамических перестроек нуклеосом, связанных с пластичностью гистонов H3-H4 внутри нуклеосом. В частности написаны/обновлены библиотеки анализа взаимодействий в молекулярных системах (https://github.com/intbio/pymolint), библиотеки анализа параметров ДНК (https://github.com/intbio/DNAtools ) и др. Проведено изучение влияния дисульфидных сшивок из статьи [Sinha et al., 2017] на динамику и пластичность нуклеосом. На основании данных моделирования сформулированы оригинальные гипотезы относительно механизмов пластичности влияющих на работу ремоделеров. В частности мы предполагаем, что основное влияние на изменение подвижности нуклеосом оказывают дисульфидные сшивки H3L82C-H4V43C за счет снижения подвижности сайта связывания ДНК в положении SHL 2 (на расстоянии двух витков спирали от центра нуклеосомы), который подвергается деформации во время перемещения нуклеосом по ДНК (см. Рис. 1.1.1Г и видео https://intbio.org/grant_2018_RNFmoluch/2019/1.1.1/view ). Введение дисульфидной сшивки в этом положении делает этот сайт более жестким и препятствует прохождению деформации вдоль молекулы ДНК, необходимой для ее перемещения вокруг нуклеосомы. -- Задача 1.2. Установить влияние различия последовательности гистонов H2A и его варианта H2A.Z на конформацию и динамику H2A-H2B димеров и построить комплексную модель, объясняющую селективность связывания ремоделера Swr1 у дрожжей (аналог p400 и SRCAP человека) с нуклеосомами содержащими гистон H2A. -Год 2-3.-- Были подготовлены структуры димеров с укороченными подвижными хвостами, свободные и в окружении участка ДНК длиной 30 пн. Для этих систем был произведен подбор параметров для расчетов методами классической молекулярной динамики, метадинамики, адиабатически смещенной динамики и параллельного моделирования с обменом репликами; были произведены соответствующие расчеты и полученные траектории проверялись на сходимость по среднеквадратичным отклонениям атомов и радиусам гирации и сравнивались с использованием кластерного анализа, метода главных компонент матрицы ковариаций атомов и анализа подвижности отдельных остатков и групп атомов. При анализе литературы о работе ремоделера SWR1 было выявлено два основных направления концепций узнавания канонических гистонов Н2А в составе нуклеосомы и отличия их от систем с вариантной формы H2A.Z. Влияние первичной структуры гистона и выявление ключевых для процесса ремоделинга остатков [Ranjan et al., 2015] Информация о значительном отличии характерных времен движения откручивания ДНК в системах с каноническим и вариантным гистоном [Singh et al., 2019] Информация о трехмерной криоэлектронной структуре комплекса ремоделера SWR1 с канонической нуклеосомой и наличие состояния с отвернутой ДНК как этапа процесса ремоделинга [Willhoft et al., 2018] С учетом этих данных сравнение особенностей димеров Н2А/Н2В и Н2А.Z/Н2В было проведено на модельных системах на основе канонического димера с внесением ключевых замен в структуре Н2А в соответствии с Н2А.Z. Проведено сравнение свойств систем с каноническим Н2А, с одной заменой и с двумя заменами в соответствии с [Ranjan et al., 2015]. Показан эффект дестабилизации сайтов связывания ДНК в системах с модифицированным Н2А (рис. 1.2.2) (интерактивные материалы: https://intbio.org/grant_2018_RNFmoluch/2019/1.2.1/view, https://intbio.org/grant_2018_RNFmoluch/2019/1.2.2/view, https://intbio.org/grant_2018_RNFmoluch/2019/1.2.3/view). Методом анализа главных компонент матриц ковариаций атомов были выделены моды откручивания ДНК со стороны модифицированного сайта связывания и движение ДНК вдоль оси супервитка (интерактивный материал https://intbio.org/grant_2018_RNFmoluch/2019/1.2.4/view). Показано, что внесение второй мутации стабилизирует состояние системы с отвернутой ДНК (интерактивный материал https://intbio.org/grant_2018_RNFmoluch/2019/1.2.2/view). Также показаны некоторые отличия в пластичности элементов гистонового фолда рассматриваемых систем, такие как повышенная пластичность центральной спирали гистона Н2А вдоль моды изгибания. Эти результаты согласуются с данными, согласно которым динамика ДНК может быть отличительной чертой нуклеосом с каноническим Н2А и вариантной формой. Вероятно, находящиеся вблизи аргинина, образующего контакт с ДНК, замены изменяют свойства сайта связывания ДНК с гистонами и таким образом влияют на динамику ДНК в комплексе. =Пакет задач 2. Моделирование и анализ взаимодействий нуклеосом с пептидами. (Годы 1-3)= -- Задача 2.1. Провести структурный и энергетический анализ известных взаимодействий пептидов/ мотивов белков с кислотным лоскутом нуклеосомы (включая пептид LANA, белок CENP-C, антитело PL2-6). - Годы 1-2 -- Проведен структурный и энергетический анализ известных взаимодействий пептидов с кислотным лоскутом нуклеосомы. На основании разработанных ранее моделей комплексов нуклеосом с пептидами проведены продолжительные (300 нс) расчеты траекторий свободной молекулярной динамики (МД) для пептида LANA, мотива белка CENP-C и фрагмента антитела PL2-6. Все расчеты МД проведены согласно протоколам, разработанным на предыдущем этапе работы. Взаимодействия пептидов с нуклеосомами были детально исследованы путем построения профилей контактов, водородных связей и солевых мостиков вдоль по траектории при помощи разработанной библиотеки pymolint (https://github.com/intbio/pymolint). На рисунке 2.1.1 В,Г) показан пример анализа устойчивости найденных в кристаллической структуре взаимодействий (показаны голубым) в траектории МД (показаны оранжевым). Показано, что в ходе МД профиль контактов и водородных связей претерпевает значительные изменения. Полученные траектории обработаны при помощи метода MM-PBSA в реализации g_mmpbsa [Kumari et al., 2014], благодаря чему были оценены вклады отдельных аминокислот в свободную энергию связывания известных пептидов с кислотным лоскутом нуклеосомы (Рисунок 2.1.1 А), а также оценены значения полной свободной энергии связывания для пептида LANA, мотива белка CENP-C и фрагмента антитела PL2-6 как -12985,7 кДж/моль, -9274.5 кДж/моль и - 13692,6 кДж/моль соответственно. Данные значения являются оценочными и нужны для сравнения аффинностей разных пептидов между собой . Проведен расширенный анализ влияния введения мутаций на свободную энергию связывания при помощи пакета FoldX [Buß et al., 2018].Результаты анализа сведены в график, показанный на Рисунке 2.1.1 Д, такой анализ позволяет обнаруживать аминокислоты с широким диапазоном изменения свободной энергии связывания, что облегчает подбор точечных мутаций. В результате разработанных методов анализа для проведения замен в пептиде LANA были выбраны аминокислоты M6, S10 и T14, при этом любые изменения в ключевых аминокислотах R9 и R12 нежелательны (что видно из профилей контактов, профилей вклада в энергию связывания и негативный вклад в энергию связывания при замене). Аналогично для CENP-C были выбраны аминокислоты L720 и L723, а для PL2-6 - аминокислота Y54. Подобраны алгоритмы и процедуры белок-пептидного докинга для проведения докинга пептидов к нуклеосомам. В частности использованы программные пакеты QuickVina-W [Hassan et al., 2017] и CabsDock [Kurcinski et al.], в автономной версии. Произведен докинг пептидов против структуры 1KX5 с удаленными из нее ионами и молекулами воды. CabsDock продемонстрировал принципиальную возможность обнаружения поз, сходжих с известными из базы данных белковых структур. В частности на Рисунке 2.1.2 (интерактивный материал https://intbio.org/grant_2018_RNFmoluch/2019/2.1.2/view) видно, что для поз от 0 до 5 область связывания весьма близка к нативной, а среднеквадратичное отклонение координат для Cα атомов меньше 8 Å, при этом наилучшее совпадение продемонстрировала 3 поза. Опробована процедура ab-initio докинга для поиска неизвестных пептидов, связывающихся с кислотным лоскутом нуклеосомы. QuickVina-W позволяет производить быстрый докинг лишь коротких пептидов, по этой причине был адаптирован метод описанный в [Zalevsky et al., 2019] для проведения докинга полного набора комбинаторных трипептидов (8000 трипептидов) к области кислотного лоскута (для каждого трипептида было отобрано по 20 лучших поз, таким образом суммарный набор поз составил 160000, часть лучших поз показана на Рисунке 2.1.1 Б). Из данного набора поз сконструирован эмпирический потенциал, пригодный для ранжировки решений докинга (интерактивный материал https://intbio.org/grant_2018_RNFmoluch/2019/2.1.4/view). Метод показал высокую предсказательную силу, так как большинство обнаруженных им пептидов оказалось в области связывания пептидов LANA и CENP-C. Проведена сравнительная оценка качества скоринговых функций программного пакета FoldX, сервиса MutaBind2 [Zhang et al., 2020] и полученной в ходе докинга библиотекой Peptogrid эмпирической функции. Оценка проведена на наборе структур, сгенерированных для всех возможных мутаций пептида LANA. Результаты оценки показаны на Рисунке 2.1.3. Из панели А) видно, что скоринговые функции FoldX и MutaBind2 значительно коррелируют, и схожим образом предсказывают изменение свободной энергии связывания пептида при внесении точечных замен, что свидетельствует о высокой предсказательной силе. Из панели Б) Рисунка 2.1.3 видно, что эмпирическая функция, полученная библиотекой Peptogrid не коррелирует с оценочной функцией Fold-X. Однако это скорее является следствием того, что эмпирическая функция Peptogrid натренирована лишь на лучших решениях докинга и не может адекватно оценивать негативный вклад мутаций. -- Задача 2.2. Провести дизайн искусственных пептидов с высокой аффинностью связывания с кислотным лоскутом. (Годы 2-3) -- Проведен дизайн пептидов с повышенной и пониженной аффинностью к кислотному лоскуту нуклеосомы на основе оценки изменения энергии взаимодействия известных пептидов при введении точечных мутаций с использованием методов, разработанных в задаче 2.1. Мутации отобраны на основании их вклада в энергию взаимодействия пептида с нуклеосомой, а именно выбраны мутации, дающие наибольший вклад в увеличение энергии связывания (Таблица 2.2.1). Всего для LANA предложено 5 мутаций, для CENP-C - 5 и для фрагмента PL2-6 - 2. Помимо введения точечных мутаций в известные пептиды, разработаны ab-initio последовательности аминокислот на основании докинга комбинаторных трипептидов в библиотеке Peptogrid, предложенные пептиды представлены в Таблице 2.2.2. Разработаны пептиды длиной до 11 аминокислот (см Рисунок 2.2.1 АБ), которые взаимодействуют с нуклеосомой в области кислотного лоскута. Примечательно, что не все из предсказанных олигопептидов отличаются большим числом положительно заряженных аминокислот (Рисунок 2.2.1), что что является важным фактором, так как слишком большой положительный заряд будет приводить к неспецифическому связыванию пептидов с ДНК. Таким образом всего предложено 18 пептидов с разной степенью аффинности к кислотному лоскуту нуклеосомы. =Пакет задач 3. Биоинформатический анализ интерактома нуклеосом, разработка базы данных по взаимодействиям нуклеосом. (Годы 1-3).= -Задача 3.1. Анализ и классификация всех имеющихся в открытом доступе данных по взаимодействию нуклеосом с белками хроматина у человека (Годы 1-2).- Была продолжена работа по аннотации и курации полученного интерактома. Были обновлены HGNC Symbols гистоновых белков, были уточнены изоформы канонических генов гистонов и был произведен пересмотр алгоритма группировки белков-партнеров для канонических изоформ. Были добавлены взаимодействия из структурных баз данных PDB и EMDB, добавленное количество взаимодействий - 2447, для 66 гистонов и 55 белков-партнеров. Была продолжена работа по аннотации и классификации собранного набора данных. Дополненная иерархическая классификация гистоновых белков-партнеров включает в себя 24 тега, схема представлена на рис. 3.1.1. Также аннотация белков, наносящих ПТМ, была дополнена на основе информации из базы данных BioGrid. Для очистки набора от ложноположительных взаимодействий были введены критерии достоверности взаимодействия, включающие в себя количество экспериментальных свидетельств о взаимодействии, внутренний скор из баз данных BioGrid и IntAct, принадлежность белка-партнера к классу белков ядра, а не цитоплазмы. Полученный достоверный набор данных доступен в интерактивной таблице 3.1.2 (https://intbio.org/grant_2018_RNFmoluch/2019/3.1.2/view) содержит 11402 записей взаимодействиях между 95 гистонами и 1391 белком-партнером, 867 из которых относятся к классам разработанной нами классификации, а 285 имеют только аннотацию из генной онтологии (GO). -- Задача 3.2. Разработать базу данных и веб-ресурс, представляющие в интерактивном виде информацию о известных взаимодействиях нуклеосом с белками хроматина, включая информацию по имеющимся трехмерным структурам. (Годы 2-3) -- Разработана структура базы данных в виде набора связанных таблиц. Эта структура включает в себя таблицу всех последовательностей интерактома (Sequence), две таблицы интеракторов, нуклесомных белков (IteractorHistone) и взаимодействующих с ними белков хроматина (InteractorProtein), и таблицу взаимодействий между данными интеракторами, гистоновым вариантом и белком-партнером, соответственно (Interaction). Каждая последовательность интерактома характеризуется названием определяющего ее гена и описанием. Нуклеосомные белки определяются как набор тех последовательностей, которые являются некоторым гистоновым вариантом. Для белков-партнеров была выше определена иерархическая классификация, представленная на схеме 3.1.1. Описание взаимодействий между гистоном и белком-партнером включает в себя информацию об источнике (String, IntAct, BioGrid), откуда было получено взаимодействие, о базе данных, согласно источнику, оценка взаимодействия (специфична для базы данных), пропускная способность (для BioGrid и IntAct) и экспериментальный метод (для BioGrid и IntAct). Также, в базе данных содержит 3 дополнительных таблицы, описывающих классы принадлежности белков интеракторов: типы гистонов (Histone), типы гистоновых вариантов (Variant), классы белков-партнеров (Protein). Подробная схема структуры базы данных представлена на рисунке 3.2.1. Определены ключевые функциональности будущей базы данных и стэка программных технологий для ее реализации. Для разработки веб-приложения базы данных было решено использовать Django 3.0.5, высокоуровневый Python веб-фреймворк, поддерживаемый текущей версией Python 3.7. Реализация самой базы данных будет основана на реляционной системе управления базами данных MySQL. Определены методы взаимодействия с имеющимися базами данных. Сборка информации для наполнения базы данных производилась путем автоматизированного поиска информации о структурах взаимодействующих комплексов белков хроматина человека и нуклеосом из баз данных PDB, EMDB, String, BioGrid и IntAct. Таким образом, разрабатываемый веб-ресурс будет иметь связь с перечисленными базами данных, для этого будет настроена возможность перехода на источник выбранного взаимодействия между интеракторами. Предполагается связь с базой данных HistoneDB 2.0 [Draizen et al., 2016], которая будет реализована через получение подробной информации о гистоновом варианте. Данная функция позволит провести сравнительный анализ гистоновых вариантов и их взаимодействий с другими белками хроматина. Также будет взаимодействия с базами данных, поддерживаемых NCBI. Разработаны методы обновления базы данных. Программный код проекта будет оснащен командами, реализующими 2 этапа - сборку и наполнение базы данных. Первоначально, информация, извлеченная из баз данных PDB, EMDB, String, BioGrid и IntAct, обработывается для получения структурированных данных для анализа. Эта обработка включает в себя фильтрацию, которая отбирает взаимодействия только с гистоновыми белками, приведение индентификаторов обрабатываемой базы данных (PDB, EMDB, String [von Mering et al., 2003], BioGrid [Stark et al., 2006] или IntAct [Hermjakob et al., 2004]) к актуальному названию гена по HGNC, а также оснащение дополнительной информации о типе и каноничности, о классе белка- партнера. Для реализации первого этапа уже имеется автоматизированный программный код. Полученный после обработки датасет может использоваться для наполнения базы данных. На основе детального изучения источников экспериментальных данных и их качества, были установлены критерии отбора достоверных взаимодействий, описанные в пункте 3.1. Вследствие этого, каждая пара интеракторов на втором этапе подвергается правилам фильтрации, которые проверяют, удовлетворяет ли она критериям. Достоверное взаимодействие проходит процедуру добавления в базу данных. Произведена оценка объема и характеристик СУБД необходимых для реализации базы данных. Согласно разработанной структуре, база данных будет состоять из 7 связанных таблиц. Максимальный объем всех интеракторов составил 1596, среди них 96 гистоновых белков и 1500 белков-партнеров. Максимальное количество взаимодействий ожидается 33000. Таблицы типов гистонов, типов гистоновых вариантов и классов белков- партнеров будут содержать 4, 30 и 22 строки, соответственно. Определена оценка максимального объема одной записи в базе данных на диске, которая составила ~48 КБ. Таким образом, общий размер пространства для хранения таблицы последовательностей, двух таблиц интеракторов и таблицы взаимодействий между интеракторами составил ~1740 МБ. Для хранения трех дополнительных таблиц, описывающих классы интеракторов, потребуется не более 40 КБ на каждую. В сумме, для хранения базы данных на диске, с учетом непредвиденных расширений, потребуется ~2 ГБ памяти. Также, ввиду необходимости хранить данные для реализации функциональности веб-ресурса, а именно развертывания системных и программных компонент, а также систем резервирования, может потребоваться дополнительно 30-40 ГБ. Итоговая оценка места для реализации базы данных и ее функционирования составила не менее 42 ГБ. Создана тестовая реализация на основе СУБД ( Системы управления базы данных). Для этого был создан Django-проект, который включает в себя одно приложение, и база данных, с помощью использования языка запросов MySQL. Для связи веб-приложения с базой данных проекта содержит настроечный файл с актуальной информацией о базе данных (имя пользователя, название базы данных, пароль и др. параметры). Созданы Django-модели, которые описывают схему базы данных с дополнительными метаданными. Всего создано 7 моделей, из них одна модель описывает таблицу взаимодействий, одна - таблицу всех последовательностей интеракторов, две модели описывают таблицы гистоновых белков и белков-партнеров, и еще 3 модели описывают классификацию интеракторов. Для активации всех перечисленных моделей были созданы и проведены миграции. Таким образом, была реализована структура базы данных в виде набора связанных таблиц, которая представлена на схеме 3.2.1. =Пакет задач 4. Биоинформатический анализ геномных и транскиптомных данных опухолей с точки зрения организации хроматина на нуклеосомном уровне (Годы 2-3)= -- Задача 4.1. Проанализировать белки, взаимодействующие с гистонами и нуклеосомами, на предмет наличия в них повторяющихся (более чем у одного пациента) мутаций в образцах раковых опухолей по наборам данных международного консорциума раковых геномов и атласа раковых геномов (ICGC, TCGA). Провести структурную интерпретацию этих мутаций с расчетом их влияния на стабильность комплексов (при наличии соответствующих структур). (Годы 2-3) -- Были загружены мутации в гистоновых белках и в белках, взаимодействующих с нуклеосомой с портала cBioPortal. Сырые данные - 14366 записей о 7313 уникальных мутациях в 90 генах гистонов и 1328155 записей, содержащих 690012 уникальных мутаций в 2475 генов белков хроматина, взаимодействующих с гистонами. Мутации в генах гистонов и в белках хроматина были выявлены в 50140 пациентах из 519 исследований (общее количество пациентов в этих исследованиях - 75953). Предобработка включала в себя удаление исследований, проведенных на клеточных линиях, ксенографтных моделях или органоидах. Исследования были агрегированы по типу заболевания. Были определены критерии для выделения потенциальных драйверных мутаций. Был проведен анализ распределения мутаций в различных раковых опухолях для всех генов гистонов, тепловая карта с результатом доступна на рис. 4.1.1. Типы онкологий, в которых более 5-ти гистонов имеют мутации более чем в 5% когорты - немелкоклеточный рак легкого, диффузная В-клеточная крупноклеточная лимфома, неходжкинская лимфома, первичная лимфома центральной нервной системы. В 4 генах гистонах отсутствовали мутации - H2AB2, H2BS, H3C14, H3C15. Был проведен анализ распределения мутаций в различных раковых опухолях для всех генов гистонов и для всех белков, взаимодействующих с гистонами. Мутации в генах гистонов и в генах белков партнеров были выявлены во всех исследованных 153 типах онкологических заболеваний. Были выделены белки со значительным числом повторяющихся мутаций среди интерактома нуклеосомы - итоговый список для последующего анализа включает 86 мутаций в 70 генах в 14-ти видах онкологий, Результирующая информация о потенциальных драйверных мутациях в белках хроматина с указанием класса по разработанной классификации доступна в интерактивной таблице ( https://intbio.org/grant_2018_RNFmoluch/2019/4.1.2/view.html ) Была найдена драйверная мутация V617F в гене JAK2, присутствующая в 74% случаев миелопролиферативных заболеваний. Известно, что мутация приводит к нарушению упаковки хроматина и увеличению экспрессии онкогенов за счет постоянного фосфорилирования гистона H3 по тирозину в 41-ой позиции (H3Y41), что препятствует связыванию белка HP1alfa с нуклеосомой. Не смотря на наличие возможного механизма действия этой активирующей мутации, полноатомного молекулярного моделирования комплекса с мутацией на данный момент не проведено. Это подтверждает необходимость выявления потенциальных драйверных мутаций в белках хроматина и дальнейшее исследование стабильности комплексов мутантных белков и нуклеосом.
3 1 июля 2020 г.-30 июня 2021 г. Структурная динамика нуклеосом и их взаимодействий: поиск подходов для диагностики и лечения онкологических заболеваний.
Результаты этапа: =Пакет задач 1. Моделирование внутренней пластичности октамера гистонов в нуклеосоме. (Годы 1-3).= -- Задача 1.2. Установить влияние различия последовательности гистонов H2A и его варианта H2A.Z на конформацию и динамику H2A-H2B димеров и построить комплексную модель, объясняющую селективность связывания ремоделера Swr1 у дрожжей (аналог p400 и SRCAP человека) с нуклеосомами содержащими гистон H2A. -Год 2-3.-- Разработаны методы вычисления вероятности дейтеро-водородного обмена по данным молекулярной динамики. Был предложен метод предсказания вероятности скорости дейтеро-водородного обмена на основе расчета доступной растворителю поверхности для атомов H и N, участвующих в формировании пептидной связи. Были проведены расчеты методом молекулярной динамики димеров канонических и вариантных димеров в растворе без ДНК (условия, при которых происходит узнавание вариантного гистона шаперонами). Расчитаны профили динамики и вероятности дейтеро-водородного обмена вдоль последовательности гистонов для сравнения с имеющимися экспериментальными данными. Было проведено сравнение полученных профилей для канонического гистона Н2А и вариантного гистона H2A.Z в системах димеров; показано, что ключевые позиции при узнавании канонических нуклеосом ремоделером (согласно экспериментальным данным [Ranjan et al., 2015]) в канонической системе имеют бОльшую доступность, чем вариантные, что может быть фактором селективности для связывания с соответствующей субъединицей ремоделера. Проведен дополнительный анализ структуры αС-спирали H2A(.Z) гистонов в димерах и показано значительное повышение подвижности С-конца вариантного гистона. Разработаны гипотезы объясняющие на молекулярном уровне селективность связывания белков хроматина, участвующих в процессе ремоделинга нуклеосом, с димерами H2A.Z-H2B. Для формирования комплексной модели и возможных гипотез, объясняющих селективное взаимодействие ремоделера SWR1 с нуклеосомами H2A/H2A.Z нами были проанализированы как экспериментальные данные ([Mao et al., 2014], [Ranjan et al., 2015],[Liang et al., 2016], [Lehmann et al., 2017], [Dai et al., 2019], [Huang et al., 2020]) так и данные молекулярно-динамических расчетов, а также данные о сайтах взаимодействия и сайтах связывания гистонов субъединицами ремоделера и шаперонами. Согласно экспериментальным данным и данным молекулярной динамики, “узнавание” вариантных форм (происходящее в основном в форме димера) происходит через непосредственное взаимодействие С-концевой части гистона с соответствующим сайтом связывания. Эта область является доступной для взаимодействия с белками. “Узнавание” канонического гистона (в основном происходит в составе нуклеосомы) связано с определенными характеристиками внутренних сайтов, слабо доступных для свободного взаимодействия с белками. В работе опубликованной нами по результатам проекта в журнале Nature Communications [Armeev et al., 2021] было продемонстрировано аллостерическое взаимодействие между изгибанием центральной (альфа 2) спирали Н2А и образованием деформаций ДНК, описанных в работах с получением крио-электронных структур комплексов нуклеосом с ремоделером [Willhoft et al., 2018]. Нами выдвинута гипотеза о том, что ремоделирующий комплекс чувствителен к динамическим характеристикам нуклеосомы как целого, которые регулируются в большой степени динамикой Н2А(.Z) гистона и пластичностью альфа 2 спирали (уменьшение взаимодействия вариантных нуклеосом с ремоделером может быть связано с затруднением стадий ремоделирования, требующих формирования таких дефектов кручения ДНК и их продвижения вдоль ДНК). =Пакет задач 2. Моделирование и анализ взаимодействий нуклеосом с пептидами. (Годы 1-3)= -- Задача 2.2. Провести дизайн искусственных пептидов с высокой аффинностью связывания с кислотным лоскутом. (Годы 2-3) -- Произведен дизайн пептидов селективных к нуклеосомам с различными гистоновыми вариантами (H2A.Z, H2A.B и др.). Было обнаружено 133 уникальных пептида, для которых ожидается высокая аффинность к вариантным нуклеосомам. В частности 92 пептида для нуклеосомы с вариантным гистоном H2A.X, 42 для H2A.1 и 40 для H2A.Z. Обнаруженные пептиды для варианта H2A.B показали невысокую аффинность. Методами моделирования по гомологии были созданы структуры различных вариантных нуклеосом, также в течение выполнения проекта для этих моделей были опубликованы экспериментальные структуры более высокого качества, которые также использовались в дальнейшем (вариант H2A.Z структура с индексом 6JOU - дата получения - март 2020, H2A.B - 6M4H - сентябрь 2020, H2A.X - 6K1J, январь 2020, H2A.1 - 5GT0 - 2017). Проведена оценка специфичности связывания пептидов с различными нуклеосомами. Полученный набор пептидов и их поз оказался уникальным: набор пептидов, аффинных к разным вариантным был специфичен для варианта. Пептиды, взаимодействующие одновременно с несколькими вариантами не обнаружены, что свидетельствует об их высокой специфичности. Уточнены эмпирические потенциалы докинга от полной комбинаторной библиотеки тетрапептидов при помощи программы Peptogrid. В отличие от предыдущего этапа, на данном этапе для поиска возможных поз пептидов на поверхности нуклеосомы использовалась полная комбинаторная библиотека тетрапептидов. Применение тетрапептидов позволяет снизить вклад взаимодействия концевых участков пептидов в эмпирический объемный потенциал Peptogrid, что делает его более реалистичным при поиске протяженных пептидов. Проведено взвешивание вкладов комбинаторных пептидов на основании оценочных функций FoldX или аналогичных. Для этого была создана оберточная функция на языке Python, позволяющая в массивно-параллельном режиме оценить энергию взаимодействий для каждой из обнаруженных поз. Полученные таким образом значения энергии использовались для итоговой сортировки пептидов и отбора наиболее аффинных. =Пакет задач 3. Биоинформатический анализ интерактома нуклеосом, разработка базы данных по взаимодействиям нуклеосом. (Годы 1-3).= -- Задача 3.2. Разработать базу данных и веб-ресурс, представляющие в интерактивном виде информацию о известных взаимодействиях нуклеосом с белками хроматина, включая информацию по имеющимся трехмерным структурам. (Годы 2-3) -- Была создана проектная реализация базы данных взаимодействий нуклеосом с белками хроматина на основе СУБД и веб-фреймворков (Bootstrap, Datatables и др.). База данных Histone PPI DB (доступна по ссылке: https://intbio.org/histoneppidb/) содержит информацию об экспериментальных свидетельствах взаимодействий гистонов с негистоновыми белками. В базе содержится 10788 взаимодействий для 28 гистоновых вариантов (85 гистоновых генов) и 3753 белков-партнеров, классифицированных на 12 функциональных классов. Информация о 3D-структурах комплексов нуклеосом реализована в виде ссылок на разрабатываемый сервис анализа структур нуклеосом. Прототип разрабатываемого сервиса NuclDB доступен по ссылке: https://nucldb.intbio.org. Он содержит список всех известных на данный момент структур одиночных нуклеосом и нуклеосом в комплексе с другими белками. База состоит из 345 структур нуклеосом из которых 137 в комплексе с другими белками. В качестве СУБД используется NoSQL подход, основанный на применении JSON документов, содержащих как основную БД, так и результаты анализа для всех структур. Серверная часть БД основана на микрофреймворке Flask, клиентская часть реализована на комбинации Bootstrap, Jquery, Datatables, NGL и D3 для интерактивной визуализации и построения графиков. Были разработаны веб- интерфейсы и дизайны баз данных. Веб-ресурс Histone PPI DB показывает суммарное количество взаимодействий для пар гистоновый вариант - негистоновый белок. Для взаимодействий приведены ссылки на соответствующие статьи в базе PubMed и структуры в разрабатываемой базе NuclDB. Все поля веб-ресурса доступны для фильтрации и ранжирования. По части полей осуществляется поиск с возможностью применять логические операции. Для выделения наиболее достоверных взаимодействий разработана оценка, на основе нормированного на размер гистонового варианта количества свидетельств и наличия структур взаимодействующих комплексов. Развернуты системные и программные компоненты для реализации веб- ресурса. База данных Histone PPI DB собрана на вычислительном кластере лаборатории, и реализована на GitHub Pages и JavaScript. Прототип базы данных NuclDB реализован в виде Flask проекта и независим от других системных компонентов. База данных развернута в виде отдельной виртуальной машины поду управлением Ubuntu server 20.04. Реализованы методы сборки и обновления базы данных. Для базы Histone PPI DB написан скрипт на языках bash и python, способный скачивать, фильтровать, обрабатывать новые версии экспериментальных баз BioGrid, IntAct и String и интегрировать записи с уже имеющимися в базе. Для базы NuclDB разработан сценарий на языке python с использованием библиотек Mdanalysis, Pynucl, pandas и numpy. Сценарий отбирает из структуры, содержащие гистоны, а также запрашивает дополнительную информацию из база данных RCSB PDB через REST API. Сценарий дополнительно извлекает информацию из баз данных HistoneDB и Uniprot. Результаты отработки сценария сохраняются в базе данных в виде JSON объектов. Реализован интерактивный интерфейс базы данных. Histone PPI DB содержит раскрывающиеся таблицы со списком генов взаимодействующих гистоновых белков и ссылки на записи из следующих баз: HistoneDB, GenCards, HistoneDB, nuclDB, PubMed. Прототип БД NuclDB содержит атлас структур нуклеосом с возможностью интерактивного поиска. =Пакет задач 4. Биоинформатический анализ геномных и транскиптомных данных опухолей с точки зрения организации хроматина на нуклеосомном уровне (Годы 2-3)= -- Задача 4.1. Проанализировать белки, взаимодействующие с гистонами и нуклеосомами, на предмет наличия в них повторяющихся (более чем у одного пациента) мутаций в образцах раковых опухолей по наборам данных международного консорциума раковых геномов и атласа раковых геномов (ICGC, TCGA). Провести структурную интерпретацию этих мутаций с расчетом их влияния на стабильность комплексов (при наличии соответствующих структур). (Годы 2-3) -- Был проведен анализ влияния мутаций в образцах злокачественных опухолей на стабильность и структуру комплексов нуклеосом и гистонов с белками хроматина. Был определен список имеющихся в базе данных PDB структур нуклеосом/гистонов с негистоновыми белками хроматина, для которых сайты онкомутаций находятся на интерфейсе между белками. С помощью прототипа базы NuclDB и разработанного скрипта картирования онко-мутаций на последовательности в структурах PDB были проанализированы 4926 негистоновых мутаций в 56 структурах. Проведен анализ межмолекулярных взаимодействий в районе сайтов онкомутаций. С помощью методов молекулярного моделирования оценено воздействие тех или иных онкомутаций на стабильность межмолекулярных взаимодействий. С помощью пакета FoldX были созданы и отрелаксированы мутантные структуры, а также рассчитаны изменения энергии связывания негистоновых белков с нуклеосомой (ΔΔG, ккал/моль). Полученные значения находятся в диапазоне от -8.5 ккал/моль до +2.5 ккал/моль. Было проанализировано 1552 уникальных мутаций, 1472 из которых являются нейтральными, 51 стабилизирующая и 36 дестабилизирующих. 37 мутаций (стабилизирующих/дестабилизирующих) мутаций находятся в сайтах контактов негистовых белков хроматина с нуклеосомой, 3 из этих мутаций встречены более чем у двух пациентов (EZH2 F667L, DOT1L W305C, RNF2 R98I). Также обнаружены рекуррентные мутации не находящиеся в сайтах контактов, но приводящие к увеличению или уменьшению энергии связывания. Таких мутаций, найденных более чем у 2 пациентов обнаружено 9: дестабилизирующие (CHD4 R877W, R1105W, R1105Q; DOT1L S132F; EZH2 T586I), стабилизирующие (CGASR339H;CHD4R813C, R877Q;DOT1LSK132F). Сформулированы гипотезы относительно эффекта мутаций и предложения по их экспериментальной проверке. Эффект мутации DOT1L (DOT1L - метилтрансфераза H3K79, метка H3K79me2/3 - метка активных энхансеров [Godfrey et al., 2019]) W305C в не так хорошо исследован, и в литературе не описаны механизмы, однако мутация встречается в базах данных онкологических нарушений, а учитывая противоположный эффект в разных структурах именно ее эффект предлагается проверить экспериментально. --Задача 4.2. Проанализировать белки, взаимодействующие с гистонами и нуклеосомами, на предмет аномалий экспрессии в образцах раковых опухолей по наборам данных международного консорциума раковых геномов и атласа раковых геномов (ICGC, TCGA). Провести интерпретацию влияния повышенной или пониженной концентрации белка на активность ассоциации/диссоциации известных структурных комплексов и возможные эффекты в работе хроматина. -- (Год 3) Был проведен анализ дифференциальной экспрессии генов белков хроматина и гистонов по данным RNA-Seq в пациентах с онкологическими заболеваниями. Были проанализированы данных экспрессий генов гистонов и их структурных интеракторов по данным RNA-Seq в 16 когортах онкологических пациентов и в соответствующих образцах здоровой ткани. Данные были загружены с портала UCSC RNA-seq Compendium и предобработаны. Дифференциальная экспрессия для анализируемых когорт была посчитана пакетом DESeq2. Был создан список белков взаимодействующих с гистонами и нуклеосомами (включая сами гистоны), для которых обнаружены статистически значимые отклонения в уровнях экспрессии в образцах раковых опухолей по сравнению с нормальными тканями. Выявлены различия в дифференциальной экспрессии высококонсервативных генов канонических гистонов. Проведен анализ представленности терминов Gene Ontology а также анализ обогащения сигнальных путей как из баз KEGG, Reactome, так и из более специализированных баз данных сигнальных путей. Гены с повышенной и пониженной экспрессией были проанализированы пакетом g:Profiler для получения обогащенных терминов биологических и сигнальных путей. Была проведена интерпретация влияния отклонений в экспресси на активность ассоциации/диссоциации известных структурных комплексов и возможные эффекты в работе хроматина. В частности, в THCA, TGCT, COAD, LAML повышена экспрессия у комплексов хроматиновых ремоделлеров (nBAF, SWI/SNF), PTM writers (метилтрансферазы: Set1C/COMPASS, MLL3/4, ацетилтрансфераза: NuA4). В BLCA, PRAD, UCS и UCES - у комплексов ремоделлеров SWR1, INO80, шаперона R2TP. Повышенная экспрессия описанных выше комплексов может приводить к более открытому состоянию хроматина и абберантной экспрессии онкогенов. Гены с пониженной экспрессией входят в состав комплексов: в TGCT, OV - INO80, в BLCA в комплекс, осуществляющий метилирование H3K4. Пониженная экспрессия генов в TGCT, OV и BLCA приводит к более компактном состоянию хроматина и уменьшению транскрипции ряда генов. На основе полученных результатов сделаны выводы о возможном влиянии найденных в опухолевых образцах мутаций на экспрессию соответствующих белков, а также о причастности мутаций в белках хроматина/нарушении экспрессии белков хроматина на процесс онкогенеза.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".