ИСТИНА |
Войти в систему Регистрация |
|
ФНКЦ РР |
||
Проект направлен на изучение общих закономерностей молекулярного строения и упаковки и поиск корреляций структура-свойства.
In recent years, there has been a real revolution in data processing and analysis. Data science has gone far beyond the problems of statistics and computational mathematics and used in most applied fields. Unfortunately, modern methods of unsupervised machine learning-clustering, dimensionality reduction, and data visualization-have not yet found such wide application in the chemical sciences and crystallography. The study of similarities and differences those method provide us with allows us to analyze the conformational preference of molecules and the types of atomic clusters, intermolecular associations (features of supramolecular organization and packing patterns), and structures as a whole. Such studies will not only add to our knowledge of the structure of molecules and atomic clusters in the condensed state, but also allow us to study the possibilities of replacing functional groups while preserving packaging. Knowing the lists of interchangeable groups and the corresponding probabilities of preserving the structural motif can allow you to more efficiently create a series of structures that differ in the specified properties. The study of general patterns of molecular structure and packaging, as well as the creation and provision of tools for solving them, is an urgent task of modern structural chemistry and related disciplines — crystal engineering, polymorphism research. In many methods of unsupervised machine learning, there is a general scheme that includes : - calculating (all or some) generalized distances (a measure of the similarity of objects) between the studied objects using a suitable metric - analysis of the obtained distances without taking into account any other properties of objects. The tasks under consideration will include: 1) visualization of sets of any molecular and supramolecular fragments using root mean square difference deviations (RMSD) and nonlinear methods of dimensionality reduction — t-distributed stochastic neighbor embedding (t-SNE). 2) comparison of the unit cells of experimental structures when using the translation vectors RMSD as the distance. 3) comparison of experimental structures as a whole, with discrepancies between simulated diffractograms and other structure fingerprints as a distances. The scientific novelty of the work lies in the proposed methodology. As the analysis of the literature shows, such a combination of methods has not previously been used to solve the designated scientific problem-the study of general patterns of molecular structure and packaging and the search for structure-property correlations. In the literature, there are only a few successful examples of cluster analysis based on the calculation and analysis of distance matrices for conformers. There are no such examples for supramolecular associates, coordination polyhedra, and crystal structures as a whole.
Для выполнение *задачи 1* будут выполнены следующие подзадачи: 1) будет продемонстрировано превосходство локальных методов понижения размерности над PCA для визуализации матриц RMSD на хорошо изученных примерах: конформерах гексана в кристаллосольватах, димерах карбоновых кислот, полиэдрах переходных металлов с КЧ=5. 2) для полиэдров лантанидов в КБСД с КЧ 8, 9, 10 и 11 будут подобраны наиболее подходящие с точки зрения скорости вычисления, точности и надёжности алгоритмы вычисления RMSD. Полученные матрицы расстояний будут визуализированы с помощью t-SNE и UMAP. Будут выделены типичные координационные окружения и проанализировано влияние металла на их относительную распространённость. 3) с использованием разработанных нами ранее библиотек функций на языках R и Scala будет создано ПО с графическим интерфейсом, позволяющее вычислять и визуализировать матрицу RMSD (супра)молекулярных фрагментов и не требующее навыков программирования для использования. Для решения *задачи 2* мы найдём структуры со схожими элементарными ячейками и проанализируем различия между ними. А именно: С помощью методов OPTICS/DBSCAN в КБСД будут найдены пары (группы) структур с близкими элементарными ячейками. Будут проанализированы причины совпадения ячеек: - случайность (нет очевидной связи между структурами) - "изоструктруные" вещества с заменой функциональной группы - ошибка базы данных (одно и то же вещество занесено в базу несколько раз и не помечено как повтор) - возможная ошибка определения структуры (замена функциональных групп на близкие по числу электронов, но различающиеся по типичным межмолекулярным контактам) В случае "изоструктурных" пар, будут дополнительно проанализированы другие случаи замен соответствующих функциональных групп, будут сделаны выводы о том, насколько часто замена приводит к сохранению упаковки. В случае подозрения на ошибку определения структуры будут проведены необходимые для верификации расчёты в рамках теории функционала плотности с периодическими граничными условиями. Описания ошибок базы данных будут отправлены в Кембриджский центр кристаллографических данных для исправления. Для решения задачи 3 - будут рассчитаны теоретические порошковые дифрактограммы для пар "изоструктурных" соединений, найденных при выполнении *задачи 2* и будет оценено типичное для этой метрики расстояние между связанными структурами. - с помощью OPTICS/DBSCAN в КБСД будут найдены пары (группы) структур с расстоянием равным оценному ранее или меньшим. - группы будут проанализированы аналогичным с описанным в *задаче 2* образом ** План по годам *** Первый год проекта В первый год выполнения проекта в рамках работы над *задачей 1* будут выполнены подзадачи 1 и 2. В рамках работы над *задачей 2* будут исследования ячейки структур, кристаллизующихся в самых распространённых пространственных группах: \(P2_1/c\), \(C2/c\), \(P-1\) и найденные пары (группы) структур со сходными ячейками будут проанализированы согласно плану. *** Второй год проекта Во второй год выполнения проекта в рамках работы над *задачей 1* будет выполнена подзадача 3. В рамках работы над *задачей 2* будут исследования ячейки структур, кристаллизующиеся в оставшихся группах. ПОлученные данные будут использованы для выполнения *задачи 3*.
Ранее научным коллективом были разработаны библиотеки функций на языках Scala и R, реализующие расчет RMSD лучшего наложения и базовый кластерный анализ, оптимизированных для пакетной обработки в многопоточной среде[fn:scala][fn:rr]. Ранее руководителем проекта была опубликована статья, в которой геометрическая кластеризация контактов нитрогрупп с помощью RMSD лучшего наложения и t-SNE дополнялась топологическим анализом взаимодействий между ними[fn::Rus. Chem. Bul., 2019, 68, 1, 1--8]. На всероссийской конференции с международным участием ’VII Рос- сийский день редких земель’ были доложены предварительные резуль- таты, касающиеся применения метода визуализации матрицы расстоя- ний к координационным полиэдрам лантанидов с КЧ = 8.
В ходе данной научно-исследовательской работы были получены следующие основные результаты: На примере 2765 координационных полиэдров девяти металлов с КЧ 5 была продемонстрирована возможность использования современных методов машинного обучения без учителя для визуализации кристаллографических данных. На использованном наборе данных метод t-SNE (t-distributed stochastic neighbor embedding, стохастические вложения соседей с распределением Стьюдента) позволял выделить различные типы координационного окружения включая тригональную бипирамиду, тетрагональную пирамиду, и 4+1 окружение с центральным атомом в центре плоского квадрата, характерное для меди II. На том же самом наборе данных ранее применявшийся линейный метод понижения размерности PCA (principal component analysis, анализ главных компонент) 5233 координационных полиэдра лантанидов состава MO8 из Кембриджской базы структурных данных проанализированы с помощью современного метода машинного обучения без учителя UMAP (Uniform Manifold Approximation and Projection). Результаты геометрического кластерного анализа сопоставлены с результатами наиболее распространённого метода анализа координационных полиэдров — непрерывного измерения формы. Показана применимость нового метода для классификации координационных окружений, включающих бидентатные лиганды с малым «углом укуса» (bite angle), анализ которых с применением известных ранее методов затруднён. По результатам анализа принята к публикации статья в журнале "Известия Академии Наук, серия химическая". Предложен способ поиска сходных структур молекулярных кристаллов в кристаллографических базах данных и показана его эффективность. Найдены структуры с близкими параметрами элементарной ячейки и одинаковыми структурными мотивами. Проанализированы замены в молекулярной структуре, которые могут проходить без изменения структурного мотива. Разработано и находится в свободном доступе в сети интернет программное обеспечение, реализующее все использованные методы. Разработана и реализована методика поиска изоструктурных пар молекулярных кристаллов в Кембриджской базе структурных данных (КБСД), основанная на анализе параметров элементарных ячеек и молекулярного сходства. Проведен анализ распространенности изоструктурности в молекулярных кристаллах. Установлено, что для структур с параметрами элементарных ячеек, совпадающими в пределах 5%, вероятность изоструктурности составляет от 2.5% до 5.5%. Выявлены наиболее распространенные типы структурных различий, приводящих к изоструктурности, включая замены атомов, добавление атомов и изменение кратности связей. Определены вероятности сохранения кристаллической упаковки при конкретных молекулярных заменах, например, для замены Cl/Br вероятность составляет 42%, для S/Se - 39%. Поставленные задачи решены в полном объеме. Разработанная методика позволяет эффективно идентифицировать изоструктурные пары в больших массивах кристаллографических данных. Результаты исследования могут быть использованы для прогнозирования и инженерии изоструктурных кристаллов и органических сплавов на их основе. Полученные данные о вероятностях сохранения упаковки при конкретных заменах могут служить основой для направленного дизайна новых материалов с заданными свойствами. Экономическая эффективность внедрения результатов может быть достигнута за счет сокращения времени и ресурсов на экспериментальный поиск изоструктурных соединений в области разработки новых функциональных материалов. Научно-технический уровень выполненной работы соответствует современным мировым достижениям в области кристаллохимии и инженерии кристаллов. Разработанная методика анализа больших массивов кристаллографических данных не имеет прямых аналогов и открывает новые возможности для систематического изучения закономерностей формирования кристаллических структур органических соединений.
грант РНФ |
# | Сроки | Название |
1 | 30 июня 2022 г.-30 июня 2023 г. | Cовременные методы кластеризации и визуализации для анализа баз данных кристаллических структур I |
Результаты этапа: На примере 2765 координационных полиэдров девяти металлов с КЧ 5 была продемонстрирована возможность использования современных методов машинного обучения без учителя для визуализации кристаллографических данных. На использованном наборе данных метод t-SNE (t-distributed stochastic neighbor embedding, стохастические вложения соседей с распределением Стьюдента) позволял выделить различные типы координационного окружения включая тригональную бипирамиду, тетрагональную пирамиду, и 4+1 окружение с центральным атомом в центре плоского квадрата, характерное для меди II. На том же самом наборе данных ранее применявшийся линейный метод понижения размерности PCA (principal component analysis, анализ главных компонент) 5233 координационных полиэдра лантанидов состава MO8 из Кембриджской базы структурных данных проанализированы с помощью современного метода машинного обучения без учителя UMAP (Uniform Manifold Approximation and Projection). Результаты геометрического кластерного анализа сопоставлены с результатами наиболее распространённого метода анализа координационных полиэдров — непрерывного измерения формы. Показана применимость нового метода для классификации координационных окружений, включающих бидентатные лиганды с малым «углом укуса» (bite angle), анализ которых с применением известных ранее методов затруднён. По результатам анализа принята к публикации статья в журнале "Известия Академии Наук, серия химическая". Предложен способ поиска сходных структур молекулярных кристаллов в кристаллографических базах данных и показана его эффективность. Найдены структуры с близкими параметрами элементарной ячейки и одинаковыми структурными мотивами. Проанализированы замены в молекулярной структуре, которые могут проходить без изменения структурного мотива. Разработано и находится в свободном доступе в сети интернет программное обеспечение, реализующее все использованные методы. | ||
2 | 30 июня 2023 г.-30 июня 2024 г. | Cовременные методы кластеризации и визуализации для анализа баз данных кристаллических структур II |
Результаты этапа: В ходе данной научно-исследовательской работы были получены следующие основные результаты: Разработана и реализована методика поиска изоструктурных пар молекулярных кристаллов в Кембриджской базе структурных данных (КБСД), основанная на анализе параметров элементарных ячеек и молекулярного сходства. Проведен анализ распространенности изоструктурности в молекулярных кристаллах. Установлено, что для структур с параметрами элементарных ячеек, совпадающими в пределах 5%, вероятность изоструктурности составляет от 2.5% до 5.5%. Выявлены наиболее распространенные типы структурных различий, приводящих к изоструктурности, включая замены атомов, добавление атомов и изменение кратности связей. Определены вероятности сохранения кристаллической упаковки при конкретных молекулярных заменах, например, для замены Cl/Br вероятность составляет 42%, для S/Se - 39%. Поставленные задачи решены в полном объеме. Разработанная методика позволяет эффективно идентифицировать изоструктурные пары в больших массивах кристаллографических данных. Результаты исследования могут быть использованы для прогнозирования и инженерии изоструктурных кристаллов и органических сплавов на их основе. Полученные данные о вероятностях сохранения упаковки при конкретных заменах могут служить основой для направленного дизайна новых материалов с заданными свойствами. Экономическая эффективность внедрения результатов может быть достигнута за счет сокращения времени и ресурсов на экспериментальный поиск изоструктурных соединений в области разработки новых функциональных материалов. Научно-технический уровень выполненной работы соответствует современным мировым достижениям в области кристаллохимии и инженерии кристаллов. Разработанная методика анализа больших массивов кристаллографических данных не имеет прямых аналогов и открывает новые возможности для систематического изучения закономерностей формирования кристаллических структур органических соединений. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".