Аннотация:Полный нецелевой анализ гуминовых веществ (ГВ) – сложной смеси из поменьшей мере нескольких десятков тысяч соединений, является задачей, которая внастоящее время решается преимущественно на уровне подбора молекулярных формулвозможных соединений, составляющих гуминовые вещества. Это делается на основаниимасс-спектров высокого разрешения (порядка 500 000 и выше), полученных методамиионного циклотронного резонанса с преобразованием Фурье (МС-ИЦР ПФ) илиорбитальной ионной ловушки (Орбитрэп). Полученные спектры ГВ состоят из десятковтысяч пиков, при этом большинство из них обладают относительно невысокойинтенсивностью. Подбор брутто-формул происходит только на основании точной массызарегистрированных пиков. Из-за большого числа возможных комбинаций химическихэлементов и их изотопов алгоритмам удается подобрать молекулярные формулы дляподавляющего большинства зарегистрированных сигналов. Поэтому важнымпредварительных этапом является удаление шума из масс-спектров, поскольку такие пикимогут быть ошибочно интерпретированы как соединения, находящиеся в низкойконцентрации. За счет большого числа таких пиков это может привести к неверной оценкемолекулярного состава исследуемых ГВ.Применительно к объектам различной природы в литературе предложено несколькоподходов для фильтрации шума в масс-спектрах. Наиболее важным для нашей работыявляется метод, в котором используется распределение интенсивностей масс-спектрометрических пиков. Однако предложенные в рамках данного подходаалгоритмы не поддаются автоматизации, и результат их работы сильно зависит отпостроенной гистограммы интенсивностей, чей профиль может изменяться приварьировании числа столбцов. Из-за того, что каждый отдельный фильтр несовершенен, вконечных методиках анализа обычно последовательно используется несколько фильтров, что мы также учли в нашем исследовании.Цель работы. Разработка автоматизированного метода удаления шума из масс-спектроввысокого разрешения гуминовых веществ с использованием методов машинного обучения.