Описание:Курс “Машинное обучение в биологии” предназначен для ознакомления студентов биоинформатических специальностей с методами классического и глубокого машинного обучения и их применением к биологическим, медицинским и хемоинформатическим задачам.
Общая продолжительность курса составляет 24 лекции по 2 академических часа. Для закрепления пройденного материала после каждых 2 лекций студентам выдается домашнее задание, выполнение которого необходимо для успешного завершения курса.
Основной акцент в курсе делается на алгоритмы, которые активно используются для решения биологических задач, разбор большинства алгоритмов сопровождается примерами их практического применения из научных статей, опубликованных в журналах Q1.
Первая часть курса посвящена классическим методам машинного обучения, которые сегодня остаются актуальными начиная с простых и нетребовательных к объему данных алгоритмов (линейная и логистическая регрессии), и переходя к сложным алгоритмам на основе ансамблей деревьев решений. Студенты смогут понять особенности методов, благодаря которым они до сих пор являются наилучшими для работы с табличными данными, которые часто возникают в биомедицинских приложениях.
Во второй части курса разбираются основы глубокого машинного обучения, в частности, как применяются сверточные нейронные сети к медицинским изображением (U-Net) и при работе с нуклеотидными последовательностями (DeepSEA, DeepVariant, Splice-AI), как используются генеративные сети для задач хемоинформатики (GENTRL) и разбирается механизм внимания, лежащий в основе таких нашумевших в биологии методов как AlphaFold2 и Enformer.
В ходе курса особое внимание будет обращаться на применимость алгоритмов к тем или иным задачам, в том числе, будут разобраны примеры того, что происходит, когда для задачи применяется неподходящий алгоритм. Будет разобрана и еще одна сторона работы с биологическими данными в машинном обучении – специфические утечки информации, приводящие к завышению оценке качества данных алгоритмов с одновременной невозможностью их применения на реальных данных, будут приведены конкретные поучительные примеры, такие как TargetFinder и его приложение к задаче предсказания взаимодействий регуляторных регионов генома человека. .
Помимо этого, в курсе обсуждается интерпретируемость получаемых моделей, которая особо важна в медицинских задачах и помогает лучше обнаруживать ситуации, в которых модель делает прогноз не на основе биологически релевантных закономерностей, а на основе шума, выученного на тренировочной выборке.
Основная цель курса – не превратить биоинформатика в эксперта в машинном обучении за 24 лекции, но дать ему базовую подготовку и понимание области, которые достаточны для дальнейшего уже самостоятельного изучения актуальной литературы по более узкой тематике и применения методов машинного обучения к своей задаче.