Машинное обучение в биологии - учебный курс | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Автор: Пензар Д.Д.
Год создания: 2019
Организация: МГУ имени М.В. Ломоносова
Описание: Курс “Машинное обучение в биологии” предназначен для ознакомления студентов биоинформатических специальностей с методами классического и глубокого машинного обучения и их применением к биологическим, медицинским и хемоинформатическим задачам. Общая продолжительность курса составляет 24 лекции по 2 академических часа. Для закрепления пройденного материала после каждых 2 лекций студентам выдается домашнее задание, выполнение которого необходимо для успешного завершения курса. Основной акцент в курсе делается на алгоритмы, которые активно используются для решения биологических задач, разбор большинства алгоритмов сопровождается примерами их практического применения из научных статей, опубликованных в журналах Q1. Первая часть курса посвящена классическим методам машинного обучения, которые сегодня остаются актуальными начиная с простых и нетребовательных к объему данных алгоритмов (линейная и логистическая регрессии), и переходя к сложным алгоритмам на основе ансамблей деревьев решений. Студенты смогут понять особенности методов, благодаря которым они до сих пор являются наилучшими для работы с табличными данными, которые часто возникают в биомедицинских приложениях. Во второй части курса разбираются основы глубокого машинного обучения, в частности, как применяются сверточные нейронные сети к медицинским изображением (U-Net) и при работе с нуклеотидными последовательностями (DeepSEA, DeepVariant, Splice-AI), как используются генеративные сети для задач хемоинформатики (GENTRL) и разбирается механизм внимания, лежащий в основе таких нашумевших в биологии методов как AlphaFold2 и Enformer. В ходе курса особое внимание будет обращаться на применимость алгоритмов к тем или иным задачам, в том числе, будут разобраны примеры того, что происходит, когда для задачи применяется неподходящий алгоритм. Будет разобрана и еще одна сторона работы с биологическими данными в машинном обучении – специфические утечки информации, приводящие к завышению оценке качества данных алгоритмов с одновременной невозможностью их применения на реальных данных, будут приведены конкретные поучительные примеры, такие как TargetFinder и его приложение к задаче предсказания взаимодействий регуляторных регионов генома человека. . Помимо этого, в курсе обсуждается интерпретируемость получаемых моделей, которая особо важна в медицинских задачах и помогает лучше обнаруживать ситуации, в которых модель делает прогноз не на основе биологически релевантных закономерностей, а на основе шума, выученного на тренировочной выборке. Основная цель курса – не превратить биоинформатика в эксперта в машинном обучении за 24 лекции, но дать ему базовую подготовку и понимание области, которые достаточны для дальнейшего уже самостоятельного изучения актуальной литературы по более узкой тематике и применения методов машинного обучения к своей задаче.
Добавил в систему: Пензар Дмитрий Дмитриевич

	ИСТИНА	Войти в систему Регистрация
	ФНКЦ РР
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ФНКЦ РР

Машинное обучение в биологииучебный курс

Преподавание курса