ИСТИНА |
Войти в систему Регистрация |
|
ФНКЦ РР |
||
Существует большое количество различных алгоритмов и программ для филогенетической реконструкции по аминокислотным последовательностям. Кроме того, результат многих алгоритмов зависит от задаваемых пользователем значений параметров. Для тестирования алгоритмов и параметров в настоящее время не существует общепринятого бенчмарка, подобного тому, каким долгие годы был BAliBASE для программ множественного выравнивания. Часто используемое тестирование на симулированных выравниваниях обладает очевидным недостатком: существующие программы симуляции генерируют выравнивания, по многим свойствам заметно отличающиеся от выравниваний последовательностей реальных белков. Нами разработаны два бенчмарка, каждый из которых состоит из набора выравниваний природных аминокислотных последовательностей и эталонных деревьев для этих последовательностей. Это позволяет оценивать качество филогенетической реконструкции по расстоянию в пространстве деревьев между реконструированным и эталонным деревьями. Для этих выравниваний выбирались ортологические ряды белков или отдельных белковых доменов, а эталонными деревьями служат филогенетические деревья соответствующих организмов. Первый бенчмарк состоит из выравниваний последовательностей отдельных эволюционных доменов, определённых согласно банку Pfam. Второй бенчмарк, работа над которым продолжается, состоит из ортологических рядов полноразмерных белков, не претерпевших перестановки или утрату доменов, что позволяет также с высокой надёжностью выделять ортологические ряды. В качестве эталонных деревьев брались либо не полностью разрешённые деревья, получаемые из таксономии NCBI, либо консенсусные деревья ("супердеревья") из деревьев, построенных разными методами по всем доступных ортологическим рядам, либо комбинированные деревья (супердеревья, построенные с ограничениями, диктуемыми таксономией NCBI). Выяснилось, что результаты мало зависят от выбора варианта эталонных деревьев. Для тестирования бенчмарков были проведены сравнения реконструкций, сделанных одним и тем же методом по исходным и специально "испорченным" выравниваниям, из которых удалялась часть информации. Эти тесты показали достоверное преимущество реконструкций по неиспорченным выравниваниям, что доказывает применимость системы к реальным сравнениям. Были проведены сравнения различных программ и параметров, а также тестирование программ фильтрации выравниваний. В примера можно привести такой результат: дерево с максимальной апостериорной вероятностью, выдаваемое популярной программой MrBayes, чаще оказывается дальше от эталона, чем выдаваемое ею же дерево, представляющее собой взвешенный консенсус по ансамблю деревьев. Кроме того, была выявлена зависимость относительного качества работы дистанционных методов (в первую очередь метода минимальной эволюции) и методов, основанных на принципе максимального правдоподобия, от длины белков: чем длиннее выравнивание, тем чаще максимально правдоподобное дерево оказывается лучше дистанционного. При тестировании эволюционных моделей, учитывающих неоднородность скорости эволюции по сайтам и приближающих распределение этих скоростей гамма-распределением, не было выявлено (вопреки распространённому мнению) никаких преимуществ по сравнению с моделями, предполагающими одинаковую скорость эволюции.