ИСТИНА |
Войти в систему Регистрация |
|
ФНКЦ РР |
||
Современные вычислительные комплексы (суперкомпьютеры) являются многокомпонентными и многопользовательскими системами, как правило имеющими кластерную архитектуру и управляемыми системами ведения очередей. Пользователи таких вычислительных комплексов как правило учёные или сотрудники конструкторских бюро или сотрудники отделов разработки врупных компаний. Задачи таких пользователей как правило ресурсоёмки и имеют свойство заканчивать выполнение на машине раньше своего директивного срока. Кроме всего прочего системные администраторы вычислительного комплекса могут проводить сложные административные политики. Как правило очереди задач на вычислительных комплексах достаточно длинны, и иногда до старта задачи на выполнение приходится ожидать днями или даже неделями. В статье далее представлен программный комплекс, который включает cервер на языке программирования python, клиентскую часть в форме специальнго параметра передаваемого системе ведения очередей, специальный plugin к slurm, который непосредственно собирает статистику и передаёт её серверу. Сервер взаимодействует с plugin-ом коллекционирует статистику, и обеспечивает запуск алгоритмов машинного обучения и дообучения которые строят модель очереди задач вычислительного кластера. После обучения, сервер используя модель выдаёт прогноз. Для обеспечения интерфейса пользователя была модифицирована программа sbatch являющаяся частью программного обеспечения Slurm Workload Manager. Сбор статистики и определение множества ресурсов осуществляется за счёт интеграции со стандартным plugin spank, является частью API Slurm Workload Manager.