Аннотация:Системы мониторинга суперкомпьютерных комплексов – важная часть их программного обеспечения, призванная обеспечить максимально эффективное и бесперебойное функционирование, а в случае возникновения нештатных ситуаций – обеспечить сохранность оборудования и оповещение персонала. Существующие системы мониторинга справляются с задачами обеспечения сохранности оборудования, хотя достижение нужного времени реакции для больших комплексов может быть непростой задачей. Кроме того, возникла еще одна важная область использования систем мониторинга – мониторинг производительности. Существующие системы предназначены для исследования отдельных конкретных задач, или суперкомпьютера в целом и не могут быть использованы для исследования производительности всего потока задач, работающих на суперкомпьютере, и оценки эффективности использования суперкомпьютера в целом одновременно. Мониторинг производительности вычислительных комплексов в целом и отдельных программ – важная задача, решение которой позволяет оценить эффективность использования имеющихся ресурсов и предложить пути увеличения эффективности выполняемых программ. В статье рассмотрен подход к созданию системы мониторинга производительности, который позволит исследовать производительность всего потока задач, выполняющихся на вычислительном комплексе. Предлагаемый подход основан на возможности направления разных потоков данных по различным путям передачи, динамической реконфигурации режимов работы системы, обеспечении вычисления метрик производительности без промежуточного сохранения данных мониторинга на диск, и переносе части обработки данных на вычислительные узлы суперкомпьютера. Рассмотрены детали реализации системы мониторинга, основанной на указанном подходе, и приведены результаты измерения производительности разрабатываемой системы.