Аннотация:Искусственным аналогом мозга являются нейронные сети, использование которых лежит в основе многих подходов в области искусственного интеллекта (ИИ). Современные компьютеры при работе с нейросетями сильно отстают от своего биологического аналога в плане энергоэффективности, ограничивая внедрение нейронных сетей в различные робототехниче- ские и граничные (edge) устройства.В последнее время появилось новое направление ИИ – нейроморфные вычисления [1], ставящее своей целью воспроизвести свойства мозга, в частности, для повышения энергоэф- фективности ИИ. Такие нейроморфные чипы как Loihi, TrueNorth и NeuronFlow имеют энер- гопотребление меньше 1вт.Одной из причин их высокой энергоэффективности является использование вычислений в памяти (in-memory)/рядом с памятью (near-memory)[1]. Обращения в динамическую память сопровождаются на порядок большими энергетическими и временными затратами в сравне- нии с обращениями в кэш память, основанной на статической памяти и расположенной рядом с АЛУ. Использование большого количества статической памяти в этих чипах привело их к малым показателям по энергопотреблению. Эта стратегия соответствует подходам, которые использует мозг: каждый нейрон является одновременно и хранилищем данных, и вычислите- лем, таким образом реализую концепцию вычислений в памяти [1].Однако, на сегодняшних устройствах размер памяти рядом с вычислителем, ограничен по физическим и экономическим причинам. При этом, размеры современных нейросетей ве- лики, и продолжают расти. В связи с этим возникает вопрос об оптимизации размеров нейрон- ных сетей. Одними из самых популярных методов оптимизации нейронных сетей являются обрезание излишних весов и их квантизация. Оба данных подхода являются биологически подобными – в мозге нет полносвязных слоев, и зашумленная среда не дает возможность хранить веса с точностью присущей числам с плавающей точкой.Оба метода при комбинации позволяют уменьшить размер занимаемой памяти в десятки раз, что ведет к уменьшению обменов между памятью и вычислителем. Более того, можно реализовать хранение самих оставшихся весов внутри кэшей, сильно повысив пропускную способность получившейся системы. Таким образом, используя те же стратегии, что использует мозг мы приходим к более оптимальным по скорости и энергозатратам вычислениям.Таким образом кодизайн на основе разреженных квантизированных сетей и вычислений рядом с памятью на основе статической памяти может стать основой для энергоэффективных устройств нейронных сетей с низкими временем отклика. В докладе будут подробно рассмотрены методы оптимизации нейронных сетей, аппаратное обеспечение и их связь с мозгом.