ВЫБОР РЕДАКЦИИ

Перспективы развития микроконтроллеров с краевым искусственным интеллектом

Проблемы разработки программно-управляемого аппаратного обеспечения

Искусственный интеллект – перспективы развития

Наступление эры искусственного интеллекта реального масштаба времени

Искусственный интеллект и увеличение интереса к краевым вычислениям

Бесшовная связь – становой хребет Четвертой промышленной революции

Использование биометрии в Сухопутных войсках США

Вопросы развития краевых вычислений

Машинное обучение открывает новые возможности FPGA

Материалы Симпозиума SEMI по промышленной политике

Современное состояние и перспективы развития рынка САПР

Teraki совершает «квантовый скачок» в сфере больших данных

Бум стартапов во Франции

Материалы Симпозиума SEMI по промышленной политике

Вопросы развития краевых вычислений

Экономические аспекты развития технологий искусственного интеллекта

О перспективах рынка потребительской электроники

Средства искусственного интеллекта учатся распознавать звуки

Превосходство КНР в области искусственного интеллекта: правда или миф?

Некоторые проблемы развития памяти с высокой пропускной способностью

Модуль Seal для моделей рекомендаций

Глубокое обучение и предельные краевые вычисления

Глубокое обучение и предельные краевые вычисления

Выпуск 20 (6719) от 15 октября 2020 г.
РУБРИКА: ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

В предыдущем выпуске (см. первую часть статьи) было опубликовано начало статьи о разработке корпорации Eta Compute, предназначенной для краевых вычислений. Были рассмотрены вопросы глубокого обучения в предельных краевых вычислениях, проблемы с данными и распространением Интернета вещей на основе ИИ, начато описание уникального подхода Eta Compute.


Гибридная многоядерная архитектура

Перед началом проектирования нейросенсорного процессора необходимо рассмотреть потребности полного интеллектуального узла Интернета вещей. Такой узел должен получать данные от датчиков, выполнять некоторую обработку сигналов и извлечение функций, а затем запускать алгоритм машинного обучения. После этого приложение анализирует формируемый вывод и, при необходимости, устанавливает сетевое соединение с облаком (рис. 1).



Источник: Eta Compute

Рисунок 1. Структура интеллектуального узла Интернета вещей


Узлы Интернета вещей требуют уникальной комбинации трех вычислительных рабочих нагрузок: процедурного программирования, цифровой обработки сигнала и ускорения операций умножения с накоплением (multiply/accumulate, MAC). Лучшая архитектура – ​многоядерная. Исходя из этого, специалисты Eta Compute объединили процессор Cortex-M фирмы Arm (процедурная нагрузка) с двойным MAC16-разрядным ЦОС-процессором DSP (обработка сигналов и ускорение MAC). Цель состояла в разработке архитектуры микроконтроллера, обеспечивающей интеграцию с аналоговыми операциями, управление режимом электропотребления и памяти вместо сосредоточения исключительно на ускорителе нейронной сети. Получившаяся в итоге архитектура позволяет реализовывать любую рабочую нагрузку в любой комбинации: сетевые стеки, операционные системы реального времени, цифровые фильтры, частотно-временные преобразования, рекуррентные нейронные сети (RNN), сверточные нейронные сети (CNN) и традиционный ИИ, такой как поиск, деревья решений и линейная регрессия.


Преимущества многоядерного процессора

Выбор правильного ядра для основной рабочей нагрузки порождает мультипликативный эффект. Для задач обработки сигналов ЦОС-процессоры более эффективны, чем центральные процессоры. Мало кто знает, но они также способны ускорять задачи машинного обучения. Глубокие нейронные сети по сути представляют собой конвейеры операций, в которых операнды циркулируют сверху вниз. Наиболее популярны три типа глубоких нейронных сетей: сверточные нейронные сети CNN, сети на управляемых рекуррентных нейронах (GRU) и рекуррентные сети на долгой краткосрочной памяти (LSTM).

Наиболее циклически интенсивная операция в этих сетях – ​матричное умножение, которое находится в центре полностью связного слоя, операций CNN, GRU и LSTM. Переведенное в режим работы процессора, перемножение матриц интенсивно использует операции умножения с накоплением.

В рассматриваемом случае выбранный ЦОС-процессор представляют собой двойной MАС ЦОС-процессор, способный выполнять за один цикл две 16×16 операции умножения с накоплением. Кроме того, он извлекает выгоду из присущих ЦОС-архитектуре вычислительных преимуществ – ​двойные банки памяти, нулевые задержки цикла, сложная генерация адресов. Это означает, что при вычислениях нейронной сети он будет в 2–3 раза эффективнее микроконтроллера (рис. 2).



Источник: Eta Compute

Рисунок 2. Сопоставление эффективности двойного MAC ЦОС-процессора и микроконтроллеров при нейронных вычислениях


Преимущество усиливается за счет многоядерного подхода с использованием технологии непрерывного масштабирования напряжения и частоты (continuous voltage and frequency scaling, CVFS). Поскольку при использовании CVFS напряжение уменьшается с частотой, помимо повышения эффективности специализированного ядра более низкая частота, а следовательно, более низкое напряжение приводят к квадратичному снижению потребляемой мощности для данной рабочей нагрузки. Использование многоядерной гибридной архитектуры с CFVS дает дополнительный 10-кратный прирост энергоэффективности устройства. Специалисты корпорации достигли примерно 100-кратного снижения потребляемой мощности, но считают, что могут добиться большего.


Нейронный сенсорный процессор производственного класса

Недавно корпорация Eta Compute представила процессор производственного класса на нейронных датчиках – ​ECM3532. Это «система-на-кристалле» (SoC), в состав которой входят: центральный процессор Cortex-M3 фирмы ARM, ЦОС-процессор CoolFlux фирмы NXP, флэш-память емкостью 512 Кбайт и 352-Кбайт СОЗУ, а также поддерживающие периферийные устройства. SoC ECM3532 реализована с использованием фирменной технологии CVFS, что позволяет работать с напряжением, близким к пороговому напряжению. При работе с нейронными сетями его ток не превышает 1 мкА (табл. 1).


Таблица 1

Примеры нейронных сетей (обученных на нейронной сети TensorFlow, 8-разрядное квантование)

Применение

Точ- ность, %

Тип

Название

Весовые коэффициенты, Кбайт

Буфер, Кбайт

Всего, Кбайт

Сила тока при напряжении 3 В, мкА

Время формирования вывода, с

Распознавание изображений (по набору данных CIFAR10)

90

CNN

Net1

84

18

110

500

5,0

Аудио: звуки, битье стекол, визги, тишина, неизвестные звуки

90

CNN

Net2

226

8

250

500

1,0

Датчик движения: ходьба, подъем и спуск по лестнице, подпрыгивание, стояние, сидение

97

CNN

Net3

21

35

72

380

50,0

Речь: всегда по ключевым словам – ​«да», «нет», тишина, прочее

96

GRU

Net4

78

2

96

300

1,8

Речь: всегда по 10 ключевым словам

93

LSTM

Net5

64

4

68

300

1,2


Разработка нейронных сетей для встраиваемых приборов – ​сложная задача, требующая глубоких навыков в областях встраивания и искусственного интеллекта как для оптимизации собственно сети, так и для оптимизации энергопотребления в целом. Часто публикуемые результаты тестирования нейронных сетей относятся к сетям, не предназначенным для предельных краевых вычислений. Специалисты Eta Compute разработали совместно с партнерами различные методы проектирования и оптимизации, которые значительно повышают эффективность нейронных сетей. В частности, была оптимизирована CNN для набора данных CIFAR‑10. По сравнению с опубликованным академическим результатом [3] исследователям корпорации удалось снизить быстродействие почти в 10 раз, а размер весовых коэффициентов уменьшить почти вдвое (табл. 2).


Таблица 2

Результаты оптимизации набора данных CIFAR‑10, осуществленной специалистами корпорации Eta Compute

Набор данных CIFAR‑10

Опубликованные результаты

Сеть ЕТА Computing

Число слоев

7

7

Точность (фиксированная запятая), %

79,9

81,82

Весовые коэффициенты, Кбайт

87

50,7

Быстродействие, млн операций/с

24,7

2,6


Благодаря этому дополнительному технологическому усовершенствованию разработчики Eta Compute могут добиться общего повышения эффективности (по сравнению с прямой реализацией нейронных сетей на стандартном микроконтроллере) в 1000 раз (табл. 3).


Таблица 3

Факторы и кратность повышения эффективности нейронных сетей при использовании технологий Eta Compute

Факторы повышения эффективности

Кратность

CVFS на одном ядре

10×

Гибридная многоядерная сеть

10×

Оптимизация нейронной сети для предельных краевых вычислений

10×

Общее улучшение эффективности с методикой Eta Compute

1000×


Повсеместное интеллектуальное масштабирование: следующий шаг – ​ПО

В дальнейших планах Eta Compute – ​повсеместное масштабирование ИИ вплоть до самых маленьких встраиваемых приборов. Кроме того, предполагается сделать реальностью Интернет вещей на основе ИИ – ​AIoT. С помощью технологии CVFS и SoC ECM3532 специалисты корпорации решили аппаратные проблемы, препятствующие широкому развертыванию ИИ в области предельных краевых вычислений.

Технология CVFS хорошо масштабируется: она одинаково работает на любом уровне топологических норм, сочетается с производственными процессами любого кремниевого завода и любыми технологическими процессами. Даже в случаях с технологиями, обеспечивающими «сверхнизкую утечку» или «сверхнизкую потребляемую мощность», применение технологии CVFS приводит к снижению потребляемой мощности в 5–10 раз. В сочетании с преимуществами многоядерной архитектуры и нейросетевой оптимизации специалисты Eta Compute приближаются к 1000-кратному выигрышу в эффективности. Эта технология обеспечит возможность создания приложений дополненной реальности с батарейным питанием на основе ИИ, оснащенных интеллектуальными датчиками и устройствами сбора и преобразования энергии, а также сделает возможным формирование логических выводов на основе глубокого обучения во всех приборах Интернета вещей.

Следующим шагом будет преодоление сложности ПО при реализации нейронных сетей в малых приборах. Eta Compute работает над созданием нового подхода к разработке ПО, который позволит ускорить средства глубокого обучения производственного уровня для встраиваемых приложений. При этом предполагается использовать преимущества многоядерных процессоров, задействующих технологию CVFS [4].


1. Lu Z., Pu H., Wang F., Hu Z., Wang L. The Expressive Power of Neural Networks: A View from the Width. Neural Information Processing Systems, 2017, 6231–6239. 

2. IDC IOT DATA prediction: https://www.idc.com/getdoc.jsp?containerId=prUS45213219 

3. Lai et al. CMSIS-NN: Efficient Neural Network Kernels for Arm Cortex-M CPUs. 

4. Raghavan Gopal. Deep Learning at the Extreme Edge: A Manifesto. September 1, 2020: https://www.semiconductor-digest.com/2020/09/01/deep-learning-at-the-extreme-edge-a-manifesto/


ЧИТАЙТЕ ТАКЖЕ

Выпуск 22(6746) от 11 ноября 2021 г. г.
Выпуск 21(6745) от 28 октября 2021 г. г.