ВЫБОР РЕДАКЦИИ

Перспективы развития микроконтроллеров с краевым искусственным интеллектом

Проблемы разработки программно-управляемого аппаратного обеспечения

Искусственный интеллект – перспективы развития

Наступление эры искусственного интеллекта реального масштаба времени

Искусственный интеллект и увеличение интереса к краевым вычислениям

Бесшовная связь – становой хребет Четвертой промышленной революции

Использование биометрии в Сухопутных войсках США

Вопросы развития краевых вычислений

Машинное обучение открывает новые возможности FPGA

Материалы Симпозиума SEMI по промышленной политике

Современное состояние и перспективы развития рынка САПР

Teraki совершает «квантовый скачок» в сфере больших данных

Бум стартапов во Франции

Материалы Симпозиума SEMI по промышленной политике

Вопросы развития краевых вычислений

Экономические аспекты развития технологий искусственного интеллекта

О перспективах рынка потребительской электроники

Превосходство КНР в области искусственного интеллекта: правда или миф?

Некоторые проблемы развития памяти с высокой пропускной способностью

Новые тенденции использования машинного обучения при проектировании и обработке изображений

УЗ-датчики контроля социального дистанцирования от Chirp Microsystems

Средства искусственного интеллекта учатся распознавать звуки

Средства искусственного интеллекта учатся распознавать звуки

Выпуск 7 (6706) от 09 апреля 2020 г.
РУБРИКА: ОБОРУДОВАНИЕ

Сфера применения искусственного интеллекта постоянно расширяется. Одной из новых областей становится распознавание звуков – ​задача, в отличие от распознавания речи, традиционно довольно сложная для ИИ. Лаборатория Audio Analytic (Кембридж, Великобритания), работающая в данной области, в частности, ставит своей целью разработку средств ИИ, способных безошибочно выделять из общего фона звуки выстрелов из огнестрельного оружия.

Как известно, существует большая разница между звуком, который на самом деле возникает при выстреле, и звуком, который человек чаще всего с ним ассоциирует. Дело в том, что доходящий до человека звук выстрела состоит не только из исходного звука, но и из его многочисленных отражений в окружающей среде.

Задача создания ИИ, который можно надежно использовать для обнаружения выстрелов, приводит к необходимости четко разделять эти два звука – ​поскольку нам нужна реакция только на звук, производимый оружием, а не на звуки, воспроизводимые окружающей средой.

Одна из организаций, ведущих работы в этой области, – ​лаборатория Audio Analytic. Она также проводит исследования звуков различных систем оповещения (в т. ч. дымовых пожарных сигнализаций): звуки от этих устройств тщательно записываются и используются для того, чтобы научить ведущие мировые модели ИИ распознавать их.

Модели машинного обучения позволяют снабдить машины слуховым восприятием, что дает им возможность воспринимать контекст, состоящий из звуков, регистрируемых в окружающей среде. Построенная таким образом система безопасности способна распознать и отличить, например, звук сигнализации или выстрелы. В то же время существует множество приложений для потребительских устройств, которые могут анализировать звуковую обстановку, в которой они находятся, и использовать этот контекст, чтобы либо предпринимать действия, либо тонко настраивать свои логические выводы на основе звуков.

Ключ к обучению модели ИИ для точного распознавания звуков – ​данные. Сбор высококачественных данных и их правильная маркировка имеют первостепенное значение для создания эффективных моделей, способных обеспечить точное распознавание звука даже при ограниченных объемах вычислительной мощности.


Модели микромашинного обучения

Одно из последних достижений лаборатории – ​распознавание искусственным интеллектом определенного звука с помощью модели, созданной на основе ядра Cortex-M0+ фирмы ARM, входящего в состав процессора Kinetis KL82 корпорации NXP. Данная модель способна распознать детский плач. В процессоре Kinetis KL82 нет специализированных СФ-блоков машинного обучения типа ядра ЦОС-процессора, однако он обладает достаточным объемом флэш-памяти (128 кБ) и оперативной памяти (96 кБ) и потребляет всего несколько десятков милливатт.

Установка библиотеки программного обес-печения ai3 лаборатории Audio Analytic на микроконтроллер была непростой задачей. Удаление функций, предназначенных для более крупных систем, таких как способность записывать и воспроизводить звуки, и инструментов отладки позволило значительно сократить ПО. Модель распознавания детского крика – ​одна из самых маленьких среди созданных Audio Analytic (рис. 1).



Источник: Audio Analytic

Рисунок 1. Стандартная плата разработки микроконтроллеров NXP (светодиод меняет цвет при регистрации детского крика)


Для обработки операций используется язык ассемблера, что уменьшает время, необходимое для обработки каждой выборки аудио, до требуемого окна длительностью 16 мс (выборка с частотой 16 кГц и одновременный отбор 256 выборок означает, что за один раз необходимо обработать 16 мс звука).

Реальное время выполнения операции обычно составляет от 11 до 12 мс, что обеспечивает небольшой резерв на случай превышения объема обрабатываемых данных. Это позволяет не отставать от потоковой передачи входных данных в реальном масштабе времени.


Метки данных

Распознавание звука, в отличие от распознавания речи, традиционно является довольно сложной задачей для ИИ. Как Audio Analytic удается разместить свою модель на таком крошечном устройстве?

Модель распознавания звука Audio Analytic – ​AuditoryNET – ​довольно специфична, в значительной степени благодаря высококачественным меткам данных, которые используются для ее обучения. Метки играют важную роль: они сообщают модели, какие фрагменты звука являются значимыми, так что модель детского крика в конечном итоге создает функции, основанные, например, на звуках дыхания ребенка между криками, а не на самом крике.

Метки данных помогают машине воспринимать только те элементы аудиосреды, которые соответствуют заданному звуку. Если ввести в машину больше данных, увеличится вариативность. Как правило, чем точнее помечаются данные и чем больше данных вводится в модель в процессе машинного обучения, тем меньше эти данные усваиваются. Очевидно, что есть предел восприятия, но если он не перейден, то в целом чем больше воспринимаемых данных обобщают модели, тем лучше они распознают действительно существенные характеристики конкретного звука.

Одним из способов визуализации этой концепции студии Audio Analytic является ее звуковая карта Alexandria. Приведенная на видео диаграмма (рис. 2) – ​это двухмерное представление 15 млн звуков в наборе аудиоданных лаборатории, распределенных по 700 типам меток в многомерном пространстве. Этот набор звуков включает в себя все – ​от аварийных сирен и сигнализаций до антропогенных шумов, таких как смех, кашель и чихание. Классифицировать определенный звук – ​значит обвести контуром соответствующие точки на диаграмме.



Источник: Audio Analytic

Рисунок 2. Звуковая карта Alexandria от Audio Analytic представляет собой 2D-визуализацию 15 млн звуков, которые лаборатория включила в свой набор аудиоданных. Отдельные цвета представляют разные классы звуков. Сложность обучения слуховых аппаратов обусловлена тем, что многие несвязанные звуки имеют перекрывающиеся или уникальные функции


Чем сложнее и разрозненнее эти данные и чем больше в них шума, тем сложнее формы, которые необходимо нарисовать, и тем сильнее подверженность системы ошибкам. Кроме того, добавление большого числа параметров существенно увеличивает модель, поэтому необходимо искать компромисс между наименьшим, самым компактным и самым четким представлением об основной изменчивости записываемых звуков. Если 20% ярлыков отключаются на 50 мс, значит, в модель распознавания было введено множество излишних данных, что ведет к ненужной затрате ресурсов на несущественные параметры – ​и с точки зрения памяти, и с точки зрения энергопотребления, и с любой другой точки зрения.

В отличие от моделей обработки речи и языка, где существуют большие объемы обучающих данных с открытым исходным кодом, для звуков такие наборы данных до сих пор не создавались. Сбор и маркировка обучающих данных потребовали от лаборатории Audio Analytic значительных затрат, поэтому эти данные представляют собой значительную часть интеллектуальной собственности компании.

Модели звука принципиально отличаются от широко доступных моделей обработки речи и языка. Анализ физического процесса, с помощью которого создается звук, значительно отличается от анализа речи. В целом звуки намного разнообразнее, чем речь; кроме того, любые звуки могут следовать за любой другой последовательностью звуков. Таким образом, проблемы распознавания образов и полученные модели машинного обучения выглядят совершенно иначе, чем их речевые аналоги.


Реальные приложения

Внедрение функции распознавания звука в небольшие микроконтроллеры открывает много возможностей. То, что было вычислительно-сложной задачей, теперь представляет собой реальную перспективу для смартфонов, бытовой техники и электроники, наушников или любого изделия с микроконтроллером. Смартфоны часто оснащаются процессором класса M4, на котором выполняется функция активизации по ключевым словам, удаленная из прикладного процессора. Но использование недорогого и достаточно энергоэффективного сопроцессора M0+ делает возможным распознавание широкого спектра звуков в режиме непрерывной работы, без перехода в режим ожидания.

Одна из предыдущих демонстраций компании, осуществленная с использованием процессора Ambiq Micro, показала возможность работы разработанной лабораторией системы ИИ в течение нескольких лет на паре пальчиковых батарей типа АА. В последней демонстрации использовался процессор Ambiq Micro SPOT (SPOT – ​технология оптимизации подпороговой потребляемой мощности) на основе ядра Cortex-M4 со сверхнизким энергопотреблением, а также пьезоэлектрический MEMS-микрофон Vesper, не потребляющий энергию даже при постоянном прослушивании. Эта демонстрация показала, что сочетание микрофона и процессора со сверхнизким энергопотреблением может реагировать достаточно быстро, чтобы обнаружить импульсные звуки, такие как звук разбитого стекла (рис. 3).



Источник: Audio Analytic

Рисунок 3. Демонстрация системы ИИ на основе процессора Ambiq Micro SPOT со сверхмалой потребляемой мощностью и микрофона Vesper MEMS показала достаточную чувствительность к звуковым импульсам (таким как звук битого стекла)


Системы умного дома могут уменьшить звук на телевизоре пользователя при обнаружении детского крика и вместо этого начать воспроизводить живой звук из детской комнаты, возможно, даже отправляя на телеэкран изображение «картинка в картинке», транслируемое камерой «радионяни». Но есть и более специфические варианты использования подобных систем. Наряду с распознаванием определенных звуков ai3 может классифицировать звуковую среду в разных условиях, а затем использовать эту информацию для настройки звуковых параметров таких потребительских приборов, как наушники. Это может быть настройка параметров эквалайзера или усиление активного шумоподавления в наушниках, когда человек перемещается из одной звуковой среды в совершенно другую – ​например, с шумного вокзала в тихий поезд. Настройка параметров может сочетаться с реакциями на определенные звуки, такими как активация режимов звуковой прозрачности для аварийных сигналов или сирен.

Такие типы приложений сегодня вполне возможно создать при правильной комбинации модели машинного обучения, данных обучения и оборудования. Заглядывая в будущее, можно представить себе еще более сложные аудиоприложения для ИИ, выходящие за рамки базового голосового управления, работающие на аппаратных средствах с ограниченными ресурсами. Производители микросхем продолжают расширять возможности своих устройств и приспосабливать их к потребностям машинного обучения. Основная цель заключается в том, чтобы обеспечить машины слуховым восприятием, позволяя им более успешно судить о контексте, используя звуки, и в конечном счете стать еще «умнее».


Ward-Foxton Sally. AI Sound Recognition on a Cortex-M0: Data is King. EETimes magazine, March 10, 2020: https://www.eetimes.com/ai-sound-recognition-on-a-cortex-m0-data-is-king/


МНЕНИЕ ЭКСПЕРТА

Олег Варламов

В статье показано практическое использование методов искусственного интеллекта для распознавания различных звуков, но не человеческой речи. Это важное отличие, которое фактически позволяет настраивать систему распознания на конкретный звук: выстрел, разбитое стекло, плач ребенка и т. п. Задача весьма специфичная и сложная, если учитывать аппаратные ограничения и реальное время работы. Важно, что решение доведено до практической реализации и это открывает новые перспективы в плане создания интеллектуальных киберфизических систем и интернета вещей.

Реализация этого программного обеспечения на микроконтроллерах – очень сложная задача. Фактически теперь можно создавать достаточно интеллектуальные и миниатюрные датчики, которые будут срабатывать на различные звуки и в реальном времени посылать соответствующие команды на системы обработки информации более высокого уровня.

Вместе с тем такое многообразие возможностей по распознаванию звуков позволит перей-ти к применению логических рассуждающих систем принятия решений, которые ранее называли экспертными системами реального времени. Например, миварные гносеологические активные сети также способны обрабатывать более 5 млн правил «если… то» в реальном масштабе времени и на обычных компьютерах. В ближайшей перспективе миварные системы принятия решений (ЭС нового поколения) также можно будет реализовать на микроконтроллерах. Тогда киберфизические системы смогут в реальном времени принимать решения как на рефлексном, так и на логическом уровнях искусственного интеллекта. И их возможности будут значительно превосходить способности человека-оператора.


ЧИТАЙТЕ ТАКЖЕ