Новый алгоритм оценки эффективности ускорителей искусственного интеллекта

Новый алгоритм оценки эффективности ускорителей искусственного интеллекта

Выпуск 2 (6701) от 30 января 2020 г.
РУБРИКА: ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

Корпорация Flex Logix (г. Маунтин-Вью, шт. Калифорния, США) предложила новый алгоритм оценки эффективности ускорителей искусственного интеллекта (ИИ). Стандартная система оценки основывается на производительности ИС ускорителей ИИ, измеряемой в триллионах операций в секунду (TOPS). Flex Logix предлагает оценку по производительности в стоимостном выражении (в пересчете на доллар). Руководство корпорации также представило свое видение будущего отрасли.

Производительность, характеризуемая высокими значениями TOPS, не обязательно коррелирует с более высокой пропускной способностью. Это особенно актуально в краевых приложениях, где число пакетов (данных), обрабатываемых одновременно за одну итерацию алгоритма, равно единице. Например, в центрах обработки данных (ЦОД) пропускная способность может быть увеличена за счет параллельной обработки нескольких входных потоков с использованием укрупненных пакетов, но это часто не подходит для краевых устройств.

Специалисты корпорации Flex Logix сравнили свой прибор InferX X1 с одним из наиболее часто используемых на рынке графических процессоров. Хотя в графическом процессоре используется в 8 раз больше ДОЗУ, а TOPS выше в 10 раз по сравнению с InferX X1, его пропускная способность увеличивается больше всего в 3–4 раза. По мнению экспертов, это делает архитектуру Flex Logix намного более ресурсоэффективной.

Предложенная разработчиками Flex Logix система показателей (производительность в пересчете на доллар) выглядит разумно, но на практике не всегда легко найти надежную информацию о стоимости продуктов, позволяющую осуществлять прямые сопоставления. Индикаторами стоимости могут быть такие показатели, как число требующихся ДОЗУ или площадь поверхности конкретной ИС, однако они могут оказаться неточными (рис. 1).



Источник: Flex Logix

Рисунок 1. Устройство InferX X1 корпорации Flex Logix с производительностью около 8,5 TOPS

* FPGA – вентильная матрица, программируемая пользователем.

** DDR4 (double data rate) – технология ввода–вывода данных через интерфейс ДОЗУ с удвоенной скоростью. Цифра после DDR означает поколение технологии. С каждым поколением уменьшается потребляемая мощность и увеличивается пропускная способность.


Показатель TOPS часто оценивают на основе эталонного теста ResNet‑50, основанного на «остаточных»  (сверточных нейронных) сетях (ResNet – ​Residual Network – ​«остаточная сеть»). При этом ResNet‑50 не является наиболее показательным тестом, т. к. используются очень маленькие изображения, но он наиболее удобен для представления данных о результатах тестирования.

Несмотря на то что многие специалисты считают тест ResNet‑50 устаревшим, фактически он является стандартом для оценки значения TOPS. Существуют веские причины продолжать использовать его в подобном качестве – ​например, необходимость сохранения параметров оценки, по крайней мере тех, которые частично можно будет использовать для сопоставлений в будущем, а также сохранение этого стандарта доступным для всех типов устройств. Тем не менее надо понимать, что эталонный тест ResNet‑50 не может комплексно оценить новейшие кристаллы ИС, созданные для формулирования логических выводов на уровне ЦОД, а также продемонстрировать их возможности.

Помимо ResNet‑50 существуют и другие эталонные тесты ускорителей ИИ (MLPerf, DawnBench, EEMBC и т. д.), разрабатываемые различными организациями. MLPerf, например, позволяет формировать логические выводы, однако представители Flex Logix считают, что этот тест слишком ориентирован на ЦОД. Это иллюстрируется следующим примером: в ЦОД при сценарии с одним потоком, где краевой прибор обрабатывает по одному изображению за раз (число пакетов = 1), показатель производительности соответствует 90-процентильному времени ожидания (т. е. времени, за которое будет загружено 90% данных). Однако для краевых вычислений время ожидания имеет решающее значение, т. к. пользователям необходимо знать точное, а не приближенное время ожидания. Одним из краевых приложений, где время ожидания представляет собой критический фактор, является автономное вождение (рис. 2).



Источник: Flex Logix

Рисунок 2. Для сравнения современных высокопроизводительных ускорителей ИИ больше подходят сложные задачи обработки изображений, такие как обнаружение объектов


Значения времени ожидания, связанные с эффектом «длинного хвоста», представляют собой классическую проблему для системстрадающих от конкуренции за шину, поскольку информация передается между многими ядрами процессора и памятью. Хотя большинство современных устройств использует интерфейсы памяти с высокой пропускной способностью, теоретически необходимо по-прежнему учитывать величину времени ожидания в случаях возможного возникновения конфликтов, связанных с конкуренцией за шину.

Предлагаемая корпорацией Flex Logix конструкция процессора формирования логических выводов на основе встраиваемых вентильных матриц, программируемых пользователем (FPGA), каждый раз демонстрирует одинаковое время ожидания (на что также претендует корпорация Groq, хотя ее специалисты твердо уверены, что их устройство не является FPGA).

В конструкции Flex Logix используются межсоединения, разработанные специалистами корпорации. Благодаря их применению формируется полностью выделенный путь от элементов памяти через многочисленные аккумуляторы, к элементам логики (для активации) и обратно. За счет этого достигается непосредственная передача информации безо всяких конфликтов (таких как конкуренция за шину и т. п.). Архитектура Flex Logix не обеспечивает 100%-ного коэффициента использования, но данный показатель у нее выше, чем у любой другой из существующих архитектур аналогичного назначения.

Несмотря на рост числа ИС-стартапов в данном секторе, представители Flex Logix с оптимизмом смотрят на свои перспективы. По их мнению, фирмы, не находящиеся в верхней четверти рейтинга поставщиков, очень быстро исчезнут. Это произойдет, когда микросхемы ускорителей ИИ и соответствующее ПО выйдут на стадию массового производства и станут известны данные по цене и потребляемой мощности ИС. Предполагается, что в ближайшие год или два произойдет масштабный отсев продукции и станет ясно, какие продукты и какие фирмы выживут в изменчивом мире микроэлектроники.

По прогнозам представителей Flex Logix, сектор схем ускорителей ИИ может поддерживать от 10 до 15 типов ИС, соответствующих разным сегментам рынка (обучение, формирование логических выводов, ЦОДы, краевые вычисления, приборы со сверхнизкой потребляемой мощностью и т. д.). Предлагаемые сегодня решения охватывают несколько диапазонов вычислительной мощности, поэтому они не конкурируют друг с другом напрямую.


Ward-Foxton Sally. AI Accelerators: TOPS is Not the Whole Story. EETimes magazine, December 9, 2019: https://www.eetimes.com/ai-accelerators-tops-is-not-the-whole-story/


МНЕНИЕ ЭКСПЕРТА

Олег Варламов

Проблема измерения скорости реальных вычислений известна давно. Разработаны научные методы и модели по созданию «эволюционных» и адаптивных программно-аппаратных комплексов, в которых «железо» «подстраивается» под решаемые задачи.

Каждый разработчик нового специализированного «железа» в маркетинговых целях старается предложить свою шкалу измерений, на которой у него будет преимущество перед конкурентами. Поэтому желание корпорации Flex Logix навязать свою систему измерений понятно.

Некоторые компании предлагают измерять «в объеме вреда для окружающей среды» – ​учитывая количество потребляемой электроэнергии; другие – ​«в пересчете на доллар» – ​меняется в зависимости от страны; третьи – ​«во времени автономной работы» – ​важный параметр для Интернета вещей. Таких вариантов может быть достаточно много. Напомню, что универсальные процессоры в недавнем прошлом победили суперкомпьютеры ХХ века именно по критерию «цена/скорость». Понятно, что чем меньше серия выпускаемого оборудования, тем оно объективно получается дороже. Мы видим очередной виток соревнования разных производителей компьютерного оборудования.

Однако пользователи оборудования должны проверять эффективность и скорость работы «железа» на своих наборах данных и наиболее часто используемых программах. Если универсальные ЦОДы используются для решения разных типов математических задач, то целесообразно устанавливать в них и разное «железо» – ​специализированные процессоры, на которых и будут запускаться соответствующие им математические задачи.


ЧИТАЙТЕ ТАКЖЕ

Выпуск 22(6746) от 11 ноября 2021 г. г.
Выпуск 21(6745) от 28 октября 2021 г. г.