Материалы ISSCC‑2021: SoC и ЦОС‑процессоры

Материалы ISSCC‑2021: SoC и ЦОС‑процессоры

Выпуск 6(6730) от 25 марта 2021 г.
РУБРИКА: ПРОИЗВОДСТВЕННАЯ БАЗА

Недавно прошла 68‑я Международная конференция по твердотельным ИС (International Solid State Circuit Conference, ISSCC). Обычно она проводится в первой половине февраля в Сан--Франциско (шт. Калифорния, США), но в этот раз прошла в виртуальном режиме – ​из-за пандемии коронавируса. Основными темами конференции стали ИС для сетей и средств связи 5G и радиолокационных систем, а также ИС цифровой обработки данных.


Нанолистовая технология GAA-транзисторов корпорации Samsung

Доклад «3‑нм СОЗУ на транзисторах с круговым затвором, использующее адаптивную двой-ную разрядную шину и адаптивную схему вспомогательного питания ячейки» (A 3nm Gate--All--Around SRAM Featuring an Adaptive Dual--BL and an Adaptive Cell--Power Assist Circuit) формально был посвящен развитию СОЗУ, однако в значительной мере представляет собой разбор достоинств технологии нанолистовых транзисторов с круговым затвором (GAA). Данная технология, которую Samsung рассматривает как альтернативу FinFET-технологии, должна начать использоваться при массово--поточном производстве ИС с конца 2021 г.

Речь идет не просто о GAA-транзисторах, а о полевых транзисторах с множественными мостиками канала (MBCFET). По сравнению с FinFET-транзисторами, возможности масштабирования которых подходят к своим физическим пределам, MBCFET обладают улучшенной электростатикой полностью окруженного канала транзистора. Управление каналом осуществляется с четырех (а не с трех, как у FinFET) сторон. Кроме того, технология MBCFET возвращает изменчивость проектирования, которая исчезла при замене планарных транзисторов на FinFET. Архитектура FinFET определяет ширину транзистора дискретно. Если требуется улучшить ток возбуждения, добавляется «плавник». Если необходимо изменить отношение полярностей транзисторов n-типа и p-типа, решение также заключается в увеличении числа «плавников».

Со своей стороны, архитектура MBCFET позволяет разработчикам плавно изменять ширину транзистора. Это обеспечивает лучшую оптимизацию потребляемой мощности, производительности и площади (рис. 1). Благодаря «бесступенчатости» изменения ширины нанолистового транзистора исследователи Samsung смогли также точно балансировать отношение p–n для лучшей оптимизации скорости считывания и записи ячейки.



Источник: ISSCC 2021

Рисунок 1. Транзисторы с нанолистовыми круговыми затворами улучшают гибкость конструкции и производительность СОЗУ (а, б)


Для дальнейшего повышения производительности СОЗУ разработчики Samsung предложили методику адаптивной двой-ной разрядной шины (ADBL). При параллельном подключении во время операции записи вспомогательной разрядной шины сопротивление основной разрядной шины снижается, что, в свою очередь, улучшает скорость записи. Сообщается, что использование методики ADBL не оказывает отрицательного влияния на быстродействие или потребляемую мощность во время операций считывания.

Второй подход, содействующий увеличению производительности, – ​это адаптивное вспомогательное питание ячейки (АСР). В рамках этого подхода к матрице ячеек добавляются верхний и нижний транзисторы, активирующиеся в зависимости от близости активной ячейки. За счет активации наиболее удаленного от активной ячейки переключателя обеспечивается улучшение скорости записи.

Для демонстрации возможностей новой технологии специалисты Samsung создали 256-Мбит тестовую СОЗУ на GAA-транзисторах. Ее эксплуатация показала, что улучшение конструкции ячейки за счет GAA-структуры, а также применение методик ADBL и ACP позволило снизить ток считывания–записи на 230 мВ.

Предполагается, что 3‑нм GAA-технология обеспечит развитие перспективных поколений «систем-на-кристалле» и других типов полупроводниковых приборов, реализуемых по новейшим технологиям с минимальными проектными нормами. Учитывая требования к внутрикристальной памяти, предъявляемые конструкциями SoC, достигнутые разработчиками Samsung улучшения вызвали значительный интерес.


Вычислительный ЦОС-процессор корпорации Qualcomm

Корпорация Qualcomm представила работу Thread--Level Power Management for a Current- and Temperature--Limiting System in a 7 nm Hexagon Processor, описывающую управление уровнями потребляемой мощности своего вычислительного ЦОС-процессора (compute digital signal processor, CDSP) Hexagon. В докладе было отмечено, что предшествующие методы управления режимом электропотребления SoC создавали проблемы с производительностью, в первую очередь на уровне операций, требующих малой потребляемой мощности.

Анализируя отдельные потоки выполнения задач, реализуемые процессором, разработчики Qualcomm продемонстрировали рост производительности потоков с малой потреб-ляемой мощностью до 35% (по сравнению с методами глобального «дросселирования»). Для потоков задач, при реализации которых требуется высокая потребляемая мощность, улучшения были малозаметны. В целом же по всем операциям CDSP Hexagon общее среднее увеличение производительности составило 11% (рис. 2).



Источник: ISSCC 2021

Рисунок 2. Вычислительный ЦОС-процессор Hexagon как один из основных вычислительных компонентов SoC Snapdragon корпорации Qualcomm


Потребность постоянного совершенствования внутрикристального управления режимом электропитания SoC, как правило, обусловлена как потребностями CDSP-блока в высоком токе, так и возможностями питания SoC или от аккумуляторной батареи, или через систему управления режимом электропитания ИС. Отмечается, что все это позволяет снизить вероятность и частоту сбоев в цепи электропитания [1].


Процессоры корпораций Microsoft, nVidia и Baidu

Корпорация Microsoft представила ЦОС-процессор для игровой приставки Xbox Series X, изготовленный по 7‑нм процессу фирмы TSMC. Этот процессор содержит 15,3 млрд транзисторов, площадь кристалла составляет 360 мм2, а сам кристалл заключен в корпус с матричным расположением шариковых выводов (BGA) размером 52×52 мм. В графическом процессоре содержится 52 вычислительных блока с тактовой частотой 1,8 ГГц, что обеспечивает скорость передачи данных 12 терафлопс (12 трлн операций с плавающей запятой в секунду). Также в ЦОС-процессоре используется восемь ядер центрального процессора с тактовой частотой 3,8 ГГц. Пропускная способность памяти составляет 566 Гбайт/с (20×16 GDDR6). В результате ЦОС-процессор Microsoft поддерживает игры с разрешением 4К (4096×3112 пикселей).

Еще один приверженец 7‑нм технологического процесса TSMC – ​корпорация nVidia. На ISSCC‑2021 она представила графический процессор А100, предназначенный для систем центров обработки данных (облачные вычисления, ускоряемые при помощи графических процессоров). Данный графический процессор содержит 54 млрд транзисторов, его площадь – ​826 мм2. Целевые приложения А100 – ​глубокое обучение на основе искусственного интеллекта и формирование логических выводов, аналитика данных, научные вычисления, геномика, краевая видеоаналитика и 5G-услуги, графический рендеринг и облачные игры.

Процессор поддерживает обработку таких типов данных, как BFloat16 (BF16), TensorFloat‑32 (TF32) и FP64, многообъектная визуализация, ввод–вывод со скоростью 50 Гбит/с (NVLink3) и протокол NVSwitch, обеспечивающий связь между графическими процессорами.

Режим многообъектной визуализации призван обеспечить полное использование возможностей процессора. Это позволяет реализовывать А100 в диапазоне от одного до семи изолированных графических процессоров, реконфигурируемых «на лету». При работе на частоте 1,41 ГГц эффективная пиковая обработка составляет 1248 терафлопс для 8‑разрядных целых чисел, 624 терафлопс для типа данных FP16 и 312 терафлопс для типа данных TF32.

Китайская корпорация Baidu представила первый собственный ускоритель искусственного интеллекта Kunlun, предназначенный для ЦОД. Процессор реализован по 14‑нм технологическому процессу корпорации Samsung, его пиковая производительность составляет 230 терафлопс (INT8) на частоте 900 МГц и до 281 терафлопс (INT8) при увеличении частоты до 1,1 ГГц. Пропускная способность памяти – ​512 Гбит/с, пиковая потребляемая мощность – ​160 Вт, площадь кристалла ИС – ​500 мм2.

Гибридная архитектура процессора Kunlun поддерживает не только ускорение перемножения матриц для задач глубокого обучения (поддерживается как собственно обучение, так и формирование логических выводов), но и программируемый кластерный вычислительный блок для реализации задач параллельной обработки данных, таких как научные вычисления.

Кристалл процессора содержит два вычислительных блока с расширенными возможностями (extended processor unit, XPU), каждый из которых имеет 8 Гбайт собственной памяти и 16 Мбайт распределенного внутрикристального СОЗУ. Связь блоков осуществляется при помощи «сети-на-кристалле» с пропускной способностью 256 Гбайт/с. Это позволяет одному блоку получать доступ к памяти с высокой пропускной способностью и общей внутрикристальной памяти, подключенной к другому блоку [2].


Визуализирующий процессор корпорации Sony

Корпорация Sony представила на ISSCC‑2021 12,3‑мегапиксельный КМОП-формирователь сигналов изображения со встроенным (этажированным) поверх него процессором на сверхточной нейронной сети (CNN) с удельной производительностью 4,97 терафлопс/Вт. Таким образом, данная SoC обладает искусственным интеллектом, позволяющим ей осуществлять идентификацию и отслеживание лиц различными способами (в том числе нежелательными). При этом корпорация Sony указывает, что для систем визуального ИИ, основанных на облачных вычислениях, существуют три критических проблемы: время ожидания, конфиденциальность и соотношение потребляемой мощности и стоимости (рис. 3).



Источник: ISSCC 2021

Рисунок 3. Конфиденциальность – одна из критических проблем облачной обработки визуального ИИ


Sony впервые применила процессоры обработки сигналов изображения совместно с формирователем сигналов изображения. Это широко используется в смартфонах и камерах, поэтому неудивительно, что корпорация продолжает внедрять инновации в данной области. Новинкой стали усилия по решению проблемы конфиденциальности. Этажирование CNN-процессора на КМОП-формирователь сигналов изображения позволяет разместить средства ИИ внутри модуля камеры. В результате из модуля будут выводиться не сами изображения, а только результаты анализа. То есть обладатель бесплатного сервиса в «облаке» не получит возможности -как-либо обращаться с самими фотографиями. Кроме того, размещение дополнительной обработки внутри камеры снимает нагрузку и на «облако», и на прикладной процессор самого смартфона [1].


1. Scansen Don. ISSCC: Focus on the SoC. EE Times, February 21, 2021: https://www.eetimes.com/isscc--focus-on-the-soc/?utm_source=newsletter&utm_campaign=link&

2. Bush Steve. Significant Digital Processors at ISSCC 2021. Electronics Weekly, February 16, 2021: https://www.electronicsweekly.com/news/design/significant--digital-processors--isscc


ЧИТАЙТЕ ТАКЖЕ

Выпуск 7(6731) от 08 апреля 2021 г. г.
Выпуск 7(6731) от 08 апреля 2021 г. г.