Масштабирование и задержки сигнала на межсоединениях

Масштабирование и задержки сигнала на межсоединениях

Выпуск 22 (6721) от 12 ноября 2020 г.
РУБРИКА: МИКРОЭЛЕКТРОНИКА

По мере перехода к каждому новому технологическому уровню с меньшими топологиями увеличиваются задержки, обусловленные металлическими межсоединениями, что частично сводит на нет преимущества использования транзисторов с увеличенным быстродействием. Данная проблема заставляет проектировщиков «систем-на-кристалле» (SoC) переосмыслить методы их формирования. Появляются новые высокоуровневые архитектурные подходы к проектированию SoC.

Зрелые архитектуры появились в то время, когда главным ограничивающим фактором было время вычислений. Сейчас же по мере того, как основным ограничивающим фактором на перспективных технологических уровнях (с меньшими проектными нормами) становятся межсоединения, появляется возможность переосмыслить подходы к формированию «систем-на-кристалле» (SoC). Время задержки сигнала на межсоединениях – ​фундаментальная точка баланса для любой архитектуры компьютера. При разработке архитектуры процессора время задержки сигнала на межсоединениях всегда принимается во внимание. Правда, ранее данный ограничивающий фактор рассматривался в основном применительно к перемещению данных между кристаллами ИС. В настоящее время перемещение данных в необходимое место все чаще требует значительных затрат времени даже в пределах кристалла ИС. Это приводит к появлению новых подходов к проектированию SoC на основе архитектур высокого уровня.


Разнонаправленное движение

Цели процесса масштабирования (пропорционального уменьшения размеров) топологических элементов имеют принципиально двойственную структуру. С одной стороны, это создание более быстродействующих транзисторов, а с другой – ​достижение возможности размещения на заданной площади кристалла ИС большего числа транзисторов. До сих пор удавалось успешно реализовывать обе эти цели. Однако соединение таких транзисторов с увеличенным быстродействием требует использования межсоединений, а если межсоединения занимают слишком много места, то цель интеграции достигнута не будет.

Производители ИС формируют межсоединения в виде все более узких токопроводящих дорожек, расположенных все ближе друг к другу. Линейное сопротивление обратно пропорционально площади поперечного сечения проводника. Сужение проводника приводит к уменьшению поперечного сечения. Это можно компенсировать, увеличив высоту токопроводящих дорожек (аналогично подходу, используемому в запоминающих конденсаторах ДОЗУ). Но если расстояние между ними чрезмерно сокращается, то высокие токопроводящие дорожки фактически превращаются в металлические пластины с высокой емкостью, что, в свою очередь, увеличивает время задержки (рис. 1).



Источник: Semiconductor Engineering

Рисунок 1. Удельное сопротивление металлических токопроводящих дорожек пропорционально их поперечному сечению. В верхней левой части рисунка показано концептуальное изображение традиционных широких токопроводящих дорожек. В правой верхней части показаны суженные токопроводящие дорожки с уменьшенными расстоянием между ними и поперечным сечением, а также увеличенным удельным сопротивлением. Нижняя часть рисунка иллюстрирует попытку совместить исходную площадь поперечного сечения и уменьшенное расстояние между токопроводящими дорожками, что приводит к увеличению взаимной емкости


Таким образом достигается баланс между поперечным сечением и сопротивлением, с одной стороны, и высотой токопроводящей дорожки и взаимной емкостью – ​с другой стороны. Чистый эффект заключается в увеличении времени задержки сигнала на металлических токопроводящих дорожках в 10 раз за последние 20 лет (со 100 пс до 1200 пс на провод сечением 1 мм). Даный фактор не только работает против увеличения быстродействия транзисторов, но и изменяет баланс вклада транзисторов и межсоединений в длительность времени задержки.

Уменьшенное время передачи сигнала по токопроводящей дорожке не всегда становится причиной большой разницы в фактической задержке данного сигнала. С технической точки зрения емкость и сопротивление межсоединений значительно выросли. При этом расстояние между транзисторами в среднем сократилось. В современных этажерках число слоев металлизации при использовании 5-нм технологического процесса может доходить до 16 – ​по сравнению с 10 на уровне 28-нм проектных норм. Отмечается, что не все слои страдают одинаково – ​самые низкие слои с наименьшими токопроводящими дорожками больше подвержены задержкам.

На уровнях проектных норм ниже 28 нм этажерки слоев начинают телескопироваться. Нижние слои могут быть созданы при помощи метода двойного формирования рисунка. В этом случае реальное соединение осуществляется на длину 3–4 ширин ячейки – ​из-за сопротивления. Соответственно, сигналы, которые необходимо передавать на большие расстояния, передаются на более высоких слоях, где токопроводящие дорожки шире и обладают меньшим сопротивлением. При этом сопротивление межслойных переходных отверстий и межслойных контактных столбиков также увеличивается. Поскольку современные транзисторы обладают более низким током возбуждения, чем транзисторы предшествующих поколений, длинные токопроводящие дорожки становятся более восприимчивыми к помехам, и передаваемые по ним сигналы могут нуждаться в буферизации.

Это означает, что сигнал возвращается к кремниевой подложке, где буфер восстанавливает сигнал для дальнейшей передачи. Затем сигнал снова передается в верхние слои для передачи на большие расстояния. Таким образом, при использовании верхних слоев обеспечивается связь на большее расстояние, но требуется прохождение нескольких этапов буферизации. Как обычно, это вопрос компромисса. Внутри процессоров имеются такие структуры, как умножители и регистровые файлы, ограниченные всеми «проводами», необходимыми для маршрутизации операндов и обеспечения использования портов ввода–вывода. Обилие разводки отрицательно влияет на занимаемую площадь и быстродействие, а ее дефицит не позволяет получить максимальную отдачу от созданной конструкции.

Существует три уровня, на которых возможно если не устранение, то существенное облегчение проблемы задержек. Наиболее фундаментальный из них – ​собственно процесс. Также проблемы задержки могут быть решены на уровне реализации. Но когда ситуация становится еще сложнее, важным фактором борьбы с временем задержки сигнала становится архитектура.


Процесс и реализация

На уровне процесса проблемы задержки на разводке привели к переоценке используемых металлов. По мере утончения токопроводящих дорожек решетчатая структура меди становится ее недостатком. Колебания в решетке (фононы) сокращают среднюю длину свободного пробега электронов, увеличивая удельное сопротивление. Разработчики приближаются к решеточным и квантово-механическим эффектам – ​например, при очень узких токопроводящих дорожках в медной решетке начинаются взаимодействия между фононами и носителями заряда.

В качестве альтернативы меди рассматривается кобальт, обладающий другой структурой решетки. В случае широких проводящих дорожек и проводников с большим поперечным сечением кобальт уступает меди, но в случае очень тонкой разводки значительно превосходит ее благодаря меньшему удельному сопротивлению. Эта особенность, наряду с использованием кобальта в межслойных переходных отверстиях вместо вольфрама, может существенно облегчить проблемы задержки сигнала. Отмечается, что превосходство кобальта начинает проявляться на рубеже 20–30 нм.

На уровне реализации для успешного завершения проектирования разработчики полагаются как на сложные инструментальные средства САПР, так и на ручное манипулирование. Два классических подхода к повышению тактовой частоты – ​параллелизм и конвейеризация.

При использовании низкоуровневого параллелизма для увеличения быстродействия обычно в жертву приносится число вентилей. Если «строительные блоки» проектировщика становятся слишком крупными, их разбивают на несколько параллельных блоков с несколькими параллельными путями передачи данных. В частности, это может обозначать выполнение одной и той же операции вычисления в нескольких местах.

Конвейеризация, со своей стороны, сокращает пути передачи данных для сокращения тактового периода за счет потенциальной задержки. То есть в случае, когда устранение задержки с помощью буферов неэффективно, используется конвейерная обработка – ​крупная рабочая нагрузка разбивается на серию более мелких, которые могут выполняться быстрее, что позволяет увеличить тактовую частоту.

Оба метода требуют дополнительных вентилей или триггеров, но за счет снижения нагрузки на транзисторы чистая площадь может быть сокращена.

На уровне реализации для решения проблемы задержки сигнала на межсоединениях можно сделать многое, но не все. В какой-то момент, особенно при переходе к технологическим уровням с меньшими топологиями,​​ возникает необходимость решить данный вопрос на архитектурном уровне, до начала работ по проектированию.


«Сети-на-кристалле» и синхронизация

Когда-то задержки, связанные с логикой, составляли бóльшую часть проблемы производительности – ​по сравнению с задержкой на токопроводящих дорожках. Архитектурные решения, разработанные в то время, могут не соответствовать современным реалиям. Одно из архитектурных новшеств заключается в том, что «шина» в качестве основного межсоединения кристалла уступает место «сети-на-кристалле» (network-on-chip, NoC). Фирмы, придерживающиеся идеи NoC – ​идеи конвейеризации, – ​используют ее, чтобы разбить длинные межсоединения на цепочку коротких.

Процесс перехода от проектных норм 180 нм к проектным нормам 5 нм подтолкнул многих проектировщиков и производителей отдать предпочтение NoC перед шинными структурами: на крупных площадях труднее осуществлять синхронизацию. NoC чаще используются на больших ИС, реализуемых с минимальными топологиями. Специалисты отмечают, что почти все SoC, в которых используется 20 и более сложнофункциональных (СФ) блоков, создаются с применением No C. Например, у корпорации Arteris IP, разработчика и поставщика СФ-блоков, почти половина проектов NoC предназначена для процессов с проектными нормами 7 нм и менее.

Однако использование NoC имеет свои издержки. Основная часть сигналов, проходящих по NoC, для размещения пакетов в этой области требует арбитража (по аналогии с арбитражем шины). Соответственно, выбор между NoC и шиной основывается на сопоставлении числа арбитражей в межсоединениях при их использовании.

С этой точки зрения также имеет значение параллелизм. Если стоимость соединений высока, необходимо «утрамбовать» в однократное событие связи как можно больше данных. Для обеспечения подобного подхода специалисты корпорации Cadence планируют использовать в следующем поколении своих инструментальных средств САПР и СФ-блоков 1024-разрядные интерфейсы. Это помогает амортизировать арбитражные издержки или другие накладные расходы межсоединений.

Другой фундаментальный аспект архитектурных изменений связан с тактовыми областями. Задача поддержания согласованной синхронизации на кристалле ИС, который становится все больше (по стандартам задержки), побудила проектировщиков переосмыслить широкие области синхронизации в пользу «локально синхронного, глобально асинхронного» подхода. Сегодня проектировщики больше внимания, чем 10 лет назад, уделяют асинхронным областям синхронизации, и это непосредственно воздействует на архитектуру – ​потому что каждый переход через граничные синхронизаторы увеличивает время задержки.

При таком подходе оптимизация конкретной тактовой области возможна только в пределах заданного радиуса. Кроме того, некоторые специалисты предполагают, что отдаленные пункты назначения имеют собственную синхронизацию. Сигналы необходимо синхронизировать для передачи на большие расстояния, но наличие собственной синхронизации отдельных областей снимает проблему поддержания полной синхронизации на больших пространствах и между крупными блоками.

Для СОЗУ характерны собственные уникальные проблемы. Производительность СОЗУ не меняется в зависимости от скорости передачи данных на остальной части кристалла (SoC). Ячейки памяти масштабируются с меньшей скоростью, чем стандартные ячейки ИС. Подход корпорации Cadence состоит в перебросе из одного состояния в другое данных, входящих и исходящих из памяти. В своих новых архитектурах Cadence намерена и дальше придерживаться этого подхода.

Со своей стороны, корпорация Synopsys сделала еще один шаг вперед. В следующем поколении ее средств СОЗУ будет работать в собственной тактовой области – ​быстродействие СОЗУ будет отделено от скорости работы остальной части ядра. Компромисс заключается в увеличении времени ожидания при доступе к данной памяти (рис. 2).



Источник: Semiconductor Engineering

Рисунок 2. Синхронизация СОЗУ может быть облегчена посредством конвейеризации (слева) или отделена от синхронизации ядра за счет размещения СОЗУ в собственном домене


Кроме того, размеры блоков памяти ограничены возможностями мощностей кремниевых заводов. Компиляторы памяти не расширяют минимальный размер одиночной макроячейки. В результате разработчикам приходится создавать значительно большие банки памяти.


Изменения архитектур наборов команд

Изменение влияния задержки на производительность может оказать воздействие даже на наборы команд и связанные с ними средства разработки ПО. Поскольку перемещение данных – ​один из факторов, ограничивающих производительность, специалисты, создающие наборы команд, компиляторы и собственно программисты не могут больше относиться к аппаратному обеспечению как к чему-то абстрактному. Им все больше требуется понимать лежащую в основе соответствующих процессов структуру.

Архитектура и микроархитектура процессоров и ускорителей адаптируются под задачи обеспечения эффективной конвейеризации. На архитектурном уровне такие функции, как умножение матриц общего вида (general matrix multiplication, GEMM), позволяют более эффективно использовать память за счет ПО. В то же время микроархитектуры продолжают развивать такие технологии, как упреждающее выполнение, кэширование и буферизация.

Стартап Tachyum, специализирующийся на процессорах, пытается извлечь пользу из данной тенденции за счет создания новой архитектуры набора команд (instruction set architecture, ISA), формируемой «с чистого листа». Фирма иллюстрирует свой подход рассуждением о том, что могло бы потребоваться для достижения тактовой частоты 5 ГГц за 200 пикосекунд (удобно для математических расчетов, но нереалистично). Основной вопрос в том, что можно сделать за 200 пс. Все операции, которые не могут быть осуществлены за данный интервал времени, необходимо либо разбить на более мелкие фрагменты с помощью конвейерной обработки, либо исполнять в течение более чем одного такта. ISA – ​это одна из областей, где специалисты в области архитектуры могут гибко использовать разнообразные возможности.

Утверждение специалистов Tachyum состоит в том, что многие известные в настоящее время ISA были разработаны тогда, когда преобладали транзисторные задержки. Поскольку к настоящему времени доля этих задержек в общей длительности задержки уменьшилось, время, требующееся арифметико-логическим устройствам (ALU) для выполнения своей работы, сократилось. Раньше на логические (транзисторные) задержки пришлась бы большая часть 200-пс цикла. Сейчас же на их долю приходится менее 100 пс, т. е. собственно вычисление занимает меньше половины общего времени, и около половины времени приходится на получение конкретной ALU данных от других ALU.

Примером того, как задержки воздействуют на ISA, можно считать получение данных в ALU. При наличии нескольких параллельных ALU соответствующая операция на одном из них представляет собой получение данных от одного из трех источников: регистра, самого ALU (с результатом его предыдущей операции) или другого ALU. Специалисты Tachyum отмечают, что в первых двух случаях длительность операции не превысит 100 пс. Если же данные поступают из другого ALU, то может потребоваться более 100 пс.

Решение Tachyum состоит в разделении набора команд. При этом одноцикловые команды используются там, где это позволяет источник данных. В противном случае используются двухцикловые команды. Решение об использовании одно- или двухцикловых команд принимает компилятор, так как в большинстве случаев ему известен источник входных данных ALU (рис. 3).



Источник: Semiconductor Engineering

Рисунок 3. ISA-решение фирмы Tachyum: получение данных из регистров и этого же ALU возможно за один командный цикл, а получение данных из другого ALU требует использования двух командных циклов. Выбор соответствующей версии ISA возложен на компилятор


В реальных ситуациях существует возможность того, что при использовании динамических библиотек расположение данных на этапе компиляции известно не будет. В этом случае компилятор должен исходить из того, что данные находятся рядом. На случай, если данное предположение оказывается неверным, заготовлено аппаратное средство поддержки, позволяющее остановить машину и переключить режим, т. е. реализовать версию с двумя командными циклами. Отмечается, что подобный подход наиболее предпочтителен в случае частого использования версии с одним командным циклом. Специалисты Tachyum утверждают, что в 93% случаев используется более быстрая версия.

Исполнение с подсчетом циклов также может быть одной из стратегий процессорных архитектур, наподобие Tensilica корпорации Cadence, позволяющей создавать пользовательские инструкции для приложений. Они обеспечивают гибкость при определении количества циклов тактовой частоты, используемых данной потребительской командой. Собственные команды характеризуются фиксированным количеством циклов. Любые дополнительные пользовательские команды получают количество циклов для каждого проекта.

Изменения ISA имеют серьезные последствия. Фирмы, вынужденные поддерживать унаследованный код, не могут свободно модифицировать свои ISA. В случае пользовательских приложений в ядре Tensilica они обычно специфичны для встроенного приложения. Эти ядра вряд ли должны будут выполнять широкий спектр сторонних программ, что снижает важность фактора унаследованности.

Проблема с любыми архитектурными подходами заключается в том, что их необходимо рассматривать на самых ранних этапах планирования. Однако у них есть и преимущество – ​они позволяют снизить нагрузку на внедрение, обеспечивая в конечном итоге как сокращение времени выхода на рынок, так и увеличение производительности. Вероятно, в обозримом будущем внимание к архитектурным аспектам как к способу адаптации к меняющемуся фактору динамики задержки будет возрастать.


Moyer Bryon. Slower Metal Bogs Down SoC Performance. Semiconductor Engineering, October 15, 2020: https://semiengineering.com/slower-metal-bogs-down-soc-performance/


ЧИТАЙТЕ ТАКЖЕ

Выпуск 24/25 (6748/6749) от 23 декабря 2021 г. г.
Выпуск 24/25 (6748/6749) от 23 декабря 2021 г. г.