Записки CPU designer'a
3.46K subscribers
214 photos
2 videos
5 files
310 links
Всем привет. Меня зовут Николай.
Работаю RTL design инженером, амбассадором в RISC-V International.
В свободное время пишу о магии процессоростроения и цифровом дизайне.
Download Telegram
Новая рубрика: как проходить собеседования в semiconductor-компаниях.
Здесь будут собраны самые актуальные инсайды и бест-практисы, зная которые вы точно пройдёте собес в компанию вашей мечты.

Совет №1.
Если на собеседовании вы собираетесь читерить с AI-ассистентом, позаботьтесь о том, чтобы у вас была не игровая механическая клавиатура, каждый клик которой отчётливо улавливает микрофон.
Потому что иначе эту увлекательную историю интервьюер расскажет своим коллегам, затем HR, потом друзьям, ваше резюме отклонят, а легенда о кандидате, который «очень быстро думал и очень громко печатал», пойдёт гулять по блогам и профессиональным чатикам.
😁5822👀32👍1
Там surfer релизнули 0.6.0
Всем обновляться 😁
https://gitlab.com/surfer-project/surfer/-/releases/v0.6.0
🔥16👍74
Forwarded from Осцилляции WaveCut (WaveCut)
Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса.
И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon.

Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип.

Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B.
Это на порядок быстрее текущей SOTA GPU, при этом чип стоит в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии.
Самое крутое, что это не просто красивые слайды для инвесторов. Железо уже существует, и его можно «потрогать» (ссылка на демо внизу).

Конечно, это ASIC, и тут есть нюанс: чип заточен под одну конкретную модель. Но Taalas продумали этот момент — они оставили поддержку LoRA-адаптеров и изменяемого контекстного окна. То есть это не совсем уж «кирпич», гибкость для файн-тюнинга остается.

Сейчас у них готов чип с Llama 8B (HC1). Весной обещают выкатить что-то среднеразмерное с ризонингом, а к зиме грозятся показать фронтир-модель на втором поколении кремния.

У меня голова идет кругом от мыслей к чему это может привести.


Ссылки:
Анонс
Демо (скорость реально впечатляет)
🔥46👀10👍6
Tenstorrent Cuts 20 Cores From Already-Shipping "Blackhole" P150 Cards

Tenstorrent изменила конфигурацию уже проданных AI-ускорителей Blackhole P150: количество Tensix-ядер снижено со 140 до 120. Изменение применяется не только к новым картам, но и к уже проданным устройствам после обновления firmware v19.5+.

Согласно изменениям в репозитории прошивки, отключаются два столбца Tensix (по 10 ядер каждый). Это уменьшает размер 2D-сетки вычислительных ядер и фактически приводит её к размерности предыдущего поколения ускорителей.

В коммите также указано, что новые P150x используют Bin 3 silicon. Для приведения всех устройств к единой конфигурации firmware отключает эти столбцы и на ранее выпущенных картах.

При этом в firmware присутствует скрипт, позволяющий сохранить все столбцы активными, однако такая конфигурация объявлена неподдерживаемой и не гарантируется работа с будущими версиями прошивки.
😁11👍2
А был ли Linux? Мысли о новом "прорыве" в AI-проектировании процессоров и рынке труда

Вышла очередная статья о том, как AI-агент с нуля за 12 часов спроектировал процессор (статья: "Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU" ), получив на вход документ с техническим заданием всего на 219 слов.

Начну издалека. С одной стороны, я по-хорошему завидую нынешним студентам: появилось огромное количество открытых курсов и AI-инструментов, помогающих в обучении и практике круглосуточно. Стало намного проще осваивать смежные области. Например, вы уже разобрались в HDL, но никак не можете понять, почему возникает ошибка в Bash или Tcl-скрипте - тут AI-ассистент вас быстро выручит, и не придется искать ответы на руинах Stack Overflow.

С другой стороны, я совершенно не понимаю, как вчерашнему студенту теперь искать первую работу. Помню, как после магистратуры я написал простейшее однотактное (даже не конвейерное) RISC-V ядро, подготовил битстрим для ПЛИС, снял метрики вроде slack и area, а затем рассылал резюме, прикладывая ссылку на репозиторий. И это здорово помогало! Буквально избавляло от нервного этапа лайв-кодинга на интервью, когда нужно в онлайн-редакторе (а иногда и в Google Docs) писать очередное FIFO "по Каммингсу" или искать ошибку в FSM.

Сейчас же, если студент принесет мне такой же проект, первым делом возникнет вопрос: а кто автор? Студент или AI-агент? Базовые требования к выпускникам, по моим ощущениям, значительно выросли.
Да, учат сейчас лучше: если я на лабах по процессорным архитектурам делал ядро, которое программировалось буквально машинными кодами без ассемблера, то сейчас студенты работают сразу с индустриальным стандартом RISC-V и взрослой софтверной экосистемой.

Но ведь AI-агенты уже могут за 12 часов не только написать Verilog, но и параллельно подготовить скрипты для синтеза, написать констрейнты и проделать все остальное для RTL-маршрута вплоть до готового GDSII.

Или всё-таки не могут? В названии статьи явно указано «Linux-capable». Но если открыть и прочитать текст, окажется, что слово «Linux» встречается там ровно один раз (в самом заголовке). В статье нет ни слова про атомарное расширение, необходимое для поддержки Linux-машины, ни про имплементацию CSR. И, конечно, не приведено главного доказательства «Linux-capable» ядра - успешного бута ОС на FPGA-плате, выполнения условного ls -lh в терминале и чтения версии ядра. Не знаю, оставили ли авторы это на потом, но пока это выглядит как самый обычный кликбейт. Интересный проект подается под соусом очередной AI-сенсации, где нам обещают конкурента Intel Celeron 2011 года (на базе синтетического теста CoreMark) , а по факту показывают классический 5-стадийный конвейер, натренированный на десятках open-source ядер и, наверное, учебнике Харрисов.

При всем скепсисе, AI-агенты явно ускорят работу, особенно в процессах автоматизации рутины. Там, где у стартапов нет времени на написание документации, система из нескольких агентов может изучать код и генерировать на его основе подробную микроархитектурную документацию. Это кратно ускорит онбординг новых специалистов. Генерация простых скриптов для парсинга больших и неповоротливых синтез-репортов тоже сильно упрощает работу с PPA и STA.

Возможно, скоро инженеры действительно перестанут писать код руками, заменяя его промптами. Но я уверен: глубокое понимание PPA, трейдоффов при проектировании сложных систем, знание архитектуры и микроархитектуры всё так же останутся критически ценными навыками.
Вместо заключения - не бойтесь ИИ. В любой производственной цепочке всегда должен быть ответственный человек, который сможет проанализировать результат и сказать, валидно выполнил свою работу ИИ или нет. Агент может сгенерировать мегабайты кода и красивых отчетов, но именно инженер с критическим мышлением должен верифицировать результат, отлавливать галлюцинации и принимать финальное решение об отправке чипа в производство. К слову, даже создатели этого AI-агента прямо признают, что направлять работу таких систем по-прежнему должны опытные архитекторы-люди.
34🔥15👀6👍54
Кстати, можете попробовать угадать, где скриншот классического 5-стадийника из учебника по цифровому дизайну и компьютерным архитектурам, а где Linux-capable ядро.

И кстати прочитайте эту статью сами, вдруг этот канал уже давно ведёт AI-бот и набрасывает на классную и перспективную работу.
Bip bip bop bop 🤖🤖🤖
😁3115👍3
Более 35 лет Arm продавала архитектурные лицензии и IP. Теперь произошло то, что все давно ждали и предсказывали: впервые за всю свою историю Arm выпускает собственный серверный чип - AGI CPU на базе 136 ядер Neoverse V3 (TSMC 3 nm).

И это не слайды и не анонс на уровне RTL прототипа: тейпаут уже состоялся и чип прошел внутреннюю валидацию.

Однако название AGI CPU - чистый маркетинг и кликбейт.
Ядра Neoverse V3 c векторными расширениями SVE2 не заменят GPU в обучении LLM.
Реальная роль такого процессора - быть инфраструктурным CPU для AI-систем: управлять ускорителями, оркестрировать задачи, работать с памятью, выполнять код, запускать сервисы, контейнеры и обеспечивать general-purpose вычисления для execution-heavy частей агентных систем.
В мире AI снова возникает потребность не только в ускорителях матричных вычислений, но и в эффективных CPU-ядрах и большой памяти для выполнения логики, кода, пайплайнов и других результатов работы агентов.
Это честная и важная работа, но называть ее AGI CPU - это «hypemaxxed branding» в чистом виде.
Эта роль для семейства Neoverse - не нова. В Европейской процессорной инициативе (EPI) ядра Neoverse V1 уже выполняют аналогичную функцию в чипе Rhea. Ядра Neoverse V1 играют роль хост-процессора, связанного с ускорителями на базе RISC-V - EPAC. Паттерн ровно тот же, что Arm сейчас продает под именем AGI CPU.

Главное событие здесь - это сдвиг бизнес-модели Arm. После нескольких конфликтов и лицензионных споров с партнёрами компания делает следующий шаг и начинает продавать не только архитектуру и IP-ядра, но и готовый кремний, напрямую заходя на территорию своих же клиентов.
Nvidia выпускает собственный Vera CPU на кастомных ARM-ядрах Olympus и теперь обнаруживает уже не IP, а реальный чип по соседству в серверной стойке в качестве прямого конкурента.

Смотреть на независимые бенчмарки, когда они наконец появятся, будет интересно. Пока у нас есть только цифры от самой Arm: заявленный прирост более чем в 2x на стойку относительно актуальных x86-систем, с честной сноской «based on estimates».
25🔥7😁4👍1
Исходники за 10 лет работы и $200 миллионов инвестиций в открытом доступе

Помните стартап Esperanto, который разрабатывал чип с 1000+ RISC-V ядрами в составе сложной manycore системы и в итоге обанкротился?

Стартап Ainekko, как и обещал, после приобретения прав на интеллектуальную собственность Esperanto Technologies открыл исходный код и микроархитектурную документацию на часть их разработок. Более подробно о видении и дальнейших планах команды вы можете ознакомиться в их посте: «The Next Thousand Chips».

Сейчас доступен код так называемого CORE-ET (ядра ET-Minion), который фактически является энергоэффективным вычислительным узлом и содержит исходники кастомного векторного сопроцессора.

Подробнее про номенклатуру и архитектуру Esperanto можно прочитать в статье журнала Microprocessor Report.

Почему не открыли всё и сразу?
Дело в том, что оригинальный коммерческий код зачастую тесно переплетен с закрытыми проприетарными блоками от сторонних вендоров (Synopsys, UltraSoC, Movellus и др.). Юридически открыть эти модули невозможно. Именно поэтому управляющие ядра ET-Maxion пока остаются под вопросом, а команде сейчас приходится переписывать часть логики на SystemVerilog, заменяя проприетарный код.

Даже в таком виде релиз - это колоссальное событие. Индустриальные проекты такого масштаба почти никогда не становятся открытыми. Это редчайшая возможность для инженеров изучить настоящие микроархитектурные решения реального коммерческого SoC, с историей успешного tape-out (и не успешной моделью программирования), а не просто академического прототипа.

Ссылка на проект: https://github.com/openhwgroup/core-et

p.s. А позже мы подробнее обсудим микроархитектуру проекта, возможные причины провала стартапа и я с десяток раз похвалю verilator-compatible подход проекта.
33👍29🔥16👀53🎉1
Классный и актуальный доклад, рекомендую к просмотру 👀
👀3🔥2👍1
Forwarded from позитивслэк
Мечтают ли ИИ-агенты об анализе вейвформ?

Мероприятие прошло. Было очень круто 🎧
Спасибо всем кто пришел, и с кем удалось пообщаться!

Если вдруг упустили, то я рассказывал про CLI инструмент для анализа и работы с вейвформами, написанный специально для "рук" LLM-агентов.

https://github.com/kleverhq/wavepeek

Слайды в первом коменте к посту, ну а выступление есть на YouTube

Жажду получить любую обратную связь, особенно отзывы по использованию в реальных задачах. Любая движуха приветствуется, кроме нейрослоп-PR конечно 😎

#llm #tools
@positiveslack
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106👀2👍1