Aspiring Data Science
373 subscribers
425 photos
11 videos
10 files
1.87K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
https://servernews.ru/1080622

#harware #cpu

"Помимо данных о производительности в режиме FP64 компания уже опубликовала результаты тестов новинки в HPC-нагрузках, где сравнила своё детище с двухсокетной системой на базе AMD EPYC 7763. Выигрыш в производительности составляет от 1,5x до 2,5x, но что не менее важно — Grace Superchip намного эффективнее энергетически, здесь преимущество может достигать 3,5x. В условиях высокоплотных ЦОД или HPC-кластеров это может стать решающим."
11
#cpu #arm #hpc #ml #graviton

Всё ещё считаешь на Интелях, в лучшем случае, на АМД? Оказывается, ARM-процессор Graviton уже рвёт старичков на куски в compute-intensive задаах, в т.ч. ML.

https://community.arm.com/arm-community-blogs/b/infrastructure-solutions-blog/posts/xgboost-lightgbm-aws-graviton3
#hardware #cpu

А между тем полупроводниковый техпроцесс входит уже в зону 2 нанометров, кто бы мог подумать об этом десять лет тому? Разве что Мур.

"В рамках Intel 20A будет применена новая структура транзисторов RibbonFET с круговым затвором Gate-All-Around (GAA), а также новая схема питания Back Side Power Delivery (BSPD). Одновременное внедрение транзисторов меньшего размера, новой архитектуры транзисторов и новой схемы их питания является рискованным шагом со стороны Intel, однако компания ожидает, что техпроцесс Intel 20A позволит ей обогнать конкурентов в лице TSMC и Samsung. Компания Intel планирует начать использовать указанный техпроцесс уже в первой половине 2024 года. Последующий техпроцесс Intel 18A, как предполагается, будет внедрён до конца того же года и позволит поднять эффективность полупроводниковых устройств ещё на 10 %. Изначально компания планировала использовать для производства 1,8-нм полупроводников сканеры Twinscan EXE нидерландской компании ASML с оптикой, обладающей числовой апертурой 0,55 NA. Но поскольку она решила вывести указанный техпроцесс на рынок раньше, то ей придётся полагаться на менее передовые нынешние сканеры Twinscan NXE с апертурой 0,33 NA, а также на EUV-сканеры с последовательной сменой двух фотошаблонов. Intel считает, что её 1,8-нм техпроцесс производства станет самым передовым на рынке."

https://3dnews.ru/1082983/intel-zavershila-razrabotku-tehprotsessov-intel-18a-i-intel-20a
#ml #cpu #inference #tflight #paddlepaddle #onnx #openvino #tvm

По итогу рекомендуют onnx runtime, ускорение прогнозов в среднем от 20% до 400%. TVM интересен поддержкой множества форматов и компиляцией моделек напрямую в системные .dll и .so файлы.

https://www.youtube.com/watch?v=FHt0QtqQpxE
#hardware #intel #avx #cpu

Мне кажется, вся затея с гибридными ядрами P и E - полный бред. Скрестили ужа и ежа. Хотя кому нужна скорость, могли раньше отдельно купить достаточно ежей, а кому гибкость/энергоэффективность - сколько надо ужей. А так под гибридного монстра понадобилось менять и софт, и стандарты, и зачем всё это нужно было - непонятно.

"Вместе с расширениями архитектуры APX, компания Intel представила сегодня новый набор команд AVX10 (Advanced Vector Extensions 10). Он является дальнейшим развитием AVX-512 и будет поддерживаться в перспективных гибридных процессорах не только производительными, но и энергоэффективными ядрами.

Основная цель внедрения AVX10 — подведение векторных инструкций, которые могут выполняться разными типами ядер Intel, под единый стандарт. Актуальный набор векторных инструкций AVX-512 позволяет работать с 512-битными операндами, однако поддерживается исключительно большими P-ядрами. Маленькие E-ядра имеют лишь 256-битные регистры, поэтому AVX-512 в них не работает. Это приводит к тому, что в гибридных процессорах вроде Alder Lake или Raptor Lake поддержку AVX-512 приходится отключать.

Набор AVX10 должен решить эту проблему, однако несколько своеобразным способом. Регистры шириной 512 бит в E-ядрах не появятся, но он позволит выполнять одни и те же векторные инструкции набора AVX-512 как P-, так и E-ядрами, но применительно к регистрам разной размерности: в первом случае – 512, а во втором — 256 бит. Вопрос совместимости результатов операций Intel собирается решить добавлением в AVX10 флага размерности AVX512VL и специальных 256-битных инструкций со встроенным округлением."

https://3dnews.ru/1090519/intel-anonsirovala-perehod-ot-avx512-k-avx10-naboru-instruktsiy-kotoriy-smoget-rabotat-vezde
👍1
#hardware #cpu #bergamo #genoax #avx512 #tensorflow

"Несмотря на то, что AVX-512 является детищем Intel, ситуация складывается довольно абсурдная: текущая серия Sapphire Rapids сильно отстаёт по количеству ядер от AMD Bergamo, а многоядерные (до 144 ядер) Xeon серии Sierra Forest, скорее всего, поддержки AVX-512/AVX10 не получат.

Таким образом, AMD Bergamo с ядрами Zen 4c являются единственными в мире 128-ядерными процессорами с поддержкой 512-битных расширений. На примере AMD EPYC 9754 видно, что несмотря на отсутствие полноценных регистров такой ширины, выгода от активации AVX-512 может быть весьма существенной, в некоторых случаях практически двукратной, а в TensorFlow — даже шести- или десятикратной.

А теперь перейдём к EPYC 9684X (Genoa-X) — также достаточно уникальному процессору, сочетающему в себе 96 ядер, AVX-512 и 3D V-Cache, доводящий общий объём кеша L3 до гигантского значения 1,1 Гбайт. В данном случае разница также сильно варьируется в зависимости от характера нагрузки, но в некоторых случаях может быть и двукратной.

В среднем эффект выражается в 12 % приросте производительности, что также весьма неплохо. На тактовую частоту и уровень энергопотребления отключение 3D V-Cache влияния не оказывает. Таким образом становится очевидно, что AMD EPYC 9684X — процессор специфический, уступающий по количеству ядер Bergamo и заточенный исключительно под нагрузки, могущие эффективно использовать огромный объём кеша, такие, как OpenFOAM или OpenVINO."

https://servernews.ru/1090769
#hardware #cpu #security

"Сотрудник Google Дэниел Могими (Daniel Moghimi) обнаружил уязвимость процессоров Intel, которая позволяет похищать ключи шифрования, пароли, электронные письма и сообщения, а также банковские данные. Проблема затрагивает чипы от Skylake до настольных Alder Lake и серверных Ice Lake, то есть до решений предпоследнего поколения. Уязвимость Downfall (INTEL-SA-00828) эксплуатируется через инструкции AVX2 и AVX-512 посредством атаки, которую Intel назвала Gather Data Sampling (GDS).

Downfall будет частично нейтрализована программным методом — сейчас Intel координирует выпуск микрокода с партнёрами по прошивкам и ОС. Уязвимость имеет высокий приоритет, поэтому по умолчанию исправляющий её фрагмент будет активен, но администраторы систем при необходимости смогут его деактивировать — эта опция будет доступна в Windows, Linux и VMM. В облачных инфраструктурах вопрос придётся решать через поставщика услуг.

В большинстве рабочих нагрузок обновленный микрокод на производительность процессора влияния не оказывает, но если речь идёт о нагрузках, связанных с уязвимыми инструкциями AVX2 и AVX-512, то оно может быть ощутимым, признали в Intel — эти инструкции наиболее востребованы в сфере высокопроизводительных вычислений (HPC). Примечательно, что Intel позиционирует набор AVX-512 как важнейшее конкурентное преимущество, но теперь ей пришлось заявить, что в большинстве рабочих нагрузок эта функция интенсивно не используется, и значительной потери производительности не ожидается."

https://3dnews.ru/1091230/u-protsessorov-intel-obnarugena-uyazvimost-downfall-ona-ekspluatiruetsya-cherez-instruktsii-avx2-i-avx512
#hardware #cpu #security

"AMD раскрыла информацию об уязвимости под кодовым именем Inception (CVE-2023-20569, AMD-SB-7005), которую обнаружили исследователи Швейцарской высшей технической школы Цюриха (ETH Zurich). Она позволяет атакующему похищать конфиденциальные данные.

Уязвимость связана со спекулятивным выполнением команд — это метод оптимизации ресурсов современных процессоров на основе предсказания ветвлений, позволяющий поддерживать загрузку ядер и кеш-памяти вместо того, чтобы ожидать последовательного выполнения каждой инструкции. Inception позволяет злоумышленнику создавать простую инструкцию, которая обманывает процессор, заставляя его «думать», что он загружен рекурсивной функцией — в результате инструкции направляются в модуль прогнозирования, и открывается возможность для кражи данных. Скорость утечки данных оценивается в единицах байтов в секунду, то есть терабайтный дамп базы данных похитить не получится, зато атака сработает с короткими, но важными фрагментами, такими как ключи безопасности.

Уязвимость актуальна для процессоров на архитектурах Zen 3 и Zen 4 для настольных и серверных платформ, а также встраиваемых систем. Это подавляющее большинство процессоров Ryzen 5000 и Ryzen 7000, Ryzen Threadripper 5000, EPYC 7003 и EPYC 9004.

Схема Inception аналогична выявленным ранее уязвимостям на основе прогнозирования ветвлений вроде Spectre v2 и Branch Type Confusion (BTC)/RetBleed, рассказали в AMD. Она ограничена текущим адресным пространством, и для эксплуатации злоумышленник должен его знать. Это значит, что её эксплуатация возможна только при локальной атаке, например, через вредоносное ПО, поэтому защита реализуется в том числе при помощи антивирусов. Более того, в AMD пока нет сведений о существовании эксплойтов Inception вне исследовательской среды. Владельцам систем на процессорах Zen 3 и Zen 4 рекомендовано обновить прошивки в своих системах на версии с исправлениями или обновить BIOS — AMD сейчас прорабатывает этот вопрос с производителями материнских плат и компьютеров. Соответствующий патч для Windows вышел в июле.

https://3dnews.ru/1091232/amd-soobshchila-ob-uyazvimosti-inception-kotoraya-zatronula-protsessori-zen-3-i-zen-4
#hardware #cpu #amd

"Флагманской моделью серии является 96-ядерный Ryzen Threadripper PRO 7995WX с поддержкой 192 виртуальных потоков, работающий в диапазоне частот от 2,5 до 5,1 ГГц. Процессоры Ryzen Threadripper PRO 7000 предназначены для использования с новой платформой WRX90. Для неё заявляется поддержка восьмиканальной оперативной памяти DDR5-5200 общим объёмом до 2 Тбайт, поддержка 148 (доступны 144) линий PCIe, до 128 из которых относятся к стандарту PCIe 5.0, поддержка разгона процессоров, оперативной памяти, а также наличие дополнительных функций для удалённого управления и повышения безопасности."

https://3dnews.ru/1094721/amd-predstavila-desktopnie-hedtprotsessori-ryzen-threadripper-7000-i-modeli-ryzen-threadripper-7000-pro-dlya-rabochih-stantsiy
#hardware #cpu #amd #benchmarks

Не успел я порадоваться выходу новых процессоров threadripper и threadripper pro, как выяснилось странное. Судя по тестам, AMD ухитрились полностью угробить производительность в DS-приложениях. Что же они там такого накуролесили, интересно, что стало хуже своих же старых моделей? И вообще, почему в разделе AI бенчат только тензорфлоу, на него ведь сами разработчики, как мы знаем, положили уже с индусским прибором? Я бы хотел включения в тесты бустингов. И где, блин, тесты в Стокфише!!

https://3dnews.ru/1096266/vishli-obzori-amd-ryzen-threadripper-7000-samie-bistrie-protsessori-dlya-renderinga-no-ne-dlya-ii
#hardware #cpu #intel

"Флагманским процессором линейки является 60-ядерный и 120-поточный Xeon W9-3595X. Он имеет базовую частоту 2,0 ГГц и может автоматически разгоняться до 4,8 ГГц. Базовая мощностью процессора (PBP) заявлена на уровне 385 Вт. Стоимость чипа составляет $5889."

Не, ну 6 все ж поменьше 10, как у Тредриппера.

https://3dnews.ru/1110064/intel-predstavila-obnovlyonnie-protsessori-sapphire-rapids-refresh-xeon-w2500-i-w3500-dlya-hedtsistem-i-rabochih-stantsiy
#hardware #cpu #intel

А я же говорил, разные ядра в составе одного процессора - это дебилизм.

"В семейство процессоров Xeon 6 вошли две линейки: Granite Rapids и Sierra Forest. Они кардинально отличаются друг от друга.

Процессоры Granite Rapids предложат до 128 ядер, причём это всё производительные P-ядра на архитектуре Redwood Cove, аналогичной той, что используются в потребительских процессорах Meteor Lake.

В свою очередь, процессоры Sierra Forest полностью построены на энергоэффективных E-ядрах в количестве до 288 штук.

Флагманом семейства Granite Rapids станет 128-ядерный процессор Xeon 6 6980P.

В компании с гордостью отметили, что флагманский Xeon 6 с P-ядрами продемонстрировал в среднем 1,9-кратное увеличение производительности в ИИ-задачах по сравнению с процессорами Xeon Scalable 5-го поколения.

Процессор Xeon 6 6980P имеет 504 Мбайт кеш-памяти LLC (Last Level Cache) и обладает базовой частотой 2,0 ГГц. Этот чип потребляет до 500 Вт энергии."

https://3dnews.ru/1110149/intel-vipustit-novie-servernie-protsessori-xeon-6-granite-rapids-v-sentyabre
#hardware #cpu #zen5

Я не верю вот этому выводу:

"Расширение архитектуры Zen 5, проведённое на всей протяжённости исполнительного конвейера вместе с оптимизацией под SMT, улучшение предсказания переходов и полноценная поддержка AVX-512 кажутся довольно внушительными переменами. Однако проблема в том, что в десктопном воплощении Zen 5 все эти глубинные преобразования оказались фактически единственным проявлением прогресса. И это вполне может стать причиной, по которой заложенный в Ryzen 9000 теоретический потенциал окажется не столь заметен в повседневном использовании. Раньше вместе с совершенствованием архитектуры AMD уделяла внимание внедрению улучшений и на более высоких уровнях — в топологии процессоров, в поддержке ими более скоростной памяти, в возможностях SoC и платформы и проч. На этот же раз модернизация затронула одну лишь только внутреннюю архитектуру ядер и ничего больше."

Если действительно в Zen5 столько улучшений, какого хрена этого не видно в тестах?

"Блок предсказания переходов давал высокую точность и в архитектуре Zen 4, но в Zen 5 разработчики AMD нашли возможность сделать его ещё эффективнее. Достигнуто это не только существенным увеличением глубины таблиц истории переходов, но и путём отслеживания более длинных ветвей кода. В итоге ядро Zen 5 способно накапливать статистику по 24 тыс. адресов переходов, что примерно втрое превышает возможности Zen 4. Причём наряду с ростом доли правильно определённых ветвлений кода AMD смогла добиться и прибавки в скорости выдачи таких предсказаний до двух штук за такт.

Ещё один важный кирпичик в фундаменте общего повышения темпа работы конвейера в Zen 5 — ускоренная выборка инструкций. Фактически AMD перелопатила всю его входную часть, сделав её полностью двухпоточной. L1-кеш инструкций сохранил свой размер 32 Кбайт, но получил возможность обрабатывать две 32-байтных выборки каждый такт против одной такой выборки в Zen 4. Декодер инструкций при этом тоже стал двойным, и фактически это означает, что преобразование x86-инструкций во внутренние микрооперации теперь может происходить в два независимых потока. Вместо декодирования шести инструкций за такт, как это было в Zen 4, Zen 5 может декодировать по четыре инструкции дважды. В том же направлении изменился и кеш декодированных инструкций. Его объём стал чуть меньше — 6 тыс. записей (было 6,75 тыс.), но зато теперь он способен возвращать каждый такт по шесть инструкций два раза — отдельно для каждого потока. Довольно любопытно, что в этой части ядра AMD внесла комплекс изменений, явно предназначенный для повышения эффективности технологии SMT. И это решение диаметрально отличается от курса, взятого Intel, которая в своих свежих архитектурах планомерно отказывается от поддержки Hyper-Threading.

С учётом ориентации на SMT ширина архитектуры Zen 5 выросла по сравнению с Zen 4 на треть. Теоретически новые ядра AMD способны обрабатывать по восемь инструкций одновременно на всём протяжении исполнительного конвейера. И диспетчер, и блок отставки, завершающий исполнение микроопераций, рассчитаны именно на такой параллелизм, в то время как в Zen 4 эти же функциональные блоки были спроектированы под работу с шестью инструкциями одновременно. Расширение сопровождается увеличением размера буфера переупорядочивания (очереди отставки) с 320 до 448 инструкций и целочисленного регистрового файла с 224 до 240 записей, что также содействует наращиванию возможностей ядра процессора по параллельному исполнению инструкций.

Чтобы задержек не возникало при ожидании необходимых данных, которых для более широкого ядра очевидно требуется больше, разработчики Zen 5 увеличили объём кеш-памяти данных первого уровня с 32 до 48 Кбайт. Вместе с тем с 8 до 12 путей выросла ассоциативность этого кеша (и, соответственно, его эффективность), но латентность осталась на привычном уровне 4 такта."
#hardware #cpu #zen5

"Что ещё интереснее, впервые со времён Zen 2 кеш первого уровня существенно нарастил пропускную способность. В Zen 5 он может отдавать четыре 64-байтных или принимать два 64-байтных блока за такт (против трёх и одного соответственно в Zen 4). Более того, в Zen 5 стал быстрее работать и кеш второго уровня. Его ёмкость сохранилась на уровне 1 Мбайт, но зато пропускная способность стала выше благодаря тому, что для соединения с L1-кешем стала использоваться вдвое более широкая 512-битная шина, через которую за такт можно прокачать 64 байта данных.

Но и это ещё не всё. Разработчики AMD нашли возможность немного поднять и производительность кеш-памяти третьего уровня. Её скорость в процессорах AMD ограничивается возможностями шины Infinity Fabric, которая в процессорах Ryzen среди прочего объединяет части L3-кеша, попадающие в разные CCD-чиплеты. Сама эта шина в Zen 5 не имеет никаких отличий от предыдущих реализаций, но обновлённый L3-кеш научился принимать и отдавать в одно ядро по 32 байт данных за такт — как раздельно, так и одновременно. В процессорах прошлого поколения достижение такой пропускной способности L3-кеша было возможно лишь при одновременной работе с ним нескольких ядер.

Все перечисленные улучшения в подсистеме кеширования Zen 5 сделаны ради того, чтобы минимизировать простои исполнительных блоков, ведь их число в новой версии архитектуры тоже выросло. Целочисленная часть в новом ядре насчитывает шесть арифметико-логических (ALU) и четыре адресных (AGU) устройства, а вещественночисленная — ещё шесть FP-устройств.

При этом интересным нововведением в исполнительном домене стал переход AMD к единому планировщику для всех целочисленных ALU-портов, хотя в прошлых архитектурах компания опиралась на набор отдельных планировщиков для каждого порта. Такая реализация сложнее, но должна быть эффективнее, поскольку все исполнительные устройства теперь получают инструкции из общей очереди. Дифференциация осталась лишь для AGU-портов, которые работают с собственным отдельным планировщиком.

Забавно, но блок Zen 5, отвечающий за работу с числами с плавающей точкой, устроен ровно противоположным образом. В нём применяется три равноправных планировщика, и это явное развитие прошлых идей — в Zen 4 таких планировщиков было два. Но FP-блок в Zen 5 претерпел кардинальные изменения в другом — его исполнительные устройства научились работе с 512-битными векторными регистрами, что означает полноценную поддержку исполнения AVX-512-кода. Теперь такие инструкции могут обрабатываться процессором за один приём, а не дробиться для отправки на исполнительные устройства на пару 256-битных команд. Благодаря этому ядра Zen 5 должны получить очень весомый прирост производительности в задачах, поддерживающих AVX-512 и VNNI-инструкции. Тем более что попутно AMD удалось улучшить исполнение некоторых операций с плавающей точкой: например, сложение в Zen 5 выполняется за два такта вместо трёх, которые требовались процессорам AMD ранее.

К тому же одним только изменением исполнительных устройств дело не ограничивается. AMD говорит о «сквозной» поддержке AVX-512 на низком уровне, а это означает ещё и то, что L1-кеш данных получил специальный механизм для работы с 512-битными векторами. Это выражается в том, что FP-блок Zen 5 научился при необходимости загружать оттуда сразу два 512-битных вектора за такт — вдвое больше, чем было возможно в Zen 4."

https://3dnews.ru/1110998/obzor-ryzen-7-9700x
#hardware #cpu #xeon #intel #gaudi

Долой сраные E-ядра!

"Granite Rapids производятся по техпроцессу Intel 3 (5 нм). В серию вошли пять моделей с количеством ядер от 72 до 128, базовой частотой от 2,0 до 2,7 ГГц и максимальной частотой 3,9 ГГц (на одном ядре), а также от 3,2 до 3,7 ГГц на всех ядрах. Процессоры получили от 432 до 504 Мбайт кеш-памяти L3 и обладают заявленным показателем TDP от 400 до 500 Вт.

Чипы поддерживают как однопроцессорные, так и двухпроцессорные сборки, имеют поддержку 12-канальной ОЗУ DDR5-6400 и MRDIMM-8800, а также оснащены поддержкой 96 линий PCIe.

Intel заявляет, что новые Xeon 6 более чем вдвое быстрее процессоров Epyc Genoa (максимально — 96 ядер Zen 4) в широком спектре вычислительных нагрузок и более чем впятеро быстрее в нейросетевых задачах.

Специализированные ИИ-ускорители Gaudi 3 специально оптимизированы для работы с генеративными моделями. В их составе используются 64 тензорных процессора (TPC) и восемь движков матричного умножения (MME) для ускорения вычислений глубоких нейронных сетей. Также ускорители Gaudi 3 получили 128 Гбайт набортной памяти HBM2 и поддерживают до 24 портов Ethernet 200 Гбит для масштабируемых сетей. Для Gaudi 3 заявляется бесшовная совместимость с фреймворком PyTorch и усовершенствованными трансформными и диффузионными моделями Hugging Face.

Intel заявляет, что новые ИИ-ускорители Gaudi 3 обеспечивают до 20 процентов большую пропускную способность и двукратное улучшение соотношения цены и производительности по сравнению с H100 для вывода модели LLaMa 2 70B."

https://3dnews.ru/1111478/intel-vipustila-servernie-protsessori-xeon-6-s-kolichestvom-yader-do-128-i-iiuskoritelya-gaudi-3
#apple #hardware #cpu

Ноутбучный процессор быстрее лучших настольных. Эппл показала Интел и АМД, кто тут батя )

"В свою очередь, процессор Intel Core i9-14900K набрал 3144 балла в одноядерном тесте и 23 044 балла в многоядерном. Это ставит новый чип Apple M4 Max на 15 % выше по производительности по сравнению с самым мощным настольным чипом Intel, что лишний раз подчёркивает значительные достижения Apple в области разработки собственных высокопроизводительных процессоров.

Кроме того, Apple ещё не представила чип M4 Ultra, который, предположительно, будет обладать примерно удвоенной производительностью по сравнению с Apple M4 Max благодаря технологии UltraFusion, позволяющей объединить два кристалла Max с минимальными потерями. Ожидается, что M4 Ultra станет доступен в Apple Mac Studio и Mac Pro примерно в середине 2025 года, что, вероятно, поднимет планку производительности «яблочных» устройств на новый уровень."

https://3dnews.ru/1113451/noviy-protsessor-apple-m4-max-okazalsya-samim-bistrim-na-rinke
#cpu #hardware #intel

Тем временем у Интел вышли новы настольные процессоры.

https://www.ign.com/articles/intel-core-ultra-9-285k-review
#hardware #cpu

"Флагманом линейки стал Ryzen Threadripper PRO 9995WX с 96 ядрами, 192 потоками и 384 Мбайт кеша L3. Компания оценила его в $11 699. Модель Ryzen Threadripper PRO 9985WX (64 ядра, 128 потоков, частота от 3,2 до 5,4 ГГц, 256 Мбайт кеша L3) AMD оценила в $7999. С остальными моделями серии и их ценами можно ознакомиться в таблице ниже. Самая доступная 16-ядерная модель оценивается в $1649."

https://3dnews.ru/1126141/amd-raskrila-tseni-samih-dorogih-protsessorov-dlya-pk-threadripper-pro-9000wx-viydut-23-iyulya