🚀 Параллельный код || Оптимизация || Concurrency || SIMD || GPGPU

NVidia представила новое поколение серверных GPU. Техпроцесс старый, так что я ожидаю новой микроархитектуры, поскольку предыдущей Volta стукнуло уже 7 лет.

https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computing

https://www.anandtech.com/show/21310/nvidia-blackwell-architecture-and-b200b100-accelerators-announced-going-bigger-with-smaller-data

https://3dnews.ru/1101915/nvidia-predstavila-samiy-moshchniy-protsessor-v-mire-blackwell-b200-kotoriy-otkroet-put-k-gigantskim-neyrosetyam

NVIDIA Newsroom

NVIDIA Blackwell Platform Arrives to Power a New Era of Computing

Powering a new era of computing, NVIDIA today announced that the NVIDIA Blackwell platform has arrived — enabling organizations everywhere to build and run real-time generative AI on trillion-parameter large language models at up to 25x less cost and energy…

863 viewsBulat Ziganshin, 23:39

🚀 Параллельный код || Оптимизация || Concurrency || SIMD || GPGPU

Оказывается, зелёные потоки в виде либы есть и под питон: https://habr.com/ru/companies/tochka/articles/798577/

Что, впрочем, не так и удивительно - к С/С++ они тоже прикручиваются либой. Проблема как всегда в том, что дальше во всей программе нужно использовать только совместимые с конкретной библиотекой мьютексы и т.д., иначе при локе у вас будет задействован целиком поток ОС

Хабр

await anywhere, взгляд на третью сторону медали: sync vs async vs …

Любое решение имеет срок жизни, даже самое классное, надёжное и современное. /Json Statement/ Сегодня я расскажу как одно из наших решений сделало свой последний вздох, что привело к небольшому факапу...

894 viewsBulat Ziganshin, 06:50

🚀 Параллельный код || Оптимизация || Concurrency || SIMD || GPGPU

AMD представила настольные процессоры на Zen5. Выпуск начнётся уже в июле, цены пока не объявлены.

Что НЕ изменилось по сравнению с Zen4: число ядер, частоты, размеры кешей, чипсет(ы).

IPC выросла в среднем на 16%. SIMD engines расширены до 512 бит, и вероятно производительность в AVX-512 вырастет на десятки процентов.

Энергопотребление снизилось в 1.5 раза (170 -> 120, 105 -> 65 W). CCD теперь выпускается на 4 нм (в Zen4 было на 5 нм), и похоже что всё улучшение техпроцесса было пущено на обуздание энергопотребления ядер. С +16% IPC они и так должны быть конкурентны с Raptor Lake.

IOD по прежнему выпускается на 6 нм, и в нём всё то же RDNA2 видеоядро. Так что есть подозрение, что его, как и чипсет, не обновили, и более медленная, чем у Raptor Lake, работа с DDR5 памятью останется бичом и этого поколения Zen.

(завтра дополню пост неофициальной инфой об улучшениях в м/а Zen5)

AnandTech

AMD Unveils Ryzen 9000 CPUs For Desktop, Zen 5 Takes Center Stage at Computex 2024

During AMD's Computex 2024 kick-off keynote, AMD's CEO, Dr. Lisa Su, officially unveiled and announced the company's next generation of Ryzen processors. Today marks the first unveiling of AMD's highly anticipated Zen 5 microarchitecture via the Ryzen 9000…

🔥2

793 viewsBulat Ziganshin, edited 01:49

🚀 Параллельный код || Оптимизация || Concurrency || SIMD || GPGPU

Свеженькие мануалы по процессорам, оптимизации, библиотекам.

А также их машинные переводы на русский (если вдруг кому надо). Плюс машинные переводы некоторых книг и спецификаций.

#документация

❤5

891 viewsEugene Krasnikov (ᴊɪɴ x), 14:46

🚀 Параллельный код || Оптимизация || Concurrency || SIMD || GPGPU

Agner_Fog_optimization_manuals.zip

7 MB

CUDA-OpenCL-OpenMP-MPI-oneAPI.zip

232.1 MB

Intel_translation.zip

Agner_translation.zip

6.2 MB

Concurrency_books_translation.zip

43 MB

👍12🔥3

1.48K viewsEugene Krasnikov (ᴊɪɴ x), 14:48

🚀 Параллельный код || Оптимизация || Concurrency || SIMD || GPGPU

В этом посте будут собираться обзоры новой микроархитектуры Zen5.

Слайды от AMD с инфой о м/а и интервью главного архитектора, дающее чуть больше деталей.

Zen4's AVX512 Teardown от Mystical (автора y-cruncher).

Zen5's AVX512 Teardown + More... от него же. Кратко - все SIMD ALU были действительно расширены с 256 до 512 бит, поэтому на AVX-512 коде можно получить до 2-кратного ускорения, но увы на любом другом SIMD/FPU коде (скалярном, 128/256-битном) - в среднем несколько процентов. Плюс, латентность всех выполняемых в SIMD ALU 1-тактовых операций увеличилась до 2 тактов.

Здесь собраны обзоры Zen5 с точки зрения пользователей (скорость в различных приложениях).

👍5❤4

983 viewsBulat Ziganshin, 16:39

🚀 Параллельный код || Оптимизация || Concurrency || SIMD || GPGPU

Forwarded from Один микросек - C++, low latency, concurrency, HFT

⚡️Видео When Nanoseconds Matter: Ultrafast Trading Systems

Довольно интересная лекция от David Gross из Optiver о том, какие фишки используются в проектировании комплексных торговых систем:

- как лучше представить L3 ордербук в памяти, и как искать в нем.

- немного о проектировании и коде SPMC bounded очереди в shared memory.

- идея spawn'ить perf прямо из своего процесса.

- немного о likely/unlikely/cold секциях в коде.

- упомнянул о том, какой выигрыш даёт kernel bypass при работе с сетью.

- использование clang xray для добавления профилирования в рантайме.

YouTube

When Nanoseconds Matter: Ultrafast Trading Systems in C++ - David Gross - CppCon 2024

https://cppcon.org
CppCon 2024 Early Access: https://cppcon.org/early-access
Access All 2024 Session Videos Ahead of Their Official Release To YouTube. At least 30 days exclusive access through the Early Access system. Videos will be released to the CppCon…

👍2❤1🔥1

506 viewsBulat Ziganshin, 19:31

🚀 Параллельный код || Оптимизация || Concurrency || SIMD || GPGPU

Forwarded from Записки CPU designer'a (Николай)

Подборка микроархитектурных блок-диаграм ядер от Intel, AMD, ARM, Ampere.

Block Diagrams: http://bit.ly/32qLLew
μarch Cheat Sheet: http://bit.ly/2JTplfJ

Для бесполезного, но интересного упражнения, можно посравнивать ядро Apple A15 (или любое другое, представленное в подборке) с решениями на базе RISC-V от Sifive P870 например или Syntacore SCR7/9.

👍4🔥2

178 viewsBulat Ziganshin, 00:23

🚀 Параллельный код || Оптимизация || Concurrency || SIMD || GPGPU

Forwarded from this->notes.

#cpp

Время -- деньги.

Стандарт говорит [упрощая], что компиляторы должны поддерживать только наблюдаемое поведение. А как он там это делает, это уже его дело.

Есть несколько уровней оптимизаций.

O0 (о ноль)

База. Компилятор делает минимальный анализ и минимальное кол-во оптимизаций. Сохраняется полная семантика программы. Дефолтный вариант. Идеально для дебага.

O1

Компилятор применяет простые оптимизации без сложного анализа: dead code elimination, constant propagation, basic inlining.
У GCC тут уже 48 оптимизаций.
Используется редко, когда не хочется сильно замедлить компиляцию очень больших программ (друг отметил, что это нужно только маргиналам).

O2

Самый народный уровень.
Множество оптимизаций без speed-space трейдофа: unroll loops, vectorization, strict aliasing.

O3

Включаем максимальный перфоманс отдельной программы. Всё ради скорости. Более агрессивно оптимизируем циклы, больше инлайним, больше векторизируем. Из-за сильной векторизации и инлайнинга бинарник может сильно раздуваться. В том числе поэтому перф может падать, так что на практике не всегда является более оптимальным (при небольшом instruction cache вы станете чаще кешмиссить).
Если увлекаетесь, можно включать при компиляции отдельных файлов, код в которых точно в плюсе. Не задевая всё остальное.

Ofast

Как O3, но включаются опасные оптимизации. Например --ffast-math.
Почему опасные? Потому что скорость получается за счёт точности. Про артефакты можно почитать в Beware of fast-math.

Og (оуджи)

Og = O0 + некоторые оптимизации из O1, не ухудшающие debug experience.

Os

Os = оптимизации из O2, не увеличивающие размер кода + некоторые дополнительные, позволяющие сократить размер исполняемого кода. Трейдофим немного, но в меру.

Oz

Когда у вас мощнейшие ограничения по размеру бинарника и использованию памяти, выбираем Oz. Заодно можно просадить и перф. Но иногда в embedded только так.
Может увеличить кол-во исполняемых инструкций, если их можно закодировать меньшим кол-вом байтов.
Дебагать может быть тоже уже нереально больно. Но как есть.

Мы не говорим про LTO (и ThinLTO) и PGO. Мы не говорим про -march=... и другие. Может когда-нибудь потом..

Доклад в тему: What GCC optimization level is best for you?
В докладе про сами оптимизации и много сравнения с LLVM в разных плоскостях по разным оптимизациям. Может быть полезно, если хотите осознать, какой компилятор лучше под ваши конкретные нужды, т.к. трейдофы выбирают разные.

❤1👍1

161 viewsBulat Ziganshin, 21:38

🚀 Параллельный код || Оптимизация || Concurrency || SIMD || GPGPU

Forwarded from Блог*

#prog #article

Advent of compiler optimizations — сборник декабрьских статей, по одной в день (в обратном хронологическом порядке), демонстрирующих на отдельных небольших примерах различные оптимизации компиляторов. Написано Мэттом Годболтом (да-да, тот самый, который godbolt.org).

👍2🔥1

116 viewsBulat Ziganshin, 17:17

🚀 Параллельный код || Оптимизация || Concurrency || SIMD || GPGPU

Forwarded from Записки CPU designer'a

Лекция о микроархитектуре x86-процессоров на примере Intel Skylake.

Разбираются базовые принципы работы современного out-of-order CPU: конвейер, декодирование x86-инструкций в микрооперации (µops), внеочередное исполнение, переименование регистров и аппаратные механизмы повышения производительности.

Лектор: Мэтт Годболт
Создатель Compiler Explorer, C++-разработчик и популяризатор низкоуровневых аспектов работы процессоров.

👍2🍾1

53 viewsBulat Ziganshin, 21:11

About

Blog

Apps

Platform