В этом посте будут собираться обзоры новой микроархитектуры Zen5.
Слайды от AMD с инфой о м/а и интервью главного архитектора, дающее чуть больше деталей.
Zen4's AVX512 Teardown от Mystical (автора y-cruncher).
Zen5's AVX512 Teardown + More... от него же. Кратко - все SIMD ALU были действительно расширены с 256 до 512 бит, поэтому на AVX-512 коде можно получить до 2-кратного ускорения, но увы на любом другом SIMD/FPU коде (скалярном, 128/256-битном) - в среднем несколько процентов. Плюс, латентность всех выполняемых в SIMD ALU 1-тактовых операций увеличилась до 2 тактов.
Здесь собраны обзоры Zen5 с точки зрения пользователей (скорость в различных приложениях).
Слайды от AMD с инфой о м/а и интервью главного архитектора, дающее чуть больше деталей.
Zen4's AVX512 Teardown от Mystical (автора y-cruncher).
Zen5's AVX512 Teardown + More... от него же. Кратко - все SIMD ALU были действительно расширены с 256 до 512 бит, поэтому на AVX-512 коде можно получить до 2-кратного ускорения, но увы на любом другом SIMD/FPU коде (скалярном, 128/256-битном) - в среднем несколько процентов. Плюс, латентность всех выполняемых в SIMD ALU 1-тактовых операций увеличилась до 2 тактов.
Здесь собраны обзоры Zen5 с точки зрения пользователей (скорость в различных приложениях).
👍5❤4
Forwarded from Один микросек - C++, low latency, concurrency, HFT
⚡️Видео When Nanoseconds Matter: Ultrafast Trading Systems
Довольно интересная лекция от David Gross из Optiver о том, какие фишки используются в проектировании комплексных торговых систем:
- как лучше представить L3 ордербук в памяти, и как искать в нем.
- немного о проектировании и коде SPMC bounded очереди в shared memory.
- идея spawn'ить perf прямо из своего процесса.
- немного о likely/unlikely/cold секциях в коде.
- упомнянул о том, какой выигрыш даёт kernel bypass при работе с сетью.
- использование clang xray для добавления профилирования в рантайме.
Довольно интересная лекция от David Gross из Optiver о том, какие фишки используются в проектировании комплексных торговых систем:
- как лучше представить L3 ордербук в памяти, и как искать в нем.
- немного о проектировании и коде SPMC bounded очереди в shared memory.
- идея spawn'ить perf прямо из своего процесса.
- немного о likely/unlikely/cold секциях в коде.
- упомнянул о том, какой выигрыш даёт kernel bypass при работе с сетью.
- использование clang xray для добавления профилирования в рантайме.
YouTube
When Nanoseconds Matter: Ultrafast Trading Systems in C++ - David Gross - CppCon 2024
https://cppcon.org
CppCon 2024 Early Access: https://cppcon.org/early-access
Access All 2024 Session Videos Ahead of Their Official Release To YouTube. At least 30 days exclusive access through the Early Access system. Videos will be released to the CppCon…
CppCon 2024 Early Access: https://cppcon.org/early-access
Access All 2024 Session Videos Ahead of Their Official Release To YouTube. At least 30 days exclusive access through the Early Access system. Videos will be released to the CppCon…
👍2🔥1