Запускает cuda-приложения на AMD GPUs: https://github.com/vosen/ZLUDA
Независимые тесты аж в двух приложениях: https://www.phoronix.com/review/radeon-cuda-zluda/3
Независимые тесты аж в двух приложениях: https://www.phoronix.com/review/radeon-cuda-zluda/3
GitHub
GitHub - vosen/ZLUDA: CUDA on non-NVIDIA GPUs
CUDA on non-NVIDIA GPUs. Contribute to vosen/ZLUDA development by creating an account on GitHub.
Чувак обнаружил баг в SRW Locks, тянущийся минимум с Висты до наших дней, и приводящий к некорректной работе std::shared_mutex в MSVC STL: "SRWLOCK can deadlock after an exclusive owner has released ownership and several reader threads are attempting to acquire shared ownership together"
https://www.reddit.com/r/cpp/comments/1b55686/maybe_possible_bug_in_stdshared_mutex_on_windows/
https://www.reddit.com/r/cpp/comments/1b55686/maybe_possible_bug_in_stdshared_mutex_on_windows/
Reddit
From the cpp community on Reddit: Maybe possible bug in std::shared_mutex on Windows
Explore this post and more from the cpp community
NVidia представила новое поколение серверных GPU. Техпроцесс старый, так что я ожидаю новой микроархитектуры, поскольку предыдущей Volta стукнуло уже 7 лет.
https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computing
https://www.anandtech.com/show/21310/nvidia-blackwell-architecture-and-b200b100-accelerators-announced-going-bigger-with-smaller-data
https://3dnews.ru/1101915/nvidia-predstavila-samiy-moshchniy-protsessor-v-mire-blackwell-b200-kotoriy-otkroet-put-k-gigantskim-neyrosetyam
https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computing
https://www.anandtech.com/show/21310/nvidia-blackwell-architecture-and-b200b100-accelerators-announced-going-bigger-with-smaller-data
https://3dnews.ru/1101915/nvidia-predstavila-samiy-moshchniy-protsessor-v-mire-blackwell-b200-kotoriy-otkroet-put-k-gigantskim-neyrosetyam
NVIDIA Newsroom
NVIDIA Blackwell Platform Arrives to Power a New Era of Computing
Powering a new era of computing, NVIDIA today announced that the NVIDIA Blackwell platform has arrived — enabling organizations everywhere to build and run real-time generative AI on trillion-parameter large language models at up to 25x less cost and energy…
Оказывается, зелёные потоки в виде либы есть и под питон: https://habr.com/ru/companies/tochka/articles/798577/
Что, впрочем, не так и удивительно - к С/С++ они тоже прикручиваются либой. Проблема как всегда в том, что дальше во всей программе нужно использовать только совместимые с конкретной библиотекой мьютексы и т.д., иначе при локе у вас будет задействован целиком поток ОС
Что, впрочем, не так и удивительно - к С/С++ они тоже прикручиваются либой. Проблема как всегда в том, что дальше во всей программе нужно использовать только совместимые с конкретной библиотекой мьютексы и т.д., иначе при локе у вас будет задействован целиком поток ОС
Хабр
await anywhere, взгляд на третью сторону медали: sync vs async vs …
Любое решение имеет срок жизни, даже самое классное, надёжное и современное. /Json Statement/ Сегодня я расскажу как одно из наших решений сделало свой последний вздох, что привело к небольшому факапу...
AMD представила настольные процессоры на Zen5. Выпуск начнётся уже в июле, цены пока не объявлены.
Что НЕ изменилось по сравнению с Zen4: число ядер, частоты, размеры кешей, чипсет(ы).
IPC выросла в среднем на 16%. SIMD engines расширены до 512 бит, и вероятно производительность в AVX-512 вырастет на десятки процентов.
Энергопотребление снизилось в 1.5 раза (170 -> 120, 105 -> 65 W). CCD теперь выпускается на 4 нм (в Zen4 было на 5 нм), и похоже что всё улучшение техпроцесса было пущено на обуздание энергопотребления ядер. С +16% IPC они и так должны быть конкурентны с Raptor Lake.
IOD по прежнему выпускается на 6 нм, и в нём всё то же RDNA2 видеоядро. Так что есть подозрение, что его, как и чипсет, не обновили, и более медленная, чем у Raptor Lake, работа с DDR5 памятью останется бичом и этого поколения Zen.
(завтра дополню пост неофициальной инфой об улучшениях в м/а Zen5)
Что НЕ изменилось по сравнению с Zen4: число ядер, частоты, размеры кешей, чипсет(ы).
IPC выросла в среднем на 16%. SIMD engines расширены до 512 бит, и вероятно производительность в AVX-512 вырастет на десятки процентов.
Энергопотребление снизилось в 1.5 раза (170 -> 120, 105 -> 65 W). CCD теперь выпускается на 4 нм (в Zen4 было на 5 нм), и похоже что всё улучшение техпроцесса было пущено на обуздание энергопотребления ядер. С +16% IPC они и так должны быть конкурентны с Raptor Lake.
IOD по прежнему выпускается на 6 нм, и в нём всё то же RDNA2 видеоядро. Так что есть подозрение, что его, как и чипсет, не обновили, и более медленная, чем у Raptor Lake, работа с DDR5 памятью останется бичом и этого поколения Zen.
(завтра дополню пост неофициальной инфой об улучшениях в м/а Zen5)
AnandTech
AMD Unveils Ryzen 9000 CPUs For Desktop, Zen 5 Takes Center Stage at Computex 2024
During AMD's Computex 2024 kick-off keynote, AMD's CEO, Dr. Lisa Su, officially unveiled and announced the company's next generation of Ryzen processors. Today marks the first unveiling of AMD's highly anticipated Zen 5 microarchitecture via the Ryzen 9000…
Свеженькие мануалы по процессорам, оптимизации, библиотекам.
А также их машинные переводы на русский (если вдруг кому надо). Плюс машинные переводы некоторых книг и спецификаций.
#документация
А также их машинные переводы на русский (если вдруг кому надо). Плюс машинные переводы некоторых книг и спецификаций.
#документация
В этом посте будут собираться обзоры новой микроархитектуры Zen5.
Слайды от AMD с инфой о м/а и интервью главного архитектора, дающее чуть больше деталей.
Zen4's AVX512 Teardown от Mystical (автора y-cruncher).
Zen5's AVX512 Teardown + More... от него же. Кратко - все SIMD ALU были действительно расширены с 256 до 512 бит, поэтому на AVX-512 коде можно получить до 2-кратного ускорения, но увы на любом другом SIMD/FPU коде (скалярном, 128/256-битном) - в среднем несколько процентов. Плюс, латентность всех выполняемых в SIMD ALU 1-тактовых операций увеличилась до 2 тактов.
Здесь собраны обзоры Zen5 с точки зрения пользователей (скорость в различных приложениях).
Слайды от AMD с инфой о м/а и интервью главного архитектора, дающее чуть больше деталей.
Zen4's AVX512 Teardown от Mystical (автора y-cruncher).
Zen5's AVX512 Teardown + More... от него же. Кратко - все SIMD ALU были действительно расширены с 256 до 512 бит, поэтому на AVX-512 коде можно получить до 2-кратного ускорения, но увы на любом другом SIMD/FPU коде (скалярном, 128/256-битном) - в среднем несколько процентов. Плюс, латентность всех выполняемых в SIMD ALU 1-тактовых операций увеличилась до 2 тактов.
Здесь собраны обзоры Zen5 с точки зрения пользователей (скорость в различных приложениях).
Forwarded from Один микросек - C++, low latency, concurrency, HFT
⚡️Видео When Nanoseconds Matter: Ultrafast Trading Systems
Довольно интересная лекция от David Gross из Optiver о том, какие фишки используются в проектировании комплексных торговых систем:
- как лучше представить L3 ордербук в памяти, и как искать в нем.
- немного о проектировании и коде SPMC bounded очереди в shared memory.
- идея spawn'ить perf прямо из своего процесса.
- немного о likely/unlikely/cold секциях в коде.
- упомнянул о том, какой выигрыш даёт kernel bypass при работе с сетью.
- использование clang xray для добавления профилирования в рантайме.
Довольно интересная лекция от David Gross из Optiver о том, какие фишки используются в проектировании комплексных торговых систем:
- как лучше представить L3 ордербук в памяти, и как искать в нем.
- немного о проектировании и коде SPMC bounded очереди в shared memory.
- идея spawn'ить perf прямо из своего процесса.
- немного о likely/unlikely/cold секциях в коде.
- упомнянул о том, какой выигрыш даёт kernel bypass при работе с сетью.
- использование clang xray для добавления профилирования в рантайме.
YouTube
When Nanoseconds Matter: Ultrafast Trading Systems in C++ - David Gross - CppCon 2024
https://cppcon.org
CppCon 2024 Early Access: https://cppcon.org/early-access
Access All 2024 Session Videos Ahead of Their Official Release To YouTube. At least 30 days exclusive access through the Early Access system. Videos will be released to the CppCon…
CppCon 2024 Early Access: https://cppcon.org/early-access
Access All 2024 Session Videos Ahead of Their Official Release To YouTube. At least 30 days exclusive access through the Early Access system. Videos will be released to the CppCon…