Tech Mumble
120 subscribers
37 photos
36 links
Рома Нефёдов. Делаю всякое беспилотное, до этого делал умные устройства Яндекса и девтузлы Яндекса.

Планирую делиться околорабочими новостями и мыслями.
Download Telegram
Всё что нужно знать про OpenBLAS.

https://github.com/OpenMathLib/OpenBLAS/issues/2543
🙈3
Внешний аудит инцидента Круза, интересное чтиво в целом — https://getcruise.com/news/blog/2024/cruise-releases-third-party-findings-regarding-october-2/

Говорят 3 раза пытались показать видосы, но постоянно всё лагало… Ну и забыли пояснить детали.
Carbon вон планы выложил. Пора, говорят, уже хоть что-то рабочее сделать.
https://github.com/carbon-language/carbon-lang/discussions/3684
👍2
Cruise решил совсем развалиться, получается
https://www.linkedin.com/feed/update/share:7163857547001618432/
😱3
bazel7

Сборка нативных библиотек это сложно, никто так нормально и не решил эту задачу и не похоже, что скоро решит. Помимо всех кривостей bazel-а, он ещё и удивительно бажный. Господа активно фигачят и не особо стесняются взрывать базовые сценарии.

Bazel7 выпустили в декабре, а он до сих пор вон умеет куда-то терять файлы при сборке, это конечно не то что ожидаешь от системы сборки — https://github.com/bazelbuild/bazel/issues/20886

Мораль? Если вы не уверены в проекте, то не надо asap переходить на свежие версии, иначе можно все силы потратить на отлов таких багов.
boost конечно на века сделан, костыли для borland c++ вон торчат до сих пор в asio

https://en.wikipedia.org/wiki/Borland_C%2B%2B
https://github.com/boostorg/asio/blame/develop/include/boost/asio/detail/impl/socket_ops.ipp#L1897-L1915
https://wow.groq.com/what-nvidia-didnt-say/

Забавный наброс от groq на nvidia. Говорят, что nvidia со своим новым Blackwell лишь масштабирует существующее решение, а нужен иной подход с кастомным железом под задачу. Если верить тому, что скоро все будут упираться в электричество и что они правда 10x более энергоэффективно, то звучит разумно.
🙈1
Неплохой вводный рассказ от Руссиновича (каждый раз удивляюсь что он CTO Azure) про состояние инфры для обучения.

Потребление per gpu растёт экспоненциально, а рабочая температура у карточек должна быть порядка 30°C, поэтому мучаются об liquid cooling.

В обучении всё всегда упирается в пересылку данных, либо внутри карточки из памяти (HBM3 3 TB/s), либо между карточками внутри сервера (NVLink 1800 GB/s), либо между карточками по сети (Infiniband 400Gb/s). Самый большой Infiniband кластер в Azure специально для OpenAI. Почему-то всё это напоминает L1/L2/L3 кеши в процессоре — там и там нужно как можно быстрее подносить "снаряды" к вычислительным ядрам.

https://www.youtube.com/watch?v=ntKZ5CibuIQ
👍2
Очень интересный запрос разъяснений к Waymo по поводу всяких стюпидов, приятна степень погружения чиновников из NHTSA — https://x.com/WholeMarsBlog/status/1794058035863908708

пару примеров:
https://www.youtube.com/watch?v=UVK-hswkfoE
https://www.youtube.com/watch?v=HAZP-RNSr0s
https://www.youtube.com/watch?v=Mz9IEJOYKuU

Современный уровень развития беспилотных технологий будет содержать какое-то количество таких стюпидов, и тут либо общество должно смириться и забить на них, либо ждать следующего витка эволюции технологий. Лично у меня мало веры в то, что Маск что-то крутое покажет осенью. GPT4o вон не может нормально урлы с этих картинок распарсить, в каждом втором буквы путает.
дед с батей сцепились по пьяни
😁6
1x1 переоценены, какой-то карго-культ

https://x.com/karpathy/status/1796556328078619103
🤔4💯1
Оч качественный рассказ про то как самые современные nvidia gpu выжимают TOPS-ы — https://www.youtube.com/watch?v=gofI47kfD28&t=3828s

* За 10 лет TOPS выросли в 10^7
* B200 (после P100, V100, A100, H100) видать так названо потому что просто два чипа склеены
* Самый большой гейн производительности из-за компактизации представления чисел FP32 -> FP16 -> INT8 -> FP4
* Второй по эффекту профит от CISC-инструкций таких как HMMA (12.5x раз)
* Интересная мысль, что оверхед на декодинг для операций перемножения матриц порядка 20%, поэтому специализированное железо не выигрывает GPU по эффективности
* Примерно половину энергии GPU тратит на вычисления, отальное на пересылку данных
* Вообще оч крутая и понятная мысль — важно сколько энергии тратится на вычисление, а сколько на всякое вспомогательное типа fetch/decode. На GPU хочется тратить энергию максимально эффективно, поэтому нужны CISC-инструкции и вредят любые предсказатели ветвления и прочие CPU-дуделки. Современны CPU тратит 50000x больше на всякое паразитное, чем на вычисление.
* Много усилий в Blackwell потратили на FP4 (вот ещё релевантный тред на реддит https://www.reddit.com/r/LocalLLaMA/comments/1bjlu5p/nvidia_blackwell_h200_and_fp4_precision/)
👍5
Там вон вышел новый NixOS (24.05). Вообще с nix-ом всё хорошо кроме CUDA (но у кого с ней хорошо), кросс-сборки, нормального встроенного CI, упоротого языка и т д.

Боль неизбежна. Страдание – личный выбор каждого

https://nixos.org/manual/nixos/stable/release-notes#sec-release-24.05
👍1
Посмотрел киноты NVIDIA и AMD с computex.

* Всё что говорит Jensen Huang это PR для накачки акций, ничему верить нельзя, всё по умолчанию маркетинговый булщет…
* Вскользь пообещили новый Jetson Thor на Blackwell, ждём, крутая железка.
* Интересно что AMD пытаются навязать конкуренцию серверным GPU от NVIDIA, мне конечно AMD сильно более симпатична открытостью стека, надо будем внимательнеее на ROCm поглядеть.
Rwanda: 2
cuBLAS vs MLIR

Один из лучших докладов, которые помогают понять внутреннее устройство современных NVIDIA GPU. Господа из MLIR/LLVM пытаются реверсинженирить nvidia либы, чтобы натянуть их на MLIR (обобщение llvm IR). Получается с виду хорошо, но больно. Шутки в духе "это то как теперь делаются компиляторы".

В современных deep learning алгоритмах большая часть времени тратится на перемножение матриц aka GEMM (general matrix multiplication) и на, собственно, подкачку данных. Проприетарная и закрытая реализация от NVIDIA — cuBLAS, работает на 20-30% лучше чем вон такие робкие попытки сделать более прямо. Никто не знает какими хаками они внутри это делают.

https://www.youtube.com/watch?v=V3Q9IjsgXvA
🔥1