Внешний аудит инцидента Круза, интересное чтиво в целом — https://getcruise.com/news/blog/2024/cruise-releases-third-party-findings-regarding-october-2/
Говорят 3 раза пытались показать видосы, но постоянно всё лагало… Ну и забыли пояснить детали.
Говорят 3 раза пытались показать видосы, но постоянно всё лагало… Ну и забыли пояснить детали.
Carbon вон планы выложил. Пора, говорят, уже хоть что-то рабочее сделать.
https://github.com/carbon-language/carbon-lang/discussions/3684
https://github.com/carbon-language/carbon-lang/discussions/3684
👍2
Cruise решил совсем развалиться, получается
https://www.linkedin.com/feed/update/share:7163857547001618432/
https://www.linkedin.com/feed/update/share:7163857547001618432/
😱3
bazel7
Сборка нативных библиотек это сложно, никто так нормально и не решил эту задачу и не похоже, что скоро решит. Помимо всех кривостей bazel-а, он ещё и удивительно бажный. Господа активно фигачят и не особо стесняются взрывать базовые сценарии.
Bazel7 выпустили в декабре, а он до сих пор вон умеет куда-то терять файлы при сборке, это конечно не то что ожидаешь от системы сборки — https://github.com/bazelbuild/bazel/issues/20886
Мораль? Если вы не уверены в проекте, то не надо asap переходить на свежие версии, иначе можно все силы потратить на отлов таких багов.
Сборка нативных библиотек это сложно, никто так нормально и не решил эту задачу и не похоже, что скоро решит. Помимо всех кривостей bazel-а, он ещё и удивительно бажный. Господа активно фигачят и не особо стесняются взрывать базовые сценарии.
Bazel7 выпустили в декабре, а он до сих пор вон умеет куда-то терять файлы при сборке, это конечно не то что ожидаешь от системы сборки — https://github.com/bazelbuild/bazel/issues/20886
Мораль? Если вы не уверены в проекте, то не надо asap переходить на свежие версии, иначе можно все силы потратить на отлов таких багов.
GitHub
"dangling symbolic link" flakes after upgrading to Bazel 7 · Issue #20886 · bazelbuild/bazel
Description of the bug: googleapis/google-cloud-cpp#13444 After upgrading to Bazel 7, we have started seeing transient failures in our CI. These have all been from io_opentelemetry_cpp. ERROR: /h/....
boost конечно на века сделан, костыли для borland c++ вон торчат до сих пор в asio
https://en.wikipedia.org/wiki/Borland_C%2B%2B
https://github.com/boostorg/asio/blame/develop/include/boost/asio/detail/impl/socket_ops.ipp#L1897-L1915
https://en.wikipedia.org/wiki/Borland_C%2B%2B
https://github.com/boostorg/asio/blame/develop/include/boost/asio/detail/impl/socket_ops.ipp#L1897-L1915
https://wow.groq.com/what-nvidia-didnt-say/
Забавный наброс от groq на nvidia. Говорят, что nvidia со своим новым Blackwell лишь масштабирует существующее решение, а нужен иной подход с кастомным железом под задачу. Если верить тому, что скоро все будут упираться в электричество и что они правда 10x более энергоэффективно, то звучит разумно.
Забавный наброс от groq на nvidia. Говорят, что nvidia со своим новым Blackwell лишь масштабирует существующее решение, а нужен иной подход с кастомным железом под задачу. Если верить тому, что скоро все будут упираться в электричество и что они правда 10x более энергоэффективно, то звучит разумно.
Неплохой вводный рассказ от Руссиновича (каждый раз удивляюсь что он CTO Azure) про состояние инфры для обучения.
Потребление per gpu растёт экспоненциально, а рабочая температура у карточек должна быть порядка 30°C, поэтому мучаются об liquid cooling.
В обучении всё всегда упирается в пересылку данных, либо внутри карточки из памяти (HBM3 3 TB/s), либо между карточками внутри сервера (NVLink 1800 GB/s), либо между карточками по сети (Infiniband 400Gb/s). Самый большой Infiniband кластер в Azure специально для OpenAI. Почему-то всё это напоминает L1/L2/L3 кеши в процессоре — там и там нужно как можно быстрее подносить "снаряды" к вычислительным ядрам.
https://www.youtube.com/watch?v=ntKZ5CibuIQ
Потребление per gpu растёт экспоненциально, а рабочая температура у карточек должна быть порядка 30°C, поэтому мучаются об liquid cooling.
В обучении всё всегда упирается в пересылку данных, либо внутри карточки из памяти (HBM3 3 TB/s), либо между карточками внутри сервера (NVLink 1800 GB/s), либо между карточками по сети (Infiniband 400Gb/s). Самый большой Infiniband кластер в Azure специально для OpenAI. Почему-то всё это напоминает L1/L2/L3 кеши в процессоре — там и там нужно как можно быстрее подносить "снаряды" к вычислительным ядрам.
https://www.youtube.com/watch?v=ntKZ5CibuIQ
👍2
Очень интересный запрос разъяснений к Waymo по поводу всяких стюпидов, приятна степень погружения чиновников из NHTSA — https://x.com/WholeMarsBlog/status/1794058035863908708
пару примеров:
https://www.youtube.com/watch?v=UVK-hswkfoE
https://www.youtube.com/watch?v=HAZP-RNSr0s
https://www.youtube.com/watch?v=Mz9IEJOYKuU
Современный уровень развития беспилотных технологий будет содержать какое-то количество таких стюпидов, и тут либо общество должно смириться и забить на них, либо ждать следующего витка эволюции технологий. Лично у меня мало веры в то, что Маск что-то крутое покажет осенью. GPT4o вон не может нормально урлы с этих картинок распарсить, в каждом втором буквы путает.
пару примеров:
https://www.youtube.com/watch?v=UVK-hswkfoE
https://www.youtube.com/watch?v=HAZP-RNSr0s
https://www.youtube.com/watch?v=Mz9IEJOYKuU
Современный уровень развития беспилотных технологий будет содержать какое-то количество таких стюпидов, и тут либо общество должно смириться и забить на них, либо ждать следующего витка эволюции технологий. Лично у меня мало веры в то, что Маск что-то крутое покажет осенью. GPT4o вон не может нормально урлы с этих картинок распарсить, в каждом втором буквы путает.
Оч качественный рассказ про то как самые современные nvidia gpu выжимают TOPS-ы — https://www.youtube.com/watch?v=gofI47kfD28&t=3828s
* За 10 лет TOPS выросли в 10^7
* B200 (после P100, V100, A100, H100) видать так названо потому что просто два чипа склеены
* Самый большой гейн производительности из-за компактизации представления чисел FP32 -> FP16 -> INT8 -> FP4
* Второй по эффекту профит от CISC-инструкций таких как HMMA (12.5x раз)
* Интересная мысль, что оверхед на декодинг для операций перемножения матриц порядка 20%, поэтому специализированное железо не выигрывает GPU по эффективности
* Примерно половину энергии GPU тратит на вычисления, отальное на пересылку данных
* Вообще оч крутая и понятная мысль — важно сколько энергии тратится на вычисление, а сколько на всякое вспомогательное типа fetch/decode. На GPU хочется тратить энергию максимально эффективно, поэтому нужны CISC-инструкции и вредят любые предсказатели ветвления и прочие CPU-дуделки. Современны CPU тратит 50000x больше на всякое паразитное, чем на вычисление.
* Много усилий в Blackwell потратили на FP4 (вот ещё релевантный тред на реддит https://www.reddit.com/r/LocalLLaMA/comments/1bjlu5p/nvidia_blackwell_h200_and_fp4_precision/)
* За 10 лет TOPS выросли в 10^7
* B200 (после P100, V100, A100, H100) видать так названо потому что просто два чипа склеены
* Самый большой гейн производительности из-за компактизации представления чисел FP32 -> FP16 -> INT8 -> FP4
* Второй по эффекту профит от CISC-инструкций таких как HMMA (12.5x раз)
* Интересная мысль, что оверхед на декодинг для операций перемножения матриц порядка 20%, поэтому специализированное железо не выигрывает GPU по эффективности
* Примерно половину энергии GPU тратит на вычисления, отальное на пересылку данных
* Вообще оч крутая и понятная мысль — важно сколько энергии тратится на вычисление, а сколько на всякое вспомогательное типа fetch/decode. На GPU хочется тратить энергию максимально эффективно, поэтому нужны CISC-инструкции и вредят любые предсказатели ветвления и прочие CPU-дуделки. Современны CPU тратит 50000x больше на всякое паразитное, чем на вычисление.
* Много усилий в Blackwell потратили на FP4 (вот ещё релевантный тред на реддит https://www.reddit.com/r/LocalLLaMA/comments/1bjlu5p/nvidia_blackwell_h200_and_fp4_precision/)
👍5
Там вон вышел новый NixOS (24.05). Вообще с nix-ом всё хорошо кроме CUDA (но у кого с ней хорошо), кросс-сборки, нормального встроенного CI, упоротого языка и т д.
Боль неизбежна. Страдание – личный выбор каждого
https://nixos.org/manual/nixos/stable/release-notes#sec-release-24.05
Боль неизбежна. Страдание – личный выбор каждого
https://nixos.org/manual/nixos/stable/release-notes#sec-release-24.05
👍1
Посмотрел киноты NVIDIA и AMD с computex.
* Всё что говорит Jensen Huang это PR для накачки акций, ничему верить нельзя, всё по умолчанию маркетинговый булщет…
* Вскользь пообещили новый Jetson Thor на Blackwell, ждём, крутая железка.
* Интересно что AMD пытаются навязать конкуренцию серверным GPU от NVIDIA, мне конечно AMD сильно более симпатична открытостью стека, надо будем внимательнеее на ROCm поглядеть.
* Всё что говорит Jensen Huang это PR для накачки акций, ничему верить нельзя, всё по умолчанию маркетинговый булщет…
* Вскользь пообещили новый Jetson Thor на Blackwell, ждём, крутая железка.
* Интересно что AMD пытаются навязать конкуренцию серверным GPU от NVIDIA, мне конечно AMD сильно более симпатична открытостью стека, надо будем внимательнеее на ROCm поглядеть.
cuBLAS vs MLIR
Один из лучших докладов, которые помогают понять внутреннее устройство современных NVIDIA GPU. Господа из MLIR/LLVM пытаются реверсинженирить nvidia либы, чтобы натянуть их на MLIR (обобщение llvm IR). Получается с виду хорошо, но больно. Шутки в духе "это то как теперь делаются компиляторы".
В современных deep learning алгоритмах большая часть времени тратится на перемножение матриц aka GEMM (general matrix multiplication) и на, собственно, подкачку данных. Проприетарная и закрытая реализация от NVIDIA — cuBLAS, работает на 20-30% лучше чем вон такие робкие попытки сделать более прямо. Никто не знает какими хаками они внутри это делают.
https://www.youtube.com/watch?v=V3Q9IjsgXvA
Один из лучших докладов, которые помогают понять внутреннее устройство современных NVIDIA GPU. Господа из MLIR/LLVM пытаются реверсинженирить nvidia либы, чтобы натянуть их на MLIR (обобщение llvm IR). Получается с виду хорошо, но больно. Шутки в духе "это то как теперь делаются компиляторы".
В современных deep learning алгоритмах большая часть времени тратится на перемножение матриц aka GEMM (general matrix multiplication) и на, собственно, подкачку данных. Проприетарная и закрытая реализация от NVIDIA — cuBLAS, работает на 20-30% лучше чем вон такие робкие попытки сделать более прямо. Никто не знает какими хаками они внутри это делают.
https://www.youtube.com/watch?v=V3Q9IjsgXvA
🔥1