Aspiring Data Science
#ml #featureselection #mrmr #uber Оказывается, сотрудники Uber уже проводили сравнение методов FS на синтетике (70 фичей, смешно) и 3 реальных датасетах (upsell/crosssell, ~ тысяча фичей) в парадигме mRMR. Работа мне не понравилась: 1) хотелось бы видеть…
#aws #amazon #cloud
"Компания Amazon отчиталась о работе во II четверти 2023 финансового года, которая была закрыта 30 июня. По ключевым показателям зафиксирован рост. В частности, общая выручка увеличилась в годовом исчислении на 11 % — со $121,2 млрд до $134,4 млрд. По итогам II квартала Amazon продемонстрировала чистую прибыль в размере $6,7 млрд, или $0,65 в пересчёте на одну ценную бумагу. Годом ранее компания понесла чистые убытки около $2,0 млрд, что эквивалентно $0,20 на одну акцию."
https://servernews.ru/1091078
"Компания Amazon отчиталась о работе во II четверти 2023 финансового года, которая была закрыта 30 июня. По ключевым показателям зафиксирован рост. В частности, общая выручка увеличилась в годовом исчислении на 11 % — со $121,2 млрд до $134,4 млрд. По итогам II квартала Amazon продемонстрировала чистую прибыль в размере $6,7 млрд, или $0,65 в пересчёте на одну ценную бумагу. Годом ранее компания понесла чистые убытки около $2,0 млрд, что эквивалентно $0,20 на одну акцию."
https://servernews.ru/1091078
ServerNews - все из мира больших мощностей
Квартальная выручка AWS выросла на 12 %, превысив $22 млрд — деньги пойдут на развитие ИИ-инфраструктуры
Компания Amazon отчиталась о работе во II четверти 2023 финансового года, которая была закрыта 30 июня. По ключевым показателям зафиксирован рост. В частности, общая выручка увеличилась в годовом исчислении на 11 % — со $121,2 млрд до $134,4 млрд. По итогам…
#gcp #cloud #tpu #hardware
"Сегодня Google объявила о запуске новой большой языковой модели Gemini. Вместе с ней компания представила свой новый ИИ-ускоритель Cloud TPU v5e (Tensor processing unit — тензорный процессор). Кластер на базе новых TPU состоит из 8960 чипов v5p и оснащён самым быстрым интерконнектом Google — скорость передачи данных может достигать 4800 Гбит/с на чип.
Cloud TPU v5e оснащён 95 Гбайт памяти HBM3 с пропускной способностью 2765 Гбайт/с. Производительность в целочисленных операциях INT8 составляет 918 TOPS (триллионов операций в секунду), тогда как производительность в вычислениях на числах с плавающей запятой BF16 составляет 459 Тфлопс.
Google утверждает, что новые чипы значительно быстрее, чем образец предыдущего поколения TPU v4. Новый Cloud TPU v5p предложит двукратное увеличение производительности в операциях с плавающей запятой (FLOPS) и трёхкратное увеличение объёма памяти с высокой пропускной способностью.
Что интересно, по производительности на доллар v5p слегка проигрывает представленным недавно ускорителям TPU v5e. Однако последние можно собирать в кластеры лишь до 256 чипов, а один чип обеспечит лишь 197 Тфлопс в BF16 против 275 Тфлопс у TPU v4 и 459 Тфлопс у TPU v5p."
https://3dnews.ru/1097088/google-anonsirovala-svoy-samiy-bistriy-uskoritel-iskusstvennogo-intellekta-cloud-v5p
"Сегодня Google объявила о запуске новой большой языковой модели Gemini. Вместе с ней компания представила свой новый ИИ-ускоритель Cloud TPU v5e (Tensor processing unit — тензорный процессор). Кластер на базе новых TPU состоит из 8960 чипов v5p и оснащён самым быстрым интерконнектом Google — скорость передачи данных может достигать 4800 Гбит/с на чип.
Cloud TPU v5e оснащён 95 Гбайт памяти HBM3 с пропускной способностью 2765 Гбайт/с. Производительность в целочисленных операциях INT8 составляет 918 TOPS (триллионов операций в секунду), тогда как производительность в вычислениях на числах с плавающей запятой BF16 составляет 459 Тфлопс.
Google утверждает, что новые чипы значительно быстрее, чем образец предыдущего поколения TPU v4. Новый Cloud TPU v5p предложит двукратное увеличение производительности в операциях с плавающей запятой (FLOPS) и трёхкратное увеличение объёма памяти с высокой пропускной способностью.
Что интересно, по производительности на доллар v5p слегка проигрывает представленным недавно ускорителям TPU v5e. Однако последние можно собирать в кластеры лишь до 256 чипов, а один чип обеспечит лишь 197 Тфлопс в BF16 против 275 Тфлопс у TPU v4 и 459 Тфлопс у TPU v5p."
https://3dnews.ru/1097088/google-anonsirovala-svoy-samiy-bistriy-uskoritel-iskusstvennogo-intellekta-cloud-v5p
3DNews - Daily Digital Digest
Google представила свой самый быстрый ИИ-ускоритель — Cloud v5p
Сегодня Google объявила о запуске новой большой языковой модели Gemini.
#hardware #cloud #rocm
"В составе одной виртуальной машины объединены восемь ускорителей со 192 Гбайт памяти HBM3, соединённых между собой посредством Infinity Fabric 3.0, а с хостом — по PCIe 5.0. Таким образом, общий объём HBM3 достигает 1,5 Тбайт, а пропускная способность — 5,3 Тбайт/с..
Виртуальные машины ND MI300X v5 используют открытую программную платформу AMD ROCm, которая предоставляет полный набор инструментов и библиотек для разработки и развёртывания ИИ. Платформа ROCm поддерживает популярные фреймворки, такие как TensorFlow и PyTorch, а также ИИ-библиотеки Microsoft, включая ONNX Runtime, DeepSpeed и MSCCL.
Компания Hugging Face портировала свои модели на ND MI300X v5 без какого-либо изменения кода. Это позволило увеличить производительность в 2–3 раза по сравнению с AMD Instinct MI250."
https://servernews.ru/1105188
"В составе одной виртуальной машины объединены восемь ускорителей со 192 Гбайт памяти HBM3, соединённых между собой посредством Infinity Fabric 3.0, а с хостом — по PCIe 5.0. Таким образом, общий объём HBM3 достигает 1,5 Тбайт, а пропускная способность — 5,3 Тбайт/с..
Виртуальные машины ND MI300X v5 используют открытую программную платформу AMD ROCm, которая предоставляет полный набор инструментов и библиотек для разработки и развёртывания ИИ. Платформа ROCm поддерживает популярные фреймворки, такие как TensorFlow и PyTorch, а также ИИ-библиотеки Microsoft, включая ONNX Runtime, DeepSpeed и MSCCL.
Компания Hugging Face портировала свои модели на ND MI300X v5 без какого-либо изменения кода. Это позволило увеличить производительность в 2–3 раза по сравнению с AMD Instinct MI250."
https://servernews.ru/1105188
ServerNews - все из мира больших мощностей
1,5 Тбайт HBM3: AMD Instinct MI300X стали доступны в облаке Microsoft Azure
Корпорация Microsoft сообщила о доступности инстансов Azure ND MI300X v5 на базе ускорителей AMD Instinct MI300X. Отмечается, что это качественно новое семейство виртуальных машин, предлагающее максимально возможный объём памяти HBM и ведущей в отрасли п…
#cloud #aws #hardware
"Инстансы поддерживают подключение до 128 томов EBS gp2/gp3 или io1/io2. Каждый том io2 Block Express может иметь размер до 64 ТиБ и обеспечивать производительность до 256 тыс. IOPS со скоростью до 32 Гбит/с. Все конфигурации включают 896 vCPU, а объём оперативной памяти варьируется от 12 288 до 32 768 ГиБ. Благодаря системе AWS Nitro вся память доступна для использования. Пропускная способность EBS составляет 60 Гбит/с у младшей версии и 100 Гбит/с у всех остальных. Пропускная способность сети — соответственно 100 и 200 Гбит/с."
https://servernews.ru/1106409
"Инстансы поддерживают подключение до 128 томов EBS gp2/gp3 или io1/io2. Каждый том io2 Block Express может иметь размер до 64 ТиБ и обеспечивать производительность до 256 тыс. IOPS со скоростью до 32 Гбит/с. Все конфигурации включают 896 vCPU, а объём оперативной памяти варьируется от 12 288 до 32 768 ГиБ. Благодаря системе AWS Nitro вся память доступна для использования. Пропускная способность EBS составляет 60 Гбит/с у младшей версии и 100 Гбит/с у всех остальных. Пропускная способность сети — соответственно 100 и 200 Гбит/с."
https://servernews.ru/1106409
ServerNews - все из мира больших мощностей
896 vCPU и 32 Тбайт памяти: AWS объявила о доступности сверхбольших инстансов EC2 U7i
Облачная платформа Amazon Web Services (AWS) сообщила о доступности инстансов Elastic Compute Cloud (EC2) U7i, оптимизированных для резидентных (in-memory) баз данных. В основу положены кастомизированные процессоры Intel Xeon поколения Sapphire Rapids.
#cloud #aws #tuning
Оказывается, некоторые облачные машины можно затюнить под конкретную вычислительную задачу по P- и C- состояниям.
"In this example, vCPUs 21 and 28 are running at their maximum Turbo Boost frequency because the other cores have entered the C6 sleep state to save power and provide both power and thermal headroom for the working cores. vCPUs 3 and 10 (each sharing a processor core with vCPUs 21 and 28) are in the C1 state, waiting for instruction.
In the following example, all 18 cores are actively performing work, so there is no headroom for maximum Turbo Boost, but they are all running at the "all core Turbo Boost" speed of 3.2 GHz.
You can reduce the variability of processor frequency with P-states. P-states control the desired performance (in CPU frequency) from a core. Most workloads perform better in P0, which requests Turbo Boost. But you may want to tune your system for consistent performance rather than bursty performance that can happen when Turbo Boost frequencies are enabled.
Intel Advanced Vector Extensions (AVX or AVX2) workloads can perform well at lower frequencies, and AVX instructions can use more power. Running the processor at a lower frequency, by disabling Turbo Boost, can reduce the amount of power used and keep the speed more consistent. For more information about optimizing your instance configuration and workload for AVX."
https://docs.aws.amazon.com/linux/al2/ug/processor_state_control.html
Оказывается, некоторые облачные машины можно затюнить под конкретную вычислительную задачу по P- и C- состояниям.
"In this example, vCPUs 21 and 28 are running at their maximum Turbo Boost frequency because the other cores have entered the C6 sleep state to save power and provide both power and thermal headroom for the working cores. vCPUs 3 and 10 (each sharing a processor core with vCPUs 21 and 28) are in the C1 state, waiting for instruction.
In the following example, all 18 cores are actively performing work, so there is no headroom for maximum Turbo Boost, but they are all running at the "all core Turbo Boost" speed of 3.2 GHz.
You can reduce the variability of processor frequency with P-states. P-states control the desired performance (in CPU frequency) from a core. Most workloads perform better in P0, which requests Turbo Boost. But you may want to tune your system for consistent performance rather than bursty performance that can happen when Turbo Boost frequencies are enabled.
Intel Advanced Vector Extensions (AVX or AVX2) workloads can perform well at lower frequencies, and AVX instructions can use more power. Running the processor at a lower frequency, by disabling Turbo Boost, can reduce the amount of power used and keep the speed more consistent. For more information about optimizing your instance configuration and workload for AVX."
https://docs.aws.amazon.com/linux/al2/ug/processor_state_control.html
Amazon
Processor state control for your Amazon EC2 AL2 instance - Amazon Linux 2
Some EC2 instance types provide the ability for an operating system to control processor C-states and P-states.
#aws #cloud
Повод подумать о достижимом эффекте+краткий обзор высокоуровневых ML-решений в AWS.
https://www.youtube.com/watch?v=l37J0pTWX9Q
Повод подумать о достижимом эффекте+краткий обзор высокоуровневых ML-решений в AWS.
https://www.youtube.com/watch?v=l37J0pTWX9Q
YouTube
Оценка эффекта от внедрения AI/ML решений
Главная сложность при решении бизнес-проблем с применением машинного обучения – это заранее понять, каким будет результат и будет ли решение успешным. В этом докладе мы обсудим как измерить эффект от внедрения ML и как убедиться, что результат соответствует…
#cloud #gcp
"Американская компания Google объявила о скором отключении в России облачного сервиса BigQuery, который предназначен для работы с большими массивами данных. В уведомлении, которое на этой неделе стали получать пользователи платформы, сказано, что сервис перестанет работать 9 сентября. При этом другие сервисы Google, такие как Workspace и Cloud, продолжат работать в РФ.
До появления информации о скором прекращении работы сервиса BigQuery стало известно об уходе из России сервиса контекстной рекламы Google AdSense. Платформа полностью перестанет работать в стране, а все аккаунты российских пользователей будут деактивированы."
https://3dnews.ru/1109440/google-otklyuchit-oblachniy-servis-bigquery-v-rossii-9-sentyabrya
"Американская компания Google объявила о скором отключении в России облачного сервиса BigQuery, который предназначен для работы с большими массивами данных. В уведомлении, которое на этой неделе стали получать пользователи платформы, сказано, что сервис перестанет работать 9 сентября. При этом другие сервисы Google, такие как Workspace и Cloud, продолжат работать в РФ.
До появления информации о скором прекращении работы сервиса BigQuery стало известно об уходе из России сервиса контекстной рекламы Google AdSense. Платформа полностью перестанет работать в стране, а все аккаунты российских пользователей будут деактивированы."
https://3dnews.ru/1109440/google-otklyuchit-oblachniy-servis-bigquery-v-rossii-9-sentyabrya
3DNews - Daily Digital Digest
Google заблокирует для России облачный сервис анализа больших данных
Американская компания Google объявила о скором отключении в России облачного сервиса BigQuery, который предназначен для работы с большими массивами данных.
#musk #cloud #xai
"Серверы с графическими процессорами построены на платформе Nvidia HGX H100. Каждый из них включает восемь ускорителей Nvidia H100 и универсальную систему жидкостного охлаждения Supermicro 4U с поддержкой горячей замены компонентов для каждого графического процессора в отдельности. Серверы установлены в стойках по восемь штук — получаются 64 ускорителя на стойку. В нижней части каждой стойки находится ещё один блок Supermicro 4U с резервной насосной системой и системой мониторинга стойки.
Стойки сгруппированы по восемь штук, что даёт 512 графических процессоров на массив. Каждый сервер имеет четыре дублирующих блока питания; в задней части стоек можно разглядеть трёхфазные блоки питания, коммутаторы Ethernet; есть также коллекторы размером со стойки, которые обеспечивают работу жидкостного охлаждения. Кластер Colossus содержит более 1500 стоек или около 200 массивов.
Из-за высоких требований к пропускной способности суперкластера ИИ, который непрерывно производит обучение моделей, инженерам xAI пришлось приложить усилия в плане сетевого взаимодействия. Каждая графическая карта оборудована выделенным сетевым контроллером на 400 GbE с дополнительным 400-Гбит сетевым адаптером на сервер. То есть у каждого сервера Nvidia HGX H100 есть Ethernet со скоростью 3,6 Тбит/с — да, весь кластер работает на Ethernet, а не на InfiniBand или других экзотических интерфейсах, стандартных для суперкомпьютеров.
Суперкомпьютеру для обучения моделей ИИ, включая Grok 3, требуются не только графические процессоры, но и накопители, а также центральные процессоры, однако информацию о них компания xAI разглашает лишь частично. На видео, подвергнутых цензуре, видно, что за это отвечают серверы на чипах x86 в корпусах Supermicro — они также оборудованы жидкостным охлаждением и предназначены либо для работы в качестве хранилищ данных, либо для рабочих нагрузок, ориентированных на центральные процессоры.
На объекте установлены также аккумуляторы Tesla Megapack. При работе кластера возможны резкие перепады в потребляемой энергии, поэтому эти батареи ёмкостью до 3,9 МВт·ч каждая пришлось установить между электросетью и суперкомпьютером в качестве энергетического буфера."
https://youtu.be/Jf8EPSBZU7Y
"Серверы с графическими процессорами построены на платформе Nvidia HGX H100. Каждый из них включает восемь ускорителей Nvidia H100 и универсальную систему жидкостного охлаждения Supermicro 4U с поддержкой горячей замены компонентов для каждого графического процессора в отдельности. Серверы установлены в стойках по восемь штук — получаются 64 ускорителя на стойку. В нижней части каждой стойки находится ещё один блок Supermicro 4U с резервной насосной системой и системой мониторинга стойки.
Стойки сгруппированы по восемь штук, что даёт 512 графических процессоров на массив. Каждый сервер имеет четыре дублирующих блока питания; в задней части стоек можно разглядеть трёхфазные блоки питания, коммутаторы Ethernet; есть также коллекторы размером со стойки, которые обеспечивают работу жидкостного охлаждения. Кластер Colossus содержит более 1500 стоек или около 200 массивов.
Из-за высоких требований к пропускной способности суперкластера ИИ, который непрерывно производит обучение моделей, инженерам xAI пришлось приложить усилия в плане сетевого взаимодействия. Каждая графическая карта оборудована выделенным сетевым контроллером на 400 GbE с дополнительным 400-Гбит сетевым адаптером на сервер. То есть у каждого сервера Nvidia HGX H100 есть Ethernet со скоростью 3,6 Тбит/с — да, весь кластер работает на Ethernet, а не на InfiniBand или других экзотических интерфейсах, стандартных для суперкомпьютеров.
Суперкомпьютеру для обучения моделей ИИ, включая Grok 3, требуются не только графические процессоры, но и накопители, а также центральные процессоры, однако информацию о них компания xAI разглашает лишь частично. На видео, подвергнутых цензуре, видно, что за это отвечают серверы на чипах x86 в корпусах Supermicro — они также оборудованы жидкостным охлаждением и предназначены либо для работы в качестве хранилищ данных, либо для рабочих нагрузок, ориентированных на центральные процессоры.
На объекте установлены также аккумуляторы Tesla Megapack. При работе кластера возможны резкие перепады в потребляемой энергии, поэтому эти батареи ёмкостью до 3,9 МВт·ч каждая пришлось установить между электросетью и суперкомпьютером в качестве энергетического буфера."
https://youtu.be/Jf8EPSBZU7Y
YouTube
Inside the World's Largest AI Supercluster xAI Colossus
We FINALLY get to show the largest AI supercomputer in the world, xAI Colossus. This is the 100,000 (at the time we filmed this) GPU cluster in Memphis Tennessee that has been on the news a lot. This video has been five months in the making, and finally Elon…