Aspiring Data Science
274 subscribers
347 photos
9 videos
5 files
1.14K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#hardware #aws #trainium #graviton

"AWS Trainium2, способен обеспечить в четыре раза более высокую производительность и в два раза более высокую энергоэффективность по сравнению с первым поколением Trainium, представленным в декабре 2020 года. Trainium2 будет доступен клиентам Amazon Web Services в инстансах EC Trn2 в кластерах из 16-ти чипов. В решении AWS EC2 UltraCluster клиенты смогут получить в своё распоряжении до 100 000 чипов Trainium2 для обучения больших языковых моделей.

Кластер из 100 000 чипов Trainium2 способен обучить большую языковую модель ИИ (LLM – large language model) с 300 миллиардами параметров всего за несколько недель. Раньше на такие задачи уходили месяцы обучения. Отметим, что параметры в парадигме LLM — это элементы модели, полученные на обучающих датасетах и, по сути, определяющие мастерство модели в решении той или иной задачи, к примеру, генерации текста или кода. 300 миллиардов параметров — это примерно в 1,75 раза больше, чем у GPT-3 от OpenAI.

Второй чип, анонсированный Amazon сегодня — Arm-процессор Graviton4. Amazon утверждает, что он обеспечивает на 30 % более высокую производительность, на 50 % больше ядер и на 75 % более высокую пропускную способность памяти, чем процессор предыдущего поколения Graviton3 (но не более современный Graviton3E), работающий применяемый в облаке Amazon EC2. Таким образом Graviton4 предложат до 96 ядер (но будут и другие конфигурации) и поддержку до 12 каналов оперативной памяти DDR5-5600.

Ещё один апгрейд по сравнению с Graviton3 состоит в том, что все физические аппаратные интерфейсы Graviton4 зашифрованы. По заявлению Amazon, это должно надёжнее защищать рабочие нагрузки клиентов по обучению ИИ и клиентские данные с повышенными требованиями к конфиденциальности.

«Graviton4 — это четвёртое поколение процессоров, которое мы выпустили всего за пять лет, и это самый мощный и энергоэффективный чип, когда-либо созданный нами для широкого спектра рабочих нагрузок, — говорится в заявлении Дэвида Брауна. — Затачивая наши чипы на реальные рабочие нагрузки, которые очень важны для клиентов, мы можем предоставить им самую передовую облачную инфраструктуру».

Graviton4 будет доступен в массивах Amazon EC2 R8g, которые уже сегодня открыты для пользователей в предварительной версии."

https://3dnews.ru/1096644/amazon-predstavila-novie-chipi-dlya-obucheniya-i-zapuska-modeley-iskusstvennogo-intellekta
#gpt #hardware #imbue

"Независимая исследовательская ИИ-компания Imbue и Dell Technologies объявили о заключении соглашения по созданию нового высокопроизводительного вычислительного кластера на основе серверов PowerEdge для обучения базовых моделей. Проект оценивается в $150 млн.

Imbue разрабатывает собственные базовые ИИ-модели, оптимизированные специально для рассуждений: они способны при необходимости запрашивать дополнительную информацию, анализировать и критиковать свои собственные результаты, а также разбивать сложную задачу на несколько более простых для повышения эффективности выполнения."

https://servernews.ru/1096726
#gcp #cloud #tpu #hardware

"Сегодня Google объявила о запуске новой большой языковой модели Gemini. Вместе с ней компания представила свой новый ИИ-ускоритель Cloud TPU v5e (Tensor processing unit — тензорный процессор). Кластер на базе новых TPU состоит из 8960 чипов v5p и оснащён самым быстрым интерконнектом Google — скорость передачи данных может достигать 4800 Гбит/с на чип.

Cloud TPU v5e оснащён 95 Гбайт памяти HBM3 с пропускной способностью 2765 Гбайт/с. Производительность в целочисленных операциях INT8 составляет 918 TOPS (триллионов операций в секунду), тогда как производительность в вычислениях на числах с плавающей запятой BF16 составляет 459 Тфлопс.

Google утверждает, что новые чипы значительно быстрее, чем образец предыдущего поколения TPU v4. Новый Cloud TPU v5p предложит двукратное увеличение производительности в операциях с плавающей запятой (FLOPS) и трёхкратное увеличение объёма памяти с высокой пропускной способностью.

Что интересно, по производительности на доллар v5p слегка проигрывает представленным недавно ускорителям TPU v5e. Однако последние можно собирать в кластеры лишь до 256 чипов, а один чип обеспечит лишь 197 Тфлопс в BF16 против 275 Тфлопс у TPU v4 и 459 Тфлопс у TPU v5p."

https://3dnews.ru/1097088/google-anonsirovala-svoy-samiy-bistriy-uskoritel-iskusstvennogo-intellekta-cloud-v5p
#amd #hardware #rocm

Подробный разбор новых ускорителей от AMD.

Судя по картинке, ROCm совместима с pytorch, onnx, tf. Как-то я всё это пропустил. Кто в этих либах работал на AMD?



https://servernews.ru/1097348
#hardware #storage

А прогресс-то идёт! можно купить 64TB NVME SSD за $4k! Я брал 8TB за $2k, и то до сих пор очень доволен.

"Компания Solidigm, по сообщению TechRadar, начала приём заказов на самый вместительный в мире QLC NVMe SSD, предназначенный для применения в СХД высокой плотности для дата-центров. Речь идёт об изделии D5-P5336, способном вмещать 61,44 Тбайт информации.

Устройство было представлено летом прошлого года. Оно имеет формат E1.L; задействован интерфейс PCIe 4.0 x4 (NVMe 1.4). В конструкции применены 192-слойные микрочипы флеш-памяти QLC 3D NAND. Стоит отметить, что данный накопитель является наиболее ёмким среди «обычных» NVMe SSD. Заявленная скорость последовательного чтения данных достигает 7000 Мбайт/с, скорость последовательной записи — 3000 Мбайт/с. Величина IOPS при произвольном чтении блоками по 4 Кбайт, согласно техническим характеристикам, составляет до 1 005 000, при произвольной записи — до 43 800."

https://servernews.ru/1099060
#hardware #vr #apple

Понравились несколько крутых фишек Vision Pro: бесшовная интеграция с макбуком, создание виртуальных 4k монитров, автодетекция собеседника и его появление из "тумана" VR.
Фишка с трансляцией глаз прикольная, но, если честно, толку в ней не вижу, а стоила она наверняка до фига. Переплачивать баксов 500 чтобы при ношении шлема VR кто-то видел твои глаза.. Хм.

https://www.youtube.com/watch?v=dtp6b76pMak
#vr #hardware #apple

Кратко: FOV подкачал, на уровне Quest 2, в остальном техническое качество и удобство пользования выше всяких похвал. А этот чел перепробовал, наверное, все VR шлемы, что выходили в продажу )

https://www.youtube.com/watch?v=XSNLZTpvUiY
#hardware #vr #ar #avp #quest3 #vrgaming

А, так вот почему все обзоры Apple Vision Pro, что я видел, не касаются игр. Я всё ждал, когда же эплбои скажут "ВАУ, а как же в этом круто играть в VR игры!" Так ведь оказывается, Эппл даже не предусмотрела игровые контроллеры для AVP, их просто нет. Фанаты надкушенного яблока, отдав под 4 косарика баксов, даже не смогут побегать с оружием в HL: Alyx, или порубить кубики световыми мечами в Beat Saber, а это то, что автоматически из коробки получают люди за $500 с Quest 3 (да и $300 с Quest 2).

Моё заключение: это прекрасно, что AVP как продукт вышел на рынок, это заставит Мету работать ещё усерднее и подтянуться в аспектах, которые у них пока слабее (жесты, персоны, сквозной просмотр, невозможность работать при прямом солнечном свете). AVP - это отличное решения для работы, конференций в VR/AR. В то же время, по какой-то странной причине огромная компания профакапилась, не сделав игровые контроллеры, и создав шлем VR с FOV (углами обзора) заведомо меньшими, чем у конкурентов. Может, стики они ещё и выпустят через полгода (за отдельные $400?), а вот FOV уже не исправить.

Даже с ТЗ дизайна мне кажется, они оплошали. Ну что это за хрень, все юзеры AVP ходят с кабелями от головы и до кармана. Уж лучше бы сделали батарею встроенной в крепления шлема, в качестве противовеса самому устройству. Так и носить было бы удобнее, тяжёлый шлем, давящий на лицо, уравновешивался бы батареей на затылке. Наверняка расторопные продавцы такое спецкрепление скоро выпустят, но для юзеров это будет означать доп траты вместо получения удобного решения из коробки.

"The only positive I've been able to get from the Apple Vision Pro is how it has the best pass-through of all headsets. That right there is the least useful thing for VR. But like all AR it can be fun to see your environment around you in real time but what practical purpose does it serve in terms of productivity and gaming. Apple are selling this as a computing device, the next Mac they have said. I haven't seen anything that would make me want to use this over a PC or use it over a VR headset for gaming.

Also people need to keep the "wooo it's so magical" to a minimum as it makes it seem like you are suggesting the pass-through is all that matters compared to everything else that it doesn't do well."

https://www.youtube.com/watch?v=OyHnq8htv2E
#hardware #laptop

выбираю новый ноут для ML-задач, за 8-10 тыс баксов можно взять ноут который почти ВО ВСЕХ аспектах (CPU, GPU, тоже 128GB но более скоростная RAM) лучше (иногда в разы) моего домашнего полноразмерного сервера 😂
правда, сервер я собирал в 2012м

хорошей альтернативой кажется Alienware M18 за $4,199.99, в нём памяти всего 64GB и RTX 4090 вместо ADA 5000, так зато и вдвое дешевле. эх, если бы туда RAM ещё больше можно было заказать...

кто посоветует хороший ноут для ML?

https://www.dell.com/en-us/shop/gaming-laptops/alienware-m18-r2-gaming-laptop/spd/alienware-m18-r2-laptop/
#hardware #laptop

Всё, хороший ноут для работы найден.

Intel 14th Generation Raptor Lake Refresh i9-14900HX 24 Core - 32 Thread Processor, 1.6 GHz (Max Turbo Frequency 5.8 GHz), 36 MB Smart Cache

NVIDIA GeForce RTX 4090 w/ 16 GB GDDR6

18" UHD+ (3840 x 2400) 120Hz screen

24 TB (3 x 8 TB) M.2 PCIe 4.0 x4 NVMe SSD

192 GB (4 x 48 GB) of fast DDR5 5600MHz dual channel system memory

Если брать только 1 SSD из 3х, можно уложиться в $6k.

Осталось придумать, как его импортировать )
#hardware

"Тот факт, что Micron решила показать свои модули памяти MCRDIMM объёмом 256 Гбайт именно на конференции Nvidia GTC 2024, посвящённой ИИ, может говорить о том, что компания рассматривает этот продукт в качестве решения для ИИ-серверов нового поколения, например, на базе процессоров Intel Xeon Scalable Granite Rapids. Системы на их основе будут использовать огромные объёмы памяти для обучения ИИ-моделей, поэтому указанные модули ОЗУ придутся как нельзя кстати. Сами чипы Intel Xeon Scalable Granite Rapids будут поддерживать 12-канальный режим работы памяти по два модуля на канал. Таким образом, на основе модулей Micron можно будет создавать серверы с 3 Тбайт ОЗУ при использовании 12 слотов памяти и до 6 Тбайт ОЗУ при использовании 24 слотов памяти."

https://3dnews.ru/1102149/micron-pokazala-ogromnie-moduli-ozu-mcrdimm-ddr58800-obyomom-256-gbayt-dlya-serverov
#hardware

посмотрел цены, полноценная RTX 4090 $2200, 512Gb DDR5 4800MHz $2100, Threadripper 7970X 32-Core, 64-Thread $2500.
за $8k можно гораздо мощнее сервер собрать, чем этот ноутбук, пусть даже и Титан.

старший Threadripper PRO 7995WX 96-Core, 192-Thread без вариантов, $10k стоит один проц, блин.

А есть у кого новый Threadripper/Ryzen? И, кстати, новый Intel 14900? Хочу прогнать один бенчмарк.
#hardware #cloud #rocm

"В составе одной виртуальной машины объединены восемь ускорителей со 192 Гбайт памяти HBM3, соединённых между собой посредством Infinity Fabric 3.0, а с хостом — по PCIe 5.0. Таким образом, общий объём HBM3 достигает 1,5 Тбайт, а пропускная способность — 5,3 Тбайт/с..

Виртуальные машины ND MI300X v5 используют открытую программную платформу AMD ROCm, которая предоставляет полный набор инструментов и библиотек для разработки и развёртывания ИИ. Платформа ROCm поддерживает популярные фреймворки, такие как TensorFlow и PyTorch, а также ИИ-библиотеки Microsoft, включая ONNX Runtime, DeepSpeed ​​и MSCCL.

Компания Hugging Face портировала свои модели на ND MI300X v5 без какого-либо изменения кода. Это позволило увеличить производительность в 2–3 раза по сравнению с AMD Instinct MI250."

https://servernews.ru/1105188
#cloud #aws #hardware

"Инстансы поддерживают подключение до 128 томов EBS gp2/gp3 или io1/io2. Каждый том io2 Block Express может иметь размер до 64 ТиБ и обеспечивать производительность до 256 тыс. IOPS со скоростью до 32 Гбит/с. Все конфигурации включают 896 vCPU, а объём оперативной памяти варьируется от 12 288 до 32 768 ГиБ. Благодаря системе AWS Nitro вся память доступна для использования. Пропускная способность EBS составляет 60 Гбит/с у младшей версии и 100 Гбит/с у всех остальных. Пропускная способность сети — соответственно 100 и 200 Гбит/с."

https://servernews.ru/1106409
#hardware #benchmarks #mlperf #opticloud

Постараюсь прояснить идею с либой ML бенчмарка. Зачастую непонятно, какой сервер лучше взять под конкретную ML-задачу. Если дело касается нейросетей, то вроде бы есть бенчмарки dlperf. Также при выходе новых CPU/GPU указывают производительность в Stockfish, WinZip, Pytorch/Tensorflow.

А если у вас табличные данные? Брать ли сервер на AMD Rome с 112 vcores, Xeon Gold с 80 vcores, или одна RTX 4090 их легко зарулит? А две RTX 3090? А насколько быстрее/медленнее будет одна H100? А может, вообще стоит посмотреть в сторону GPU от AMD?

У меня одного такие проблемы выбора, или отсутствие подобной информации и, как следствие, выбор наобум по принципу ХЗ всех смущает?

Может, есть какие-то сводные таблицы перформанса, которые вы смотрите и по которым принимаете решение? Или как-то пытаетесь экстраполировать результаты существующих бенчмарков?

На текущий момент у меня есть идея разработки простенькой питон либы с открытым исходным кодом, на базе, скажем, catboost, с методами

run_ml_benchmarks(tabular=True,training=True,inference=True,nreps=10)
get_ml_rankings(query='rtx 3090')
get_ml_leaderboard()

которая сможет автоопределять ваше железо, запускать несколько задач с фиксированными сидами и гиперпараметрами, прогонять nreps раз, и сохранять результат в общее облако. ну и, конечно, показывать лидерборд и результаты конкретного железа (медиану, дисперсию). При наличии такой либы все вопросы выше отвечаются pip install-ом + одним вызовом get_ml_leaderboard.
#hardware #etched

Кандидат на взрывной рост капитализации?

"Чип Sohu, разработанный Etched, представляет собой интегральную схему специального назначения (ASIC), изготовленную по 4-нм техпроцессу TSMC. По словам генерального директора компании Гэвина Уберти (Gavin Uberti), новый чип может обеспечить значительно лучшую производительность вывода, чем графические процессоры и другие ИИ-чипы общего назначения, потребляя при этом меньше энергии.

«Sohu на порядок быстрее и дешевле, чем даже следующее поколение графических процессоров Nvidia Blackwell GB200 при работе с преобразователями текста, изображений и видео, — утверждает Уберти. — Один сервер Sohu заменяет 160 графических процессоров H100. Sohu станет более доступным, эффективным и экологически чистым вариантом для бизнес-лидеров, которым нужны специализированные чипы».

Эксперты предполагают, что подобных результатов Etched могла добиться при помощи оптимизированного под трансформеры аппаратно-программного конвейера вывода. Это позволило разработчикам отказаться от аппаратных компонентов, нужных для поддержки других платформ и сократить накладные расходы на программное обеспечение.

Etched выходит на сцену в переломный момент в гонке инфраструктур генеративного ИИ. Помимо высоких стартовых затрат на оборудование, ускорители вычислений потребляют огромное количество электроэнергии и водных ресурсов. По прогнозам, к 2030 году ИИ-бум приведёт к увеличению спроса на электроэнергию в ЦОД на 160 %, что будет способствовать значительному увеличению выбросов парниковых газов. ЦОД к 2027 году потребуют до 6,5 миллионов кубометров пресной воды для охлаждения серверов."

https://3dnews.ru/1107025/kompaniya-etched-predstavila-uzkospetsializirovanniy-iichip-kotoriy-deshevle-i-bistree-nvidia-blackwell