Data Secrets
78.8K subscribers
6.43K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Data Secrets
Как и обещали, Grok появился в опенсурс 😬
Ладно-ладно, теперь серьезно. X.ai выложили веса и код Grok-1. Оказалось, что это опять-таки Mixture of Experts. Поражает только размер: 314 млрд параметров. Для сравнения, в Gemini Pro 100 млрд.

GitHub | HuggingFace
👍31🔥14🤯75
Data Secrets
Ладно-ладно, теперь серьезно. X.ai выложили веса и код Grok-1. Оказалось, что это опять-таки Mixture of Experts. Поражает только размер: 314 млрд параметров. Для сравнения, в Gemini Pro 100 млрд. GitHub | HuggingFace
Разобрали modal.py этого чуда и готовы погрузить вас в архитектуру. Итак, Grok-1 Илона Маска – это:

– 314В параметров, 86В активных. Mixture of Experts, 8 экспертов, 2 активных (то есть по 2 на токен).
– Вместо позиционных эмбеддингов используются Rotary эмбеддинги размерностью 6144.
– Размер словаря токенизатора: 131 072 (в GPT-4, кстати, примерно столько же).
– 64 слоя в трансформере, каждый с декодером (мультихэд внимание + denseblock). Размерность ключей – 128.
– Длина контекста – 8192 токена (bf16).
– 8-битное квантование весов, то есть ~ 314Гб.

Лицензия – Apache 2.0. Вот такие дела.
🎉64🔥16👍102🤨1
😕
Please open Telegram to view this post
VIEW IN TELEGRAM
😁96🥰9👍6🔥4🏆3🫡1
erid: LjN8KbxG8

Построение DWH в Yandex Cloud: кейс крупной логистической компании

21 марта в 16.00 

 На вебинаре эксперты iiii Tech и Yandex Cloud совместно с клиентом Рулог поделятся кейсом, как в рамках локализации отчетности развернуть DWH (КХД) на Yandex Cloud. 

Расскажем о:
- современном стеке аналитических инструментов
- бесшовной миграции с международных облачных платформ 
- о проекте построения DWH (КХД) на основе дата-контрактов 

Вебинар будет полезен CDO, CTO, руководителям направлений по работе с данными, архитекторам данных, аналитиками и дата-инженерам. 

Спикеры:

Георгий Цыганков, 
руководитель направления BI

Андрей Суренский, 
архитектор по работе с партнёрами Yandex Cloud

Венера Никитина, бизнес-аналитик логистической компании Рулог

Зарегистрироваться можно по ссылке 
🗿5👍1
Сегодня много движа со стороны Apple. Видимо вспомнили, что скоро выпускать новый IPhone, ну а выпустить без ИИ на борту будет как-то не трендово.

🌟По данным обозревателя Bloomberg Марка Гурмана, Apple планирует получить у Google лицензию на использование Gemini. Компания хочет добавить ИИ-функции в iOS уже в этом году.

А также пошел слушок, что Apple обсуждала с OpenAI возможность использования их ИИ-модели.

🌟У техно-гиганта в работе еще одна модель MM1 (статья). Умеет считать объекты на картинке и описывать их, анализирует участки изображения и извлекает текст, может проводить простые математические операции, посчитать примерный вес и размеры айтема.

🌟В начале года Apple тихо купила стартап Darwin AI вместе с десятком их сотрудников. Главное направление разработок там – делать LLM легче и быстрее (идеально для смартфонов).

В таких реалиях особенно забавно вспоминать о том, что Apple сократила свою ML-команду в размере более 100 человек, которая как раз занималась разработкой Siri.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥7🫡5😁21
Forwarded from XOR
⚡️ В подкасте Armchair Expert Билл Гейтс выдал базу про искусственный интеллект. Бизнесмен считает, что нынешние модели машинного обучения плохо справляются со сложными для человека задачами. К примеру, нейросеть может взять на себя рутину, но не сможет качественно проанализировать данные и дать развёрнутый фидбэк.

Сам Гейтс до сих пор не нашёл баланс в использовании ИИ. Он отмечает, что с некоторыми задачами нейросети справляются блестяще, но другие делают хуже любого человека. А ещё искусственный интеллект плохо играет в судоку и не может сделать людей счастливыми.

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🔥9😁4
Nvidia представила свою новую крышесносно-мощную видеокарту Blackwell

Она в 5(!) раз быстрее предыдущей Hopper, которая кстати вышла всего год назад (ну ничего себе экспонента, да?). Уже известно, что чип будут использовать в OpenAI, Google, Microsoft и Tesla.

Для больших языковых обещают снижение затрат на инференс в 25 раз! А еще Хуанг предложил собирать чипы в кластеры по 100 тысяч ускорителей. Просто представьте, какая это мощь и насколько может изменить индустрию ИИ.

Не зря Альтман и остальные верят, что именно за чипами будущее. Новой эре быть!
🔥51👍9😁5🙈1
Data Secrets
Реалии современной науки * статья с картинки 1; статья с картинки 2
Лучше не становится: Google Scholar туда же…

Эх, ну хоть бы промптить нормально научились
😁59😨6👌31👍1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Рубрика интересные факты 🤓

Коллеги, ну вы поняли, теперь MSE только так называем
Please open Telegram to view this post
VIEW IN TELEGRAM
😁68😨40😐10😎5👍21🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Главное помнить, что мы сами их сотворили
👍52😁24🔥163
Нашли супер полезный сайт с аннотированным кодом популярных моделей

Здесь есть код, например, Stable Diffusion, GPT, ResNet, оптимизатора Adam, Switch Tranformer и много чего другого. Но это не просто код. Фишка сайта вот в чем: каждая строка кода задокументирована и слева на экране отображается соответсвующая каждой строке теория или формулы. Отличный ресурс для изучения!
82👍15❤‍🔥10
Слышали про квантизацию? Если еще нет, вот подробная статья

По сути квантизация – это способ представить данные в более компактном виде, что поможет сэкономить ресурсы и улучшить пользовательский опыт.

ML-разработчик Яндекса рассказал, как (и вообще зачем) квантизовать модели, с каким данными при этом предстоит работать, а еще представил несколько методов квантизации. Будет полезно не только спецам, но и всем, кто хочет уметь заставлять модели работать эффективнее. Ссылка на Хабр вот тут.
👍34🔥115🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
Что еще интересного мы увидели от Nvidia?

Пока все восторгаются новым супер-чипом, давайте посмотрим, что еще прикольного показал Хуанг:

1) РОБОТЫ! Корпорация представила GROOT – базовую ML-модель для человекоподобных роботов. Она принимает текстовые команды, видео и фото, на которых учит железки двигаться и обращаться с предметами. Эта модель, по словам CEO, может стать «полноценным GPT для роботов». Результаты выглядят круто 👆

2) AI Factory — корпоративное решение (с ИИ конечно), которое объединяет ноутбуки, ПК, системы хранения данных и сетевые устройства. По сути, это долгожданное решение для бизнеса, которое позволит упростить сложный процесс развертывания ИИ в системе предприятия.

Вот так-то. В этом году Nvidia довольно уверенно двигается в ИИ-гонке
Please open Telegram to view this post
VIEW IN TELEGRAM
😁17👍115🔥5👌1
Нас ждет GPT-5?

Похоже на то. Об этом пишет Bisuness Insider. По словам их инсайдеров, модель будет «существенно лучшее» предшественников, и, скорее всего, выйдет летом.

❤️ - верю
🤔 - не верю
163🤔52🗿11👾3👍2👨‍💻1
5 инструментов эффективного DS-инженера

Помните, мы уже рассказывали о том, что хороший ML-инженер – это не просто хороший математик, но и классный разработчик? Да, статистика и теория ML – это еще не все. Код, бизнес-логика, умение рефакторить и дебажить, умение грамотно проводить эксперименты – вот скилы, которые надо качать.

Давайте вспомним немного инструментов, которые упростят вам жизнь: DVC, CML, MLFlow, CI/CD, тесты, конфиг-файлы, docker, etc. Ой, мы сказали немного?...

Да, самому разбираться откровенно сложно и долго. Идеальный вариант познакомиться с этим — новая лекция наших друзей из DeepSchool. 21 марта в 18:00 они расскажут:

– как использовать makefile;
– как писать тесты для моделинга;
– чем хорош lightning и как его использовать;
– как повысить качество кода с помощью линтеров;
– про трекинг и визуализацию в CML.

И также представят программу курса CV Rocket, на котором учат полному циклу решения CV-задач.

В дополнение ребята еще и пришлют список полезных библиотек и сервисов для CV-инженеров. Короче, пропустить нельзя. Регистрация тут.
👍147🔥7
Классическое легаси
77😁40🥰8👍3
Memory wall problem: что это такое и почему это проблема

Memory wall problem – это когда мощность процессора превышает его пропускную способность. То есть процессор получает на вход данные, бодро их обрабатывает, а потом просто ждет еще некоторое время, прежде чем данные будут извлечены из памяти.

Таким образом, каким бы мощным не был процессор, если пропускная способность у него слабая, то он теряет эффективность.

А наверху – график, отражающий то, как за последние годы менялось количество параметров в знаковых моделях, и как при этом развивались процессоры. Короче, проблемы начались в 2019, и с тех пор лучше не стало.

Вывод: нет пропускной способности, нет восстания машин крутого инференса. Надеемся на Nvidia?
👍45🔥75
Соучредитель Google DeepMind Мустафа Сулейман присоединяется к Microsoft как CEO нового подразделения ИИ

Он будет курировать Copilot, Bing и другие пользовательские ML-продукты.

Напомним, этот тот самый руководитель, против которого Google вели дело об издевательстве над сотрудниками. Наверное, в Microsoft сотрудники стрессоустойчивее.
🍌41🙈11👍9👀6🔥52
Это для учебы, мам работы, дорогая
😁107👍98🥰7💯1🤨1
Предсказывать результаты футбольных матчей? А может лучше научить сеть саму играть в футбол?

Видимо, именно так подумали ребята из DeepMind и придумали TacticAI. Модель предсказывает наилучшую стратегию ударов. Внутри - свертки и геометрическое DL, обучена на реальных играх.

Кроме того, исследователи закомитились с Ливерпулем и тюнили сеточку вместе с футболистами. В итоге 90% предсказаний TacticAI одобряется футбольными экспертами.

В общем, советуем прочитать полностью, особенно фанатам геометрии и футбола.

Блогпост | Папира
🥰24🔥14👍5👾21