Data Secrets

Что почитать на выходных: руководство от Google "Как делать ML"

Это Best Practices ML System Design бигтеха, священные скрижали «как делать нужно» и «как делать не нужно». Не обращайте внимание на то, что документу много лет. Он все еще как новый (и в некоторых моментах даже более актуальный, чем современные письмена).

Для тех, кто готов преисполниться

❤60👍18🔥8

9.53K views16:34

Data Secrets

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

В Google Maps только что вышло огромное количество AI-обновлений. В комплекте:

– Иммерсивный вид карт. Помогает на основе снимков со спутника сгенерировать ваш маршрут в 3D и пройти по нему.

– Исследование объектов в real-time. Включаешь камеру, наводишь на что-либо, а карты рассказывают тебе, что это за место, какие в доме есть заведения и прочее.

– Расширенная навигация и advanced подсказки в пути.

– Запросы в поиске на естественном языке. Например: «найди место поблизости с винтажным вайбом».

👍49🔥15❤7❤‍🔥1

6.87K views06:53

Data Secrets

Илон Маск пообещал выкатить свою LLM в опенсурс. Видимо, решил подать положительный пример OpenAI (на которых, напоминаем, он подал в суд за то, что они якобы нарушили исходные заповеди компании и перестали быть “Open”).

Как и обещали, Grok появился в опенсурс 😬

Please open Telegram to view this post

VIEW IN TELEGRAM

😁76🔥23🤯7😈4

6.55K views09:24

Data Secrets

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Мы или не мы?

😁90👍8🔥8❤3🤨2🥰1

7.26K views13:24

Data Secrets

Где лучше всего учиться ML в Росиии? Конечно же в Школе Анализа Данных от Яндекса.

Но вот проблема: чтобы попасть туда, нужна сильная математическая база и скилл щелкать олимпиадное программирование.

Со всеми теми, кто не хочет упустить возможность усилить свои знания, делимся школой Shad Helper, которая готовит к поступлению в ШАД.

Очень скоро, 25 марта, у них стартует 13-месячная программа под руководством сильной команды (преподаватели кандидаты и доктора из МГУ, МФТИ, ВШЭ). Стоимость – 5999 в неделю, остановить обучение можно в любой момент. В комплекте также система скидок за хорошую успеваемость, чат-бот для студентов и регулярные домашние задания с менторской проверкой.

Остались вопросы? Подключайся к ребятам на вебинар 21 марта в 19:00, чтобы узнать больше про курс и подготовку к ШАД.

🤯33🙈10🫡9🤨5❤2😁2

6.55K views15:27

Data Secrets

Традиционно, воскресно, и в этот раз не очень очевидно. Задача!

В группе первокурсников n человек и они видят друг друга впервые. А в парке аттракционов сегодня дают скидку, если приходит компания ровно из k друзей, среди которых каждый дружит с каждым.

Дружба между любой парой однокурсников независимо возникает с вероятностью р. Ваня, один из первокурсников, хочет пойти на аттракционы со скидкой.
Каким в среднем количеством способов он может это сделать?

Кто готов попробовать свои силы?

👍17❤3

6.4K views16:34

Data Secrets

Как и обещали, Grok появился в опенсурс 😬

Ладно-ладно, теперь серьезно. X.ai выложили веса и код Grok-1. Оказалось, что это опять-таки Mixture of Experts. Поражает только размер: 314 млрд параметров. Для сравнения, в Gemini Pro 100 млрд.

GitHub | HuggingFace

👍31🔥14🤯7❤5

6.54K views05:35

Data Secrets

Разобрали modal.py этого чуда и готовы погрузить вас в архитектуру. Итак, Grok-1 Илона Маска – это:

– 314В параметров, 86В активных. Mixture of Experts, 8 экспертов, 2 активных (то есть по 2 на токен).
– Вместо позиционных эмбеддингов используются Rotary эмбеддинги размерностью 6144.
– Размер словаря токенизатора: 131 072 (в GPT-4, кстати, примерно столько же).
– 64 слоя в трансформере, каждый с декодером (мультихэд внимание + denseblock). Размерность ключей – 128.
– Длина контекста – 8192 токена (bf16).
– 8-битное квантование весов, то есть ~ 314Гб.

Лицензия – Apache 2.0. Вот такие дела.

🎉64🔥16👍10❤2🤨1

6.78K views06:36

Data Secrets

😕

Please open Telegram to view this post

VIEW IN TELEGRAM

😁96🥰9👍6🔥4🏆3🫡1

6.36K views09:48

Data Secrets

erid: LjN8KbxG8

Построение DWH в Yandex Cloud: кейс крупной логистической компании

21 марта в 16.00

На вебинаре эксперты iiii Tech и Yandex Cloud совместно с клиентом Рулог поделятся кейсом, как в рамках локализации отчетности развернуть DWH (КХД) на Yandex Cloud.

Расскажем о:
- современном стеке аналитических инструментов
- бесшовной миграции с международных облачных платформ
- о проекте построения DWH (КХД) на основе дата-контрактов

Вебинар будет полезен CDO, CTO, руководителям направлений по работе с данными, архитекторам данных, аналитиками и дата-инженерам.

Спикеры:

Георгий Цыганков,
руководитель направления BI

Андрей Суренский,
архитектор по работе с партнёрами Yandex Cloud

Венера Никитина, бизнес-аналитик логистической компании Рулог

Зарегистрироваться можно по ссылке

🗿5👍1

6.53K views11:52

Data Secrets

Сегодня много движа со стороны Apple. Видимо вспомнили, что скоро выпускать новый IPhone, ну а выпустить без ИИ на борту будет как-то не трендово.

🌟По данным обозревателя Bloomberg Марка Гурмана, Apple планирует получить у Google лицензию на использование Gemini. Компания хочет добавить ИИ-функции в iOS уже в этом году.

А также пошел слушок, что Apple обсуждала с OpenAI возможность использования их ИИ-модели.

🌟У техно-гиганта в работе еще одна модель MM1 (статья). Умеет считать объекты на картинке и описывать их, анализирует участки изображения и извлекает текст, может проводить простые математические операции, посчитать примерный вес и размеры айтема.

🌟В начале года Apple тихо купила стартап Darwin AI вместе с десятком их сотрудников. Главное направление разработок там – делать LLM легче и быстрее (идеально для смартфонов).

В таких реалиях особенно забавно вспоминать о том, что Apple сократила свою ML-команду в размере более 100 человек, которая как раз занималась разработкой Siri.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26🔥7🫡5😁2❤1

6.56K views13:31

Data Secrets

Forwarded from XOR

⚡️ В подкасте Armchair Expert Билл Гейтс выдал базу про искусственный интеллект. Бизнесмен считает, что нынешние модели машинного обучения плохо справляются со сложными для человека задачами. К примеру, нейросеть может взять на себя рутину, но не сможет качественно проанализировать данные и дать развёрнутый фидбэк.

Сам Гейтс до сих пор не нашёл баланс в использовании ИИ. Он отмечает, что с некоторыми задачами нейросети справляются блестяще, но другие делают хуже любого человека. А ещё искусственный интеллект плохо играет в судоку и не может сделать людей счастливыми.

@xor_journal

Please open Telegram to view this post

VIEW IN TELEGRAM

👍35🔥9😁4

6.02K views17:47

Data Secrets

Nvidia представила свою новую крышесносно-мощную видеокарту Blackwell

Она в 5(!) раз быстрее предыдущей Hopper, которая кстати вышла всего год назад (ну ничего себе экспонента, да?). Уже известно, что чип будут использовать в OpenAI, Google, Microsoft и Tesla.

Для больших языковых обещают снижение затрат на инференс в 25 раз! А еще Хуанг предложил собирать чипы в кластеры по 100 тысяч ускорителей. Просто представьте, какая это мощь и насколько может изменить индустрию ИИ.

Не зря Альтман и остальные верят, что именно за чипами будущее. Новой эре быть!

🔥51👍9😁5🙈1

7.61K views05:51

Data Secrets

Реалии современной науки *

Лучше не становится: Google Scholar туда же…

Эх, ну хоть бы промптить нормально научились

😁59😨6👌3❤1👍1🤯1

6.96K views09:02

Data Secrets

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Рубрика интересные факты 🤓

Коллеги, ну вы поняли, теперь MSE только так называем

Please open Telegram to view this post

VIEW IN TELEGRAM

😁68😨40😐10😎5👍2❤1🔥1

8.65K views11:38

Data Secrets

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Главное помнить, что мы сами их сотворили

👍52😁24🔥16❤3

17.9K views15:21

Data Secrets

Нашли супер полезный сайт с аннотированным кодом популярных моделей

Здесь есть код, например, Stable Diffusion, GPT, ResNet, оптимизатора Adam, Switch Tranformer и много чего другого. Но это не просто код. Фишка сайта вот в чем: каждая строка кода задокументирована и слева на экране отображается соответсвующая каждой строке теория или формулы. Отличный ресурс для изучения!

❤82👍15❤‍🔥10

10.7K views17:28

Data Secrets

Слышали про квантизацию? Если еще нет, вот подробная статья

По сути квантизация – это способ представить данные в более компактном виде, что поможет сэкономить ресурсы и улучшить пользовательский опыт.

ML-разработчик Яндекса рассказал, как (и вообще зачем) квантизовать модели, с каким данными при этом предстоит работать, а еще представил несколько методов квантизации. Будет полезно не только спецам, но и всем, кто хочет уметь заставлять модели работать эффективнее. Ссылка на Хабр вот тут.

👍34🔥11❤5🤯2

7.33K views06:03

About

Blog

Apps

Platform