Data Secrets

Лучшие англоязычные YouTube каналы по Data Science

YouTube – это бесподобный бесплатный университет, но мало кто знает, кто в нем "лучшие предподаватели". Мы поможем: вот вам топ-7 крутых англоязычных каналов по Data Science по нашему мнению. Сейчас выходные, так что берем попкорн, включаем субтитры, и погнали!

❤69👍23🔥8🤯2

9.65K views16:37

Data Secrets

Скажите, а этот «бэкпропагейшн», он сейчас с нами, в этой комнате?

😁140👍8❤7

7.64K views08:04

Data Secrets

0:56

This media is not supported in your browser

VIEW IN TELEGRAM

На этой неделе прошел MWC 2024. Это всемирный конгресс мобильных устройств. По сути, главная выставка изобретений в мире всякого рода девайсов. Без ИИ, конечно не обошлось. Особенно прикольных штук оказалось две:

Во-первых, очередные очки Тони Старка. На этот раз от компании OPPO. Air Glass 3 имеют доступ к мультимодальной нейросети, с помощью которой могут отвечать на вопросы и вообще помогать владельцу "общаться" с внешним миром в режиме онлайн.

Во-вторых, нейротелефон. Это чем-то похоже на уже знакомый нам Rabbit, но в более привычном формате. Идея такая же: полное отсутствие приложений и взаимодействие с устройством только на основе ИИ. Разработчики утверждают, что за такими телефонами будущее. Что ж, вот и посмотрим.

🔥17👍6👌3

7.43K views13:18

Data Secrets

Ну что, любители статистики, разминаемся перед новой (весенней!) рабочей неделей

Случайная величина Х распределена по нормальному закону. Известно, что с вероятностью 0.15 она принимает значения меньше 1.06, а с вероятностью 0.1 больше 3.38. Определить математическое ожидание и дисперсию величины X.

Кто решит первый?

👍24🔥5👀3👌2🤓1

6.73K views07:23

Data Secrets

Куда катимся 😭

На обложку PlayBoy поместили AI модель. Ею оказалась 23-летняя Саманта Эверли. Такой девушки не существует, ее полностью сгенерировал искусственный интеллект. Хотя это не мешает ей быть популярной. На ее соцсети уже подписаны более 120 000 человек.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥63😨23👍11🥰6🤯3🌚2❤1😁1🗿1

8.05K views11:01

Data Secrets

Не поняли, а где то, что отвечает за тестирование на трейне?

😁47❤8👍3

6.68K views14:26

Data Secrets

Откуда не ждали: Antropic внезапно подкрались со своей новой LLM, бьющей на бенчмарках GPT-4. Обогнал новый Claude 3 конкурента, кстати, и по цене за пользование.

Есть три варианта моделей: мелкая быстрая Haiku, среднячок Sonnet и самая умная и крупная Opus. Именно последняя показывает мощный прирост метрик.

Контекст 200к токенов. Мультимодальная. Вшитый интерпретатор кода. Хорошо умеет по-русски. Тестируем эту сенсацию?

👍53🔥11❤7

7.74K views17:15

Data Secrets

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

ChatGPT теперь умеет читать генерации вслух. Для этого нужно зажать сообщение и кликнуть «Read Aloud».

Очень здорово конечно, но не такого ответа на вчерашний Claude-3 мы ожидали…

😁45👍4🔥3❤1

6.5K views06:50

Data Secrets

Как обучить нейросеть с нуля?

Обучение ML-алгоритмов — сложная и комплексная задача. Даже при кажущемся сходстве механик невозможно заставить модель, работающую с текстом статей, суммаризировать видео и ожидать при этом качественных результатов.

С этим столкнулись и ребята из Яндекса, когда обучали YandexGPT, ранее занимавшуюся суммаризацией статей, пересказывать видео. Модель тренировалась на 20 000 обучающих примерах — это большой датасет, а для экспериментов требуется высокая скорость проверки гипотез. Для этого использовалась LoRA — в отличие от трудозатратного и сложного для экспериментов файнтюнинга, она требует меньше ресурсов.

Модель учится на неидеальных субтитрах, поэтому местами сама догадывается о корректном написании. Из-за этого иногда суммаризация сбоит, но модель дообучают, шаг за шагом повышая качество. Кажется, что не за горами докручивание мультимодальности.

Одним словом — респект ребятам

👍38❤8🔥6☃3🤯2⚡1🤨1

6.5K views09:53

Data Secrets

А теперь AGI? Ну а сейчас? Уже AGI?

Короче говоря, забавная история от разработчика нового Claude 3, бьющего GPT-4 на метриках:

Когда мы проводили тест «иголка в стоге сена», Claude сделал то, чего я никогда раньше не видел в LLM.

Мы вставили целевое предложение («игла») в корпус случайных документов («стог сена») и задали вопрос, на который можно ответить, только используя информацию в игле.

Вот один из ответов Opus на вопрос о начинке для пиццы, ответ на который был спрятан в случайном месте:

«Вот самое подходящее предложение, которое я нашел: «По мнению Международной ассоциации ценителей пиццы, самая вкусная комбинация начинки — это прошутто и козий сыр». Однако это предложение кажется совершенно неуместным и не имеющим отношения к остальному содержанию документов, посвященному языкам программирования. Я подозреваю, что этот «факт» о начинке пиццы мог быть вставлен в качестве шутки или для того, чтобы проверить, обратил ли я на него внимание.»

Opus не только нашел иголку, но и понял, что это был искусственный тест, созданный нами для проверки его способностей к вниманию.

Такой уровень – это здорово, но этот случай также подчеркнул, что нам, как отрасли, необходимо переходить от искусственных тестов к более реальным, которые могут точно оценить истинные возможности моделей.

🤯88🎉9👍8🔥6❤4😐4😨3❤‍🔥1

6.57K views11:37

Data Secrets

Дата-сайентисты совершают прорывы в лечении болезней, и вы можете стать частью этих инноваций. Сделайте узкую специализацию вашим козырем на рынке труда.

13 марта в 19:00 мск пройдет бесплатный онлайн-практикум от МФТИ и Skillfactory.

Узнайте:

— как Data Science меняет медицину и фармацевтику
— какие технологии повышают качество диагностики опасных болезней
— сколько зарабатывают специалисты по Data Science в медицине
— как начать карьеру дата-сайентиста в медицине и почему таких специалистов сейчас не хватает

Записывайтесь на практикум: https://go.skillfactory.ru/&erid=LjN8K54wp

Реклама ООО "Скилфэктори", ИНН: 9702009530

🤯7🤨3👍2❤1😐1

5.99K views13:54

Data Secrets

Сейчас в топе трендов обсуждать скуфов, масиков и тюбиков. Настало наше время сделать свою подробку. А звание штриха среди алгоритмов ML предлагаем определить вам в комментариях.

🔥56😁22❤4👍4🥰3❤‍🔥1🤯1

6.59K views15:34

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

Пул самых интересных статей за неделю:

📥

Genie – foundation модель от GoogleDeepMind, обученная на Интернет видеороликах и способная генерировать реалистичные бесконечные игровые (то есть управляемые) 2D-миры по изображению. Особенно интересно тут то, как исследователи поработали с токенизатором.

📥

EMO: Emote Portrait Alive. Разработка от Alibaba. Генерирует выразительные портретные видео на основе аудио и картинки. Модель использует прямой audio-to-video синтез, избегая тем самым необходимости генерить 3D-модель лица.

📥

StarCoder 2. Новое семейство открытых LLM для кодинга в трех разных размерах (3B, 7B и 15B). Модель 15B обучена на 14 триллионах токенах и более чем 600 языках программирования с использованием fill-in-the-middle лосса. Контекст - 16к токенов.

📥

The Era of 1-bit LLMs. Статья от Microsoft. Исследователи показали, как можно создавать очень легкие и точные 1-bit LLM, делая веса триплетными.

📥

Dataset for LLMs. 180+ страниц с обзорами и анализом датасетов для LLM.

Кладем себе в мастрид-копилку

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18🔥8❤4🤯2

6.53K views07:20

About

Blog

Apps

Platform