Data Secrets

В 5 абзацах объяснить один из главных методов обработки пайплайнов с биг-датой? Да пожалуйста. Broadcast Join – к вашему вниманию.

🎉30👍15🔥8🤯2

6.98K views09:13

Data Secrets

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

В Google презентовали VideoPrism: базовую модель для "понимая" видео

Удивительно, но факт: в эпоху SORA универсальный энкодер для видео (ViFM), который справляется с широким спектром задач, долго оставался голубой мечтой. Однако теперь Google превратили это в реальность.

VideoPrism умеет почти все: описывать видео, искать или локализовать объекты, классифицировать, отвечать на вопросы. Обучена модель на 36 миллионах video-text пар и 582 миллионах видео с субтитрами.

Под капотом – вижн трансформер (ViT), который обучается в два этапа: сначала с триплет-лоссами, чтобы научить сеточку сопоставлять видео подходящее описание; а затем на masked роликах, заставляя модель "дополнять" пропущенные участки (все, как дедушка BERT завещал). Получается, что исследователи как бы учат модель понимать и семантику видео, и динамику кадра.

И работает это классно: на 30 из 33 бенчмарков выбивает SOTA. Теперь исследователи планируют прикрутить сюда LLM. Ждем и надеемся, что такие наработки приведут к чему-то фееричному (еще одна SORA?)...

👍37🔥10❤9

7.36K views12:38

Data Secrets

Forwarded from XOR

Привет! На связи команда XOR. Совсем скоро мы готовим для вас большое обновление нашего любимого тиндера для программистов – CodeMates. И в этом нам нужна ваша помощь.

Мы ищем HR-специалистов, которые готовы пройти короткий кастдев. С вас – ответить на несколько небольших вопросов. С нас – приятная плюшка.

Чтобы поучаствовать, просто напиши @v2r8n и в двух предложениях расскажи про свой HR-опыт.

Кстати, в

CodeMates

уже более 7 тысяч пользователей, если еще не пробовал – самое время

😏

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤6🔥6

6.18K views14:53

Data Secrets

В каких еще областях нас планирует удивить OpenAI?

На днях компания подала заявку на регистрацию товарного знака для цифрового голосового помощника и голосового движка. Технология охватит распознавание речи, ее генерацию, и, возможно, генерацию других звуковых выходов.

Siri и Alexa тихо закурили в сторонке

❤27🔥10👍7

6.86K views06:23

Data Secrets

Социальный опрос. Расскажите, что для вас – идеальная карьера в ML?

Anonymous Poll

29%

Работать на топ-должности в бигтехе в России

16%

Трудиться в FAANG

45%

Собственный успешный ML-стратап

Заниматься участием в хакатонах и соревнованиях и зарабатывать на этом

Другое (напишу в комментариях)

🔥24🤨6❤4😁2👍1🤔1👻1

1.35K voters6.86K views09:38

Data Secrets

Миниатюра: у тебя есть GPU, но нет нормальных данных 🤡

Please open Telegram to view this post

VIEW IN TELEGRAM

😁176😨14👍8🙈7❤6

7.6K views11:29

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

CEO HyperWriteAI, ресерчер Мэтт Шумер, только что катнул в опенсурс инструмент, файнтюнящий LLM под специфик-таски по промпту

И вот как это работает. От пользователя поступает описание модели, которую он хочет получить для конкретной задачи. Этот промпт попадает в Claude-3, который генерит соответствующий датасет. Далее на этих данных дообучается Llama-2. Прикольно, да?

Шумер отмечает, что использовал для этого проекта свое древнее легаси, поэтому файнтюнит именно ламу. Он предложил всем желающим попробовать законтрибьютить в проект, в том числе попытаться заменить ламу на Mistral.

👍39🔥18❤6🥰3

8.47K viewsedited 17:04

Data Secrets

Пу-пу-пуууу, больше не первые, получается

🔥52👍14❤4

7.68K views06:59

Data Secrets

Стало известно, что 10 июня состоится большая конференция WWDC от Apple. Они пообещали, что «It’s going to be Absolutely Incredible!»

Заметили этот тонкий намек на AI?

😏

Возможно, как вещал Марк Гурман, корпорация заколабится с Anthropic или Google и внедрит в новый IOS генеративные сети? Или они продолжат работать с Калифорнийским университетом и используют в новом iPhone свои собственные модели? Кроме того, компания недавно выкупила стартап DarwinAI, так что ждем новостей и оттуда.

Как бы то ни было, забиваем 10 июня в своих календарях, нас ждет что-то интересное.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18🔥5👏3🗿1

7.51K views09:42

Data Secrets

Большие новости: Яндекс анонсировал линейку языковых моделей третьего поколения YandexGPT.

На сайте Yandex Cloud уже доступна YandexGPT 3 Pro — это первая нейросеть, которая вошла в линейку YandexGPT 3. В дальнейшем их станет больше: каждая будет ориентирована на решение задач определённого типа.

Бизнес сможет дообучить YandexGPT 3 Pro на своих скриптах в сервисе ML-разработки Yandex DataSphere, а потом встроить технологию в продукты через API и использовать её по цене в почти два раза дешевле. Тут можно потыкаться в демо-режиме.

🔥33👍12❤5🤯3

7.04K views11:32

Data Secrets

Пу-пу-пуууу, больше не первые, получается

На злобу дня 🚬

Please open Telegram to view this post

VIEW IN TELEGRAM

❤47😁30😐5👍2🔥2

7.12K views15:24

Data Secrets

В Google дела идут хорошо: сооснователь компании Сергей Брин лично звонит AI-инженерам и просит их не уходить в OpenAI

🙏

Если верить инсайдеру, личный звонок Брина, а также обещания бонусов и повышение зп (ну это уже мелочи, правда?) все-таки убедили сотрудника остаться на своем посту.

Они говорили, ИИ нас заменит

Please open Telegram to view this post

VIEW IN TELEGRAM

😁91👍18❤8👏3🤗2😇1

7.73K viewsedited 06:39

Data Secrets

Новости о дикой погоне за AI-специалистами на Google не заканчиваются. В последнее время отовсюду так и сыпятся подобные истории.

Например Цукерберг, в отличии от Брина, сотрудникам с мольбами остаться еще не звонит, НО хантинговые емейлы уже пишет. Кстати, тоже ребятам из Google :) В этих письмах он предлагает работу кандидатам без каких-либо интервью и рассказывает о том, что к концу года Meta обзаведется 340 тысячами GPU H100 и станет первой на ИИ-рынке.

А вот у Perplexity для хантинга железа пока маловато. Их CEO, Аравинд Шринивас, пытался переманить ресерчера из Meta, но тот ответил "Приходите, когда у вас будет 10 тысяч чипов Nvidia H100. До свидания."

Бывает...

🤯46😁19👍5🔥5

7.16K views09:39

Data Secrets

Пополнение в рядах опенсурс LLM. AI21 выпустили Jamba. Вот, что нам известно:

– 52В параметров, из них 12В активных
– Контекст в 256к токенов
– Перформанс сравнимый с Mixtral
– Лицензия Apache 2.0. (веса)
– Новая архитектура: гибридный SSM трансформер. Пропускная способность в 3 раза больше, чем у обычного трансформера
– Скоро появится Instruct модель

👍18🔥10❤5

6.82K views11:46

Data Secrets

Ян Лекун провел большую лекцию в Гарварде (завидуем, да). Она называлась «Объектно-ориентированный ИИ: на пути к системам, которые могут учиться, запоминать, рассуждать и планировать»

Записи пока нет, но есть довольно подробные слайды. Лежат вот тут. Нужно оценить в первую очередь название слайда под номером один. «ML sucks» – дословно гласит он… Что ж, всем известно, что Лекун умеет выдавать базу.

Вообще слайдов аж 97 штук (прямо небольшая такая книга). Охватывают риски, тренды, свежие архитектуры моделей. Читаются легко, хорошо рисуют общую картину лекции.

Идеально для общего развития и насмотренности.

👍52❤12🔥11

10K viewsedited 16:13

Data Secrets

Новости о дикой погоне за AI-специалистами на Google не заканчиваются. В последнее время отовсюду так и сыпятся подобные истории. Например Цукерберг, в отличии от Брина, сотрудникам с мольбами остаться еще не звонит, НО хантинговые емейлы уже пишет. Кстати…

Тот самый ресерчер из Meta с 10 тысячами GPU

😁146❤8

7.17K views18:36

Data Secrets

Анонсирован Grok-1.5

Это LLM от xAI - стартапа Илона Маска. Из нового – контекстное окно в 128к токенов (в 16 раз больше, чем в предыдущем гроке) + судя по бенчмаркам, большой прирост сеточка получила на математических задачах. Кроме того, наблюдаем +10% на HumanEval.

В тест обещают выкатить в ближайшие дни.

👍31🔥9❤4

6.86K views07:13

Data Secrets

Breaking: Mojo теперь в опенсурс

Mojo – питоноподобный язык программирования от создателей PyTorch и TensorFlow, заточенный специально под Data Science. Он быстрее Python примерно в 35 тысяч раз.

Хайп вокруг языка начался примерно год назад, а сейчас разрабы открыли код под лицензией Apache 2.0.

Желающим законтрибьютить: вот инструкция

Кто вдохновился попробовать: вот вам наш пошаговый гайд по установке Mojo

🔥50❤8🗿5👍4😁3🤨2

16.7K views10:23

Data Secrets

Расходимся, коллеги ❓

Please open Telegram to view this post

VIEW IN TELEGRAM

❤105😁59👍12💯10🤯5

7.23K views14:20

Data Secrets

Поделитесь советом, связанным с работой, который вы бы дали себе, если бы попали в прошлое

Мы начнем:

Уделяй больше внимания данным и их обработке. Плохие данные = плохая модель. Если модель хорошая, значит она училась на качественных данных.

👍52😁27💯8

6.73K views17:10

About

Blog

Apps

Platform