Data Secrets

Яндекс Поиск, Сбер AI и MTS AI признаны лучшими работодателями в сфере ИИ

Об этом сообщает TAdviser: аналитики оценивали 45 компаний и сравнивали их по пяти критериям, включая карьерное развитие, прокачку хард скиллов сорудников, участие в развитии сообщества и др (подробнее – тут). В финал вышли 20 работодателей, а в тройку лидеров попали Яндекс Поиск, Сбер AI и MTS AI 👍

А вот еще немного интересной статистики из этого исследования: сейчас уже 90%(!) крупнейших компаний в России используют ИИ, при этом в среднем команды ML-разработчиков составляют 50 человек, а в корпорациях – 1000.

Теперь вы знаете, куда отправлять резюме

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥48🤯10👍7🙈5🌭3❤2🍌2😁1🤪1

11.6K views12:02

Data Secrets

Новый ресерч от Anthropic: стартап представляет систему для анализа диалогов пользователей без использования личных данных

Анализ того, как именно пользователи используют LLM – для компаний настоящий кладезь. Ведь это ключ с понимаю того, как улучшить свою систему. Но как анализировать диалоги так, чтобы данные пользователя при этом были защищены от чужих глаз? Очень просто: пусть вместо аналитика тоже будет ИИ.

Система Anthropic – Clio – работает в несколько этапов. Сначала из диалогов извлекаются фичи: эмбеддинги, язык, длина, тема, главная задача и тд. Затем на основе этих признаков модель кластеризует диалоги с помощью обычного K-Means и делит их иерархически. Получается такое дерево кластеров, в котором можно гулять по ветвям, анализируя темы разных уровней. Система позволяет анализировать тренды, отслеживать удовлетворенность пользователей, их настоение в общении с ИИ и, самое крутое – джейлбрейки (это же какое счастье для выстраивания alignment'а и безопасности!)

При этом никакие данные все еще не попадают в руки людей – весь пайплайн автоматизирован. Только после того, как Clio тщательно фильтрует все персональные данные и удаляет редкие кейсы, мы наконец можем взглянуть на аггрегацию.

На скрине наверху – самые частые сценария использования Claude. Обратите внимание, что это первое в истории исследование такого рода (по крайней мере, результаты которого были опубликованы): чтобы мы увидели эти числа, Clio обработала более 1 миллиона случайных диалогов.

Кстати, исследователи отмечают, что кроме того, что перечисленно на графике, они нашли еще несколько внезапных, но очень популярных кейсов использования чат-бота. Среди них анализ футбольных матчей, толкование снов, написание сценариев для Dungeons & Dragons и... подсчет букв r в слове strawberry 😀

А еще оказалось, что юзеры разных стран по-разному используют ИИ. Например, испанцы часто спрашивают про экономику и здоровье, японцам подавай мангу, а китайцам – написанные ИИ детективы и триллеры.

Очень круто, в общем. Подробнее можно почитать здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥45👍13❤9🍓3

26.6K views13:25

Data Secrets

Наверное 200 долларов на подписку откладывала со вкусняшек

😁81❤20👍10🤓2

10.3K views15:51

Data Secrets

7 день стримов OpenAI из 12: сегодня показали проекты в ChatGPT

Это могут быть просто папки для группировки диалогов или полноценные рабочие директории, которые содержат разные чаты для разных задач в одном и том же проекте. Туда можно добавлять файлы, которые будут в контексте бота во всех новых диалогах и общие инструкции для проекта.

То есть, начиная новый диалог, основную задачу повторять не надо: ChatGPT уже знает, над чем вы работаете в этой папке. В проект можно добавлять уже существующие диалоги или создавать новые внутри.

Небольшая, но оочень приятная фича

👍91❤16🤔8👻3🔥2

11.5K viewsedited 18:02

Data Secrets

Уровень пасхалок: OpenAI

😁161❤17👌9

10.9K views18:26

Data Secrets

Илья Суцкевер вчера выступил с интереснейшей лекцией про скейлинг моделей на NeurlPS 2024

Он пояснил, что масштабирование на данных в претрейне действительно заканчивается, новые или синтетические данные не меняют ситуацию. Илья сравнил данные с ископаемым топливом: мы использовали его, чтобы «завести» ИИ и поставить его на рельсы, но теперь пора переключиться на другие инструменты.

Это как с человеческим мозгом: в какой-то момент эволюции он перестал расти в размерах, но человечество все равно становится умнее с каждым годом за счет новых навыков.

Так, будущее ИИ, как говорит Илья, за агентами, пониманием целей и самосознанием в моделях. При этом к появлению самосознания может привести ризонинг, но, как отметил ученый, в перспективе это очень непредсказуемая вещь ( «также, как действия AlphaZero непредсказуемы даже для чемпионов мира по шахматам»).

«Сверхразум в любом случае будет обладать радикально другими качествами и свойствами, по сравнению с сегодняшними моделями» – сказал Илья.

Лекцию полностью залили сюда

👍91❤16🔥12😁5

12.1K views08:49

Data Secrets

У Meta вышла громкая работа о новом способе токенизации

Токенизация – вообще одна из ключевых проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry (больше примеров, в которых модельки фейлятся из-за токенизации см. здесь).

Чтобы попытаться решить эти проблемы, Meta предложили в качестве альтернативы токенам обычные байты. Тут надо сказать, что идея вообще-то не новая, еще давно уже выходила похожая token-free LM MambaByte. Но у Meta, во избежании слишком длинных последовательностей битов, впервые повляется динамический энкодинг в патчи.

Эти патчи и служат основными единицами вычисления, и внутри модели решается задача предсказания следующего патча. Патчи сегментируются динамически на основе энтропии следующего байта. Получается, если данные более "предсказуемы", то патчи получаются подлиннее, и наоборот. Однако перед группировкой байты все равно обрабатываются локальным энкодером, аналогично после предсказания следующего патча приходится подключать декодер.

На бечмарках все очень многообещающе: BLT (Byte Latent Transformer) находится на одном уровне или даже немного выше LLama 3 с BPE по перплексии (BPB на графике – это метрика перплексии, не зависяща от токенизатора). При этом подход масштабируется, и исследователям даже удалось обучить токен-фри Llama-3 8B на датасете 1Т токенов, и она оказалась в среднем немного лучше, чем Llama-3 с BPE.

Обязательно почитайте полностью, это очень интересно

👍83🤯27❤14🔥7🤔3

12.6K views13:10

Data Secrets

GUID Partition Table RIP

Доброе воскресное

😁70🫡17☃7👏3🎃2🔥1🍓1

10.5K views05:26

Data Secrets

В EpochAI показали интересную статистику трендов роста параметров в языковых моделях

Смотрите: с 2017 года, года выхода трансфорера, количество параметров в моделях росло очень значительно. Если в GPT-1 их насчитывалось всего 117 миллионов, то уже через два года, в GPT-3, их стало 175 миллиардов, то есть в 1000 раз больше. В GPT-4, которая вышла еще через три года, уже было 1.8 триллиона параметров — еще в 10 раз больше.

Помните ту самую картинку с китом, иллюстрирующим размеры GPT-5, с весенней конференции Microsoft? Долгое время действительно считалось, что количество параметров, как и размер датасета – ключ к масштабированию, и если бы тенденция сохранилась, то сейчас в ведущих моделях было бы около 10 триллионов параметров.

Но реальность оказалась иной: вместо увеличения масштаба модели начали уменьшаться. Например, GPT-4o имеет, предположительно, около 200 миллиардов параметров, что в 8-10 раз меньше GPT-4. Примерно столько же имеет Claude 3.5 Sonnet (прикинуть можно на основе открытых моделей или на основе скорости инференса и цен).

Почему так?

а) Акцент сместился на оптимизацию, потому что компании уже не могли вывозить еще более дорогой инференс в условиях растущего спроса;

б) Теперь у нас есть синтетика, и можно увеличить вычислительную сложность обучения, не увеличивая при этом размер;

в) Мы перешли на другой закон масштабирования (и это, пожалуй, самое важное). C 2020 года предполагалось, что для оптимальной производительности модели нужно поддерживать высокое соотношение параметров к числу обучающих токенов. Однако в 2022 году и в дальнейшем группа исследователей Hoffmann et al. показала новый закон, известный как Chinchilla: оказалось, что вместо увеличения числа параметров можно добиться лучшей производительности, увеличив количество данных, на которых обучается модель (см.график). Правда, сейчас и это выходит на плато, но это уже другая история.

Тем не менее, вряд ли и дальше модели будут уменьшаться такими темпами. Смена законов масштабирования была разовым эффектом, а также довольно очевидно, что нельзя бесконечно уменьшать размер модели, сохраняя высокую производительность. Кроме того, сейчас в приоритете test-time compute scaling, и при этом железо продолжает развиваться, так что большие модели, которые могут работать с длинными цепочками рассуждений и контекстом, снова получают преимущество.

Короче, довольно интересный ресерч у ребят вышел, полностью прочитать можно тут

👍60❤11🔥11

10.6K views13:29

Data Secrets

Понедельник.

😁139❤10👍7🤔5🔥1

9.67K views06:08

About

Blog

Apps

Platform