Data Secrets
78.8K subscribers
6.42K photos
667 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Новый ресерч от Anthropic: стартап представляет систему для анализа диалогов пользователей без использования личных данных

Анализ того, как именно пользователи используют LLM – для компаний настоящий кладезь. Ведь это ключ с понимаю того, как улучшить свою систему. Но как анализировать диалоги так, чтобы данные пользователя при этом были защищены от чужих глаз? Очень просто: пусть вместо аналитика тоже будет ИИ.

Система Anthropic – Clio – работает в несколько этапов. Сначала из диалогов извлекаются фичи: эмбеддинги, язык, длина, тема, главная задача и тд. Затем на основе этих признаков модель кластеризует диалоги с помощью обычного K-Means и делит их иерархически. Получается такое дерево кластеров, в котором можно гулять по ветвям, анализируя темы разных уровней. Система позволяет анализировать тренды, отслеживать удовлетворенность пользователей, их настоение в общении с ИИ и, самое крутое – джейлбрейки (это же какое счастье для выстраивания alignment'а и безопасности!)

При этом никакие данные все еще не попадают в руки людей – весь пайплайн автоматизирован. Только после того, как Clio тщательно фильтрует все персональные данные и удаляет редкие кейсы, мы наконец можем взглянуть на аггрегацию.

На скрине наверху – самые частые сценария использования Claude. Обратите внимание, что это первое в истории исследование такого рода (по крайней мере, результаты которого были опубликованы): чтобы мы увидели эти числа, Clio обработала более 1 миллиона случайных диалогов.

Кстати, исследователи отмечают, что кроме того, что перечисленно на графике, они нашли еще несколько внезапных, но очень популярных кейсов использования чат-бота. Среди них анализ футбольных матчей, толкование снов, написание сценариев для Dungeons & Dragons и... подсчет букв r в слове strawberry 😀

А еще оказалось, что юзеры разных стран по-разному используют ИИ. Например, испанцы часто спрашивают про экономику и здоровье, японцам подавай мангу, а китайцам – написанные ИИ детективы и триллеры.

Очень круто, в общем. Подробнее можно почитать здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥45👍139🍓3
Наверное 200 долларов на подписку откладывала со вкусняшек
😁8120👍10🤓2
7 день стримов OpenAI из 12: сегодня показали проекты в ChatGPT

Это могут быть просто папки для группировки диалогов или полноценные рабочие директории, которые содержат разные чаты для разных задач в одном и том же проекте. Туда можно добавлять файлы, которые будут в контексте бота во всех новых диалогах и общие инструкции для проекта.

То есть, начиная новый диалог, основную задачу повторять не надо: ChatGPT уже знает, над чем вы работаете в этой папке. В проект можно добавлять уже существующие диалоги или создавать новые внутри.

Небольшая, но оочень приятная фича
👍9116🤔8👻3🔥2
Уровень пасхалок: OpenAI
😁16117👌9
Илья Суцкевер вчера выступил с интереснейшей лекцией про скейлинг моделей на NeurlPS 2024

Он пояснил, что масштабирование на данных в претрейне действительно заканчивается, новые или синтетические данные не меняют ситуацию. Илья сравнил данные с ископаемым топливом: мы использовали его, чтобы «завести» ИИ и поставить его на рельсы, но теперь пора переключиться на другие инструменты.

Это как с человеческим мозгом: в какой-то момент эволюции он перестал расти в размерах, но человечество все равно становится умнее с каждым годом за счет новых навыков.

Так, будущее ИИ, как говорит Илья, за агентами, пониманием целей и самосознанием в моделях. При этом к появлению самосознания может привести ризонинг, но, как отметил ученый, в перспективе это очень непредсказуемая вещь ( «также, как действия AlphaZero непредсказуемы даже для чемпионов мира по шахматам»).

«Сверхразум в любом случае будет обладать радикально другими качествами и свойствами, по сравнению с сегодняшними моделями» – сказал Илья.

Лекцию полностью залили сюда
👍9116🔥12😁5
У Meta вышла громкая работа о новом способе токенизации

Токенизация – вообще одна из ключевых проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry (больше примеров, в которых модельки фейлятся из-за токенизации см. здесь).

Чтобы попытаться решить эти проблемы, Meta предложили в качестве альтернативы токенам обычные байты. Тут надо сказать, что идея вообще-то не новая, еще давно уже выходила похожая token-free LM MambaByte. Но у Meta, во избежании слишком длинных последовательностей битов, впервые повляется динамический энкодинг в патчи.

Эти патчи и служат основными единицами вычисления, и внутри модели решается задача предсказания следующего патча. Патчи сегментируются динамически на основе энтропии следующего байта. Получается, если данные более "предсказуемы", то патчи получаются подлиннее, и наоборот. Однако перед группировкой байты все равно обрабатываются локальным энкодером, аналогично после предсказания следующего патча приходится подключать декодер.

На бечмарках все очень многообещающе: BLT (Byte Latent Transformer) находится на одном уровне или даже немного выше LLama 3 с BPE по перплексии (BPB на графике – это метрика перплексии, не зависяща от токенизатора). При этом подход масштабируется, и исследователям даже удалось обучить токен-фри Llama-3 8B на датасете 1Т токенов, и она оказалась в среднем немного лучше, чем Llama-3 с BPE.

Обязательно почитайте полностью, это очень интересно
👍83🤯2714🔥7🤔3
GUID Partition Table RIP

Доброе воскресное
😁70🫡177👏3🎃2🔥1🍓1
В EpochAI показали интересную статистику трендов роста параметров в языковых моделях

Смотрите: с 2017 года, года выхода трансфорера, количество параметров в моделях росло очень значительно. Если в GPT-1 их насчитывалось всего 117 миллионов, то уже через два года, в GPT-3, их стало 175 миллиардов, то есть в 1000 раз больше. В GPT-4, которая вышла еще через три года, уже было 1.8 триллиона параметров — еще в 10 раз больше.

Помните ту самую картинку с китом, иллюстрирующим размеры GPT-5, с весенней конференции Microsoft? Долгое время действительно считалось, что количество параметров, как и размер датасета – ключ к масштабированию, и если бы тенденция сохранилась, то сейчас в ведущих моделях было бы около 10 триллионов параметров.

Но реальность оказалась иной: вместо увеличения масштаба модели начали уменьшаться. Например, GPT-4o имеет, предположительно, около 200 миллиардов параметров, что в 8-10 раз меньше GPT-4. Примерно столько же имеет Claude 3.5 Sonnet (прикинуть можно на основе открытых моделей или на основе скорости инференса и цен).

Почему так?

а) Акцент сместился на оптимизацию, потому что компании уже не могли вывозить еще более дорогой инференс в условиях растущего спроса;

б) Теперь у нас есть синтетика, и можно увеличить вычислительную сложность обучения, не увеличивая при этом размер;

в) Мы перешли на другой закон масштабирования (и это, пожалуй, самое важное). C 2020 года предполагалось, что для оптимальной производительности модели нужно поддерживать высокое соотношение параметров к числу обучающих токенов. Однако в 2022 году и в дальнейшем группа исследователей Hoffmann et al. показала новый закон, известный как Chinchilla: оказалось, что вместо увеличения числа параметров можно добиться лучшей производительности, увеличив количество данных, на которых обучается модель (см.график). Правда, сейчас и это выходит на плато, но это уже другая история.

Тем не менее, вряд ли и дальше модели будут уменьшаться такими темпами. Смена законов масштабирования была разовым эффектом, а также довольно очевидно, что нельзя бесконечно уменьшать размер модели, сохраняя высокую производительность. Кроме того, сейчас в приоритете test-time compute scaling, и при этом железо продолжает развиваться, так что большие модели, которые могут работать с длинными цепочками рассуждений и контекстом, снова получают преимущество.

Короче, довольно интересный ресерч у ребят вышел, полностью прочитать можно тут
👍6011🔥11
Понедельник.
😁13910👍7🤔5🔥1
Команды Центрального университета завоевали первые места на Международном конкурсе по ИИ AI Challenge

⚪️ Команды из Центрального университета соревновались с 44 сборными из 65 стран мира в полуфинале трека “Исследователи”. Нужно было решить технические бизнес-кейсы с использованием методов машинного обучения и анализа данных по различным направлениям, например, по металлургии, сельскому хозяйству и инвестициям.

⚪️ Команды из Центрального университета заняли призовые места в треке “Исследователи”. Победителем в направлении “Инвестиции” стала команда “ИИван”: ее участники построили модель временных рядов, которая валидирует данные MOEX и предсказывает движение котировок на временном промежутке в 1 час. На втором месте по направлению “Девелопмент” – сборная “Без приколов”, которая разработала модель скоринга подрядчиков для расчета вероятности “дефолта” и реализовала интерфейс для взаимодействия с ней. Все финалисты и призеры конкурса AI Challenge разделят призовой фонд – 17 млн рублей.

⚪️ В этом году преподаватели Центрального университета уже подготовили команду к победе на первой Международной олимпиаде по ИИ в Болгарии. Сборная с большим отрывом обошла соперников из 39 стран. В 2025 году Центральный университет и Альянс ИИ будут готовить команду к олимпиаде в Китае.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50🔥26👏13🤯5😁42👻2
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего необычного, просто новая gemini 2.0 болтает с chatgpt voice

Те самые тарантиновские диалоги из учебников английского
😁9011👍5🗿3