Яндекс Поиск, Сбер AI и MTS AI признаны лучшими работодателями в сфере ИИ
Об этом сообщает TAdviser: аналитики оценивали 45 компаний и сравнивали их по пяти критериям, включая карьерное развитие, прокачку хард скиллов сорудников, участие в развитии сообщества и др (подробнее – тут). В финал вышли 20 работодателей, а в тройку лидеров попали Яндекс Поиск, Сбер AI и MTS AI👍
А вот еще немного интересной статистики из этого исследования: сейчас уже 90%(!) крупнейших компаний в России используют ИИ, при этом в среднем команды ML-разработчиков составляют 50 человек, а в корпорациях – 1000.
Теперь вы знаете, куда отправлять резюме
Об этом сообщает TAdviser: аналитики оценивали 45 компаний и сравнивали их по пяти критериям, включая карьерное развитие, прокачку хард скиллов сорудников, участие в развитии сообщества и др (подробнее – тут). В финал вышли 20 работодателей, а в тройку лидеров попали Яндекс Поиск, Сбер AI и MTS AI
А вот еще немного интересной статистики из этого исследования: сейчас уже 90%(!) крупнейших компаний в России используют ИИ, при этом в среднем команды ML-разработчиков составляют 50 человек, а в корпорациях – 1000.
Теперь вы знаете, куда отправлять резюме
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥48🤯10👍7🙈5🌭3❤2🍌2😁1🤪1
Новый ресерч от Anthropic: стартап представляет систему для анализа диалогов пользователей без использования личных данных
Анализ того, как именно пользователи используют LLM – для компаний настоящий кладезь. Ведь это ключ с понимаю того, как улучшить свою систему. Но как анализировать диалоги так, чтобы данные пользователя при этом были защищены от чужих глаз? Очень просто: пусть вместо аналитика тоже будет ИИ.
Система Anthropic – Clio – работает в несколько этапов. Сначала из диалогов извлекаются фичи: эмбеддинги, язык, длина, тема, главная задача и тд. Затем на основе этих признаков модель кластеризует диалоги с помощью обычного K-Means и делит их иерархически. Получается такое дерево кластеров, в котором можно гулять по ветвям, анализируя темы разных уровней. Система позволяет анализировать тренды, отслеживать удовлетворенность пользователей, их настоение в общении с ИИ и, самое крутое – джейлбрейки (это же какое счастье для выстраивания alignment'а и безопасности!)
При этом никакие данные все еще не попадают в руки людей – весь пайплайн автоматизирован. Только после того, как Clio тщательно фильтрует все персональные данные и удаляет редкие кейсы, мы наконец можем взглянуть на аггрегацию.
На скрине наверху – самые частые сценария использования Claude. Обратите внимание, что это первое в истории исследование такого рода (по крайней мере, результаты которого были опубликованы): чтобы мы увидели эти числа, Clio обработала более 1 миллиона случайных диалогов.
Кстати, исследователи отмечают, что кроме того, что перечисленно на графике, они нашли еще несколько внезапных, но очень популярных кейсов использования чат-бота. Среди них анализ футбольных матчей, толкование снов, написание сценариев для Dungeons & Dragons и... подсчет букв r в слове strawberry😀
А еще оказалось, что юзеры разных стран по-разному используют ИИ. Например, испанцы часто спрашивают про экономику и здоровье, японцам подавай мангу, а китайцам – написанные ИИ детективы и триллеры.
Очень круто, в общем. Подробнее можно почитать здесь
Анализ того, как именно пользователи используют LLM – для компаний настоящий кладезь. Ведь это ключ с понимаю того, как улучшить свою систему. Но как анализировать диалоги так, чтобы данные пользователя при этом были защищены от чужих глаз? Очень просто: пусть вместо аналитика тоже будет ИИ.
Система Anthropic – Clio – работает в несколько этапов. Сначала из диалогов извлекаются фичи: эмбеддинги, язык, длина, тема, главная задача и тд. Затем на основе этих признаков модель кластеризует диалоги с помощью обычного K-Means и делит их иерархически. Получается такое дерево кластеров, в котором можно гулять по ветвям, анализируя темы разных уровней. Система позволяет анализировать тренды, отслеживать удовлетворенность пользователей, их настоение в общении с ИИ и, самое крутое – джейлбрейки (это же какое счастье для выстраивания alignment'а и безопасности!)
При этом никакие данные все еще не попадают в руки людей – весь пайплайн автоматизирован. Только после того, как Clio тщательно фильтрует все персональные данные и удаляет редкие кейсы, мы наконец можем взглянуть на аггрегацию.
На скрине наверху – самые частые сценария использования Claude. Обратите внимание, что это первое в истории исследование такого рода (по крайней мере, результаты которого были опубликованы): чтобы мы увидели эти числа, Clio обработала более 1 миллиона случайных диалогов.
Кстати, исследователи отмечают, что кроме того, что перечисленно на графике, они нашли еще несколько внезапных, но очень популярных кейсов использования чат-бота. Среди них анализ футбольных матчей, толкование снов, написание сценариев для Dungeons & Dragons и... подсчет букв r в слове strawberry
А еще оказалось, что юзеры разных стран по-разному используют ИИ. Например, испанцы часто спрашивают про экономику и здоровье, японцам подавай мангу, а китайцам – написанные ИИ детективы и триллеры.
Очень круто, в общем. Подробнее можно почитать здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥45👍13❤9🍓3
7 день стримов OpenAI из 12: сегодня показали проекты в ChatGPT
Это могут быть просто папки для группировки диалогов или полноценные рабочие директории, которые содержат разные чаты для разных задач в одном и том же проекте. Туда можно добавлять файлы, которые будут в контексте бота во всех новых диалогах и общие инструкции для проекта.
То есть, начиная новый диалог, основную задачу повторять не надо: ChatGPT уже знает, над чем вы работаете в этой папке. В проект можно добавлять уже существующие диалоги или создавать новые внутри.
Небольшая, но оочень приятная фича
Это могут быть просто папки для группировки диалогов или полноценные рабочие директории, которые содержат разные чаты для разных задач в одном и том же проекте. Туда можно добавлять файлы, которые будут в контексте бота во всех новых диалогах и общие инструкции для проекта.
То есть, начиная новый диалог, основную задачу повторять не надо: ChatGPT уже знает, над чем вы работаете в этой папке. В проект можно добавлять уже существующие диалоги или создавать новые внутри.
Небольшая, но оочень приятная фича
👍91❤16🤔8👻3🔥2
Илья Суцкевер вчера выступил с интереснейшей лекцией про скейлинг моделей на NeurlPS 2024
Он пояснил, что масштабирование на данных в претрейне действительно заканчивается, новые или синтетические данные не меняют ситуацию. Илья сравнил данные с ископаемым топливом: мы использовали его, чтобы «завести» ИИ и поставить его на рельсы, но теперь пора переключиться на другие инструменты.
Это как с человеческим мозгом: в какой-то момент эволюции он перестал расти в размерах, но человечество все равно становится умнее с каждым годом за счет новых навыков.
Так, будущее ИИ, как говорит Илья, за агентами, пониманием целей и самосознанием в моделях. При этом к появлению самосознания может привести ризонинг, но, как отметил ученый, в перспективе это очень непредсказуемая вещь ( «также, как действия AlphaZero непредсказуемы даже для чемпионов мира по шахматам»).
«Сверхразум в любом случае будет обладать радикально другими качествами и свойствами, по сравнению с сегодняшними моделями» – сказал Илья.
Лекцию полностью залили сюда
Он пояснил, что масштабирование на данных в претрейне действительно заканчивается, новые или синтетические данные не меняют ситуацию. Илья сравнил данные с ископаемым топливом: мы использовали его, чтобы «завести» ИИ и поставить его на рельсы, но теперь пора переключиться на другие инструменты.
Это как с человеческим мозгом: в какой-то момент эволюции он перестал расти в размерах, но человечество все равно становится умнее с каждым годом за счет новых навыков.
Так, будущее ИИ, как говорит Илья, за агентами, пониманием целей и самосознанием в моделях. При этом к появлению самосознания может привести ризонинг, но, как отметил ученый, в перспективе это очень непредсказуемая вещь ( «также, как действия AlphaZero непредсказуемы даже для чемпионов мира по шахматам»).
«Сверхразум в любом случае будет обладать радикально другими качествами и свойствами, по сравнению с сегодняшними моделями» – сказал Илья.
Лекцию полностью залили сюда
👍91❤16🔥12😁5
У Meta вышла громкая работа о новом способе токенизации
Токенизация – вообще одна из ключевых проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry (больше примеров, в которых модельки фейлятся из-за токенизации см. здесь).
Чтобы попытаться решить эти проблемы, Meta предложили в качестве альтернативы токенам обычные байты. Тут надо сказать, что идея вообще-то не новая, еще давно уже выходила похожая token-free LM MambaByte. Но у Meta, во избежании слишком длинных последовательностей битов, впервые повляется динамический энкодинг в патчи.
Эти патчи и служат основными единицами вычисления, и внутри модели решается задача предсказания следующего патча. Патчи сегментируются динамически на основе энтропии следующего байта. Получается, если данные более "предсказуемы", то патчи получаются подлиннее, и наоборот. Однако перед группировкой байты все равно обрабатываются локальным энкодером, аналогично после предсказания следующего патча приходится подключать декодер.
На бечмарках все очень многообещающе: BLT (Byte Latent Transformer) находится на одном уровне или даже немного выше LLama 3 с BPE по перплексии (BPB на графике – это метрика перплексии, не зависяща от токенизатора). При этом подход масштабируется, и исследователям даже удалось обучить токен-фри Llama-3 8B на датасете 1Т токенов, и она оказалась в среднем немного лучше, чем Llama-3 с BPE.
Обязательно почитайте полностью, это очень интересно
Токенизация – вообще одна из ключевых проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry (больше примеров, в которых модельки фейлятся из-за токенизации см. здесь).
Чтобы попытаться решить эти проблемы, Meta предложили в качестве альтернативы токенам обычные байты. Тут надо сказать, что идея вообще-то не новая, еще давно уже выходила похожая token-free LM MambaByte. Но у Meta, во избежании слишком длинных последовательностей битов, впервые повляется динамический энкодинг в патчи.
Эти патчи и служат основными единицами вычисления, и внутри модели решается задача предсказания следующего патча. Патчи сегментируются динамически на основе энтропии следующего байта. Получается, если данные более "предсказуемы", то патчи получаются подлиннее, и наоборот. Однако перед группировкой байты все равно обрабатываются локальным энкодером, аналогично после предсказания следующего патча приходится подключать декодер.
На бечмарках все очень многообещающе: BLT (Byte Latent Transformer) находится на одном уровне или даже немного выше LLama 3 с BPE по перплексии (BPB на графике – это метрика перплексии, не зависяща от токенизатора). При этом подход масштабируется, и исследователям даже удалось обучить токен-фри Llama-3 8B на датасете 1Т токенов, и она оказалась в среднем немного лучше, чем Llama-3 с BPE.
Обязательно почитайте полностью, это очень интересно
👍83🤯27❤14🔥7🤔3
В EpochAI показали интересную статистику трендов роста параметров в языковых моделях
Смотрите: с 2017 года, года выхода трансфорера, количество параметров в моделях росло очень значительно. Если в GPT-1 их насчитывалось всего 117 миллионов, то уже через два года, в GPT-3, их стало 175 миллиардов, то есть в 1000 раз больше. В GPT-4, которая вышла еще через три года, уже было 1.8 триллиона параметров — еще в 10 раз больше.
Помните ту самую картинку с китом, иллюстрирующим размеры GPT-5, с весенней конференции Microsoft? Долгое время действительно считалось, что количество параметров, как и размер датасета – ключ к масштабированию, и если бы тенденция сохранилась, то сейчас в ведущих моделях было бы около 10 триллионов параметров.
Но реальность оказалась иной: вместо увеличения масштаба модели начали уменьшаться. Например, GPT-4o имеет, предположительно, около 200 миллиардов параметров, что в 8-10 раз меньше GPT-4. Примерно столько же имеет Claude 3.5 Sonnet (прикинуть можно на основе открытых моделей или на основе скорости инференса и цен).
Почему так?
а) Акцент сместился на оптимизацию, потому что компании уже не могли вывозить еще более дорогой инференс в условиях растущего спроса;
б) Теперь у нас есть синтетика, и можно увеличить вычислительную сложность обучения, не увеличивая при этом размер;
в) Мы перешли на другой закон масштабирования (и это, пожалуй, самое важное). C 2020 года предполагалось, что для оптимальной производительности модели нужно поддерживать высокое соотношение параметров к числу обучающих токенов. Однако в 2022 году и в дальнейшем группа исследователей Hoffmann et al. показала новый закон, известный как Chinchilla: оказалось, что вместо увеличения числа параметров можно добиться лучшей производительности, увеличив количество данных, на которых обучается модель (см.график). Правда, сейчас и это выходит на плато, но это уже другая история.
Тем не менее, вряд ли и дальше модели будут уменьшаться такими темпами. Смена законов масштабирования была разовым эффектом, а также довольно очевидно, что нельзя бесконечно уменьшать размер модели, сохраняя высокую производительность. Кроме того, сейчас в приоритете test-time compute scaling, и при этом железо продолжает развиваться, так что большие модели, которые могут работать с длинными цепочками рассуждений и контекстом, снова получают преимущество.
Короче, довольно интересный ресерч у ребят вышел, полностью прочитать можно тут
Смотрите: с 2017 года, года выхода трансфорера, количество параметров в моделях росло очень значительно. Если в GPT-1 их насчитывалось всего 117 миллионов, то уже через два года, в GPT-3, их стало 175 миллиардов, то есть в 1000 раз больше. В GPT-4, которая вышла еще через три года, уже было 1.8 триллиона параметров — еще в 10 раз больше.
Помните ту самую картинку с китом, иллюстрирующим размеры GPT-5, с весенней конференции Microsoft? Долгое время действительно считалось, что количество параметров, как и размер датасета – ключ к масштабированию, и если бы тенденция сохранилась, то сейчас в ведущих моделях было бы около 10 триллионов параметров.
Но реальность оказалась иной: вместо увеличения масштаба модели начали уменьшаться. Например, GPT-4o имеет, предположительно, около 200 миллиардов параметров, что в 8-10 раз меньше GPT-4. Примерно столько же имеет Claude 3.5 Sonnet (прикинуть можно на основе открытых моделей или на основе скорости инференса и цен).
Почему так?
а) Акцент сместился на оптимизацию, потому что компании уже не могли вывозить еще более дорогой инференс в условиях растущего спроса;
б) Теперь у нас есть синтетика, и можно увеличить вычислительную сложность обучения, не увеличивая при этом размер;
в) Мы перешли на другой закон масштабирования (и это, пожалуй, самое важное). C 2020 года предполагалось, что для оптимальной производительности модели нужно поддерживать высокое соотношение параметров к числу обучающих токенов. Однако в 2022 году и в дальнейшем группа исследователей Hoffmann et al. показала новый закон, известный как Chinchilla: оказалось, что вместо увеличения числа параметров можно добиться лучшей производительности, увеличив количество данных, на которых обучается модель (см.график). Правда, сейчас и это выходит на плато, но это уже другая история.
Тем не менее, вряд ли и дальше модели будут уменьшаться такими темпами. Смена законов масштабирования была разовым эффектом, а также довольно очевидно, что нельзя бесконечно уменьшать размер модели, сохраняя высокую производительность. Кроме того, сейчас в приоритете test-time compute scaling, и при этом железо продолжает развиваться, так что большие модели, которые могут работать с длинными цепочками рассуждений и контекстом, снова получают преимущество.
Короче, довольно интересный ресерч у ребят вышел, полностью прочитать можно тут
👍60❤11🔥11