У Meta FAIR вышло новое исследование про декодирование в трансформерах
В чем исходная проблема декодирования? На выходе LLM генерирует набор токенов и вероятностей выбора этих токенов. А дальше из этой выборки токены выбираются с помощью параметров Temperature, Top-k и Top-p. Это инференсные переменные, то есть они задаются уже на этапе генерации. Например, их можно указать в API OpenAI и других вендоров.
Все они, в целом, отвечают за одно и то же: насколько разнообразной с точки зрения токенов будет генерация. Мы можем выбирать больше токенов с меньшей вероятностью, и тогда генерация получится более креативной, но повышается риск галлюцинаций. Или наоборот, и тогда ответ будет более точным и кратким, но, возможно, что также получится слишком унылым и сухим. Если хотите подробнее – почитайте этот наш пост.
Ну а что, если мы хотим выбор этих параметров убрать и автоматизировать декодирование? Можно ли сделать так, чтобы LLM сама регулировала свою креативность в зависимости от того, с чем работает?
Эту задачу и попытались решить в Meta. Они предложили добавить в трансформер еще один слой, который обучается оптимизировать скрытые предпочтения пользователя (почти как на этапе RLHF). Для этого используется ревард модель. Получается, что таким образом модель учится как раз тому самому поиску баланса между фактологией и разнообразием.
Исследователи проверяли модель на разных бенчмарках, требующих разных подходов. Оказалось, что такой подбор параметров работает лучше любого статического выбора (см. графики). А самое интересное, что метод-то, получается, подходит для подбора любых гиперпараметров, а не только температуры и вот этого всего.
Оригинальная статья тут
В чем исходная проблема декодирования? На выходе LLM генерирует набор токенов и вероятностей выбора этих токенов. А дальше из этой выборки токены выбираются с помощью параметров Temperature, Top-k и Top-p. Это инференсные переменные, то есть они задаются уже на этапе генерации. Например, их можно указать в API OpenAI и других вендоров.
Все они, в целом, отвечают за одно и то же: насколько разнообразной с точки зрения токенов будет генерация. Мы можем выбирать больше токенов с меньшей вероятностью, и тогда генерация получится более креативной, но повышается риск галлюцинаций. Или наоборот, и тогда ответ будет более точным и кратким, но, возможно, что также получится слишком унылым и сухим. Если хотите подробнее – почитайте этот наш пост.
Ну а что, если мы хотим выбор этих параметров убрать и автоматизировать декодирование? Можно ли сделать так, чтобы LLM сама регулировала свою креативность в зависимости от того, с чем работает?
Эту задачу и попытались решить в Meta. Они предложили добавить в трансформер еще один слой, который обучается оптимизировать скрытые предпочтения пользователя (почти как на этапе RLHF). Для этого используется ревард модель. Получается, что таким образом модель учится как раз тому самому поиску баланса между фактологией и разнообразием.
Исследователи проверяли модель на разных бенчмарках, требующих разных подходов. Оказалось, что такой подбор параметров работает лучше любого статического выбора (см. графики). А самое интересное, что метод-то, получается, подходит для подбора любых гиперпараметров, а не только температуры и вот этого всего.
Оригинальная статья тут
👍51🔥21❤12❤🔥3👌1
Самое грустное расставание этого года: PyTorch больше не будет выпускать пакеты для Anaconda 💔
Из-за неоправданно высоких затрат на обслуживание PyTorch больше не будет делать отдельные сборки для conda (то есть такие, которые зависят от предустановленных в анаконде библиотек). Вместо этого любителям конды разработчики предлагают перейти на wheel или conda-forge пакеты pytorch-cpu и pytorch-gpu.
Из-за неоправданно высоких затрат на обслуживание PyTorch больше не будет делать отдельные сборки для conda (то есть такие, которые зависят от предустановленных в анаконде библиотек). Вместо этого любителям конды разработчики предлагают перейти на wheel или conda-forge пакеты pytorch-cpu и pytorch-gpu.
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡101🔥26👀12👍6🤨5 3😁2🤪2❤🔥1
Илон Маск закрывает раунд финансирования на 6 миллиардов долларов
Примерно столько же недавно привлекли OpenAI. Вот только оценка OpenAI сейчас – $157 млрд, а xAI – $50 млрд.
Больше всего радуется Хуанг🔵
Примерно столько же недавно привлекли OpenAI. Вот только оценка OpenAI сейчас – $157 млрд, а xAI – $50 млрд.
Больше всего радуется Хуанг
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67🔥20❤11💋1
Тем временем в Центральном университете стартует подготовка к Международной олимпиада по ИИ в Китае
Именно этот вуз и готовил сборную, которая взяла золото на прошлой IOAI в Болгарии.
В преподавательском составе у ребят будут такие громкие ученые как Александр Дьяконов, Александр Гущин, Иван Стельмах, Сергей Арефьев и другие. Все преподаватели опытные участники ML-соревнований, большинство из них – грандмастеры, обладатели награды Kaggle Data Scientist № 1, PhD и ведущие ресерчеры международных компаний😲
На этот раз программа стартует в январе. Сначала финалисты российских ИИ-олимпиад будут 13 недель готовиться онлайн. Затем состоятся сборы и на них отберут восемь старшеклассников, которые будут еще 4 месяца учиться на территории кампуса Центрального университета и на площадках участников Альянса ИИ - Т-Банка, Сбера и VK (говорите, в бигтех устроиться трудно, да?)
Сама олимпиада пройдет в Китае в августе 2025 года. Пожелаем ребятам удачи!
P.S. Кстати, в Совете олимпиады Россию тоже представляет сотрудник Центрального университета – Екатерина Процко. В ЦУ она руководит привлечением абитуриентов и имеет большой опыт в организации международных и российских олимпиад, организации сборов для участников сборных Татарстана и России (eJoi, APIO, IATI, Inter It, WRO, ВРО, Всероссийской олимпиады по информатике), организации собственных олимпиад (Innopolis Open), подготовке команд для участия в международных соревнованиях по спортивному программированию.
Именно этот вуз и готовил сборную, которая взяла золото на прошлой IOAI в Болгарии.
В преподавательском составе у ребят будут такие громкие ученые как Александр Дьяконов, Александр Гущин, Иван Стельмах, Сергей Арефьев и другие. Все преподаватели опытные участники ML-соревнований, большинство из них – грандмастеры, обладатели награды Kaggle Data Scientist № 1, PhD и ведущие ресерчеры международных компаний
На этот раз программа стартует в январе. Сначала финалисты российских ИИ-олимпиад будут 13 недель готовиться онлайн. Затем состоятся сборы и на них отберут восемь старшеклассников, которые будут еще 4 месяца учиться на территории кампуса Центрального университета и на площадках участников Альянса ИИ - Т-Банка, Сбера и VK (говорите, в бигтех устроиться трудно, да?)
Сама олимпиада пройдет в Китае в августе 2025 года. Пожелаем ребятам удачи!
P.S. Кстати, в Совете олимпиады Россию тоже представляет сотрудник Центрального университета – Екатерина Процко. В ЦУ она руководит привлечением абитуриентов и имеет большой опыт в организации международных и российских олимпиад, организации сборов для участников сборных Татарстана и России (eJoi, APIO, IATI, Inter It, WRO, ВРО, Всероссийской олимпиады по информатике), организации собственных олимпиад (Innopolis Open), подготовке команд для участия в международных соревнованиях по спортивному программированию.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍55🔥21👏10🫡5❤4🤓3🤔1🕊1
OpenAI сегодня открывает офис в ИИ-столице мира – Париже
Это напрашивалось давно. Франция уже несколько лет считается центром экосистемы ИИ, и не спроста. Там основан HuggingFace, Mistral и еще куча заметных ИИ-компаний, а с конца десятых в Париже проводят самые крупные мировые стартап-форумы , конференции и хакатоны.
Во Франции уже открыли штаб-квартиры Google, Apple, Meta и тп. Посмотрим, как в тусовку впишется OpenAI.
Кстати, больше о том, как и почему Париж вдруг оказался в центре ИИ-мира, мы писали интересный пост вот тут
Это напрашивалось давно. Франция уже несколько лет считается центром экосистемы ИИ, и не спроста. Там основан HuggingFace, Mistral и еще куча заметных ИИ-компаний, а с конца десятых в Париже проводят самые крупные мировые стартап-форумы , конференции и хакатоны.
Во Франции уже открыли штаб-квартиры Google, Apple, Meta и тп. Посмотрим, как в тусовку впишется OpenAI.
Кстати, больше о том, как и почему Париж вдруг оказался в центре ИИ-мира, мы писали интересный пост вот тут
❤79👍30🍌15😁5🗿3🔥2❤🔥1🤓1
Джошуа Ачиам, который сейчас занимает должность главы отдела Mission Alignment в OpenAI, дал неочевидный прогноз на развитие ИИ
Он заявил, что, по его мнению, в ближайшее время создастся иллюзия замедления прогресса ИИ. Но на самом деле модели просто будут совершенствоваться в решении длинного ряда узкоспециализированных технических задач, о которых большинство людей не знают и которые им не интересны.
О каких именно задачах речь, Джошуа не уточнил, но абсолютно ясно, что говорит он это не просто так, а комментирует разгоревшуюся шумиху вокруг темы «OpenAI достигли потолка масштабирования моделей» (подробнее в этом посте).
Кроме того, по словам исследователя, в ближайшем будущем ресерчеры также достигнут ключевых, но «невидимых для пользователя» результатов. Например, они повысят надежность ИИ.
Джошуа сравнивает текущий этап развития ИИ с развитием смартфонов с 2007 по 2010, когда от новинки они прошли путь до базового предмета быта человека.
Он заявил, что, по его мнению, в ближайшее время создастся иллюзия замедления прогресса ИИ. Но на самом деле модели просто будут совершенствоваться в решении длинного ряда узкоспециализированных технических задач, о которых большинство людей не знают и которые им не интересны.
О каких именно задачах речь, Джошуа не уточнил, но абсолютно ясно, что говорит он это не просто так, а комментирует разгоревшуюся шумиху вокруг темы «OpenAI достигли потолка масштабирования моделей» (подробнее в этом посте).
Кроме того, по словам исследователя, в ближайшем будущем ресерчеры также достигнут ключевых, но «невидимых для пользователя» результатов. Например, они повысят надежность ИИ.
Джошуа сравнивает текущий этап развития ИИ с развитием смартфонов с 2007 по 2010, когда от новинки они прошли путь до базового предмета быта человека.
👍74❤19🔥8😁8
This media is not supported in your browser
VIEW IN TELEGRAM
А вот, кажется, и первые продукты на основе Realtime API OpenAI: в сети набирает популярность проект одного британского оператора связи, создавшего ИИ-бабушку для телефонных разговоров с мошенниками
Бабуля зависает на линии с отловленными звонками мошенников и начинает пудрить им мозги разговорами про котят, вязание, сад-огород. А когда те просят какие-то реквизиты, может их либо выдумать, либо начать «не понимать» собеседника и задавать миллион вопросов.
В Великобритании такую пенсионерку уже можно подключить себе в качестве сервиса: разработчики утверждают, что она может задерживать мошенников на линии до 40 минут😀
Сами создатели говорят, что система «объединяет несколько моделей». Может и так, но в демо интонации слишком живые и задержка слишком мала, так что если это не черрипикинг, то все же больше похоже на 4o.
Бабуля зависает на линии с отловленными звонками мошенников и начинает пудрить им мозги разговорами про котят, вязание, сад-огород. А когда те просят какие-то реквизиты, может их либо выдумать, либо начать «не понимать» собеседника и задавать миллион вопросов.
В Великобритании такую пенсионерку уже можно подключить себе в качестве сервиса: разработчики утверждают, что она может задерживать мошенников на линии до 40 минут
Сами создатели говорят, что система «объединяет несколько моделей». Может и так, но в демо интонации слишком живые и задержка слишком мала, так что если это не черрипикинг, то все же больше похоже на 4o.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁109👍31❤10🔥5😎1
Вскрылась еще одна проблема масштабирования в LLM: ученые ведущих университетов выяснили, что индустрия не сможет использовать квантование с ростом размера моделей
Квантование – это популярная техника сжатия моделей, то есть сокращения количества требуемых бит информации (квантуют чаще всего параметры). В индустрии квантование часто используют, сначала обучая модели побольше, а затем формируя из них их облегченные варианты.
Так вот выяснилось, что чем больше исходная модель училась и чем больше в ней параметров, тем больше ее портит квантование. Иначе говоря, начиная с некоторого места квантование перестает скейлится и проще просто научить меньшую модель, чем сжимать крупную: глупее она не будет.
На самом деле, проблемы квантования в сообществе замечали и до этого, просто никто не доказывал их эмпирически. Например, многие жаловались на квантованую Llama 3.
Доказанная зависимость может стать еще одной проблемой индустрии. На квантование (как и на дистилляцию), возлагаются сейчас большие надежды, как на методы, которые должны были помочь нам делать из огромных умных моделей их меньшие не менее умные аналоги.
Статья на архив
Квантование – это популярная техника сжатия моделей, то есть сокращения количества требуемых бит информации (квантуют чаще всего параметры). В индустрии квантование часто используют, сначала обучая модели побольше, а затем формируя из них их облегченные варианты.
Так вот выяснилось, что чем больше исходная модель училась и чем больше в ней параметров, тем больше ее портит квантование. Иначе говоря, начиная с некоторого места квантование перестает скейлится и проще просто научить меньшую модель, чем сжимать крупную: глупее она не будет.
На самом деле, проблемы квантования в сообществе замечали и до этого, просто никто не доказывал их эмпирически. Например, многие жаловались на квантованую Llama 3.
Доказанная зависимость может стать еще одной проблемой индустрии. На квантование (как и на дистилляцию), возлагаются сейчас большие надежды, как на методы, которые должны были помочь нам делать из огромных умных моделей их меньшие не менее умные аналоги.
Статья на архив
⚡53👍32❤7😐7👨💻7
Data Secrets
История YOLO: новая большая статья от нашей редакции YOLO или You Only Look Once – это, пожалуй, самая известная архитектура компьютерного зрения. Она знаменита своей скоростью, качеством, а еще богатой историей. Первая версия YOLO вышла еще в 2016 году…
Что почитать, чтобы освежить знания по CV: топ статей из мира компьютерного зрения, которые стоит просмотреть хотя бы один раз
1. ResNets: http://arxiv.org/pdf/1512.03385v1
2. DeConv: http://lxu.me/mypapers/dcnn_nips14
3. GAN: http://arxiv.org/abs/1406.2661
4. Unet: https://arxiv.org/abs/1505.04597
5. Focal Loss: https://arxiv.org/abs/1708.02002
6. ViT: https://arxiv.org/abs/2010.11929
Каждая статья здесь положила начала какой-то из крупных архитектур CV или генеративных моделей. Еще стоит обратить внимание на YOLO (http://arxiv.org/abs/1506.02640), но тут одной статьей не обойдешься, там рассказ длинный. Мы как раз недавно писали большой разбор всей истории этой модели, почитать можно здесь: https://datasecrets.ru/articles/20.
1. ResNets: http://arxiv.org/pdf/1512.03385v1
2. DeConv: http://lxu.me/mypapers/dcnn_nips14
3. GAN: http://arxiv.org/abs/1406.2661
4. Unet: https://arxiv.org/abs/1505.04597
5. Focal Loss: https://arxiv.org/abs/1708.02002
6. ViT: https://arxiv.org/abs/2010.11929
Каждая статья здесь положила начала какой-то из крупных архитектур CV или генеративных моделей. Еще стоит обратить внимание на YOLO (http://arxiv.org/abs/1506.02640), но тут одной статьей не обойдешься, там рассказ длинный. Мы как раз недавно писали большой разбор всей истории этой модели, почитать можно здесь: https://datasecrets.ru/articles/20.
❤41👍17🔥10✍1
У o1 появился опенсорс-конкурент: китайские исследователи выпустили LLaVA-o1
Ресерчеры утверждают, что им удалось добиться ризонинга, аналогичного модели OpenAI, и при этом их модель еще и мультимодальная. Она имеет всего 11В параметров и на усредненных бенчмарках заметно превосходит Gemini Pro 1.5, Llama-3.2V 90B и даже GPT-4o-mini.
В основе лежит Llama-3.2-11B-Vision-Instruct, которую файнтюнили всего на 100к обучающих сэмплов (но не простых). Ключом к SOTA ученые называют новый метод inference time скейлинга и специальное структурирование данных. Весь трейн состоял из синтетики, сгенерированной с помощью GPT-4o и поделенной тегами <SUMMARY>, <CAPTION>, <REASONING> и <CONCLUSION>. Благодаря такому строению модель тоже учится добавлять эти теги в свои ответы и начинает рассуждать ✨поэтапно✨.
Что касается инференса, то здесь исследователи предлагают аналог поиска по лучу. Только анализ тут происходит на уровне этапов (тегов). То есть модель генерирует несколько вариантов ответов для каждого тега, но для перехода на следующий этап отбирается только один из них, на основе которого затем модель и продолжает семлировать токены для следующего тега.
Посмотрим, что будет на арене, а пока вот ссылка на саму статью и на гитхаб
Ресерчеры утверждают, что им удалось добиться ризонинга, аналогичного модели OpenAI, и при этом их модель еще и мультимодальная. Она имеет всего 11В параметров и на усредненных бенчмарках заметно превосходит Gemini Pro 1.5, Llama-3.2V 90B и даже GPT-4o-mini.
В основе лежит Llama-3.2-11B-Vision-Instruct, которую файнтюнили всего на 100к обучающих сэмплов (но не простых). Ключом к SOTA ученые называют новый метод inference time скейлинга и специальное структурирование данных. Весь трейн состоял из синтетики, сгенерированной с помощью GPT-4o и поделенной тегами <SUMMARY>, <CAPTION>, <REASONING> и <CONCLUSION>. Благодаря такому строению модель тоже учится добавлять эти теги в свои ответы и начинает рассуждать ✨поэтапно✨.
Что касается инференса, то здесь исследователи предлагают аналог поиска по лучу. Только анализ тут происходит на уровне этапов (тегов). То есть модель генерирует несколько вариантов ответов для каждого тега, но для перехода на следующий этап отбирается только один из них, на основе которого затем модель и продолжает семлировать токены для следующего тега.
Посмотрим, что будет на арене, а пока вот ссылка на саму статью и на гитхаб
🔥85👍22❤12😐6🫡5🤨2🗿2⚡1💯1
В основе – text-only Mistral Large 2, которую научили понимать картинки, файлы и графики. Бенчмарки модельки хороши (SOTA на MathVista, DocVQA, VQAv2), хоть стартап почему-то и не добавил в них сравнение с китайской Qwen2. В твиттере пишут, что Pixtral ей уступает.
Также разработчики обновили свою чат-платформу Le Chat: туда добавили веб-поиск, Canvas как у OpenAI и генерацию изображений. Попробуйте, там уже можно бесплатно поболтать с новой Pixtral.
Блогпост | Веса
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍18❤6😁2