Data Secrets
76.3K subscribers
5.81K photos
556 videos
20 files
2.27K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
CEO Perplexity Аравинд Сринивас поделился свежей статистикой стартапа

За две недели количество поисковых запросов выросло вдвое. Так что для тех, кто еще не попробовал сервис, прикрепляем гайд, как настроить поисковик по умолчанию в Chrome.

Кстати, это не все интересные новости: Perplexity AI находится на заключительной стадии переговоров о привлечении $500 млн с оценкой в $9 млрд.
🔥40👍166
Amazon готовы инвестировать в Anthropic, но есть нюанс

Гигант настаивает, что если он станет инвестировать в стартап, тот обязан использовать строго видеокарты Amazon silicon и учить модели на Amazon Web Services.

Известно, что в Anthropic предпочитают nvidia (как и везде). Но деньги могут оказаться слишком хорошими, чтобы от них отказываться. В 2024 компания, по предварительным оценкам, потратит $2.7 млрд на обучение своих моделей, поэтому стартап активно ищет финансирование.
👍32😁136🔥4
LoRA vs Full Fine-tuning: действительно ли они дают один и тот же результат?

LoRA часто используется как эффективный аналог полного файнтюнинга. В то время как файнтюнинг – это дообучение полной матрицы весов предобученной модели на новом наборе данных, в LoRA мы раскладываем весовые матрицы (некоторые или все) исходной сети на матрицы более низкого ранга и дообучаем именно их.

Но действительно ли два этих метода эквивалентны? На архиве вышла новая громкая интересная статья, в которой исследователи пытаются ответить на этот вопрос, сравнивая матрицы весов и перформанс полученных обоими способами моделей.

В итоге ресерчеры обнаружили интересную вещь: после LoRA в матрицах весов появляются абсолютно новые сингулярные векторы, которые никогда не возникают во время ванильного файнтюнинга. Эти векторы почти ортогональны исходным. На практике это значит, что модель рискует потерять обобщающую способность и вообще стать неустойчивой к Continual Learning.

При этом чем выше ранг LoRA, тем меньше таких векторов (логично, потому что тем ближе метод к обычному файнтюнингу). Напротив, чем меньше ранг и чем дольше модель учится, тем таких векторов больше. С ReLoRA, кстати, за счет стабилизации, дела обстоят чуть лучше. Но есть и хорошие новости: ученые обнаружили, что от неприятного влияния сингулярных векторов можно избавиться, если увеличить размер датасета или подбирать scaling. Другими словами, пользоваться LoRA все-таки нестрашно, если внимательно следить за переобучением и гиперпараметрами.

Статья полностью – здесь
👍44🔥128🤨5
Тем временем на арене появилась новая модель gemini-test 🧐
🤯29👍15🍌8🤪4🤨2
Лилиан Вэн – еще одна из ведущих исследователей безопасности OpenAI – покинула стартап и ушла в компанию Ильи Суцкевера

Она была вице-президентом отделения research and safety. В стартапе она работала с 2018 года: сначала она два года занималась рукой робота для сборки кубика-робота, а затем ей поручили сформировать команду для создания систем безопасности.

Сейчас в команде Вэг осталось 80 ученых и разработчиков. Это все еще много, но не отменяет того, что многие лиды, ушедшие из OpenAI, утверждают, что безопасность там оставляет желать лучшего.

Например, Майлз Брандейдж, который покинул стартап в октябре, недавно написал, что компания распустила его команду "подготовки к AGI".

А еще была громкая статья в NYT, в которой бывший ресерчер OpenAI Сухире Баладжи рассказывал о нарушении авторских прав и говорил, что "технологии стартапа принесет обществу больше вреда, чем пользы".
👍30🤯1994
Media is too big
VIEW IN TELEGRAM
У Альтмана, тем временем, вышло новое интервью в Y Combinator. Что было интересного:

➡️ В 2025 появится AGI (сроки все сжимаются и сжимаются, это уже похоже на обещания Маска), а еще.... в следующем году Сэм хочет завести ребенка 🤱

➡️ Когда мы достигнем обилия интеллекта и обилия мощностей, все проблемы физики будут решены, и люди станут говорить уже не об использовании ядерного синтеза или солнечной энергии для питания ИИ, а о сфере Дайсона. Это теория предполагает, что мы можем научиться максимально возможно использовать энергию Солнца.

➡️ Открытие глубокого обучения было фундаментальным изобретением: таким же, как обнаружение нового квадранта химических элементов в периодической таблице. При этом успех ИИ обусловлен не столько этим, сколько какой-то религиозной верой исследователей в масштабирование систем.

➡️ "Путь к AGI мы видим ясно и действительно знаем, что делать. С этого момента до создания AGI много работы, и еще остаются некоторые вопросы, но в основном мы знаем, что к чему, и это очень волнующе. Достичь AI 4-го уровня будет легче, чем я думал, а AGI появится раньше, чем думают люди."

➡️ Ну и классика: 1 человек с 10000 GPU, по мнению Сэма, уже может построить многомиллиардную компанию ☝️

Интервью полностью – здесь (оно, кстати, недлинное, всего 46 минут)
Please open Telegram to view this post
VIEW IN TELEGRAM
63🤯14❤‍🔥9😁7👍62🌚2🙈1
Число дня: 1 084 800

За такую сумму в долларах на аукционе Sotheby's в Нью-Йорк была продана картина робота-художника Ai-Da. На картине изображен Алан Тьюринг.
👍38🤯22🔥6🤨6
Интересные слайды с лекции про LLM

Ее буквально на днях провел известный французский исследователь и предприниматель Пьер-Карл Лангле в международном европейском центре физики. Речь в презентации шла тоже про некоторую "физику" LLM: токенизацию.

Токенизация – одна из самых недооцененных и серьезных проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число.

При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry. Кроме того, пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце. А еще токенайзеры восприимчивы к регистру и плохо переносятся на новые языки. Все это сильно сказывается на качестве ответов модели.

Так вот: эти слайды, в частности, интересны тем, что в них проблема токенизации рассмотрена под микроскопом, с примерами и краткими разборами современных исследований, предлагающих какие-то решения.

От себя добавим еще несколько ресурсов, с которыми можно познакомиться, чтобы понять проблему токенизации глубже:

➡️ Наш мини-разбор статьи про LLM без токенизации на основе Mamba
➡️ Ссылка на ноутбук от Андрея Карпаты, в котором можно поиграться с песочнице токенизации смайликами
➡️ Большая лекция про токенизацию и BPE, тоже от Андрея
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50159❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Еще одно интересное интервью на вечер субботы: гость — Франсуа Шолле

Шолле – создатель Keras, ведущий исследователь Google DeepMind и автор популярной книги "Deep Learning with Python". Он также один из учредителей премии ARC Prize, того самого ML-соревнования с призом в $1 млн нем тоже есть подробности в видео).

Это интервью – полная противоположность интервью Альтмана, потому что Франсуа представить совсем другой стороны ИИ. Вот, например, что он говорит про коллег из Сан-Франциско:

«У некоторых людей в Сан-Франциско есть комплекс Мессии, заключающийся в их убеждениях о том, что людям нужно построить ИИ и стать богами. Это похоже на поиски вечной жизни»


Интервью полностью – здесь
👍85🔥1713👻5
The Information поделились новым материалом про Orion. Они пишут, что скачок метрик модели Orion относительно GPT-4 гораздо меньше, чем при переходе от GPT-3 к GPT-4

С одной стороны, это объяснимо: у распределения ошибок длинный хвост, и поэтому последний квартиль бороть достаточно непросто. Следовательно, слова про скачок метрик могут просто звучать разочаровывающе, а на деле не означать, что модель плоха.

С другой стороны, в статье упоминается, что Orion не может пробить метрики GPT-4 в кодинге. Вот это уже совсем странно и грустно. Известно, что для обучения ориона используется синтетика из GPT-4 и o1, и журналисты предполагают, что из-за этого новая модель может воспроизводить ошибки старых (сомнительный вывод).

Как бы там ни было, скоро мы все увидим сами: по словам авторов, OpenAI завершает тестирование Orion и готовиться к релизу в начале 2025. Кстати, Orion может стать уже второй моделью, название которой будет начинаться не с GPT.
👍34🔥116😁3🤔1
Исследователи из EpochAI запустили новый математический бенчмарк FrontierMath, на котором ведущие модели решают 1-2% задач

Для формирования FrontierMath ученые работали с более чем 60 математиками. Бенчмарк получился далеко не простой: он состоит из сотен исключительно сложных задач, на решение которых у экспертов (людей) уходят часы и даже дни. Примеры задач можно посмотреть здесь, они охватывают все области современной математики.

Модели с FrontierMath справляются ну очень плохо. По сравнению с известными GSM8K и MATH, на которых LLM набирают более 90%, на этом тесте они выбивают менее 2%. Даже o1 с максимальным возможным лимитом токенов ризонинга. Даже с доступом к питону.

Все настолько печально, что нельзя сказать, какая модель хуже, а какая лучше: кажется, что те минимальные разрывы в долях процента, которые видны на графике, просто не статзначимы. Кажется, это чуть ли не единственный из появившихся в последнее время бенчей, который ставит LLM в настолько глубокий тупик.
89👍34🔥15🤯4
This media is not supported in your browser
VIEW IN TELEGRAM
В Китае сняли забавные кадры: на них стая робо-собак высаживается из грузовика и начинает «обследовать» территорию

Видео выглядит так, как будто снято в постапокапсисе после восстания машин. Многие пользователи даже заметили, что собаки якобы вооружены.

Конечно, никакого оружия у песиков нет, и их прогулка, на самом деле, – просто один из элементов международной выставки авиации и космонавтики. Но страшно все равно 😧
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥85😁2311👍3🌚2🙈2🍌1😎1
Не для слабонервных
😁21020👍12🙈116🔥4💯31🐳1🌚1
Почему слишком много регуляции ИИ – это плохо

На днях прошел TechCrunch Disrupt 2024, и на нем выступал Мартин Касадо. Он лидер одного из самых крупных инвестиционных фондов в мире – а16z. Фонд инвестировал во множество ИИ-стартапов, из последнего – в Cursor и World Labs. В общем, Мартин – очень осведомленный и влиятельный гость. Вот его интересная и едкая позиция по поводу регуляции ИИ, которой он поделился на выступлении:

➡️ Проблема большинства попыток регулирования ИИ на данный момент заключается в том, что законодатели сосредотачиваются на каком-то мифическом будущем опыте ИИ вместо того, чтобы по-настоящему понять риски, которые ИИ на самом деле представляет.

➡️ Правила создаются «из воздуха», а не на основе того, что действительно представляет из себя ИИ и как он развивался. «В этих законах даже нет определения ИИ. Как можно регулировать то, что мы не можем определить?» – говорит Мартин.

➡️ Чтобы создать нормальную систему регулирования, достаточно формально определить, чем ИИ отличается от человека, у которого есть доступ в Интернет. От человека, который умеет пользоваться Google. Тогда мы сможем найти слабые места и регулировать именно то, что надо, а не выдумывать себе терминатора.

Главная мысль спикера: «все слишком сильно носятся с регуляцией ИИ, чего делать не стоит. У нас уже есть устойчивые рабочие системы безопасности, которых на сегодняшний день достаточно. Остальное должно быть плодами глубоких исследований, а не выдумками политиков».
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7612🔥108🕊3