OpenAI наняли фаундера Peddle для работы над секретным проектом
Речь об известном предпринимателе Габоре Челле. На его счету несколько успешных стартапов. Например, свою первую компанию reMail Габор продал Google. Следующий стартап по нативной рекламе в соцсетях Namo Media был продан Твиттеру (еще до того, как тот был куплен Маском). А с 2022 года Челле занимался Peddle – это конкурент Твиттера. В соцсети было большое сообщество, да и финансирования было достаточно. Но рост сохранить не удалось, и компания закрылась.
А теперь вот Габор работает в OpenAI. Причем, как оказалось, уже с октября: просто сообщил он об этом только сейчас. Над чем трудится – неизвестно. Известно только, что наняли его тогда же, когда уволили Алекса Родригеса (тот ушел в Anthropic).
Что, еще и соцсеть будет?
Речь об известном предпринимателе Габоре Челле. На его счету несколько успешных стартапов. Например, свою первую компанию reMail Габор продал Google. Следующий стартап по нативной рекламе в соцсетях Namo Media был продан Твиттеру (еще до того, как тот был куплен Маском). А с 2022 года Челле занимался Peddle – это конкурент Твиттера. В соцсети было большое сообщество, да и финансирования было достаточно. Но рост сохранить не удалось, и компания закрылась.
А теперь вот Габор работает в OpenAI. Причем, как оказалось, уже с октября: просто сообщил он об этом только сейчас. Над чем трудится – неизвестно. Известно только, что наняли его тогда же, когда уволили Алекса Родригеса (тот ушел в Anthropic).
Что, еще и соцсеть будет?
👍35🤔12❤9
Вышел Claude 3.5 Haiku: цены на него немного шокируют
Haiku превосходит все предыдущие модели стартапа (кроме нового Sonnet 3.6). Модель обучена на данных до июля 2024: это самый «свежий» показатель среди моделей Anthropic.
Haiku пока не поддерживает мультимодальность. И хотя раньше в стартапе говорили, что новый Haiku будет стоить как предыдущий, теперь политика изменилась: цены выросли в 4 раза (1$/М инпут и 5$/М аутпут). Объяснили это тем, что на последнем этапе тестирования модель показала себя слишком хорошо😁
Старый Haiku пока останется доступен «для тех, кому нужна экономическая эффективность»
Haiku превосходит все предыдущие модели стартапа (кроме нового Sonnet 3.6). Модель обучена на данных до июля 2024: это самый «свежий» показатель среди моделей Anthropic.
Haiku пока не поддерживает мультимодальность. И хотя раньше в стартапе говорили, что новый Haiku будет стоить как предыдущий, теперь политика изменилась: цены выросли в 4 раза (1$/М инпут и 5$/М аутпут). Объяснили это тем, что на последнем этапе тестирования модель показала себя слишком хорошо
Старый Haiku пока останется доступен «для тех, кому нужна экономическая эффективность»
Please open Telegram to view this post
VIEW IN TELEGRAM
❤26😁17👍7🫡6🔥4🤯3🗿3👏1🍌1
Кроме именитого стартапера OpenAI также наняли лида разработки очков Meta AR
Разработчицу зовут Кейтлин Калиновски. Забавно, что в Meta она работала над проектом Orion (именно под таким кодовым названием OpenAI сейчас разрабатывает свою новую модель).
Кейтлин также в течение 9 лет возглавляла огромную hardware команду, которая занималась разработкой всего аппаратного обеспечения для VR и AR очков.
В OpenAI она будет заниматься робототехникой и.. чем-то еще. Работать она при этом будет со своим бывшим боссом из Apple Джони Айвом, который в сентябре раскрыл, что в OpenAI создает что-то типа телефона на основе ИИ.
Все интереснее и интереснее
Разработчицу зовут Кейтлин Калиновски. Забавно, что в Meta она работала над проектом Orion (именно под таким кодовым названием OpenAI сейчас разрабатывает свою новую модель).
Кейтлин также в течение 9 лет возглавляла огромную hardware команду, которая занималась разработкой всего аппаратного обеспечения для VR и AR очков.
В OpenAI она будет заниматься робототехникой и.. чем-то еще. Работать она при этом будет со своим бывшим боссом из Apple Джони Айвом, который в сентябре раскрыл, что в OpenAI создает что-то типа телефона на основе ИИ.
Все интереснее и интереснее
🤯39👍23🔥6❤3👀2🍌1
CEO Perplexity опять выделился своим резким высказываем: он предложил заменить труд бастующих сотрудников New York Times ИИ
Тех.сотрудники NYT бастуют уже пару дней: они требовали повышение зарплаты, но в руководстве проигнорировали запросы. При этом в сети многие не поддержали работников: якобы, очень подло пытаться заблокировать действия своей компании за пару дней до выборов, когда NYT становится главным оплотом информирования населения.
Вот и Шринивас не удержался и почти прямым текстом предложил услуги ИИ вместо труда бунтовщиков. Его, конечно, массово осудили и назвали скабом. Сейчас Шринивас отказывается давать комментарии и говорит, что «не это имел в виду»😒
Тех.сотрудники NYT бастуют уже пару дней: они требовали повышение зарплаты, но в руководстве проигнорировали запросы. При этом в сети многие не поддержали работников: якобы, очень подло пытаться заблокировать действия своей компании за пару дней до выборов, когда NYT становится главным оплотом информирования населения.
Вот и Шринивас не удержался и почти прямым текстом предложил услуги ИИ вместо труда бунтовщиков. Его, конечно, массово осудили и назвали скабом. Сейчас Шринивас отказывается давать комментарии и говорит, что «не это имел в виду»
Please open Telegram to view this post
VIEW IN TELEGRAM
😁84🔥11❤🔥6❤3👍3😐2🕊1🍌1🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI добавили в API Predicted Outputs – фичу, которая может существенно сократить задержку ответов модели
Иногда, когда мы используем LLM, бОльшая часть аутпута может быть известна заранее: например, если вы просите модель немного переписать какой-то текст или добавить небольшие изменения в код.
В таких случаях получается, что модельке не обязательно все генерировать с нуля. Она может взять за основу уже готовый каркас в виде промпта и просто валидировать токены, а не генерировать их один за другим. Получается как-бы параллельный инференс, а не последовательный сэмплинг токенов: за счет этого время и сокращается.
С ценами ситуация такая: если вдруг то, что вы подали в prediction полностью совпадет с аутпутом, то есть модель ничего не изменит, то стоимость будет расчитываться по обычным тарифам. Но это ситуация, как вы понимаете, крайне нетипичная, ведь предикшн – это просто промпт, если ничего необычного не выдумывать. Поэтому обращаем внимание: если модельке придется что-то пересемплить, то за такие обновленные токены взимается отдельная плата.
То есть, хочешь меньшую задержку – плати больше. Сравнивать политику тут не с кем, OpenAI с этой фичей первопроходцы. Посмотрим, как реализуют что-то похожее Anthropic и остальные.
Иногда, когда мы используем LLM, бОльшая часть аутпута может быть известна заранее: например, если вы просите модель немного переписать какой-то текст или добавить небольшие изменения в код.
В таких случаях получается, что модельке не обязательно все генерировать с нуля. Она может взять за основу уже готовый каркас в виде промпта и просто валидировать токены, а не генерировать их один за другим. Получается как-бы параллельный инференс, а не последовательный сэмплинг токенов: за счет этого время и сокращается.
С ценами ситуация такая: если вдруг то, что вы подали в prediction полностью совпадет с аутпутом, то есть модель ничего не изменит, то стоимость будет расчитываться по обычным тарифам. Но это ситуация, как вы понимаете, крайне нетипичная, ведь предикшн – это просто промпт, если ничего необычного не выдумывать. Поэтому обращаем внимание: если модельке придется что-то пересемплить, то за такие обновленные токены взимается отдельная плата.
То есть, хочешь меньшую задержку – плати больше. Сравнивать политику тут не с кем, OpenAI с этой фичей первопроходцы. Посмотрим, как реализуют что-то похожее Anthropic и остальные.
🤯43🔥17😁10👍5❤4🏆1
Media is too big
VIEW IN TELEGRAM
Мустафа Сулейман в своем новом интервью: «ИИ поднимет фундаментальные вопросы о том, что значит быть человеком»
По его мнению, в ближайшие десятилетия искусственный интеллект перевернет мир сильнее, чем человечество может себе представить. Это могут быть положительные или отрицательные изменения, но такого мы еще не видели.
Мустафа также упомянул, что полностью автономный ИИ, который будет способен улучшать сам себя, мы получим уже через 3-5 лет, а может и быстрее.
По его мнению, в ближайшие десятилетия искусственный интеллект перевернет мир сильнее, чем человечество может себе представить. Это могут быть положительные или отрицательные изменения, но такого мы еще не видели.
Мустафа также упомянул, что полностью автономный ИИ, который будет способен улучшать сам себя, мы получим уже через 3-5 лет, а может и быстрее.
👍48😁15🙈10🔥8❤7🤔6🍌1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁101🔥14❤9🏆2❤🔥1💅1
Media is too big
VIEW IN TELEGRAM
Anthropic провели в Сан-Франциско большой хакатон: на него пригласили 200+ "элитных хакеров"
Ранее такие хакатоны проходили у Mistral, Cognition и даже Meta*. Цель подобных мероприятий проста: нужно взять LLM компании и сделать на ее основе какой-нибудь занимательный продукт. Вот, что получилось у участников с Claude:
⚙️ 1 место: робо-рука. За основу взяли робота Amazon, инструкции по управлению которым просто загрузили в Claude. А далее отрабатывало искуссно настроенное API, – в итоге модель смогла управлять рукой в реальном времени.
⚙️ 2 место: ловушка Джокера для Claude. Команда под названием China town mafia разработала капчи нового поколения для определения ИИ-агентов. Кроме интересных динамических игр парни предложили нестандартную вещь: задавать пользователю сложную математическую задачку. Если справился слишком быстро – значит, ИИ. Интересно только, не оттолкнет ли такая "фича" половину юзеров с сайта в первые же 0.001 секунду 🤡
⚙️ 3 место: ИИ-замена ПМов. Мультиагентная система, которая способна улучшить или написать с нуля качественное ТЗ. Для этого под капотом проводятся "дебаты" ИИ-агентов: обсуждение и отстаивание идей, критика, исправления. А ваш менеджер так может?
Кроме того, была еще RAG-система для ответов на вопросы (классика), и крутое приложение, которое объединило новые способности Sonnet 3.6 со скриптами Apple для управления маком только с помощью голоса.
Ранее такие хакатоны проходили у Mistral, Cognition и даже Meta*. Цель подобных мероприятий проста: нужно взять LLM компании и сделать на ее основе какой-нибудь занимательный продукт. Вот, что получилось у участников с Claude:
Кроме того, была еще RAG-система для ответов на вопросы (классика), и крутое приложение, которое объединило новые способности Sonnet 3.6 со скриптами Apple для управления маком только с помощью голоса.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44🔥10❤5 5🤨1
Большая статья: какие альтернативы трансформерам у нас есть?
Действительно, трансформеры сегодня – самая сильная из когда-либо существовавших архитектур, золотой стандарт нейросетей. Но, несмотря на все свои достоинства, у трансформера есть и недостатки, и это открывает двери возможного появления новых улучшенных алгоритмов.
Так кто же в 2024 году может посоревноваться с трансформером за звание серебряной пули глубокого обучения? Об этом – наша новая большая статья. В ней вы найдете детальные ответы на такие вопросы, как:
➡️ Как работают трансформеры, и в чем их недостатки?
➡️ Какие есть модификации алгоритма внимания, и какие из них реально используются?
➡️ Почему мы отказались от RNN, и есть у рекуррентных архитектур шанс на реабилитацию?
➡️ Какие альтернативы предлагают ученые в самых свежих статья?
➡️ Как работают главные конкуренты трансформеров – SSM-подобные модели?
В общем, статья поможет не только глубоко погрузиться в современный ресерч, но и разобраться, что под капотом у фундаментальных архитектур. Скорее сохраняйте в ридинг-лист: https://datasecrets.ru/articles/19
Запасайтесь попкорном и какао: время чтения статьи – 26 минут 😲
"Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов", — Андрей Карпаты.
Действительно, трансформеры сегодня – самая сильная из когда-либо существовавших архитектур, золотой стандарт нейросетей. Но, несмотря на все свои достоинства, у трансформера есть и недостатки, и это открывает двери возможного появления новых улучшенных алгоритмов.
Так кто же в 2024 году может посоревноваться с трансформером за звание серебряной пули глубокого обучения? Об этом – наша новая большая статья. В ней вы найдете детальные ответы на такие вопросы, как:
В общем, статья поможет не только глубоко погрузиться в современный ресерч, но и разобраться, что под капотом у фундаментальных архитектур. Скорее сохраняйте в ридинг-лист: https://datasecrets.ru/articles/19
Please open Telegram to view this post
VIEW IN TELEGRAM
❤42👍24😎6
Data Secrets
Вышел Claude 3.5 Haiku: цены на него немного шокируют Haiku превосходит все предыдущие модели стартапа (кроме нового Sonnet 3.6). Модель обучена на данных до июля 2024: это самый «свежий» показатель среди моделей Anthropic. Haiku пока не поддерживает …
Помимо подорожания в 4 раза новый Haiku 3.5 от Anthropic еще и в 2 раза медленнее предшественника
Новая модель, конечно, существенно лучше Haiku 3 (оценки на SWE бенчмарке можно посмотреть в этом посте). Независимые оценки тоже это показывают: по данным Artificial Analysis Haiku 3.5 достигает уровня самой мощной модели предыдущего поколения – Claude 3 Opus.
Однако скорость и цены оставляют желать лучшего. Модель в четыре раза дороже предшественника и в 10 раз дороже новейших Gemini 1.5 Flash и GPT-4o mini. При этом замеры говорят, что на инференсе новичок в 2 раза ленивее по сравнению с Haiku 3.
В общем, судя по всеми, Haiku 3.5 – уже не такая крошечная модель, какой была Haiku 3. Вероятно, она должна занять место Sonnet в новом поколении, а Sonnet встанет на место Opus.
Новая модель, конечно, существенно лучше Haiku 3 (оценки на SWE бенчмарке можно посмотреть в этом посте). Независимые оценки тоже это показывают: по данным Artificial Analysis Haiku 3.5 достигает уровня самой мощной модели предыдущего поколения – Claude 3 Opus.
Однако скорость и цены оставляют желать лучшего. Модель в четыре раза дороже предшественника и в 10 раз дороже новейших Gemini 1.5 Flash и GPT-4o mini. При этом замеры говорят, что на инференсе новичок в 2 раза ленивее по сравнению с Haiku 3.
В общем, судя по всеми, Haiku 3.5 – уже не такая крошечная модель, какой была Haiku 3. Вероятно, она должна занять место Sonnet в новом поколении, а Sonnet встанет на место Opus.
❤18👍9🤔8😁1
Кадры восьмилетней давности: Дженсен Хуанг привез первую видеокарту в OpenAI. Надпись на ней гласит:
Маск ностальгирует
Илону и команде OpenAI. Во имя будущего вычислений и человечества, дарю вам первую в мире DGX-1.
Маск ностальгирует
❤124👍24🔥14😁5
Исследователи из Китая создали мультимодальный датасет, который по эффективности превосходит наборы во много раз больше
Помните, как Андрей Карпаты говорил, что "модели должны стать больше, прежде чем они станут меньше"? По его теории, большие LLM должны помочь нам сделать данные, на которых мы учим модели, эффективнее: сейчас в трейнах моделей очень много шума, из-за которого модели разбухают, но умнее не становятся. Если этот шум убрать, и оставить только то, что действительно важно, на получившихся сжатых данных можно обучать маленькие модельки, которые на метриках будут не уступать большим.
Ученые из Китая попытались реализовать именно такой сценарий. Их датасет состоит не просто из текстов и картинок, как это обычно бывает, а из обработанных опенсорсной моделью RAM++ данных: это описания изображений, визуальные инструкции, выборочные текстовые задачи и, наконец, синтетика.
На итоговом наборе Infinity-MM они обучили малышку-модель Aquila-VL-2B (в качестве базовой модели взяли Qwen-2.5). Учили тоже непросто: в несколько этапов, каждый раз на отдельном виде данных. В итоге модель набрала 54,9% на мультимодальном бенче MMStar: это лучший результат в таком весе. Неплохие результаты получились и на других мультимодальных и математических тестах: 43% на HallusionBench, 75,2% на MMBench, 59% на MathVista.
И... хорошая новость: и датасет, и модельку выложили в опенсорс. А статью полностью можно прочитать здесь.
Помните, как Андрей Карпаты говорил, что "модели должны стать больше, прежде чем они станут меньше"? По его теории, большие LLM должны помочь нам сделать данные, на которых мы учим модели, эффективнее: сейчас в трейнах моделей очень много шума, из-за которого модели разбухают, но умнее не становятся. Если этот шум убрать, и оставить только то, что действительно важно, на получившихся сжатых данных можно обучать маленькие модельки, которые на метриках будут не уступать большим.
Ученые из Китая попытались реализовать именно такой сценарий. Их датасет состоит не просто из текстов и картинок, как это обычно бывает, а из обработанных опенсорсной моделью RAM++ данных: это описания изображений, визуальные инструкции, выборочные текстовые задачи и, наконец, синтетика.
На итоговом наборе Infinity-MM они обучили малышку-модель Aquila-VL-2B (в качестве базовой модели взяли Qwen-2.5). Учили тоже непросто: в несколько этапов, каждый раз на отдельном виде данных. В итоге модель набрала 54,9% на мультимодальном бенче MMStar: это лучший результат в таком весе. Неплохие результаты получились и на других мультимодальных и математических тестах: 43% на HallusionBench, 75,2% на MMBench, 59% на MathVista.
И... хорошая новость: и датасет, и модельку выложили в опенсорс. А статью полностью можно прочитать здесь.
❤58👍34👏11🔥5