Когда языковые модели читают текст, они не просто обрабатывают токен за токеном. В каком-то смысле они испытывают от чтения эмоции.
www.goodfire.ai/research/stories-in-space#
Рисерчеры из GoodFire продолжают исследовать так называемую геометрию LLM. Некоторое время назад они показали, что мысли моделей организованы в виде определенных форм. Например, числа – это окружности, и складывая одно число с другим, LLM на самом деле суммируют множество бубликов: t.me/data_secrets/9223.
Теперь они обнаружили новые любопытные детали. Оказывается, внутри моделей существует целый ландшафт эмоциональных состояний.
Ученые взяли LLama, давали ей читать рассказы и наблюдали за состоянием активаций. Так вот по мере чтения модель как бы перемещается по некоторому многомерному пространству состояний, "испытвая" те или иные эмоции в зависимости от того, что происходит в тексте в данный момент.
Причем если визуализировать соответствующие разным эмоциям состояния модели, то получается структура, очень похожая на классическую психологическую модель эмоций человека. Например, радость находится рядом с интересом, страх и гнев имеют схожую высокую интенсивность и тд.
Еще по этой карте можно предсказывать дальнейшие ответы модели. И если искусственно подталкивать активации в направлении определенной эмоции, настроение и суть генераций меняется.
Красиво
www.goodfire.ai/research/stories-in-space#
Рисерчеры из GoodFire продолжают исследовать так называемую геометрию LLM. Некоторое время назад они показали, что мысли моделей организованы в виде определенных форм. Например, числа – это окружности, и складывая одно число с другим, LLM на самом деле суммируют множество бубликов: t.me/data_secrets/9223.
Теперь они обнаружили новые любопытные детали. Оказывается, внутри моделей существует целый ландшафт эмоциональных состояний.
Ученые взяли LLama, давали ей читать рассказы и наблюдали за состоянием активаций. Так вот по мере чтения модель как бы перемещается по некоторому многомерному пространству состояний, "испытвая" те или иные эмоции в зависимости от того, что происходит в тексте в данный момент.
Причем если визуализировать соответствующие разным эмоциям состояния модели, то получается структура, очень похожая на классическую психологическую модель эмоций человека. Например, радость находится рядом с интересом, страх и гнев имеют схожую высокую интенсивность и тд.
Еще по этой карте можно предсказывать дальнейшие ответы модели. И если искусственно подталкивать активации в направлении определенной эмоции, настроение и суть генераций меняется.
Красиво
1❤179❤🔥48🤯37 15😁13🗿11🤨6🤝4🆒4😍1🐳1
Anthropic снова обвинили китайцев в незаконной дистилляции Claude
Никогда такого не было, и вот опять.
Стартап утверждает, что операторы, связанные с Alibaba Qwen, провели крупнейшую на данный момент «атаку» на Claude: они зафиксировали около 28.8 млн взаимодействий через почти 25 000 фейковых аккаунтов за полтора месяца.
Основной целью, по словам Anthropic, было извлечь способности моделей в сфере кодинга, ризонинга и tool use.
Сейчас Anthropic направили нескольким сенаторам официальное письмо, в котором попросили Конгресс отреагировать. Но пока ответа от правительства нет, как и комментариев от Alibaba.
Никогда такого не было, и вот опять.
Стартап утверждает, что операторы, связанные с Alibaba Qwen, провели крупнейшую на данный момент «атаку» на Claude: они зафиксировали около 28.8 млн взаимодействий через почти 25 000 фейковых аккаунтов за полтора месяца.
Основной целью, по словам Anthropic, было извлечь способности моделей в сфере кодинга, ризонинга и tool use.
Сейчас Anthropic направили нескольким сенаторам официальное письмо, в котором попросили Конгресс отреагировать. Но пока ответа от правительства нет, как и комментариев от Alibaba.
1👏101😎61😁49🔥14🗿14 9❤6👍5👾2🕊1🍾1
Также вчера модель снова заметили в Amazon Bedrock.
Скрещиваем пальцы и надеемся
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Модель BerryLM от RWB вошла в топ-3 бенчмарка MERA
В основном русскоязычном рейтинге дообученная компанией большая языковая модель BerryLM-XL выдала результаты, сопоставимые с GPT-5.4 и Opus 4.6, и в итоге заняла третье место. Еще одна LLM из семейства моделей RWB, BerryLM-v2, сейчас на 5-ом месте рейтинга.
Обе модели Wildberries активно использует для разных прикладных задач. Например, в ИИ-ассистенте для покупателей, сравнении и поиске товаров, и в ИИ-инструментах, помогающих продавцам отвечать на вопросы и отзывы.
Хорошие места в бенчмарках – это здорово, но когда модель при этом еще и действительно работает в продуктах с миллионами пользователей – это уже интереснее.
Лидерборд: mera.a-ai.ru/ru/text/leaderboard
В основном русскоязычном рейтинге дообученная компанией большая языковая модель BerryLM-XL выдала результаты, сопоставимые с GPT-5.4 и Opus 4.6, и в итоге заняла третье место. Еще одна LLM из семейства моделей RWB, BerryLM-v2, сейчас на 5-ом месте рейтинга.
Обе модели Wildberries активно использует для разных прикладных задач. Например, в ИИ-ассистенте для покупателей, сравнении и поиске товаров, и в ИИ-инструментах, помогающих продавцам отвечать на вопросы и отзывы.
Хорошие места в бенчмарках – это здорово, но когда модель при этом еще и действительно работает в продуктах с миллионами пользователей – это уже интереснее.
Лидерборд: mera.a-ai.ru/ru/text/leaderboard
1❤110😁102🗿25👍17 5💯2🫡2😎2🎄1
Media is too big
VIEW IN TELEGRAM
Фиона Фанг, Head of Engineering в Claude Code, сказала, что использование агентов делает инженеров более одинокими
Люди перестают обмениваться опытом и в итоге все больше и больше зацикливаются на работе со своими агентами. Кодинг становится «изолированным».
Фанг говорит, что это серьезная проблема, и Anthropic уже стараются с ней бороться. Оказывается, что помимо всяких хакатонов и кодинг-завтраков в компании проводят так называемые «maker time» встречи: инженеры собираются, вместе программируют и делятся практиками использования агентов.
Вы там как, справляетесь с одиночеством?😭
Люди перестают обмениваться опытом и в итоге все больше и больше зацикливаются на работе со своими агентами. Кодинг становится «изолированным».
Фанг говорит, что это серьезная проблема, и Anthropic уже стараются с ней бороться. Оказывается, что помимо всяких хакатонов и кодинг-завтраков в компании проводят так называемые «maker time» встречи: инженеры собираются, вместе программируют и делятся практиками использования агентов.
Вы там как, справляетесь с одиночеством?
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤🔥122😁62👍25 17 10❤8👨💻7☃3🍾3🦄3🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
Какие-то гении изобрели кебаб-банчмарк ❓
https://evaluateai.ai/app/comparisons/0e156620-928b-4a40-bded-84ed556309c5/results/?view=model
Спасибо за внимание
https://evaluateai.ai/app/comparisons/0e156620-928b-4a40-bded-84ed556309c5/results/?view=model
Спасибо за внимание
Please open Telegram to view this post
VIEW IN TELEGRAM
😁188❤42🔥17🤯5👍4 4☃2🎉2😎2👌1
Черный рынок токенов в Китае
Исследовательница из Оксфордской лаборатории китайской политики написала статью о том, как китайские провайдеры торгуют токенами по ценам ниже официальных. Иногда цена за доступ к модели может составлять всего 10% от оф.API. Встает вопрос: как?
Так вот варианта, оказывается, три. Выбирайте, какой нравится больше☕️ :
1. Массовый сбор данных. Подобные провайдеры собирают все запросы, ответы и цепочки ризонинга – и перепродают. На этом и зарабатывают.
2. Подмена моделей. Вам продают Opus 4.7, а на деле подсовывают какой-нибудь Qwen местного разлива. И вот уже скидка на мощную модель превращается в прибыль с дешевой.
3. Арбитраж подписки. Например, берут Claude Max за $200 и делят на десятки клиентов через лимиты по токенам в час. Снова профит! Сюда же генерация кучи поддельных API-аккаунтов для получения бесплатных стартовых кредитов, фейковые студенческие аккаунты и перепродажа чужих неиспользованных квот.
Всякие геоблокировки, телефонные верификации, требования к зарубежным картам и все прочее эти прокси с легкостью обходят. Так что рынок разросся, и официалы с этим ничего поделать не могут.
Китайцы пользуются подобным массово, потому что прямой доступ без VPN и иностранных карт для них закрыт. И все, кажется, довольны.
Исследовательница из Оксфордской лаборатории китайской политики написала статью о том, как китайские провайдеры торгуют токенами по ценам ниже официальных. Иногда цена за доступ к модели может составлять всего 10% от оф.API. Встает вопрос: как?
Так вот варианта, оказывается, три. Выбирайте, какой нравится больше
1. Массовый сбор данных. Подобные провайдеры собирают все запросы, ответы и цепочки ризонинга – и перепродают. На этом и зарабатывают.
2. Подмена моделей. Вам продают Opus 4.7, а на деле подсовывают какой-нибудь Qwen местного разлива. И вот уже скидка на мощную модель превращается в прибыль с дешевой.
3. Арбитраж подписки. Например, берут Claude Max за $200 и делят на десятки клиентов через лимиты по токенам в час. Снова профит! Сюда же генерация кучи поддельных API-аккаунтов для получения бесплатных стартовых кредитов, фейковые студенческие аккаунты и перепродажа чужих неиспользованных квот.
Всякие геоблокировки, телефонные верификации, требования к зарубежным картам и все прочее эти прокси с легкостью обходят. Так что рынок разросся, и официалы с этим ничего поделать не могут.
Китайцы пользуются подобным массово, потому что прямой доступ без VPN и иностранных карт для них закрыт. И все, кажется, довольны.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤122😁71 29 10👍8🤯6☃2⚡1👏1🎉1🆒1
⚡Выбирать железо для обучения и инференса моделей больше не нужно
Qwen, Whisper, Deepseek и другие нейросети уже готовы к работе на приватной инфраструктуре. Просто выбираете нужную модель и получаете готовый инференс-сервис в пару кликов в Selectel.
Каталог ИИ-моделей Selectel — удобный инструмент для работы с нейросетями, когда нужны безопасность и производительность.
Что вы получаете в пару кликов:
⚡Большой выбор моделей для ваших задач: для генерации текстов и кода, распознавания речи, создания контента и других.
⚡Производительность и гибкое масштабирование. Инференс-сервис развернут на современном железе с актуальными видеокартами и автоматически адаптируется при росте или снижении нагрузки.
⚡Прогнозируемая стоимость: платите за фактическое время потребления вычислительных ресурсов.
Начните работать с ИИ-моделями на выделенной инфраструктуре: https://slc.tl/sm4xh
Реклама. АО "Селектел". erid:2W5zFGrgm6h
Qwen, Whisper, Deepseek и другие нейросети уже готовы к работе на приватной инфраструктуре. Просто выбираете нужную модель и получаете готовый инференс-сервис в пару кликов в Selectel.
Каталог ИИ-моделей Selectel — удобный инструмент для работы с нейросетями, когда нужны безопасность и производительность.
Что вы получаете в пару кликов:
⚡Большой выбор моделей для ваших задач: для генерации текстов и кода, распознавания речи, создания контента и других.
⚡Производительность и гибкое масштабирование. Инференс-сервис развернут на современном железе с актуальными видеокартами и автоматически адаптируется при росте или снижении нагрузки.
⚡Прогнозируемая стоимость: платите за фактическое время потребления вычислительных ресурсов.
Начните работать с ИИ-моделями на выделенной инфраструктуре: https://slc.tl/sm4xh
Реклама. АО "Селектел". erid:2W5zFGrgm6h
😁33❤6🗿3👍2🔥2🤨2🫡2👏1🆒1
OpenAI поделились статистикой по Codex. Есть интересное.
openai.com/index/how-agents-are-transforming-work/
Смотрим:
– Внутри OpenAI Codex теперь составляет 99,8% их выходных токенов, а ChatGPT – только 0,2%.
– Индивидуальные юзеры все еще концентрируются в ChatGPT, а вот у бизнеса токены в Codex составляют ~64% от общего потребления.
– Топ-1% самых активных юзеров Codex в среднем запускают агентов на 71 час в сутки (это сумма по всем агентам).
– Со временем люди все больше и больше делегируют агентам действительно долгие задачи. Например, промпты на задачи, которые занимают ~8-часов работы человека, теперь составляют более четверти запросов. Для сравнения, в декабре их было чуть больше 2%.
Исходя из перечисленного, вопрос: это все еще люди вайбкодят с агентами, или уже агенты с людьми?
openai.com/index/how-agents-are-transforming-work/
Смотрим:
– Внутри OpenAI Codex теперь составляет 99,8% их выходных токенов, а ChatGPT – только 0,2%.
– Индивидуальные юзеры все еще концентрируются в ChatGPT, а вот у бизнеса токены в Codex составляют ~64% от общего потребления.
– Топ-1% самых активных юзеров Codex в среднем запускают агентов на 71 час в сутки (это сумма по всем агентам).
– Со временем люди все больше и больше делегируют агентам действительно долгие задачи. Например, промпты на задачи, которые занимают ~8-часов работы человека, теперь составляют более четверти запросов. Для сравнения, в декабре их было чуть больше 2%.
Исходя из перечисленного, вопрос: это все еще люди вайбкодят с агентами, или уже агенты с людьми?
23❤102😁52 30🔥8👍3🏆2🤝2🫡2👌1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁327 44🤯14 10❤8💯7🍾2⚡1😎1
Они добрались до OpenAI: правительство США будет одобрять доступ к GPT-5.6 «клиент за клиентом»
Администрация Трампа связалась с Альтманом и «попросила» его не выпускать модель без одобрения. Конечно же, «по соображениям безопасности».
Так что модель сначала выйдет в ограниченном preview, и только когда-нибудь потом (возмооожно) станет доступна простым смертным: во время периода превью чиновники будут «одобрять доступ клиент за клиентом» (цитата Сэма).
Лицензирование де-факто
Администрация Трампа связалась с Альтманом и «попросила» его не выпускать модель без одобрения. Конечно же, «по соображениям безопасности».
Так что модель сначала выйдет в ограниченном preview, и только когда-нибудь потом (возмооожно) станет доступна простым смертным: во время периода превью чиновники будут «одобрять доступ клиент за клиентом» (цитата Сэма).
Лицензирование де-факто
🫡137 73❤26🗿17😁8🤗7🤯6🤔3😍2😎2🕊1
Оранжевый – доля токенов американских моделей в OpenRouter
Серый – доля китайских
Сверху разбиение в июне 2025, снизу – в июне 2026
И кто тут теперь техно-лидер?⌨️
* из статьи Bloomberg
Серый – доля китайских
Сверху разбиение в июне 2025, снизу – в июне 2026
И кто тут теперь техно-лидер?
* из статьи Bloomberg
Please open Telegram to view this post
VIEW IN TELEGRAM
5⚡119😁68🤯25👍11❤5😍4🏆4🗿3💯2🎄2