Отец ИИ Йошуа Бенджио пробил 1 миллион цитирований по официальным данным Google Scholar
В мире единицы ученых с таким Хиршем и количеством цитирований: можно пересчитать по пальцам одной руки. И до этого момента, насколько нам известно, не было ни одного из сферы Computer Science и ML.
Поздравляем!
В мире единицы ученых с таким Хиршем и количеством цитирований: можно пересчитать по пальцам одной руки. И до этого момента, насколько нам известно, не было ни одного из сферы Computer Science и ML.
Поздравляем!
1🎉371❤67👍37 23🔥12🗿5😎3
Интересно ваше мнение. У кого будет лучшая модель к концу 2025?
Anonymous Poll
30%
OpenAI
35%
Google
9%
xAI
13%
Anthropic
4%
Safe Superintelligence 🌚
9%
Другое
❤37🤔29☃5🗿3⚡2
В OpenAI может появится реклама на основе памяти
Об этом пишет The Information в свежей статье «OpenAI Readies Itself for Its Facebook Era».
Они выяснили, что в последнее время OpenAI ну очень активно нанимает бывших сотрудников Meta. Сейчас они составляют уже около 20% всего стартапа.
Подразделение Strategic Initiatives теперь вообще почти полностью состоит из выходцев из фейсбука. А возглавляет его Фиджи Симо, которая до этого руководила рекламой и монетизацией у Цукерберга.
И это, видимо, не случайность. Именно группа Strategic Initiatives сейчас обсуждает и исследует рекламные возможности в ChatGPT. Они предлагают внедрить рекламу с использованием памяти.
То есть та самая фича, благодаря которой бот умеет ссылаться на прошлые диалоги и учитывать их, теперь может быть использована для того, чтобы что-то вам продавать😐
Сбор и анализ пользовательских данных с целью монетизации – это буквально бизнес-модель Meta. Только в разы мощнее.
Представьте: люди месяцами и годами так или иначе рассказывали ChatGPT о себе, своей работе, детях, питомцах и тд. Если каждому пользователю предлагать товары, учитывая весь этот контекст, – это будет, вероятно, самая эффективная рекламная модель в мире.
С одной стороны, это какое-то черное зеркало. И даже Сэм Альтман когда-то говорил, что сценарий с внедрением рекламы был бы «тревожным и подрывающим доверие».
С другой, это вероятно единственная возможность OpenAI выйти на какую-то прибыль к 2029 (как они обещали инвесторам). Именно поэтому возможность рекламы изучается сейчас всерьез.
А еще согласно focus-группам часть пользователей уже считает, что ответы в ChatGPT – это реклама. Так что мы с вами можем даже не заметить, когда на нас раскатят что-то подобное✌️
Об этом пишет The Information в свежей статье «OpenAI Readies Itself for Its Facebook Era».
Они выяснили, что в последнее время OpenAI ну очень активно нанимает бывших сотрудников Meta. Сейчас они составляют уже около 20% всего стартапа.
Подразделение Strategic Initiatives теперь вообще почти полностью состоит из выходцев из фейсбука. А возглавляет его Фиджи Симо, которая до этого руководила рекламой и монетизацией у Цукерберга.
И это, видимо, не случайность. Именно группа Strategic Initiatives сейчас обсуждает и исследует рекламные возможности в ChatGPT. Они предлагают внедрить рекламу с использованием памяти.
То есть та самая фича, благодаря которой бот умеет ссылаться на прошлые диалоги и учитывать их, теперь может быть использована для того, чтобы что-то вам продавать
Сбор и анализ пользовательских данных с целью монетизации – это буквально бизнес-модель Meta. Только в разы мощнее.
Представьте: люди месяцами и годами так или иначе рассказывали ChatGPT о себе, своей работе, детях, питомцах и тд. Если каждому пользователю предлагать товары, учитывая весь этот контекст, – это будет, вероятно, самая эффективная рекламная модель в мире.
С одной стороны, это какое-то черное зеркало. И даже Сэм Альтман когда-то говорил, что сценарий с внедрением рекламы был бы «тревожным и подрывающим доверие».
С другой, это вероятно единственная возможность OpenAI выйти на какую-то прибыль к 2029 (как они обещали инвесторам). Именно поэтому возможность рекламы изучается сейчас всерьез.
А еще согласно focus-группам часть пользователей уже считает, что ответы в ChatGPT – это реклама. Так что мы с вами можем даже не заметить, когда на нас раскатят что-то подобное
Please open Telegram to view this post
VIEW IN TELEGRAM
GSI Technology заявили, что разработали чип, который по производительности соответсвует NVIDIA A6000, но потребляет на 98% меньше энергии
Их Gemini‑I APU построен на архитектуре Compute-in-Memory. В обычных чипах данные хранятся в памяти, а вычисления проходят отдельно на ядрах. Чтобы что-то посчитать, надо прочитать из памяти -> передать в вычислитель -> посчитать -> вернуть обратно. Это классическая архитектура фон Неймана, но вот эти перегонки данных туда-сюда стоят очень дорого.
В APU же вычислительные операции выполняются не отдельно от памяти, а внутри. В ячейки памяти встроены маленькие логические элементы, которые могут выполнять простые битовые операции без выноса данных наружу. То есть память становится одновременно и хранилищем, и вычислителем. И вот за счет того, что данные больше не нужно таскать, и получается такая огромная экономия.
Результат очень бодрый, конечно. И его, кстати, проверили ученые из Cornell University и MIT, так что замерам можно доверять.
Но есть нюансы.
1. Во-первых, производить такие чипы сильно дороже: используется SRAM и требуется больше транзисторов.
2. Во-вторых, они менее универсальные (в данном случае тестировали только на RAG, что там будет на других задачах – непонятно).
3. В-третьих, просто так пересесть на Compute-in-Memory нельзя, у нас вся инфраструктура оптимизирована под GPU. Вопрос совместимости ключевой.
И тем не менее, 98% экономии – это прямо хорошо. Даже если получится воткнуть только под какую-нибудь локальную задачку инференса.
Акции GSI Technology, кстати, взлетели на фоне новостей почти на 200%🙂
Их Gemini‑I APU построен на архитектуре Compute-in-Memory. В обычных чипах данные хранятся в памяти, а вычисления проходят отдельно на ядрах. Чтобы что-то посчитать, надо прочитать из памяти -> передать в вычислитель -> посчитать -> вернуть обратно. Это классическая архитектура фон Неймана, но вот эти перегонки данных туда-сюда стоят очень дорого.
В APU же вычислительные операции выполняются не отдельно от памяти, а внутри. В ячейки памяти встроены маленькие логические элементы, которые могут выполнять простые битовые операции без выноса данных наружу. То есть память становится одновременно и хранилищем, и вычислителем. И вот за счет того, что данные больше не нужно таскать, и получается такая огромная экономия.
Результат очень бодрый, конечно. И его, кстати, проверили ученые из Cornell University и MIT, так что замерам можно доверять.
Но есть нюансы.
1. Во-первых, производить такие чипы сильно дороже: используется SRAM и требуется больше транзисторов.
2. Во-вторых, они менее универсальные (в данном случае тестировали только на RAG, что там будет на других задачах – непонятно).
3. В-третьих, просто так пересесть на Compute-in-Memory нельзя, у нас вся инфраструктура оптимизирована под GPU. Вопрос совместимости ключевой.
И тем не менее, 98% экономии – это прямо хорошо. Даже если получится воткнуть только под какую-нибудь локальную задачку инференса.
Акции GSI Technology, кстати, взлетели на фоне новостей почти на 200%
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤125🤯52🔥26 10👍9 5🤔4😁3
Компании активно переходят на нейросети в облаке
Раньше бизнес с опаской относился к тому, чтобы запускать ИИ-модели в облаке, и разворачивал их on-premises. Но тренд меняется: облака уже стали местом, где модели обучаются, генерируют тексты, пишут код и ищут информацию по внутренним документам.
Причина простая — инфраструктура изменилась. В облаках появились инструменты, которые позволяют запускать ИИ-агентов без кода, подключать их к корпоративным сервисам и использовать открытые модели наравне с собственными.
Например, в Yandex AI Studio с начала года потребление генеративных моделей выросло в пять раз, ежемесячно это десятки миллиардов токенов. Самые активные — YandexGPT и Qwen3-235b. Яндексовые модели используют для работы с текстами и RAG-сценариев, нейросеть от AliBaba – для агентских систем.
Раньше бизнес с опаской относился к тому, чтобы запускать ИИ-модели в облаке, и разворачивал их on-premises. Но тренд меняется: облака уже стали местом, где модели обучаются, генерируют тексты, пишут код и ищут информацию по внутренним документам.
Причина простая — инфраструктура изменилась. В облаках появились инструменты, которые позволяют запускать ИИ-агентов без кода, подключать их к корпоративным сервисам и использовать открытые модели наравне с собственными.
Например, в Yandex AI Studio с начала года потребление генеративных моделей выросло в пять раз, ежемесячно это десятки миллиардов токенов. Самые активные — YandexGPT и Qwen3-235b. Яндексовые модели используют для работы с текстами и RAG-сценариев, нейросеть от AliBaba – для агентских систем.
🤨56🗿23👍19❤11😁4 4🔥3👌2👨💻2🤓1 1
Media is too big
VIEW IN TELEGRAM
Джеффри Хинтон заявил, что у нас все-таки есть шанс остаться в живых и сосуществовать с ИИ. Для этого надо встроить в модели материнский инстинкт.
Ученый говорит, что мать и ее ребенок – это единственный пример ситуации, когда менее развитое существо управляет более развитым. Это заслуга эволюции, то есть материнский инстинкт.
Чтобы человечество выжило после появления сверхинтеллекта, ученым нужно попытаться воспроизвести этот инстинкт в моделях.
👶
Ученый говорит, что мать и ее ребенок – это единственный пример ситуации, когда менее развитое существо управляет более развитым. Это заслуга эволюции, то есть материнский инстинкт.
Чтобы человечество выжило после появления сверхинтеллекта, ученым нужно попытаться воспроизвести этот инстинкт в моделях.
Лидеры компаний думают об ИИ, как будто это ассистент, а мы боссы. Но это невозможно. Мы не должны пытаться доминировать. Мы должны создавать ИИ как родителя. Только в таком случае эти системы будут помогать нам достигать лучшего, даже если мы будем слабее их.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁240👍134❤43🤔33🔥11💯9🗿8 6🤨5🦄5✍4
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥192😁139💯50 17🫡11❤8👍4 3🗿2😎2
Авито опенсорснули свои ИИ-модели A-Vibe и A-Vision
Инвестиции в разработку составили около полумиллиарда рублей.
Это первые российские открытые модели, специально обученные для e-commerce. Именно они работают на проде Авито и помогают вам, например, писать описания к объявлению по фотографиям.
Они подходят для анализа документов, автоматизации контента и других распространенных задач. Также модельки умеют в function calling, так что на их базе можно строить даже агентов. Во многих открытых русскоязычных рейтингах A-Vibe и A-Vision занимают первые места.
Кроме того, модели специально оптимизированы под русский язык, что позволят экономить до 50% ресурсов на вычисления в сравнении с другими легкими моделями.
Приятная вишенка: бонусом к моделям Авито перевели на русский язык 4 международных бенчмарка. Такой вот подарок комьюнити.
Hugging Face (лицензия Apache 2.0, использовать можно в том числе в коммерческих целях)
Инвестиции в разработку составили около полумиллиарда рублей.
Это первые российские открытые модели, специально обученные для e-commerce. Именно они работают на проде Авито и помогают вам, например, писать описания к объявлению по фотографиям.
Они подходят для анализа документов, автоматизации контента и других распространенных задач. Также модельки умеют в function calling, так что на их базе можно строить даже агентов. Во многих открытых русскоязычных рейтингах A-Vibe и A-Vision занимают первые места.
Кроме того, модели специально оптимизированы под русский язык, что позволят экономить до 50% ресурсов на вычисления в сравнении с другими легкими моделями.
Приятная вишенка: бонусом к моделям Авито перевели на русский язык 4 международных бенчмарка. Такой вот подарок комьюнити.
Hugging Face (лицензия Apache 2.0, использовать можно в том числе в коммерческих целях)
🔥156🗿39❤25👍17😁11🤯3
У нас тут новая SOTA в опенсорсе
Естественно, от китайцев: Minimax M2. Модель примерно на уровне Grok 4 Fast и Gemini 2.5 Pro. В основном создано для агентов и end-to-end кодинга.
Самое интересное: в течение ограниченного времени модель можно бесплатно попробовать в API. Потом установят цены, но и после этого модель будет достаточно дешевой (примерно 8% от цены Claude Sonnet, например).
Веса (лицензия MIT)
Естественно, от китайцев: Minimax M2. Модель примерно на уровне Grok 4 Fast и Gemini 2.5 Pro. В основном создано для агентов и end-to-end кодинга.
Самое интересное: в течение ограниченного времени модель можно бесплатно попробовать в API. Потом установят цены, но и после этого модель будет достаточно дешевой (примерно 8% от цены Claude Sonnet, например).
Веса (лицензия MIT)
3❤102🔥39👍17🤯7 5⚡2😁2👏1🤨1
Data Secrets
В xAI разрабатывают аналог Википедии – Grokipedia Илон Маск завявил, что платформа будет «значительным улучшением» Википедии, которая по мнению многих сейчас развивается политически предвзято. Честно говоря, это просто необходимый шаг на пути xAI к познанию…
Это аналог Википедии, но с исправленными статьями. Маск считает, что в оригинальной Wiki статьи политически предвзятые и часто неправдивые, потому что их пишут люди.
Grokipedia же позиционируется как «энциклопедия, созданная для правды». Работает она, естественно, на основе Grok. Агент ищет факты, очищает их от налета идеологий и мнений и пишет/проверяет статьи.
Пока доступна версия 0.1 – ранняя бета. Опенсорс.
grokipedia.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥167😁122🤔25🤨17👍15 8❤7🗿4❤🔥2☃1🤓1
Thinking Machines предложили новый метод дистилляции, который обходит RL по эффективности
Сразу оговорка: это не замена RL. Но и не обычная дистилляция. Тут исследователи как бы взяли лучшее от двух этих миров и объединили в один подход.
Смотрите. Обычная дистилляция страдает от расхождения распределений: грубо говоря, модель-ученик плохо генерализуется, потому что видит только ответы/логиты учителя, и перенимает скорее стиль, чем знания. Это работает на несложных вопросах, но на длинных рассуждениях ошибки накапливаются и качество сбоит.
С другой стороны у нас есть RL, где агент обучается на своих же траекториях. Но RL дает редкую награду, и тут нельзя оценивать токены изолировано, как в дистилляции. Как говорил Карпаты, это приводит к тому, что сигнал рассеивается и обучения тормозит.
Thinking Machines предлагают объединенный подход под названием "On-Policy Distillation". Суть:
В итоге получаем одновременно и плотную оценку, и обучение на собственных ответах без проблем с распределением.
Работает это весьма неплохо. На AIME’24 on-policy distillation довела Qwen3-8B с 60% до 70% точности всего за 150 шагов. Для сравнения, RL-тренинг по отчётам Qwen занял около 17 900 GPU-часов и дал 67,6 %. Это экономия в десятки раз.
Отличная работа.
thinkingmachines.ai/blog/on-policy-distillation/
Сразу оговорка: это не замена RL. Но и не обычная дистилляция. Тут исследователи как бы взяли лучшее от двух этих миров и объединили в один подход.
Смотрите. Обычная дистилляция страдает от расхождения распределений: грубо говоря, модель-ученик плохо генерализуется, потому что видит только ответы/логиты учителя, и перенимает скорее стиль, чем знания. Это работает на несложных вопросах, но на длинных рассуждениях ошибки накапливаются и качество сбоит.
С другой стороны у нас есть RL, где агент обучается на своих же траекториях. Но RL дает редкую награду, и тут нельзя оценивать токены изолировано, как в дистилляции. Как говорил Карпаты, это приводит к тому, что сигнал рассеивается и обучения тормозит.
Thinking Machines предлагают объединенный подход под названием "On-Policy Distillation". Суть:
– Как в обычной дистилляции, у нас есть модель-учитель (большая, сильная модель) и модель-ученик (модель поменьше, которую обучаем).
– Из RL берем идею об обучении на своих же траекториях. То есть прогоняем батч промптов и сэмплим именно ответы студента.
– Даем учителю точные префиксы ответов ученика и делаем прямой проход.
– Считаем reverse-KL лосс по каждому токену, сравнивая лог-prob ученика и учителя.
В итоге получаем одновременно и плотную оценку, и обучение на собственных ответах без проблем с распределением.
Работает это весьма неплохо. На AIME’24 on-policy distillation довела Qwen3-8B с 60% до 70% точности всего за 150 шагов. Для сравнения, RL-тренинг по отчётам Qwen занял около 17 900 GPU-часов и дал 67,6 %. Это экономия в десятки раз.
Отличная работа.
thinkingmachines.ai/blog/on-policy-distillation/
👍97❤37🔥23😁2🤯1🗿1 1
У Яндекса сегодня большой день: компания показала самое глобальное обновление Алисы за всю историю
Алиса эволюционировала в универсальную нейросеть Алису AI, которую обучили на миллионах реальных кейсов пользователей. В ответе на запрос пользователя она не ограничивается только текстом, а прикладывает картинки, видео и даже данные Яндекс Карт.
Еще из любопытного: появится функция «Моя память» — можно будет хаотично наговорить или набросать в чат с ней мысли, она обработает их, сформирует списки дел и напомнит вам о них.
Ну и самое главное — в Алисе AI появится функционал ИИ-агента, который позволит делегировать жизненную рутину, например искать и бронировать рестораны, записывать в салоны красоты. На старте можно будет забронировать слот в 40 тысячах бьюти- и других организаций, а также стол в более чем 30 тысячах ресторанов России.
Шаг действительно фундаментальный как для компании, так и для российских пользователей (ведь такой функционал у них появится впервые), и может стать новым стандартом в ИИ.
Алиса эволюционировала в универсальную нейросеть Алису AI, которую обучили на миллионах реальных кейсов пользователей. В ответе на запрос пользователя она не ограничивается только текстом, а прикладывает картинки, видео и даже данные Яндекс Карт.
Еще из любопытного: появится функция «Моя память» — можно будет хаотично наговорить или набросать в чат с ней мысли, она обработает их, сформирует списки дел и напомнит вам о них.
Ну и самое главное — в Алисе AI появится функционал ИИ-агента, который позволит делегировать жизненную рутину, например искать и бронировать рестораны, записывать в салоны красоты. На старте можно будет забронировать слот в 40 тысячах бьюти- и других организаций, а также стол в более чем 30 тысячах ресторанов России.
Шаг действительно фундаментальный как для компании, так и для российских пользователей (ведь такой функционал у них появится впервые), и может стать новым стандартом в ИИ.
🔥184🗿60❤39😁27👍16🤯8 6🤨4 4 3