в пятницу у нас с Сергеем Николенко была бурная дискуссия под моим постом про Sakana AI Scientist, одной из тем там было разделение развития ИИ; если до последнего времени оно было всемирным, то последний год нарастает регионализация, вот и новость в подтверждение моей позиции
@valuableai
@valuableai
👍3😱1
тут вышла новость, в которой говорится, что традиционные сайты теряют посетителей из-за ИИ-агрегаторов, типа ChatGPT и Perplexity; потери доходят до половины посетителей за 3 последних года; на мой взгляд описываемая проблема имеет простое решение - вместо денег за показы рекламы с рекламных платформ, сайты будут брать деньги за показы страниц с ИИ-платформ, как уже делают Associated Press, например
интересно тут другое, одновременно с ковидом появилась книга "Будущее быстрее, чем вы думаете", где авторы предсказывают уход в прошлое рекламы, как таковой из-за того, что ИИ-помощники будут анализировать информацию для пользователей, игнорируя маркетинг; меня это зацепило еще в прошлом году, а теперь появилось наглядное подтверждение
@valuableai
интересно тут другое, одновременно с ковидом появилась книга "Будущее быстрее, чем вы думаете", где авторы предсказывают уход в прошлое рекламы, как таковой из-за того, что ИИ-помощники будут анализировать информацию для пользователей, игнорируя маркетинг; меня это зацепило еще в прошлом году, а теперь появилось наглядное подтверждение
@valuableai
3DNews - Daily Digital Digest
Традиционные сайты массово теряют аудиторию из-за чат-ботов и агентов с ИИ
Специализирующиеся на искусственном интеллекте компании обещали владельцам сайтов, что поисковые системы нового поколения обеспечат им приток посетителей через реферальный трафик. Новый доклад платформы лицензирования контента TollBit показал, что в действительности…
👍10🔥4
пришла новость, что Meta* тестирует свой чип для искусственного интеллекта и готовится начать его широко использовать в 2026 году; месяц назад была аналогичная новость про OpenAI, они хотят представить свой чип уже в этом году; 4 месяца назад была такая же от Amazon
такие чипы принято называть NPU (нейросетевое вычислительное устройство), и их уже сейчас существует несколько; тут надо оговориться, что существуют встроенные в центральный процессор NPU, но я сейчас только о дискретных
первым был Google со своими TPU, которым скоро исполнился 10 лет и которые некоторым даже доступны в colab; на этом список доступных для использования NPU по ту сторону Тихого океана заканчивается
в Китае существует же, как минимум, два - это Ascend от Huawei, на которых уже работает DeepSeek; а также Sophon, которые тоже пишут о поддержке DeepSeek (кстати, название является отсылкой к нашумевшей н/ф книге "Задача трех тел")
* Meta запрещена на территории РФ
@valuableai
такие чипы принято называть NPU (нейросетевое вычислительное устройство), и их уже сейчас существует несколько; тут надо оговориться, что существуют встроенные в центральный процессор NPU, но я сейчас только о дискретных
первым был Google со своими TPU, которым скоро исполнился 10 лет и которые некоторым даже доступны в colab; на этом список доступных для использования NPU по ту сторону Тихого океана заканчивается
в Китае существует же, как минимум, два - это Ascend от Huawei, на которых уже работает DeepSeek; а также Sophon, которые тоже пишут о поддержке DeepSeek (кстати, название является отсылкой к нашумевшей н/ф книге "Задача трех тел")
* Meta запрещена на территории РФ
@valuableai
👍7
Valuable AI / Валентин Малых
пришла новость, что Meta* тестирует свой чип для искусственного интеллекта и готовится начать его широко использовать в 2026 году; месяц назад была аналогичная новость про OpenAI, они хотят представить свой чип уже в этом году; 4 месяца назад была такая же…
для многих будет открытием, что у нас тоже что-то разрабатывают на эту тему: это LinQ от "Хайтэк" (в прошлом IVA Technologies) и NeuroMatrix от НТЦ Модуль; российские чипы в этом году уже должны пойти в серию и быть доступны на рынке (1, 2); конечно, ожидать чудес от наших процессоров не стоит, Huawei тратит миллиарды на создание стабильного ПО и документации своих решений, и не сказать, что имеет широкое внедрение, но продолжим наблюдать
lin-q.ru
Ускорители для искусственного интеллекта LinQ
Дизайн-центр микроэлектроники
👍9👾2😱1
вышла новая работа от Meta* в соавторстве с самим Яном ЛеКуном; концептуально работа очень простая - авторы заменяют сложную в вычислении нормализацию обычным гиперболическим тангенсом (первая картинка), и это не приводит к ухудшению качества; зато приводит к сокращению времени на вычисление этого слоя вдвое, а всей модели Llama на 8% (вторая картинка)
ждем, когда это добавят в NanoGPT, сейчас люди уже тренируют GPT2 меньше, чем за 3 минуты, можно было бы ожидать экономии еще 10 секунд
но интересно другое, в упомянутой работе авторы показывают сохранение качества для большого набора моделей, включая даже диффузии, но преимущество по скорости - только для Llama
так что остается открытым вопрос прироста скорости для других архитектур (не исключая GPT2)
* Meta запрещена на территории РФ
ждем, когда это добавят в NanoGPT, сейчас люди уже тренируют GPT2 меньше, чем за 3 минуты, можно было бы ожидать экономии еще 10 секунд
но интересно другое, в упомянутой работе авторы показывают сохранение качества для большого набора моделей, включая даже диффузии, но преимущество по скорости - только для Llama
так что остается открытым вопрос прироста скорости для других архитектур (не исключая GPT2)
* Meta запрещена на территории РФ
👍8
вышла интересная работа, которая посвящена анализу того, как модели строят рассуждения; конкретно авторы выделяют 4 составляющих - само-проверка, постановка промежуточных целей, поиск обходных путей и поиск решения, начиная с конца рассуждения (посередине на первой картинке); они отмечают, что люди используют ровно те же приемы, когда решают сложные задачи
эта работа поднимает вопрос того, что модели через тексты заимствуют человеческое поведение; это уже пытаются использовать для создания ботов-двойников мировых лидеров; и здесь к месту вспомнить, что моральные установки моделей ломаются от плохого кода
также примерно год назад вышла работа, которая адаптировала подход из психологии к PPO; конкретно, они адаптировали функцию полезности, которую открыл Канеман, анализируя, как люди делают выбор (вторая картинка); к слову, эта функция, а также много другого полезного про то, как работает механизм принятия решений у людей, описана в книге "Думай медленно, решай быстро" (отрывок)
эта работа поднимает вопрос того, что модели через тексты заимствуют человеческое поведение; это уже пытаются использовать для создания ботов-двойников мировых лидеров; и здесь к месту вспомнить, что моральные установки моделей ломаются от плохого кода
также примерно год назад вышла работа, которая адаптировала подход из психологии к PPO; конкретно, они адаптировали функцию полезности, которую открыл Канеман, анализируя, как люди делают выбор (вторая картинка); к слову, эта функция, а также много другого полезного про то, как работает механизм принятия решений у людей, описана в книге "Думай медленно, решай быстро" (отрывок)
🆒4🔥3
на днях я узнал, что исследовательский центр Huawei в Москве переименовали в честь Николая Николаевича Лузина; к своему стыду, я узнал, кто это такой только после этого, но от чего становится еще стыднее - это от того, что он мой прямой предок по математической генеалогии
кто не знает, что это - пример на картинке к посту, вашим предком считается ваш научник; например, моим научным отцом является Владимир Львович Арлазаров
моя генеалогия уверенно отслеживается до Николая Васильевича Бугаева; кстати, не только моя, но и многих современных российских математиков; Николай Васильевич в этом смысле оказался плодовит
глубже него не отслеживается, т.к. докторскую диссертацию он писал самостоятельно, прослушав несколько курсов лекций в европейских университетах, а магистерскую* - непонятно под чьим, я даже предпринял целое расследование, оцифровал его диссертацию, но в ней нет указания на научного руководителя, такие дела
кто не знает, что это - пример на картинке к посту, вашим предком считается ваш научник; например, моим научным отцом является Владимир Львович Арлазаров
моя генеалогия уверенно отслеживается до Николая Васильевича Бугаева; кстати, не только моя, но и многих современных российских математиков; Николай Васильевич в этом смысле оказался плодовит
глубже него не отслеживается, т.к. докторскую диссертацию он писал самостоятельно, прослушав несколько курсов лекций в европейских университетах, а магистерскую* - непонятно под чьим, я даже предпринял целое расследование, оцифровал его диссертацию, но в ней нет указания на научного руководителя, такие дела
👍11😁6🔥2
я что-то упустил год назад момент, когда NAACL переименовались из North American в Nations of Americas (Chapter of ACL); у них там даже своя конституция есть, на минуточку!
🤯3❤1
мне сказали, что можно приглашать всех на мое выступление для ИТМО по поводу нашей статьи Iterative Self-Training for Code Generation via Reinforced Re-Ranking, которую приняли на ECIR 2025
всем, кому интересно про генерацию кода при помощи обучения с подкреплением - добро пожаловать 26 марта в 18:30 (МСК)
нужна регистрация
всем, кому интересно про генерацию кода при помощи обучения с подкреплением - добро пожаловать 26 марта в 18:30 (МСК)
нужна регистрация
Telegram
Valuable AI
⚡️нашу статью Iterative Self-Training for Code Generation via Reinforced Re-Ranking приняли на ECIR 2025! ссылку на статью дам позже, когда выложат на сайт / выложим на arXiv
🔥18❤6
новая модель от Tencent - Hunyuan-T1; из интересного можно отметить то, что это - первая на моей памяти большая модель, сравнимая по качеству с топовыми (на картинке), на гибридной архитектуре трансформер-мамба; если я правильно понимаю, то Tranfromer-Mamba MoE уже была предложена год назад коллегами из AI21 Labs под названием Jamba; интересно, какие отличия у Т1? придется дождаться техрепорта
из интересных фактов, модель обучена на данных до июля 2024 года, похоже, что у них действительно свой претрейн
из интересных фактов, модель обучена на данных до июля 2024 года, похоже, что у них действительно свой претрейн
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
недавно вышло исследование от Google на тему сходства обработки речи в человеческом мозге и внутри LLM (на видео как раз демонстрация найденного сходства)
в ходе исследования коллеги пришли неожиданному (нет ) выводу:
в ходе исследования коллеги пришли неожиданному (
Unlike the Transformer architecture, which processes hundreds to thousands of words simultaneously, the language areas appear to analyze language serially, word by word, recurrently, and temporally.
🔥6🤯3😁2
сегодня будет 8 лекция моего курса, посвященная LLM; я принципиально делаю курс открытым для всех желающих, так что присоединяйтесь; зарегистрироваться можно здесь
❤17🔥13🥰1
оказалось, что почти 3 года назад коллеги из JetBrains выпустили статью, в которой поставили под сомнение применимость стандартных метрик для оценки качества генерации кода, в частности CodeBLEU
оказалось, что из всех опробованных метрик лучше всего себя ведет (показывает наименьшее расхождение с человеческим суждением) всенародно любимый ChrF (если вы эту аббревиатуру все еще не читаете, как "чешир", то я вас только что заразил), который изначально придуман, как и половина всего в NLP, для машинного перевода; на второй картинке как раз таблица расхождения на датасете Hearthstone
для тех, кто не знает, пример из датасета - на первой картинке; уже по нему можно увидеть основное ограничение - фактически выводы в статье сделаны на очень коротких кусочках кода; я предполагаю, что на более длинных синтаксис будет иметь существенное влияние на оценку
@valuableai
оказалось, что из всех опробованных метрик лучше всего себя ведет (показывает наименьшее расхождение с человеческим суждением) всенародно любимый ChrF (если вы эту аббревиатуру все еще не читаете, как "чешир", то я вас только что заразил), который изначально придуман, как и половина всего в NLP, для машинного перевода; на второй картинке как раз таблица расхождения на датасете Hearthstone
для тех, кто не знает, пример из датасета - на первой картинке; уже по нему можно увидеть основное ограничение - фактически выводы в статье сделаны на очень коротких кусочках кода; я предполагаю, что на более длинных синтаксис будет иметь существенное влияние на оценку
@valuableai
👍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
какой-то гений додумался для сокращения количества токенов заменять в коде на python 4 пробела на 1 таб
как справедливо заметил мой коллега, профит этого предприятия неочевиден, т.к. скорее всего любой токенизатор, обученный на питоновском коде, имеет отдельный токен для 4 пробелов, но тем не менее
@valuableai
как справедливо заметил мой коллега, профит этого предприятия неочевиден, т.к. скорее всего любой токенизатор, обученный на питоновском коде, имеет отдельный токен для 4 пробелов, но тем не менее
@valuableai
😁16💯1
второе видео, которым хотел поделиться - выступление для ИТМО про то, что NLP было до LLM
@valuableai
@valuableai
Дзен | Видео
Краткая история NLP – Валентин Малых | Valuable AI / Валентин Малых | Дзен
Видео автора «Valuable AI / Валентин Малых» в Дзене 🎦: МегаШкола ИТМО 2024
🔥16👍4🥰4🤗3
новая работа про токенизацию - SuperBPE - наводит на меня мысли о том, что история развивается по спирали; своим студентам я на первой лекции рассказываю про словосочетания (Multi-Word Expression), которые можно выделять из текста статистически; а потом использовать, например, для лучшего представления в TF-IDF (придуман в 1970-е)
прошло 50 лет, наши представления о токенизации сильно изменились, особенно в 2015 году, с адаптацией алгоритма сжатия ZIP к токенизации (это, собственно, и есть BPE), и теперь мы вышли на новый круг, чтобы снова учитывать словосочетания в токенизации...
@valuableai
прошло 50 лет, наши представления о токенизации сильно изменились, особенно в 2015 году, с адаптацией алгоритма сжатия ZIP к токенизации (это, собственно, и есть BPE), и теперь мы вышли на новый круг, чтобы снова учитывать словосочетания в токенизации...
@valuableai
👍17😁3❤1
кажется, мы стали забывать, как выглядят по-настоящему большие языковые модели; 1.8 Терабайта на минуточку!
отдельно хочу отметить аббревиатуру SB - это Stupid Backoff, я про такое до сих пор рассказываю на лекциях
я думаю, уже многие догадались, что речь идет про n-граммные языковые модели, но эта статья - вроде бы первое задокументированное употребление выражения Large Language Model, исторический документ
@valuableai
отдельно хочу отметить аббревиатуру SB - это Stupid Backoff, я про такое до сих пор рассказываю на лекциях
я думаю, уже многие догадались, что речь идет про n-граммные языковые модели, но эта статья - вроде бы первое задокументированное употребление выражения Large Language Model, исторический документ
@valuableai
😁12👍3