This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #вкопилкуэрудита
Diffusion Tree Sampling (DTS) вводит новый подход к управлению выводом в диффузионных моделях, переформулируя процесс как оптимизацию с учетом вознаграждения, вдохновленную поиском по дереву Монте-Карло.
DTS обеспечивает асимптотически точные выборки из целевого распределения при бесконечных развертываниях. Его жадная версия, DTS⋆, реализует глобальный поиск выборок с высоким вознаграждением.
В задачах условной генерации на MNIST и CIFAR-10 DTS достигает FID, сравнимого с лучшими базовыми моделями, при 10-кратной экономии вычислений. В задачах преобразования текста в изображение и завершения языка DTS эффективно находит образцы с высоким вознаграждением, сокращая объем вычислений в 5 раз.
Diffusion Tree Sampling (DTS) вводит новый подход к управлению выводом в диффузионных моделях, переформулируя процесс как оптимизацию с учетом вознаграждения, вдохновленную поиском по дереву Монте-Карло.
DTS обеспечивает асимптотически точные выборки из целевого распределения при бесконечных развертываниях. Его жадная версия, DTS⋆, реализует глобальный поиск выборок с высоким вознаграждением.
В задачах условной генерации на MNIST и CIFAR-10 DTS достигает FID, сравнимого с лучшими базовыми моделями, при 10-кратной экономии вычислений. В задачах преобразования текста в изображение и завершения языка DTS эффективно находит образцы с высоким вознаграждением, сокращая объем вычислений в 5 раз.
⚡5👍4
Forwarded from Ivan Oseledets’ Channel
Недавно в канале Data Secrets вышел прикольный пост про «секретный проект DeepMind» о решении проблемы тысячелетия, связанной с уравнением Навье-Стокса. Формулировку, правда, написали не совсем верную (про поиск аналитического решения, которого нет). Упоминался и прекрасный AlphaEvolve.
Простыми словами, до сих пор неизвестно, существует ли решение уравнения Навье-Стокса и являются ли они гладкими.
Небольшое расследование выявило, что скорее всего коллеги пытаются эту гипотезу опровергнуть, предъявив пример, когда в замкнутой системе (например, в цилиндре) из «спокойного» течения разовьется сингулярное течение. А здесь как раз идеально подходят эволюционные алгоритмы, так как нужно просто простроить пример такой функции.
Если посмотреть, кто упомянут, и посмотреть работы, то это становится абсолютно ясным. Одним из активных участников исследования является Теренс Тао, филдсовский лауреат, один из самых крутых математиков не только современности, но и за всю историю. У него есть, например, такая работа (и таких довольно много), где ясно, что они давно думают как раз над контпримером, и эволюционный перебор с помощью LLM им точно должен с этим помочь.
Небольшой спойлер: мы тоже работаем в этом направлении по эволюции программ с помощью LLM, stay tuned!
Простыми словами, до сих пор неизвестно, существует ли решение уравнения Навье-Стокса и являются ли они гладкими.
Небольшое расследование выявило, что скорее всего коллеги пытаются эту гипотезу опровергнуть, предъявив пример, когда в замкнутой системе (например, в цилиндре) из «спокойного» течения разовьется сингулярное течение. А здесь как раз идеально подходят эволюционные алгоритмы, так как нужно просто простроить пример такой функции.
Если посмотреть, кто упомянут, и посмотреть работы, то это становится абсолютно ясным. Одним из активных участников исследования является Теренс Тао, филдсовский лауреат, один из самых крутых математиков не только современности, но и за всю историю. У него есть, например, такая работа (и таких довольно много), где ясно, что они давно думают как раз над контпримером, и эволюционный перебор с помощью LLM им точно должен с этим помочь.
Небольшой спойлер: мы тоже работаем в этом направлении по эволюции программ с помощью LLM, stay tuned!
Telegram
Data Secrets
Google уверены, что с помощью ИИ вот-вот решат одну из главных математических загадок человечества
Оказывается, в DeepMind целая команда из 20 человек уже три года тайно работает над задачей Навье - Стокса. Это одна из семи математических задач, удостоенных…
Оказывается, в DeepMind целая команда из 20 человек уже три года тайно работает над задачей Навье - Стокса. Это одна из семи математических задач, удостоенных…
👍5❤4⚡3
#пытаюсьпонять #unrealneural #вкопилкуэрудита
Изменится ли человеческий мозг в будущем и нейропластичность
Биологически мозг человека почти не отличается от мозга людей 10 000 лет назад, но нейропластичность позволила адаптироваться к новым условиям. Например, постоянное использование смартфонов и интернета привело к изменениям в когнитивных процессах: сократилось среднее время концентрации внимания (с 12 секунд в 2000 году до 8 секунд к 2020-м, согласно исследованиям), а способность к многозадачности усилилась. Также цифровая среда изменила способы запоминания: люди чаще полагаются на внешние источники информации (эффект "цифровой амнезии"). Образование и улучшение питания за последние столетия увеличили средний IQ на 10–20 пунктов (эффект Флинна), хотя этот рост замедлился в некоторых странах. Технологии, такие как нейроинтерфейсы, пока находятся на ранних стадиях, но эксперименты (например, Neuralink) уже показывают потенциал для усиления когнитивных функций.
Давление среды вероятно не сильно будет влиять и менять состояние человеческого мозга.Однако нейроинтерфейсы могут очень сильно повлиять, так как возникает новый уровень взаимодействия с окружающей средой, возможно возникновение нового типа восприятия, что в свою очередь может очень сильно диформировать состояние и адаптацию нервной системы.
Цифровизация и виртуальная реальность уже формируют новые нейронные связи.
Изменится ли человеческий мозг в будущем и нейропластичность
Биологически мозг человека почти не отличается от мозга людей 10 000 лет назад, но нейропластичность позволила адаптироваться к новым условиям. Например, постоянное использование смартфонов и интернета привело к изменениям в когнитивных процессах: сократилось среднее время концентрации внимания (с 12 секунд в 2000 году до 8 секунд к 2020-м, согласно исследованиям), а способность к многозадачности усилилась. Также цифровая среда изменила способы запоминания: люди чаще полагаются на внешние источники информации (эффект "цифровой амнезии"). Образование и улучшение питания за последние столетия увеличили средний IQ на 10–20 пунктов (эффект Флинна), хотя этот рост замедлился в некоторых странах. Технологии, такие как нейроинтерфейсы, пока находятся на ранних стадиях, но эксперименты (например, Neuralink) уже показывают потенциал для усиления когнитивных функций.
Давление среды вероятно не сильно будет влиять и менять состояние человеческого мозга.Однако нейроинтерфейсы могут очень сильно повлиять, так как возникает новый уровень взаимодействия с окружающей средой, возможно возникновение нового типа восприятия, что в свою очередь может очень сильно диформировать состояние и адаптацию нервной системы.
Цифровизация и виртуальная реальность уже формируют новые нейронные связи.
🤔6👍4❤3👨💻1
#unrealneural
LLaVA-Scissor
Tongyi Lab от Alibaba только что выпустила LLaVA-Scissor на Hugging Face. Стратегия сжатия токенов без обучения для видео LLM, использующая семантически связанные компоненты для всестороннего семантического покрытия.
И что это нам дает?
1. Мультимодальные модели, способные обрабатывать текст, изображения и видео, являются важным направлением развития ИИ. LLaVA-Scissor решает одну из ключевых проблем таких моделей — высокую вычислительную стоимость обработки видеоданных.
2. Благодаря снижению вычислительных затрат, подход делает мультимодальные модели более доступными для использования в реальных приложениях.
https://huggingface.co/papers/2506.21862
LLaVA-Scissor
Tongyi Lab от Alibaba только что выпустила LLaVA-Scissor на Hugging Face. Стратегия сжатия токенов без обучения для видео LLM, использующая семантически связанные компоненты для всестороннего семантического покрытия.
И что это нам дает?
1. Мультимодальные модели, способные обрабатывать текст, изображения и видео, являются важным направлением развития ИИ. LLaVA-Scissor решает одну из ключевых проблем таких моделей — высокую вычислительную стоимость обработки видеоданных.
2. Благодаря снижению вычислительных затрат, подход делает мультимодальные модели более доступными для использования в реальных приложениях.
https://huggingface.co/papers/2506.21862
👍2🔥1
Forwarded from ИИ и роботы в стройке
Полезное исследование на стыке LLM и BIM о применении ИИ для полуавтоматической проверки моделей в Revit на соответствие строительным нормам
⚫️ Цель: разработать LLM-ориентированный подход, который преобразует строительные нормы в исполняемые Python-скрипты и интегрируется с Revit для полуавтоматической проверки соответствия в BIM.
Что предложили авторы:
🔵 Вместо ручного написания скриптов для Revit пользователь формулирует запрос на естественном языке.
🔵 LLM переводит этот запрос в Python-код для Dynamo/Revit API, который выполняет проверку.
Сравнили разные LLM (GPT-4, Claude 3, Gemini 1.5, Llama 3).
🔵 Тестировали, какие модели лучше справляются с интерпретацией строительных норм, генерацией работоспособного кода, обработкой геометрии BIM-моделей.
🔵 Лучшие результаты у GPT-4 и Claude 3 (по качеству интерпретации и работоспособности сгенерированных скриптов), хуже — у открытых моделей типа Llama.
Кейсы и экспериментальная проверка
Авторы тестировали свой метод на двух проектах — жилом доме (ИЖС) и офисном здании. Для каждого проекта определили набор типовых строительных правил (например, минимальные размеры помещений, требования к материалам, расположению объектов) и сформировали запросы к LLM для генерации проверочных скриптов.
[Тоже как и многие😁] обнаружили ключевую проблему
🔵 LLM часто ошибаются в логике проверок, если требования в нормах сформулированы нечётко.
🔵 Например, фраза «коридоры должны быть достаточно широкими для эвакуации» требует уточнения — иначе ИИ генерирует некорректный код.
Из относительно нового, но входящего в практику
🔵 Авторы переложили часть работы по автоматизации проверок на ИИ — то есть ИИ пишет скрипты.
🔵 Показали, какие типы проверок работают хорошо (простые параметрические правила), а какие — плохо (сложная геометрия, субъективные требования).
🔵 Ну и еще раз показали, что ИИ не заменит пока инженера, но ускорит рутину.
Подробнее — на arxiv.org в статье Large Language Model-Driven Code Compliance Checking in Building Information Modeling
Что предложили авторы:
Сравнили разные LLM (GPT-4, Claude 3, Gemini 1.5, Llama 3).
Кейсы и экспериментальная проверка
Авторы тестировали свой метод на двух проектах — жилом доме (ИЖС) и офисном здании. Для каждого проекта определили набор типовых строительных правил (например, минимальные размеры помещений, требования к материалам, расположению объектов) и сформировали запросы к LLM для генерации проверочных скриптов.
[Тоже как и многие😁] обнаружили ключевую проблему
Из относительно нового, но входящего в практику
Подробнее — на arxiv.org в статье Large Language Model-Driven Code Compliance Checking in Building Information Modeling
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍5❤3
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Ну все, это вайб-кодинг на максималках: Cursor теперь доступен с телефона и в вебе
Прямо со смартфона можно будет добавлять параллельные таски, редактировать код, создавать PR, управлять задачами и так далее. Все изменения, естественно, сохранятся в вашем проекте и потом можно будет продолжить работать с того же места уже с компьютера.
Наконец-то будет чем заняться в метро🧑💻
www.cursor.com/agents
Прямо со смартфона можно будет добавлять параллельные таски, редактировать код, создавать PR, управлять задачами и так далее. Все изменения, естественно, сохранятся в вашем проекте и потом можно будет продолжить работать с того же места уже с компьютера.
Наконец-то будет чем заняться в метро
www.cursor.com/agents
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4❤3
#unrealneural
AB-MCTS: Когда ИИ работают вместе, они решают сложные задачи лучше
Команда Sakana AI представила новый алгоритм AB-MCTS, который позволяет разным передовым моделям (например, Gemini, DeepSeek, o4-mini) «объединять силы» и находить решения, недоступные для каждой по отдельности.
— Модели предлагают разные варианты ответов, используя свои сильные стороны.
— Алгоритм адаптивно выбирает лучшие идеи, как команда экспертов.
— Результат — более точные и надежные решения
Итог:
- Коллективный интеллект для ИИ: разные модели = разные взгляды = меньше ошибок.
- Гибкость: можно подключать новые модели без переобучения.
- Будущее: ИИ-команды вместо одиночных "умников" 😃
https://sakana.ai/ab-mcts
AB-MCTS: Когда ИИ работают вместе, они решают сложные задачи лучше
Команда Sakana AI представила новый алгоритм AB-MCTS, который позволяет разным передовым моделям (например, Gemini, DeepSeek, o4-mini) «объединять силы» и находить решения, недоступные для каждой по отдельности.
— Модели предлагают разные варианты ответов, используя свои сильные стороны.
— Алгоритм адаптивно выбирает лучшие идеи, как команда экспертов.
— Результат — более точные и надежные решения
Итог:
- Коллективный интеллект для ИИ: разные модели = разные взгляды = меньше ошибок.
- Гибкость: можно подключать новые модели без переобучения.
- Будущее: ИИ-команды вместо одиночных "умников" 😃
https://sakana.ai/ab-mcts
❤3👍3⚡2
Forwarded from Data Secrets
Microsoft показали систему медицинского ИИ, которая ставит диагнозы в 4 раза лучше врачей. Разбираемся с нюансами.
Их механизм MAI-DxO имитирует работу команды из 5 врачей: доктор Гипотеза, доктор Отборщик, доктор Челленджер (играет роль критика), доктор Стюард (управляет расходами) и доктор Чеклист (итоговый контроль). Они «обсуждают» между собой, как стоит себя вести и вместе принимают решения.
На вход системе приходит минимальная информация (типа «Мужчина, 25, боли в груди»), как будто человек только что реально пришел в неотложку. Но, в то же время, есть база знаний, которая содержит дополнительную информацию.
Базой управляет отдельный агент. Доктора могут запросить анализы, задавать доп.вопросы про пациента или поставить диагноз. Если доктора принимают решения запросить какую-то инфу у агента хранителя – он ее выдаст, но то, чего они не спрашивали, никогда просто так не расскажет. А еще каждый тест стоит денег (по расценкам больниц США) – поэтому нам и нужен доктор Стюард.
Проверяли систему на наборе реальных кейсов из клинической практики. Живые врачи на этом бенчмарке выбили примерно 20%, а MAI-DxO – аж 85%. При этом живые врачи тратят на анализы даже больше: у них средняя «стоимость» постановки диагноза – 2963$, а у ИИ – 2397.
Впечатляет. Но есть и некоторые НО. Во-первых, в датасете не было ни одного здорового пациента, а врачи сталкиваются с такими постоянно. Плюс, тестировались в основном редкие заболевания. Встает вопрос об ошибке выжившего.
Во-вторых, кроме денег, никак не учитывается время ожидания анализов, осложнения от ненужных тестов и прочее.
В-третьих, врачам, решавшим бенчмарк, было запрещено гуглить, использовать базы медицинских данных и консультироваться с коллегами. На самом деле доктора так не работают.
В общем, это все круто, конечно, но не забываем, что пока что ИИ может выступать только помощником для реальных специалистов. Продолжаем обращаться к врачам 🚑
microsoft.ai/new/the-path-to-medical-superintelligence/
Их механизм MAI-DxO имитирует работу команды из 5 врачей: доктор Гипотеза, доктор Отборщик, доктор Челленджер (играет роль критика), доктор Стюард (управляет расходами) и доктор Чеклист (итоговый контроль). Они «обсуждают» между собой, как стоит себя вести и вместе принимают решения.
На вход системе приходит минимальная информация (типа «Мужчина, 25, боли в груди»), как будто человек только что реально пришел в неотложку. Но, в то же время, есть база знаний, которая содержит дополнительную информацию.
Базой управляет отдельный агент. Доктора могут запросить анализы, задавать доп.вопросы про пациента или поставить диагноз. Если доктора принимают решения запросить какую-то инфу у агента хранителя – он ее выдаст, но то, чего они не спрашивали, никогда просто так не расскажет. А еще каждый тест стоит денег (по расценкам больниц США) – поэтому нам и нужен доктор Стюард.
Проверяли систему на наборе реальных кейсов из клинической практики. Живые врачи на этом бенчмарке выбили примерно 20%, а MAI-DxO – аж 85%. При этом живые врачи тратят на анализы даже больше: у них средняя «стоимость» постановки диагноза – 2963$, а у ИИ – 2397.
Впечатляет. Но есть и некоторые НО. Во-первых, в датасете не было ни одного здорового пациента, а врачи сталкиваются с такими постоянно. Плюс, тестировались в основном редкие заболевания. Встает вопрос об ошибке выжившего.
Во-вторых, кроме денег, никак не учитывается время ожидания анализов, осложнения от ненужных тестов и прочее.
В-третьих, врачам, решавшим бенчмарк, было запрещено гуглить, использовать базы медицинских данных и консультироваться с коллегами. На самом деле доктора так не работают.
В общем, это все круто, конечно, но не забываем, что пока что ИИ может выступать только помощником для реальных специалистов. Продолжаем обращаться к врачам 🚑
microsoft.ai/new/the-path-to-medical-superintelligence/
👍4⚡3
Media is too big
VIEW IN TELEGRAM
#ЛабораторияИИ #AILAB #Эксперименты
Навайбкодил башню
Пошел немного по другому пути и попробовал генерировать генератор башни, вот результат
Навайбкодил башню
Пошел немного по другому пути и попробовал генерировать генератор башни, вот результат
🔥7❤3👏2
Forwarded from Data Secrets
Большая новость: Microsoft опенсорснули расширение Copilot Chat для VSCode
Это полноценная реализация чат-ассистента для кодинга, включая имплементацию агентских способностей, управление контекстом и телеметрией и системные промпты.
Делают это Microsoft, чтобы их утилита была непосредственно интегрирована в сам VSCode. Для сравнения, популярный Cursor является всего лишь форком VSCode, а не полноценной интеграцией.
Важно: пока это просто чат-расширение. Copilot для inline помощи пока остается закрытым, но его обещают открыть до конца лета.
Весь код и документация тут. Лицензия MIT
Это полноценная реализация чат-ассистента для кодинга, включая имплементацию агентских способностей, управление контекстом и телеметрией и системные промпты.
Делают это Microsoft, чтобы их утилита была непосредственно интегрирована в сам VSCode. Для сравнения, популярный Cursor является всего лишь форком VSCode, а не полноценной интеграцией.
Важно: пока это просто чат-расширение. Copilot для inline помощи пока остается закрытым, но его обещают открыть до конца лета.
Весь код и документация тут. Лицензия MIT
🔥4👍3
Forwarded from gonzo-обзоры ML статей
Не про архитектуры и статьи, но тоже важно для контекста.
Пока мы тут сидим, Цукерберг вовсю собирает свою Superintelligence Labs, переманивая людей из ведущих компаний. Даже интересно, какая в итоге будет новая Лама.
https://www.theinformation.com/articles/zuckerbergs-new-ai-team-good
Пока мы тут сидим, Цукерберг вовсю собирает свою Superintelligence Labs, переманивая людей из ведущих компаний. Даже интересно, какая в итоге будет новая Лама.
https://www.theinformation.com/articles/zuckerbergs-new-ai-team-good
🤔6🤯1
Forwarded from Machinelearning
FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.
Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.
В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .
FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:
ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .
Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.
Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.
Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.
Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.
FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.
@ai_machinelearning_big_data
#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4⚡3
#unrealneural
VideoCAD: набор данных записей экрана моделей OnShape, создаваемых в пользовательском интерфейсе для обучения «агентов браузера» для САПР.
Похоже, в следующем году будет битва между «просто использовать существующие пользовательские интерфейсы для людей» и «создать собственные LLM-коннекторы».
https://arxiv.org/abs/2505.24838
VideoCAD: набор данных записей экрана моделей OnShape, создаваемых в пользовательском интерфейсе для обучения «агентов браузера» для САПР.
Похоже, в следующем году будет битва между «просто использовать существующие пользовательские интерфейсы для людей» и «создать собственные LLM-коннекторы».
https://arxiv.org/abs/2505.24838
👍4⚡3
Forwarded from Платформа R2. Новости
Не пропустите наш вебинар «Цифровой помощник для архитектора: как R2.ОПР трансформирует работу на этапе объемно-планировочных решений»
3 июля 2025 г.
13:00 (МСК)
Трансляция в Telegram-канале Платформа R2. Новости (ссылка)
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡6👍2