#unrealneural
Это исследование рассматривает трудоемкую и подверженную ошибкам природу ручной проверки соответствия кода в информационном моделировании зданий (BIM) путем внедрения подхода, основанного на большой языковой модели (LLM), для полуавтоматизации этого критического процесса. Разработанная система интегрирует LLM, такие как GPT, Claude, Gemini и Llama, с программным обеспечением Revit для интерпретации строительных норм, генерации скриптов Python и выполнения полуавтоматических проверок соответствия в среде BIM.
https://arxiv.org/abs/2506.20551
Это исследование рассматривает трудоемкую и подверженную ошибкам природу ручной проверки соответствия кода в информационном моделировании зданий (BIM) путем внедрения подхода, основанного на большой языковой модели (LLM), для полуавтоматизации этого критического процесса. Разработанная система интегрирует LLM, такие как GPT, Claude, Gemini и Llama, с программным обеспечением Revit для интерпретации строительных норм, генерации скриптов Python и выполнения полуавтоматических проверок соответствия в среде BIM.
https://arxiv.org/abs/2506.20551
🔥7👍5❤🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #пытаюсьпонять
Continuous Thought Machines (CTM) и «Foveated Active Vision» (фовеальная зрительная система)
1. CTM определяет, куда смотреть, и насколько "приближен" его эффективный объектив. Внутренняя и постоянная обратная связь позволяет достичь fascinating (захватывающего) поведения.
2. Эмерджентность и простота: Все это достигается без дополнительных вспомогательных потерь и без использования обучения с подкреплением (RL). Основной целью является просто контролируемая кросс-энтропийная потеря.
3. Фовеальное зрение широко распространено в природе. CTM получает небольшую «фовею» (фокус) и сжатый, низкоразрешенный вид «периферии». Это позволяет ему динамически выбирать между изучением деталей и пониманием контекста.
4. Преимущества для CNN: Сверточные нейронные сети (CNN) обычно представляют собой крупные модели, которым приходится обрабатывать множество разрешений, где объекты могут казаться близкими или далекими. Предоставление CTM возможности эффективно «выбирать собственное разрешение» может позволить использовать гораздо меньшие и более эффективные базовые сети.
Видео автор описывает так:
1. Исходное изображение находится в верхнем левом углу. На нем наложена полярная сетка, обозначающая фовеальную выборку.
2. В центре показано то, что видит CTM (то есть, данные, которые поступают в базовую сеть).
3. Справа представлена фовеальная перспектива, перепроецированная в евклидово пространство.
4. Средний ряд показывает фовеальную информацию, «ворота», прогнозы, а также внимание (как в модельном пространстве, так и перепроецированное в евклидово пространство).
5. Нижний ряд демонстрирует нейронную динамику случайно выбранных нейронов.
http://pub.sakana.ai/ctm
Continuous Thought Machines (CTM) и «Foveated Active Vision» (фовеальная зрительная система)
1. CTM определяет, куда смотреть, и насколько "приближен" его эффективный объектив. Внутренняя и постоянная обратная связь позволяет достичь fascinating (захватывающего) поведения.
2. Эмерджентность и простота: Все это достигается без дополнительных вспомогательных потерь и без использования обучения с подкреплением (RL). Основной целью является просто контролируемая кросс-энтропийная потеря.
3. Фовеальное зрение широко распространено в природе. CTM получает небольшую «фовею» (фокус) и сжатый, низкоразрешенный вид «периферии». Это позволяет ему динамически выбирать между изучением деталей и пониманием контекста.
4. Преимущества для CNN: Сверточные нейронные сети (CNN) обычно представляют собой крупные модели, которым приходится обрабатывать множество разрешений, где объекты могут казаться близкими или далекими. Предоставление CTM возможности эффективно «выбирать собственное разрешение» может позволить использовать гораздо меньшие и более эффективные базовые сети.
Видео автор описывает так:
1. Исходное изображение находится в верхнем левом углу. На нем наложена полярная сетка, обозначающая фовеальную выборку.
2. В центре показано то, что видит CTM (то есть, данные, которые поступают в базовую сеть).
3. Справа представлена фовеальная перспектива, перепроецированная в евклидово пространство.
4. Средний ряд показывает фовеальную информацию, «ворота», прогнозы, а также внимание (как в модельном пространстве, так и перепроецированное в евклидово пространство).
5. Нижний ряд демонстрирует нейронную динамику случайно выбранных нейронов.
http://pub.sakana.ai/ctm
👍3🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #вкопилкуэрудита
Continuous Thought Machines
Видео-пояснение работы Continuous Thought Machines. Искусственный интеллект, архитектура которого вдохновлена биологическим мозгом
https://www.youtube.com/watch?v=dYHkj5UlJ_E&feature=youtu.be
Continuous Thought Machines
Видео-пояснение работы Continuous Thought Machines. Искусственный интеллект, архитектура которого вдохновлена биологическим мозгом
https://www.youtube.com/watch?v=dYHkj5UlJ_E&feature=youtu.be
👍5🔥4
Forwarded from Data Secrets
Google уверены, что с помощью ИИ вот-вот решат одну из главных математических загадок человечества
Оказывается, в DeepMind целая команда из 20 человек уже три года тайно работает над задачей Навье - Стокса. Это одна из семи математических задач, удостоенных звания проблемы тысячелетия. За ее решение положена премия в 1 миллион долларов (ну и вечная слава).
До сих пор инженеры работали полностью конфиденциально. Впервые публично об «операции» заговорил сегодня испанский математик Гомес Серрано, с которым Google собираются объединиться для того, чтобы дорешать задачу.
Корни задачи уходят корнями еще в 19 век. Тогда два математика – Анри Навье и Джордж Стокс – независимо друг от друга опубликовали дифференциальные уравнения, описывающие движение жидкостей и воды. И вот, спустя два века, до сих пор не существует общего аналитического решения этой системы.
Если бы оно нашлось, люди смогли бы предсказывать турбулентность и цунами, точнее прогнозировать погоду, лучше понимать кровообращение и даже улучшить современные двигатели. Решение станет настоящим прорывом в физике и математике.
Сейчас в мире за решение конкурируют три группы математиков. В составе одной из них как раз и был Гомес Серрано. Его группа отличалась тем, что они еще несколько лет назад пытались применять ИИ для решения задачи.
Теперь же Гомес объединяется с той самой секретной командой из DeepMind. Они надеятся, что вместе и с помощью ИИ (видимо, имеется в виду AlphaEvolve) они продвинутся в решении уже до конца этого года.
Оказывается, в DeepMind целая команда из 20 человек уже три года тайно работает над задачей Навье - Стокса. Это одна из семи математических задач, удостоенных звания проблемы тысячелетия. За ее решение положена премия в 1 миллион долларов (ну и вечная слава).
До сих пор инженеры работали полностью конфиденциально. Впервые публично об «операции» заговорил сегодня испанский математик Гомес Серрано, с которым Google собираются объединиться для того, чтобы дорешать задачу.
Корни задачи уходят корнями еще в 19 век. Тогда два математика – Анри Навье и Джордж Стокс – независимо друг от друга опубликовали дифференциальные уравнения, описывающие движение жидкостей и воды. И вот, спустя два века, до сих пор не существует общего аналитического решения этой системы.
Если бы оно нашлось, люди смогли бы предсказывать турбулентность и цунами, точнее прогнозировать погоду, лучше понимать кровообращение и даже улучшить современные двигатели. Решение станет настоящим прорывом в физике и математике.
Сейчас в мире за решение конкурируют три группы математиков. В составе одной из них как раз и был Гомес Серрано. Его группа отличалась тем, что они еще несколько лет назад пытались применять ИИ для решения задачи.
Теперь же Гомес объединяется с той самой секретной командой из DeepMind. Они надеятся, что вместе и с помощью ИИ (видимо, имеется в виду AlphaEvolve) они продвинутся в решении уже до конца этого года.
🔥9👍3
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
QWEN-VLO - генерация картинок, видео, и редактирование всего, что шевелится.
Обновился Qwen3.
Чат у него весь из себя мультимодальный, принимает на вход документы, картинки, видео и даже звук.
А генерит вообще все, что шевелится. Включая видео, анализ изображений и даже брейншторм.
Го тестировать, пока быстро отвечает. Генерация видео довольно шустрая.
https://chat.qwen.ai/
Вот что пишут разрабы:
Сегодня мы рады представить новую модель - Qwen VLo, единую мультимодальную модель понимания и генерации. Эта обновленная модель не только "понимает" мир, но и генерирует высококачественные "воссоздания" на основе этого понимания, действительно преодолевая разрыв между восприятием и творчеством. Обратите внимание, что это предварительная версия, и вы можете получить доступ к ней через Qwen Chat. Вы можете напрямую отправить запрос типа "Создать изображение милой кошки", чтобы сгенерировать изображение, или загрузить изображение кошки и попросить "Добавить шапочку на голову кошки", чтобы изменить изображение.
Подробнее тут:
https://qwenlm.github.io/blog/qwen-vlo/ - поглядите примеры, они довольно убойные
@cgevent
Обновился Qwen3.
Чат у него весь из себя мультимодальный, принимает на вход документы, картинки, видео и даже звук.
А генерит вообще все, что шевелится. Включая видео, анализ изображений и даже брейншторм.
Го тестировать, пока быстро отвечает. Генерация видео довольно шустрая.
https://chat.qwen.ai/
Вот что пишут разрабы:
Сегодня мы рады представить новую модель - Qwen VLo, единую мультимодальную модель понимания и генерации. Эта обновленная модель не только "понимает" мир, но и генерирует высококачественные "воссоздания" на основе этого понимания, действительно преодолевая разрыв между восприятием и творчеством. Обратите внимание, что это предварительная версия, и вы можете получить доступ к ней через Qwen Chat. Вы можете напрямую отправить запрос типа "Создать изображение милой кошки", чтобы сгенерировать изображение, или загрузить изображение кошки и попросить "Добавить шапочку на голову кошки", чтобы изменить изображение.
Подробнее тут:
https://qwenlm.github.io/blog/qwen-vlo/ - поглядите примеры, они довольно убойные
@cgevent
🔥4⚡3
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #вкопилкуэрудита
Diffusion Tree Sampling (DTS) вводит новый подход к управлению выводом в диффузионных моделях, переформулируя процесс как оптимизацию с учетом вознаграждения, вдохновленную поиском по дереву Монте-Карло.
DTS обеспечивает асимптотически точные выборки из целевого распределения при бесконечных развертываниях. Его жадная версия, DTS⋆, реализует глобальный поиск выборок с высоким вознаграждением.
В задачах условной генерации на MNIST и CIFAR-10 DTS достигает FID, сравнимого с лучшими базовыми моделями, при 10-кратной экономии вычислений. В задачах преобразования текста в изображение и завершения языка DTS эффективно находит образцы с высоким вознаграждением, сокращая объем вычислений в 5 раз.
Diffusion Tree Sampling (DTS) вводит новый подход к управлению выводом в диффузионных моделях, переформулируя процесс как оптимизацию с учетом вознаграждения, вдохновленную поиском по дереву Монте-Карло.
DTS обеспечивает асимптотически точные выборки из целевого распределения при бесконечных развертываниях. Его жадная версия, DTS⋆, реализует глобальный поиск выборок с высоким вознаграждением.
В задачах условной генерации на MNIST и CIFAR-10 DTS достигает FID, сравнимого с лучшими базовыми моделями, при 10-кратной экономии вычислений. В задачах преобразования текста в изображение и завершения языка DTS эффективно находит образцы с высоким вознаграждением, сокращая объем вычислений в 5 раз.
⚡5👍4
Forwarded from Ivan Oseledets’ Channel
Недавно в канале Data Secrets вышел прикольный пост про «секретный проект DeepMind» о решении проблемы тысячелетия, связанной с уравнением Навье-Стокса. Формулировку, правда, написали не совсем верную (про поиск аналитического решения, которого нет). Упоминался и прекрасный AlphaEvolve.
Простыми словами, до сих пор неизвестно, существует ли решение уравнения Навье-Стокса и являются ли они гладкими.
Небольшое расследование выявило, что скорее всего коллеги пытаются эту гипотезу опровергнуть, предъявив пример, когда в замкнутой системе (например, в цилиндре) из «спокойного» течения разовьется сингулярное течение. А здесь как раз идеально подходят эволюционные алгоритмы, так как нужно просто простроить пример такой функции.
Если посмотреть, кто упомянут, и посмотреть работы, то это становится абсолютно ясным. Одним из активных участников исследования является Теренс Тао, филдсовский лауреат, один из самых крутых математиков не только современности, но и за всю историю. У него есть, например, такая работа (и таких довольно много), где ясно, что они давно думают как раз над контпримером, и эволюционный перебор с помощью LLM им точно должен с этим помочь.
Небольшой спойлер: мы тоже работаем в этом направлении по эволюции программ с помощью LLM, stay tuned!
Простыми словами, до сих пор неизвестно, существует ли решение уравнения Навье-Стокса и являются ли они гладкими.
Небольшое расследование выявило, что скорее всего коллеги пытаются эту гипотезу опровергнуть, предъявив пример, когда в замкнутой системе (например, в цилиндре) из «спокойного» течения разовьется сингулярное течение. А здесь как раз идеально подходят эволюционные алгоритмы, так как нужно просто простроить пример такой функции.
Если посмотреть, кто упомянут, и посмотреть работы, то это становится абсолютно ясным. Одним из активных участников исследования является Теренс Тао, филдсовский лауреат, один из самых крутых математиков не только современности, но и за всю историю. У него есть, например, такая работа (и таких довольно много), где ясно, что они давно думают как раз над контпримером, и эволюционный перебор с помощью LLM им точно должен с этим помочь.
Небольшой спойлер: мы тоже работаем в этом направлении по эволюции программ с помощью LLM, stay tuned!
Telegram
Data Secrets
Google уверены, что с помощью ИИ вот-вот решат одну из главных математических загадок человечества
Оказывается, в DeepMind целая команда из 20 человек уже три года тайно работает над задачей Навье - Стокса. Это одна из семи математических задач, удостоенных…
Оказывается, в DeepMind целая команда из 20 человек уже три года тайно работает над задачей Навье - Стокса. Это одна из семи математических задач, удостоенных…
👍5❤4⚡3
#пытаюсьпонять #unrealneural #вкопилкуэрудита
Изменится ли человеческий мозг в будущем и нейропластичность
Биологически мозг человека почти не отличается от мозга людей 10 000 лет назад, но нейропластичность позволила адаптироваться к новым условиям. Например, постоянное использование смартфонов и интернета привело к изменениям в когнитивных процессах: сократилось среднее время концентрации внимания (с 12 секунд в 2000 году до 8 секунд к 2020-м, согласно исследованиям), а способность к многозадачности усилилась. Также цифровая среда изменила способы запоминания: люди чаще полагаются на внешние источники информации (эффект "цифровой амнезии"). Образование и улучшение питания за последние столетия увеличили средний IQ на 10–20 пунктов (эффект Флинна), хотя этот рост замедлился в некоторых странах. Технологии, такие как нейроинтерфейсы, пока находятся на ранних стадиях, но эксперименты (например, Neuralink) уже показывают потенциал для усиления когнитивных функций.
Давление среды вероятно не сильно будет влиять и менять состояние человеческого мозга.Однако нейроинтерфейсы могут очень сильно повлиять, так как возникает новый уровень взаимодействия с окружающей средой, возможно возникновение нового типа восприятия, что в свою очередь может очень сильно диформировать состояние и адаптацию нервной системы.
Цифровизация и виртуальная реальность уже формируют новые нейронные связи.
Изменится ли человеческий мозг в будущем и нейропластичность
Биологически мозг человека почти не отличается от мозга людей 10 000 лет назад, но нейропластичность позволила адаптироваться к новым условиям. Например, постоянное использование смартфонов и интернета привело к изменениям в когнитивных процессах: сократилось среднее время концентрации внимания (с 12 секунд в 2000 году до 8 секунд к 2020-м, согласно исследованиям), а способность к многозадачности усилилась. Также цифровая среда изменила способы запоминания: люди чаще полагаются на внешние источники информации (эффект "цифровой амнезии"). Образование и улучшение питания за последние столетия увеличили средний IQ на 10–20 пунктов (эффект Флинна), хотя этот рост замедлился в некоторых странах. Технологии, такие как нейроинтерфейсы, пока находятся на ранних стадиях, но эксперименты (например, Neuralink) уже показывают потенциал для усиления когнитивных функций.
Давление среды вероятно не сильно будет влиять и менять состояние человеческого мозга.Однако нейроинтерфейсы могут очень сильно повлиять, так как возникает новый уровень взаимодействия с окружающей средой, возможно возникновение нового типа восприятия, что в свою очередь может очень сильно диформировать состояние и адаптацию нервной системы.
Цифровизация и виртуальная реальность уже формируют новые нейронные связи.
🤔6👍4❤3👨💻1
#unrealneural
LLaVA-Scissor
Tongyi Lab от Alibaba только что выпустила LLaVA-Scissor на Hugging Face. Стратегия сжатия токенов без обучения для видео LLM, использующая семантически связанные компоненты для всестороннего семантического покрытия.
И что это нам дает?
1. Мультимодальные модели, способные обрабатывать текст, изображения и видео, являются важным направлением развития ИИ. LLaVA-Scissor решает одну из ключевых проблем таких моделей — высокую вычислительную стоимость обработки видеоданных.
2. Благодаря снижению вычислительных затрат, подход делает мультимодальные модели более доступными для использования в реальных приложениях.
https://huggingface.co/papers/2506.21862
LLaVA-Scissor
Tongyi Lab от Alibaba только что выпустила LLaVA-Scissor на Hugging Face. Стратегия сжатия токенов без обучения для видео LLM, использующая семантически связанные компоненты для всестороннего семантического покрытия.
И что это нам дает?
1. Мультимодальные модели, способные обрабатывать текст, изображения и видео, являются важным направлением развития ИИ. LLaVA-Scissor решает одну из ключевых проблем таких моделей — высокую вычислительную стоимость обработки видеоданных.
2. Благодаря снижению вычислительных затрат, подход делает мультимодальные модели более доступными для использования в реальных приложениях.
https://huggingface.co/papers/2506.21862
👍2🔥1
Forwarded from ИИ и роботы в стройке
Полезное исследование на стыке LLM и BIM о применении ИИ для полуавтоматической проверки моделей в Revit на соответствие строительным нормам
⚫️ Цель: разработать LLM-ориентированный подход, который преобразует строительные нормы в исполняемые Python-скрипты и интегрируется с Revit для полуавтоматической проверки соответствия в BIM.
Что предложили авторы:
🔵 Вместо ручного написания скриптов для Revit пользователь формулирует запрос на естественном языке.
🔵 LLM переводит этот запрос в Python-код для Dynamo/Revit API, который выполняет проверку.
Сравнили разные LLM (GPT-4, Claude 3, Gemini 1.5, Llama 3).
🔵 Тестировали, какие модели лучше справляются с интерпретацией строительных норм, генерацией работоспособного кода, обработкой геометрии BIM-моделей.
🔵 Лучшие результаты у GPT-4 и Claude 3 (по качеству интерпретации и работоспособности сгенерированных скриптов), хуже — у открытых моделей типа Llama.
Кейсы и экспериментальная проверка
Авторы тестировали свой метод на двух проектах — жилом доме (ИЖС) и офисном здании. Для каждого проекта определили набор типовых строительных правил (например, минимальные размеры помещений, требования к материалам, расположению объектов) и сформировали запросы к LLM для генерации проверочных скриптов.
[Тоже как и многие😁] обнаружили ключевую проблему
🔵 LLM часто ошибаются в логике проверок, если требования в нормах сформулированы нечётко.
🔵 Например, фраза «коридоры должны быть достаточно широкими для эвакуации» требует уточнения — иначе ИИ генерирует некорректный код.
Из относительно нового, но входящего в практику
🔵 Авторы переложили часть работы по автоматизации проверок на ИИ — то есть ИИ пишет скрипты.
🔵 Показали, какие типы проверок работают хорошо (простые параметрические правила), а какие — плохо (сложная геометрия, субъективные требования).
🔵 Ну и еще раз показали, что ИИ не заменит пока инженера, но ускорит рутину.
Подробнее — на arxiv.org в статье Large Language Model-Driven Code Compliance Checking in Building Information Modeling
Что предложили авторы:
Сравнили разные LLM (GPT-4, Claude 3, Gemini 1.5, Llama 3).
Кейсы и экспериментальная проверка
Авторы тестировали свой метод на двух проектах — жилом доме (ИЖС) и офисном здании. Для каждого проекта определили набор типовых строительных правил (например, минимальные размеры помещений, требования к материалам, расположению объектов) и сформировали запросы к LLM для генерации проверочных скриптов.
[Тоже как и многие😁] обнаружили ключевую проблему
Из относительно нового, но входящего в практику
Подробнее — на arxiv.org в статье Large Language Model-Driven Code Compliance Checking in Building Information Modeling
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍5❤3
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Ну все, это вайб-кодинг на максималках: Cursor теперь доступен с телефона и в вебе
Прямо со смартфона можно будет добавлять параллельные таски, редактировать код, создавать PR, управлять задачами и так далее. Все изменения, естественно, сохранятся в вашем проекте и потом можно будет продолжить работать с того же места уже с компьютера.
Наконец-то будет чем заняться в метро🧑💻
www.cursor.com/agents
Прямо со смартфона можно будет добавлять параллельные таски, редактировать код, создавать PR, управлять задачами и так далее. Все изменения, естественно, сохранятся в вашем проекте и потом можно будет продолжить работать с того же места уже с компьютера.
Наконец-то будет чем заняться в метро
www.cursor.com/agents
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4❤3
#unrealneural
AB-MCTS: Когда ИИ работают вместе, они решают сложные задачи лучше
Команда Sakana AI представила новый алгоритм AB-MCTS, который позволяет разным передовым моделям (например, Gemini, DeepSeek, o4-mini) «объединять силы» и находить решения, недоступные для каждой по отдельности.
— Модели предлагают разные варианты ответов, используя свои сильные стороны.
— Алгоритм адаптивно выбирает лучшие идеи, как команда экспертов.
— Результат — более точные и надежные решения
Итог:
- Коллективный интеллект для ИИ: разные модели = разные взгляды = меньше ошибок.
- Гибкость: можно подключать новые модели без переобучения.
- Будущее: ИИ-команды вместо одиночных "умников" 😃
https://sakana.ai/ab-mcts
AB-MCTS: Когда ИИ работают вместе, они решают сложные задачи лучше
Команда Sakana AI представила новый алгоритм AB-MCTS, который позволяет разным передовым моделям (например, Gemini, DeepSeek, o4-mini) «объединять силы» и находить решения, недоступные для каждой по отдельности.
— Модели предлагают разные варианты ответов, используя свои сильные стороны.
— Алгоритм адаптивно выбирает лучшие идеи, как команда экспертов.
— Результат — более точные и надежные решения
Итог:
- Коллективный интеллект для ИИ: разные модели = разные взгляды = меньше ошибок.
- Гибкость: можно подключать новые модели без переобучения.
- Будущее: ИИ-команды вместо одиночных "умников" 😃
https://sakana.ai/ab-mcts
❤3👍3⚡2
Forwarded from Data Secrets
Microsoft показали систему медицинского ИИ, которая ставит диагнозы в 4 раза лучше врачей. Разбираемся с нюансами.
Их механизм MAI-DxO имитирует работу команды из 5 врачей: доктор Гипотеза, доктор Отборщик, доктор Челленджер (играет роль критика), доктор Стюард (управляет расходами) и доктор Чеклист (итоговый контроль). Они «обсуждают» между собой, как стоит себя вести и вместе принимают решения.
На вход системе приходит минимальная информация (типа «Мужчина, 25, боли в груди»), как будто человек только что реально пришел в неотложку. Но, в то же время, есть база знаний, которая содержит дополнительную информацию.
Базой управляет отдельный агент. Доктора могут запросить анализы, задавать доп.вопросы про пациента или поставить диагноз. Если доктора принимают решения запросить какую-то инфу у агента хранителя – он ее выдаст, но то, чего они не спрашивали, никогда просто так не расскажет. А еще каждый тест стоит денег (по расценкам больниц США) – поэтому нам и нужен доктор Стюард.
Проверяли систему на наборе реальных кейсов из клинической практики. Живые врачи на этом бенчмарке выбили примерно 20%, а MAI-DxO – аж 85%. При этом живые врачи тратят на анализы даже больше: у них средняя «стоимость» постановки диагноза – 2963$, а у ИИ – 2397.
Впечатляет. Но есть и некоторые НО. Во-первых, в датасете не было ни одного здорового пациента, а врачи сталкиваются с такими постоянно. Плюс, тестировались в основном редкие заболевания. Встает вопрос об ошибке выжившего.
Во-вторых, кроме денег, никак не учитывается время ожидания анализов, осложнения от ненужных тестов и прочее.
В-третьих, врачам, решавшим бенчмарк, было запрещено гуглить, использовать базы медицинских данных и консультироваться с коллегами. На самом деле доктора так не работают.
В общем, это все круто, конечно, но не забываем, что пока что ИИ может выступать только помощником для реальных специалистов. Продолжаем обращаться к врачам 🚑
microsoft.ai/new/the-path-to-medical-superintelligence/
Их механизм MAI-DxO имитирует работу команды из 5 врачей: доктор Гипотеза, доктор Отборщик, доктор Челленджер (играет роль критика), доктор Стюард (управляет расходами) и доктор Чеклист (итоговый контроль). Они «обсуждают» между собой, как стоит себя вести и вместе принимают решения.
На вход системе приходит минимальная информация (типа «Мужчина, 25, боли в груди»), как будто человек только что реально пришел в неотложку. Но, в то же время, есть база знаний, которая содержит дополнительную информацию.
Базой управляет отдельный агент. Доктора могут запросить анализы, задавать доп.вопросы про пациента или поставить диагноз. Если доктора принимают решения запросить какую-то инфу у агента хранителя – он ее выдаст, но то, чего они не спрашивали, никогда просто так не расскажет. А еще каждый тест стоит денег (по расценкам больниц США) – поэтому нам и нужен доктор Стюард.
Проверяли систему на наборе реальных кейсов из клинической практики. Живые врачи на этом бенчмарке выбили примерно 20%, а MAI-DxO – аж 85%. При этом живые врачи тратят на анализы даже больше: у них средняя «стоимость» постановки диагноза – 2963$, а у ИИ – 2397.
Впечатляет. Но есть и некоторые НО. Во-первых, в датасете не было ни одного здорового пациента, а врачи сталкиваются с такими постоянно. Плюс, тестировались в основном редкие заболевания. Встает вопрос об ошибке выжившего.
Во-вторых, кроме денег, никак не учитывается время ожидания анализов, осложнения от ненужных тестов и прочее.
В-третьих, врачам, решавшим бенчмарк, было запрещено гуглить, использовать базы медицинских данных и консультироваться с коллегами. На самом деле доктора так не работают.
В общем, это все круто, конечно, но не забываем, что пока что ИИ может выступать только помощником для реальных специалистов. Продолжаем обращаться к врачам 🚑
microsoft.ai/new/the-path-to-medical-superintelligence/
👍4⚡3
Media is too big
VIEW IN TELEGRAM
#ЛабораторияИИ #AILAB #Эксперименты
Навайбкодил башню
Пошел немного по другому пути и попробовал генерировать генератор башни, вот результат
Навайбкодил башню
Пошел немного по другому пути и попробовал генерировать генератор башни, вот результат
🔥7❤3👏2
Forwarded from Data Secrets
Большая новость: Microsoft опенсорснули расширение Copilot Chat для VSCode
Это полноценная реализация чат-ассистента для кодинга, включая имплементацию агентских способностей, управление контекстом и телеметрией и системные промпты.
Делают это Microsoft, чтобы их утилита была непосредственно интегрирована в сам VSCode. Для сравнения, популярный Cursor является всего лишь форком VSCode, а не полноценной интеграцией.
Важно: пока это просто чат-расширение. Copilot для inline помощи пока остается закрытым, но его обещают открыть до конца лета.
Весь код и документация тут. Лицензия MIT
Это полноценная реализация чат-ассистента для кодинга, включая имплементацию агентских способностей, управление контекстом и телеметрией и системные промпты.
Делают это Microsoft, чтобы их утилита была непосредственно интегрирована в сам VSCode. Для сравнения, популярный Cursor является всего лишь форком VSCode, а не полноценной интеграцией.
Важно: пока это просто чат-расширение. Copilot для inline помощи пока остается закрытым, но его обещают открыть до конца лета.
Весь код и документация тут. Лицензия MIT
🔥4👍3