Forwarded from ИИ и роботы в стройке
Как ИИ-лаборатория ПИКа помогла менеджерам застройщика лучше продавать, или о модуле анализа видов из окон R2.Видоботы
Артур Ишмаев, руководитель отдела исследований и разработки в области ИИ в ПИКе, рассказал про то, как его команда на базе платформы R2 разработала анализатор видов из окон. Этот инструмент теперь помогает девелоперу презентовать и продавать квартиры на сайте.
Что хотели
Заказчиком модуля выступил отдел продаж ПИКа. Менеджерам требовался наглядный инструмент, позволяющий быстро показывать клиентам, что именно те увидят из своей будущей квартиры. Плюс процесс должен был работать автоматически и легко масштабироваться.
Как делали
Разработку вели на собственной платформе R2 с использованием цифровых моделей Москвы, генплана, здания с информацией о планировках квартир.
Что получилось
Модуль рассчитывает поле видимости из окон с учётом ориентации зданий и выводит результаты в двух форматах: схематичном изображении направлений видов и текстовом описании объектов с указанием типа окна и комнаты. Также включено процентное соотношение разных объектов в поле зрения.
Как использует бизнес
Теперь на сайте ПИК у каждой квартиры есть вкладка «Вид из окна», где можно изучить визуализацию и применить фильтры. Инструмент работает автоматически и легко масштабируется на все проекты. В будущем команда планирует развивать сервис с применением искусственного интеллекта и расширять его возможности.
Артур Ишмаев, руководитель отдела исследований и разработки в области ИИ в ПИКе, рассказал про то, как его команда на базе платформы R2 разработала анализатор видов из окон. Этот инструмент теперь помогает девелоперу презентовать и продавать квартиры на сайте.
Что хотели
Заказчиком модуля выступил отдел продаж ПИКа. Менеджерам требовался наглядный инструмент, позволяющий быстро показывать клиентам, что именно те увидят из своей будущей квартиры. Плюс процесс должен был работать автоматически и легко масштабироваться.
Как делали
Разработку вели на собственной платформе R2 с использованием цифровых моделей Москвы, генплана, здания с информацией о планировках квартир.
Что получилось
Модуль рассчитывает поле видимости из окон с учётом ориентации зданий и выводит результаты в двух форматах: схематичном изображении направлений видов и текстовом описании объектов с указанием типа окна и комнаты. Также включено процентное соотношение разных объектов в поле зрения.
Как использует бизнес
Теперь на сайте ПИК у каждой квартиры есть вкладка «Вид из окна», где можно изучить визуализацию и применить фильтры. Инструмент работает автоматически и легко масштабируется на все проекты. В будущем команда планирует развивать сервис с применением искусственного интеллекта и расширять его возможности.
⚡5❤4👍2🏆2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Spatial-MLLM — это разработка, направленная на улучшение пространственного интеллекта мультимодальных больших языковых моделей (MLLM) для визуальных задач, основанных на 2D-изображениях.
Spatial-MLLM предлагает новый подход к улучшению пространственного мышления моделей, которые изначально разрабатывались для обработки 2D-визуальных данных. Традиционные видео-MLLM часто используют визуальные энкодеры, такие как CLIP, оптимизированные для семантического понимания, но не для пространственных задач. Spatial-MLLM решает эту проблему, интегрируя 3D-информацию через архитектуру с двумя энкодерами (dual-encoder), что позволяет моделям лучше понимать пространственные отношения без необходимости использования 3D-данных на этапе обучения.
https://diankun-wu.github.io/Spatial-MLLM/
Spatial-MLLM — это разработка, направленная на улучшение пространственного интеллекта мультимодальных больших языковых моделей (MLLM) для визуальных задач, основанных на 2D-изображениях.
Spatial-MLLM предлагает новый подход к улучшению пространственного мышления моделей, которые изначально разрабатывались для обработки 2D-визуальных данных. Традиционные видео-MLLM часто используют визуальные энкодеры, такие как CLIP, оптимизированные для семантического понимания, но не для пространственных задач. Spatial-MLLM решает эту проблему, интегрируя 3D-информацию через архитектуру с двумя энкодерами (dual-encoder), что позволяет моделям лучше понимать пространственные отношения без необходимости использования 3D-данных на этапе обучения.
https://diankun-wu.github.io/Spatial-MLLM/
⚡4❤2👍1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
#вкопилкуэрудита
Интересные технологии из СССР
Интересные технологии из СССР
👍7⚡4🔥2❤1
Мы уже знаем, что LLM способны писать научные работы. А смогут ли они придумывать такие гениальные решения?
Anonymous Poll
37%
да
42%
нет
21%
уже могут и есть примеры
👍4❤1⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Anymate - инструмент накидывания скелета на меш модели.
Anymate — масштабный набор данных из 230 тыс. моделей с риггингом и анимациями
https://huggingface.co/spaces/yfdeng/Anymate
Anymate - инструмент накидывания скелета на меш модели.
Anymate — масштабный набор данных из 230 тыс. моделей с риггингом и анимациями
https://huggingface.co/spaces/yfdeng/Anymate
🔥4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Машина Дарвина-Геделя: открытая эволюция самосовершенствующихся агентов
Авторы(Salamanca AI) считают, что машины Дарвина-Геделя представляют собой конкретный шаг к системам искусственного интеллекта, которые могут автономно создавать собственные ступени для постоянного обучения и инноваций!
ИИ агент сам переписывает свой код и эволюционирует?!
arxiv.org/abs/2505.22954
Машина Дарвина-Геделя: открытая эволюция самосовершенствующихся агентов
Авторы(Salamanca AI) считают, что машины Дарвина-Геделя представляют собой конкретный шаг к системам искусственного интеллекта, которые могут автономно создавать собственные ступени для постоянного обучения и инноваций!
ИИ агент сам переписывает свой код и эволюционирует?!
arxiv.org/abs/2505.22954
⚡5🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
#пытаюсьпонять #вкопилкуэрудита
Почему Vision Transformers оказываются эффективнее сверхточных сетей?
Начнем с разбора, что это?
Vision Transformers (ViT) — это архитектура нейронных сетей, адаптированная для обработки изображений, основанная на механизме трансформеров, изначально разработанных для задач обработки естественного языка (NLP).
ViT обрабатывают изображения, разбивая их на небольшие участки (патчи), которые затем преобразуются в последовательность векторов, подобно словам в предложении в NLP. Эти векторы подаются в трансформер, который использует механизм внимания (self-attention) для анализа взаимосвязей между патчами.
В отличие от CNN, которые фокусируются на локальных признаках (через свертки), ViT анализирует изображение целиком благодаря механизму внимания. Это позволяет модели улавливать долгосрочные зависимости между удаленными частями изображения (например, между глазами и ртом на портрете). Механизм внимания автоматически определяет, какие патчи наиболее релевантны для задачи, что делает модель гибкой и способной выделять ключевые области изображения.
ViT хорошо масштабируется с увеличением данных и вычислительных ресурсов. Исследования показывают, что при больших объемах данных (например, JFT-300M) ViT превосходит CNN, так как трансформеры лучше используют большие датасеты для обучения сложных паттернов.
Архитектура трансформеров унифицирована: одна и та же модель может быть применена как к тексту, так и к изображениям, что упрощает разработку мультимодальных систем.
ViT легко адаптируется к различным задачам компьютерного зрения (классификация, детекция, сегментация) благодаря гибкости механизма внимания и возможности дообучения (fine-tuning).
Для больших изображений ViT может быть более эффективным, чем CNN, так как не требует глубоких иерархий сверток, а обрабатывает патчи параллельно.
Ну и самое интересное - как ViT соотносятся с человеческим восприятием изображений?
1. Человек, глядя на изображение, может мгновенно переключать внимание между разными областями, фокусируясь на наиболее важных (например, на лице человека в толпе). Механизм self-attention в ViT имитирует эту способность, позволяя модели выделять ключевые патчи и игнорировать менее релевантные.
2. Люди интерпретируют изображения, опираясь на контекст (например, распознают кошку, учитывая не только ее форму, но и окружение). ViT также учитывает контекст, анализируя связи между всеми патчами изображения.
3. Человеческая зрительная система обрабатывает информацию иерархически: от простых признаков (края, углы) к сложным объектам. Хотя ViT не использует явные иерархические слои, как CNN, многослойные трансформеры постепенно формируют более абстрактные представления, что можно сравнить с иерархией в человеческом мозге.
Но не все так однозначно сопоставимо🧐
ViT обрабатывают изображение глобально через механизм внимания, в то время как человеческое зрение начинается с локальной обработки краев и текстур в зрительной коре. ViT разбивает изображение на фиксированные патчи, тогда как человек сканирует сцену динамически, используя саккады и фиксации для фокусировки на важных областях. Кроме того, ViT требует больших объемов данных для обучения, в отличие от человека, способного распознавать объекты после минимального опыта (few-shot learning).
Почему Vision Transformers оказываются эффективнее сверхточных сетей?
Начнем с разбора, что это?
Vision Transformers (ViT) — это архитектура нейронных сетей, адаптированная для обработки изображений, основанная на механизме трансформеров, изначально разработанных для задач обработки естественного языка (NLP).
ViT обрабатывают изображения, разбивая их на небольшие участки (патчи), которые затем преобразуются в последовательность векторов, подобно словам в предложении в NLP. Эти векторы подаются в трансформер, который использует механизм внимания (self-attention) для анализа взаимосвязей между патчами.
В отличие от CNN, которые фокусируются на локальных признаках (через свертки), ViT анализирует изображение целиком благодаря механизму внимания. Это позволяет модели улавливать долгосрочные зависимости между удаленными частями изображения (например, между глазами и ртом на портрете). Механизм внимания автоматически определяет, какие патчи наиболее релевантны для задачи, что делает модель гибкой и способной выделять ключевые области изображения.
ViT хорошо масштабируется с увеличением данных и вычислительных ресурсов. Исследования показывают, что при больших объемах данных (например, JFT-300M) ViT превосходит CNN, так как трансформеры лучше используют большие датасеты для обучения сложных паттернов.
Архитектура трансформеров унифицирована: одна и та же модель может быть применена как к тексту, так и к изображениям, что упрощает разработку мультимодальных систем.
ViT легко адаптируется к различным задачам компьютерного зрения (классификация, детекция, сегментация) благодаря гибкости механизма внимания и возможности дообучения (fine-tuning).
Для больших изображений ViT может быть более эффективным, чем CNN, так как не требует глубоких иерархий сверток, а обрабатывает патчи параллельно.
Ну и самое интересное - как ViT соотносятся с человеческим восприятием изображений?
1. Человек, глядя на изображение, может мгновенно переключать внимание между разными областями, фокусируясь на наиболее важных (например, на лице человека в толпе). Механизм self-attention в ViT имитирует эту способность, позволяя модели выделять ключевые патчи и игнорировать менее релевантные.
2. Люди интерпретируют изображения, опираясь на контекст (например, распознают кошку, учитывая не только ее форму, но и окружение). ViT также учитывает контекст, анализируя связи между всеми патчами изображения.
3. Человеческая зрительная система обрабатывает информацию иерархически: от простых признаков (края, углы) к сложным объектам. Хотя ViT не использует явные иерархические слои, как CNN, многослойные трансформеры постепенно формируют более абстрактные представления, что можно сравнить с иерархией в человеческом мозге.
Но не все так однозначно сопоставимо🧐
ViT обрабатывают изображение глобально через механизм внимания, в то время как человеческое зрение начинается с локальной обработки краев и текстур в зрительной коре. ViT разбивает изображение на фиксированные патчи, тогда как человек сканирует сцену динамически, используя саккады и фиксации для фокусировки на важных областях. Кроме того, ViT требует больших объемов данных для обучения, в отличие от человека, способного распознавать объекты после минимального опыта (few-shot learning).
⚡4❤3👍2
Forwarded from vc.ru
Google выпустила приложение Google AI Edge Gallery, которое позволяет загружать ИИ-модели из каталога Hugging Face и запускать их на смартфонах без подключения к интернету.
Версия для Android опубликована на GitHub, для iOS — появится позже
vc.ru/ai/2020443
Версия для Android опубликована на GitHub, для iOS — появится позже
vc.ru/ai/2020443
🔥3⚡2👍2
#unrealneural
13 MCP серверов:
- Agentset MCP
- GitHub MCP Server
- arXiv MCP
- MCP Run Python
- Safe Local Python Executor
- Cursor MCP Installer
- Basic Memory
- Filesystem MCP Server
- Notion MCP Server
- Markdownify MCP Server
- Fetch MCP Server
- Mobile Next
- MCP Installer
https://huggingface.co/posts/Kseniase/204958200717570
13 MCP серверов:
- Agentset MCP
- GitHub MCP Server
- arXiv MCP
- MCP Run Python
- Safe Local Python Executor
- Cursor MCP Installer
- Basic Memory
- Filesystem MCP Server
- Notion MCP Server
- Markdownify MCP Server
- Fetch MCP Server
- Mobile Next
- MCP Installer
https://huggingface.co/posts/Kseniase/204958200717570
⚡3👍2
Forwarded from TechSparks
Использование ИИ в школах остается источником споров, данные экспериментов тоже противоречивы. Заметка в The Economist содержит интересное замечание в начале: “В богатом мире еще надо доказать, что ИИ лучше традиционного обучения”. То ли дело Нигерия. Результаты проведенного там эксперимента легко публиковать, не опасаясь эмоциональной реакции учителей и родителей учеников.
А результаты любопытны. В ходе 12 полуторачасовых внеклассных занятий на протяжении 6 недель ученики взаимодействовали с чатботом на основе GPT-4 для улучшения своего английского. По окончании этих 6 недель, ученики продемонстрировали прогресс, на который в ходе обычных школьных занятий ушло бы 2 года. На письменных экзаменах в конце года, которые включали не только материал, проработанный с помощью ИИ, участники эксперимента также выступили лучше своих одноклассников.
Авторы исследования оговариваются, что все дело может быть в том, насколько плохи в Нигерии учителя. С другой стороны, в бедных странах существует масса образовательных программ, в которых участвуют люди, в том числе волонтеры из богатых стран. Программа с ИИ дала лучшие результаты, чем 80% таких программ. В общем, текст любопытно почитать уже из-за его извиняющейся интонации :))
https://www.economist.com/graphic-detail/2025/05/30/can-ai-be-trusted-in-schools
А результаты любопытны. В ходе 12 полуторачасовых внеклассных занятий на протяжении 6 недель ученики взаимодействовали с чатботом на основе GPT-4 для улучшения своего английского. По окончании этих 6 недель, ученики продемонстрировали прогресс, на который в ходе обычных школьных занятий ушло бы 2 года. На письменных экзаменах в конце года, которые включали не только материал, проработанный с помощью ИИ, участники эксперимента также выступили лучше своих одноклассников.
Авторы исследования оговариваются, что все дело может быть в том, насколько плохи в Нигерии учителя. С другой стороны, в бедных странах существует масса образовательных программ, в которых участвуют люди, в том числе волонтеры из богатых стран. Программа с ИИ дала лучшие результаты, чем 80% таких программ. В общем, текст любопытно почитать уже из-за его извиняющейся интонации :))
https://www.economist.com/graphic-detail/2025/05/30/can-ai-be-trusted-in-schools
👍6🔥3
#unrealneural
Cad-MLLM
Унифицированный подход к генерации CAD-геометрии на основе текстового запроса. Для генерации используются последовательности команд моделей САПР, далее идет обработка с помощью LLM. Это мультимодальный конвейер генерации моделей.
https://arxiv.org/abs/2411.04954
Cad-MLLM
Унифицированный подход к генерации CAD-геометрии на основе текстового запроса. Для генерации используются последовательности команд моделей САПР, далее идет обработка с помощью LLM. Это мультимодальный конвейер генерации моделей.
https://arxiv.org/abs/2411.04954
👍4⚡3❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Интерактивные блокноты, чтобы поэкспериментировать с машинами непрерывного мышления Continuous Thought Machines sakana.ai/ctm/
https://github.com/SakanaAI/continuous-thought-machines
Интерактивные блокноты, чтобы поэкспериментировать с машинами непрерывного мышления Continuous Thought Machines sakana.ai/ctm/
https://github.com/SakanaAI/continuous-thought-machines
🤯3⚡1👍1