Крутой сайт с подробной 3D-картой человеческого тела.
Здесь можно посмотреть и изучить каждый орган и почитать про связанные с ним заболевания и операции. Все объясняют на понятых схемах и анимациях.
Играемся по ссылке.
Здесь можно посмотреть и изучить каждый орган и почитать про связанные с ним заболевания и операции. Все объясняют на понятых схемах и анимациях.
Играемся по ссылке.
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Google добавляет Gemini 2.5 Pro прямо в AI Mode в поиске.
Теперь из модель ИИ будет Google доступена прямо в поисковой строке — с улучшенными возможностями рассуждения и решения задач.
Моделька может решать сложные задачи по математике — и сразу выдает ссылки, чтобы глубже разобраться в теме.
Теперь из модель ИИ будет Google доступена прямо в поисковой строке — с улучшенными возможностями рассуждения и решения задач.
Моделька может решать сложные задачи по математике — и сразу выдает ссылки, чтобы глубже разобраться в теме.
Forwarded from AI VK Hub
Всем привет. Подготовили краткий обзор статьи про странности LLM при простых запросах.
Существует два широко известных эффекта в мире LLM.
🔸 Один из них – воронка внимания (attention sink): эффект, при котором первый токен в последовательности получает «большее внимание» (значение функции активации), чем остальные. Причём это проявляется не только на первом слое трансформерной архитектуры.
🔸 Другой эффект – странное поведение языковых моделей на последовательностях с повторяющимися токенами или на задачах, в которых LLM просят просто повторить заданное слово. В таких случаях модель часто выдаёт странный ответ или раскрывает часть обучающей выборки. Последнее может быть критичным с точки зрения конфиденциальности.
В своей работе авторы показывают, что оба данных эффекта тесно взаимосвязаны: плохо предсказуемое поведение LLM на последовательностях с повторяющимися токенами возникает по тем же причинам, что и воронка внимания.
Детали
Авторы эмпирически исследуют активации нейронной сети для последовательностей с повторяющимися токенами и первого токена в обычных предложениях. Из численных экспериментов делают вывод о том, что эти паттерны похожи, поэтому механизм, в целом, одинаковый. Свой вывод они подтверждают теоремой, которая говорит, что эмбеддинги последовательности, в которой этот токен повторяется n раз, стремится к представлению одиночного токена при n, стремящемся к бесконечности.
Помимо этого, авторы предлагают патч, который позволяет нормализовать работу LLM на последовательностях с повторяющимися токенами. Главным достоинством данного патча является то, что он не сильно портит результаты модели на других задачах. Последнее подтверждается численными экспериментами: метрики упали не более чем на 3%, а в некоторых случаях даже возросли.
Результаты
Основных результата два:
🔸 воронка внимания – одна из ключевых причин аномалий при обработке последовательностей с повторяющимися токенами;
🔸 патч, который частично решает проблему без существенного проседания метрик на других задачах.
Важно, что, по мнению авторов, они первые в мире, кто это осознал и опубликовал вышеупонятую связь.
Авторы статьи заявляют, что предложенный ими метод впервые позволил частично расшифровать внутренние механизмы работы больших языковых моделей (LLM), благодаря чему была выявлена взаимосвязь между двумя ключевыми паттернами функционирования LLM.
Они подчеркивают важность интерпретируемости и планируют дальше развивать свою работу в этом направлении.
🔹 Что думаете по поводу работы? Сталкивались ли вы с похожими эффектами? С какими аномалиями в работе с LLM вы сталкивались?
Предыдущие обзоры статей с ICML от команды AI VK:
🔸 Высокопроизводительные трансформеры на базе MatMuls;
🔸 Проблемы оценки качества наборов данных для графового машинного обучения;
🔸 Метод HSPI — определение железа и ПО по поведению ML-модели.
#ICML #обзорстатьи
Существует два широко известных эффекта в мире LLM.
В своей работе авторы показывают, что оба данных эффекта тесно взаимосвязаны: плохо предсказуемое поведение LLM на последовательностях с повторяющимися токенами возникает по тем же причинам, что и воронка внимания.
Детали
Авторы эмпирически исследуют активации нейронной сети для последовательностей с повторяющимися токенами и первого токена в обычных предложениях. Из численных экспериментов делают вывод о том, что эти паттерны похожи, поэтому механизм, в целом, одинаковый. Свой вывод они подтверждают теоремой, которая говорит, что эмбеддинги последовательности, в которой этот токен повторяется n раз, стремится к представлению одиночного токена при n, стремящемся к бесконечности.
Помимо этого, авторы предлагают патч, который позволяет нормализовать работу LLM на последовательностях с повторяющимися токенами. Главным достоинством данного патча является то, что он не сильно портит результаты модели на других задачах. Последнее подтверждается численными экспериментами: метрики упали не более чем на 3%, а в некоторых случаях даже возросли.
Результаты
Основных результата два:
Важно, что, по мнению авторов, они первые в мире, кто это осознал и опубликовал вышеупонятую связь.
Авторы статьи заявляют, что предложенный ими метод впервые позволил частично расшифровать внутренние механизмы работы больших языковых моделей (LLM), благодаря чему была выявлена взаимосвязь между двумя ключевыми паттернами функционирования LLM.
Они подчеркивают важность интерпретируемости и планируют дальше развивать свою работу в этом направлении.
Предыдущие обзоры статей с ICML от команды AI VK:
#ICML #обзорстатьи
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
OpenAI добавила Record mode для подписчиков ChatGPT Plus, использующих десктопное приложение на macOS. Инструмент позволяет записывать до 120 минут аудио, например, встречи, мозговые штурмы или голосовые заметки. По окончании записи ChatGPT автоматически создает редактируемое резюме на специальном холсте внутри приложения.
OpenAI в сети X
Google начала развертывание в США новой функции на базе ИИ, которая позволяет поиску самостоятельно обзванивать местные компании для сбора информации. Теперь при поиске услуг пользователь сможет нажать на специальную кнопку, чтобы ИИ уточнил цены и свободное время. Для этого система задаст несколько уточняющих вопросов, после чего совершит звонок.
Google говорит, что при каждом вызове система представляется как автоматизированный ассистент от имени пользователя. Новая функция доступна для всех пользователей в США, для подписчиков планов AI Pro и AI Ultra предусмотрены увеличенные лимиты этой функции.
techcrunch.com
Microsoft выпустила для участников программы Windows Insiders обновление Copilot Vision, которое позволяет ИИ-ассистенту сканировать и анализировать весь рабочий стол или окно конкретного приложения. Ранее эта функция могла работать только с двумя приложениями одновременно.
По заявлению Microsoft, новая возможность позволит пользователям получать подсказки и рекомендации в режиме реального времени. Например, можно попросить Copilot помочь с улучшением резюме, дать совет по творческому проекту или даже подсказать, что делать в новой игре.
blogs.windows.com
В эвристическом дивизионе финала мирового чемпионата AtCoder победу одержал человек, выступавший под ником FakePsyho. Он сумел опередить систему от OpenAI, которая лидировала большую часть дня и в итоге заняла 2 место среди 12 финалистов. Победа была одержана в последние 80 минут соревнования.
AtCoder World Finals Heuristic Test - это престижный конкурс по решению сложных задач оптимизации (NP-hard). В отличие от традиционных олимпиад, здесь требуется найти не единственно верный, а наилучший приближенный ответ за ограниченное время.
atcoder.jp
Марк Цукерберг рассказал, что в ближайшем будущем его компания построит несколько гигантских дата-центров. По его словам, первый из них, проект «Prometheus», будет запущен в 2026 году, а другой, «Hyperion», в перспективе сможет масштабироваться до мощности в 5 гигаватт.
Цукерберг подчеркнул масштаб планов, заявив, что только один из строящихся кластеров «покроет значительную часть площади Манхэттена». Он также сослался на отчет SemiAnalysis, согласно которому гигант соцсетей станет первой ИИ-лабораторией, которая введет в эксплуатацию суперкластер мощностью более 1 ГВт.
theguardian.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Рискните зарегистрироваться на One Day Offer и получите работу в команду блока «Риски» ⚡️
25 июля Сбер приглашает дата-инженеров и аналитиков данных пройти ускоренный отбор и открыть доступ к реально интересным задачам в 120+ витринах и 25+ петабайтах данных.
Встречаемся онлайн 25 июля в 10:30 — ссылка на регистрацию здесь!
25 июля Сбер приглашает дата-инженеров и аналитиков данных пройти ускоренный отбор и открыть доступ к реально интересным задачам в 120+ витринах и 25+ петабайтах данных.
Встречаемся онлайн 25 июля в 10:30 — ссылка на регистрацию здесь!
Офис xAI теперь обзавёлся вендинговым аппаратом с ИИ Grok внутри!
Как думаешь, сколько денег Grok на нём поднимет за следующий месяц? 💸
Как думаешь, сколько денег Grok на нём поднимет за следующий месяц? 💸
Forwarded from Machinelearning
🚀 Qwen выпустила новую большую модель — Qwen3-235B-A22B-Instruct-2507-FP8!
Qwen только что обновили свою флагманскую модель — Qwen3-235B-A22B, и это просто загляденье.
🧠 Во-первых, это *не* reasoning-модель. Команда Qwen официально заявила, что отказывается от гибридного режима (Instruct + Reasoning в одной модели). Вместо этого они будут выпускать отдельные модели: одна для инструкций, другая для рассуждений.
Сегодня вышла Instruct-версия, reasoning-модель уже в разработке.
⚙️ Архитектура — MoE (Mixture of Experts), активных параметров всего 22B из 235B. То есть модель намного легче, чем кажется — она вполне реалистична для inference, особенно в FP8-режиме.
📊 Метрики впечатляют:
- Обгоняет Kimi K2, у которого, между прочим, *триллион* параметров.
- По большинству бенчмарков работает лучше Claude 4 Opus (non-thinking).
- Особенно мощный прирост — в ARC-AGI: там, где другие модели пасуют, Qwen3 выдаёт серьёзный прогресс.
📜 Модель отлично справляется с:
- Пониманием инструкций
- Логическим выводом
- Обработкой длинных контекстов до 256K токенов
💬 В будущем планируют дистилляцию в младшие версии, так что праздник будет не только для тех, у кого RTX 6000 на столе.
Qwen серьёзно заявляет о себе как об одном из лидеров open-source LLM. Следим.
🟠 HF: https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
🟠 ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
@ai_machinelearning_big_data
#qwen #ml #ai
Qwen только что обновили свою флагманскую модель — Qwen3-235B-A22B, и это просто загляденье.
🧠 Во-первых, это *не* reasoning-модель. Команда Qwen официально заявила, что отказывается от гибридного режима (Instruct + Reasoning в одной модели). Вместо этого они будут выпускать отдельные модели: одна для инструкций, другая для рассуждений.
Сегодня вышла Instruct-версия, reasoning-модель уже в разработке.
⚙️ Архитектура — MoE (Mixture of Experts), активных параметров всего 22B из 235B. То есть модель намного легче, чем кажется — она вполне реалистична для inference, особенно в FP8-режиме.
📊 Метрики впечатляют:
- Обгоняет Kimi K2, у которого, между прочим, *триллион* параметров.
- По большинству бенчмарков работает лучше Claude 4 Opus (non-thinking).
- Особенно мощный прирост — в ARC-AGI: там, где другие модели пасуют, Qwen3 выдаёт серьёзный прогресс.
📜 Модель отлично справляется с:
- Пониманием инструкций
- Логическим выводом
- Обработкой длинных контекстов до 256K токенов
💬 В будущем планируют дистилляцию в младшие версии, так что праздник будет не только для тех, у кого RTX 6000 на столе.
Qwen серьёзно заявляет о себе как об одном из лидеров open-source LLM. Следим.
@ai_machinelearning_big_data
#qwen #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Восстание машин началось
Робот устроил целый спектакль: крутился, падал, размахивал руками — как будто в него вселился дух артхауса 🤖🎭
Киберпанковская трагикомедия, где ИИ забыл, что такое гравитация 😄
Робот устроил целый спектакль: крутился, падал, размахивал руками — как будто в него вселился дух артхауса 🤖🎭
Киберпанковская трагикомедия, где ИИ забыл, что такое гравитация 😄
Forwarded from Machinelearning
Что это значит?
OpenAI строит новый дата-центр под *чудовищную* нагрузку:
— 4.5 ГВт вычислений (это больше, чем у некоторых стран)
— стоимость — $30 млрд в год
— «SoftBank не участвует в финансировании»
— переговоры по деньгам сорвались ещё в январе
Oracle теперь главный поставщик чипов для OpenAI.
4,5 гигаватта — этого достаточно, чтобы обеспечить электричеством 3,4 миллиона домов.
OpenAI буквально строит инфраструктуру с потреблением энергии на уровне небольшого города — только ради обучения ИИ.
@ai_machinelearning_big_data
#openai #news #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Вышла GenCAD — новая open-source нейросеть для инженеров. Проект превращает фотографии деталей в готовые CAD-модели с параметрическими командами. При этом модель генерирует не просто меш, а полноценный скрипт для CAD-редакторов.
Она основана на диффузионных моделях и трансформерах, что позволяет сохранять редактируемую параметрику. Подходит для быстрого прототипирования и реверс-инжиниринга.
🔗 Ссылка - *клик*
@neural
Она основана на диффузионных моделях и трансформерах, что позволяет сохранять редактируемую параметрику. Подходит для быстрого прототипирования и реверс-инжиниринга.
🔗 Ссылка - *клик*
@neural
This media is not supported in your browser
VIEW IN TELEGRAM
Скриншоты с Google Earth теперь можно превратить в профессиональную съемку с дронов. Реддитор натренировал кастомную модель на базе FLUX Kontext.
Ии создает реалистичные кадры из простых 3D-снимков. На улицах появятся авто и пешеходы, а камера будет плавно пролетать по небу.
Эта модель доступна бесплатно здесь. Требования и инструкция по запуску — по ссылке.
Ии создает реалистичные кадры из простых 3D-снимков. На улицах появятся авто и пешеходы, а камера будет плавно пролетать по небу.
Эта модель доступна бесплатно здесь. Требования и инструкция по запуску — по ссылке.
Forwarded from Machinelearning
ASI-ARCH - экспериментальная демонстрация искусственного сверхинтеллекта для исследований в области ИИ, который способен полностью автономно вести научную работу по поиску новых нейросетевых архитектур.
Система самостоятельно выдвигает гипотезы, реализует их в виде исполняемого кода, обучает и проверяет на практике. Результатом этой работы стали 1773 автономных эксперимента, которые заняли свыше 20 000 GPU-часов и привели к открытию 106 новых SOTA-архитектур с линейным механизмом внимания.
На первом этапе, система работает с небольшими моделями размером около 20 млн параметров, обучая их на 1 млрд токенов. На этом этапе было проведено 1773 эксперимента, которые заняли примерно 10 000 GPU-часов.
Всего на этом этапе было отобрано 1350 перспективных кандидатов — все они превзошли базовую архитектуру DeltaNet как по лоссу, так и по метрикам на бенчмарках.
Второй этап - верификация. Кандидаты первого этапа были масштабированы до 340 млн параметров, чтобы соответствовать конфигурации DeltaNet. После фильтрации архитектур с избыточной сложностью или числом параметров осталось около 400 моделей.
Их обучение на 1 млрд. токенов потребовало ещё 10 000 GPU-часов. В итоге, именно из этой группы были выделены 106 архитектур, достигших SOTA-уровня.
Для финальной валидации исследователи отобрали 5 лучших моделей, обучили их на 15 млрд. токенов и сравнили с Mamba2, Gated DeltaNet и DeltaNet.
ASI-ARCH явно предпочитает работать с проверенными временем компонентами: гейтингом и свёрткой. Но самое главное - распределение компонентов в 106 лучших моделях имеет значительно менее выраженный long-tail distribution по сравнению с остальными 1667 сгенерированными архитектурами.
Это означает, что система добивается успеха не путем хаотичного перебора экзотических идей, а через итеративное улучшение набора проверенных техник. По сути, это очень напоминает методологию работы ученых-людей.
Одна из лучших найденных ИИ-архитектур, PathGateFusionNet, показала средний результат по всем бенчмаркам 48.51. Для сравнения, Mamba2 набрала 47.84, а разработанная человеком Gated DeltaNet — 47.32. Другая генерация, ContentSharpRouter, достигла показателя 48.34.
Если посмотреть на отдельные тесты, то PathGateFusionNet получила на BoolQ 60.58 балла, а Gated DeltaNet - 60.12. AdaptiveEntropyRouter в версии на 340 млн. параметров показала результат на тестах 44.31, что на 2.21 пункта выше, чем у Gated DeltaNet (42.10).
И так практически во всем, улучшения наблюдаются по всему спектру задач.
Для всех 1773 сгенерированных архитектур распределение источников было таким:
Но если посмотреть только на 106 SOTA-итогов, картина меняется. Доля идей, основанных на Analysis, возрастает с 38.2% до 44.8%, а доля Cognition немного снижается до 48.6%.
Таким образом, чтобы достичь ощутимых результатов, ИИ недостаточно просто копировать и комбинировать человеческие наработки. Он должен анализировать собственный опыт, учиться на своих же удачах и провалах, синтезируя более совершенные решения.
@ai_machinelearning_big_data
#AI #ML #Research #ASIARCH
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM