362K subscribers
4.51K photos
895 videos
17 files
4.95K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🚨 🚨 DeepSeek в первый день года показала реально важную штуку: улучшение трансформеров.

Китайцы предложили способ сделать shortcut-путь в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей.

В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу.

Это помогает информации проходить через много слоёв, не теряясь.

Hyper-Connections меняют shortcut-путь.
Был один поток, а стало несколько.

Перед каждым шагом модель выбирает, какие потоки подать на вычисления.

Во время шага часть сигнала идёт «в обход»,
чтобы ничего не потерять.

После всё снова аккуратно объединяется.


То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов.

Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно.

mHC решает это так:
потоки остаются, но каждое смешивание работает как аккуратное усреднение.

Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем.

Что это даёт на практике:

- модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса.

Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×.

Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно.

И трансформеры стали гибче и стабильнее.

https://arxiv.org/abs/2512.24880

@ai_machinelearning_big_data

#AI #DeepSeek #MachineLearning #NeuralNetworks #Research
👍506😘9289🔥82👏56😎28🤗2114🙈10🎉7🥱3🦄2
📌Интервью 23-летнего сотрудника OpenAI, который выучил DL без учебы в университете.

Интересная история, которая заставляет задуматься об образовании и карьере.

Знакомьтесь - Габриэль Петерссон. Ему всего 23 года, он бросил школу в глухом шведском городке, не учился в ВУЗе, но прямо сейчас работает научным сотрудником в OpenAI, в команде Sora.

🟡Мы живем во время, когда монополия ВУЗов на фундаментальные знания пошатнулась.

Традиционное образование - это путь "снизу вверх". Хочешь заниматься машинным обучением? Сначала выучи линейную алгебру, потом матан, потом тервер. Это долго и зачастую теряется мотивация и понимание, зачем тебе это нужно прямо сейчас.

Масла в котел демотивации подливают компании, которые тоже не очень хотят ждать. Palantir, например, уже нанимает старшеклассников, минуя вузы. И история Габриэля — показательный пример тенденции.

Он не проходил классический путь "школа — бакалавриат — магистратура". Вместо этого он использовал ChatGPT как персонального ментора. И речь не о том, чтобы попросить чат-бот «напиши код за меня». Габриэль использовал метод, который он сам называет «рекурсивным заполнением пробелов».

Его суть том, чтобы идти как бы "сверху вниз". Он берет сложный проект: например, хочет разобраться, как работают модели диффузии. Он просит ChatGPT написать код. Естественно, сначала он ничего не понимает.

И вот тут он начинает задавать вопросы к каждому непонятному модулю. «Что делает этот блок?». Допустим, это блок ResNet. Он спрашивает: «Почему это помогает модели учиться?». И копает глубже. Если всплывает незнакомое понятие - он просит объяснить математическую базу, лежащую в его основе.

Это и есть рекурсия: слой за слоем, пока не заполнятся все пробелы в знаниях. Он не учит математику впрок, он учит ту математику, которая нужна ему прямо сейчас для работы кода.

🟡Но как иностранец без диплома получил визу в США и работу в Кремниевой долине?

Для получения визы талантов (O1) он использовал свою репутацию на Stack Overflow и рекомендации, которые просмотрели миллионы людей, как доказательство вклада в индустрию.

Габриэль советует: забудьте про HR. Резюме и дипломы не важны, если вы можете показать результат. Его стратегия — MVP или демо продукта и написать напрямую топ-менеджменту компании с предложением бесплатной работы на неделю. Это снимает риски для нанимателя и дает вам шанс показать себя.

Его главный посыл: если вы готовы активно задавать вопросы и не боитесь выглядеть глупо перед ИИ, изучая основы, вы уже входите в 1% лучших. Потому что большинство людей просто плывут по течению.

🔜 Посмотреть полное интервью


@ai_machinelearning_big_data

#AI #ML #Interview #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍20575🔥41🤓30🥱29👏11🤔11🦄6🐳4🗿4🏆1
📌Как ИИ-гиганты обеспечивают себя энергией.

Semianalysis выпустили любопытный материал о том, как ИИ-компании преодолевают энергетический кризис.

🟡Американская энергосистема не выдерживает напора ИИ.

Еще 2 года назад эксперты предсказывали, что спрос на мощность для ИИ-ЦОДов вырастет с 3 ГВт в 2023 до 28 ГВт к 2026 году.

Уже сейчас в Техасе ежемесячно поступают заявки на десятки гигаватт, но за год одобряют не более гигаватта. Электросети перегружены.

ИИ-компании не могут ждать много лет на подключение к сетям. Задержка в полгода для дата-центра мощностью 400 МВт означает потерю миллиардов долларов. Поэтому они адаптируются: строят собственные газовые электростанции прямо на территории дата-центров.

Первой удивила индустрию xAI, запустив кластер из 100 тыс. GPU всего за 4 месяца на полностью независимых от общих сетей мобильных газовых турбинах. На конец 2025 года детище Илона Маска развернуло суммарно более 500 МВт таких мощностей. И за ними пошли OpenAI с Oracle в Техасе и Марк Цукерберг в Огайо.

🟡Концепция альтернативного питания ЦОДов получила свое название - BYOG (Bring your own generation)

Она объединяет 3 основных типа генерации:

🟢Аэродеривативные турбины от GE Vernova LM2500 (34 МВт) и LM6000 (57 МВт). Самые дорогие, но быстро запускаемые (5-10 минут от старта до полной мощности);

🟢Промышленные газовые турбины (Siemens SGT-800 и Solar Titan), включая адаптированные под выработку электричества поршневые двигатели Enbacher J624 (4,5 МВт) и Wärtsilä (7-20 МВт). Они дешевле, но медленнее запускаются.

🟢Твердооксидные топливные элементы от Bloom Energy, которые не требуют согласования от агентства по охране окружающей среды США.

🟡Подводный камень BYOG - надежность.

Чтобы достичь 99% аптайма как в общих электросетях, приходится серьезно перестраховываться. Для дата-центра на 200 МВт устанавливают 26 двигателей по 11 МВт или 9 турбин по 30 МВт, а, например, ЦОД в Огайо на гибридном решении: 3 типа турбин и 15 поршневых двигателей для максимального покрытия аварий.

🟡Драйвер кризиса - экономика.

Стоимость собственной генерации обычно выше сетевой, но для ИИ-бизнеса скорость ввода в эксплуатацию важнее. Один ГВт ИИ-вычислений приносит $10-12 млрд годового дохода. Так что ускоренный запуск ЦОДа окупает любые затраты на энергетическую независимость.

Производители BYOG-решений борются с дефицитом. GE Vernova и Siemens Energy принимают заказы уже только на 2028-2029 годы.

🟡Спрос не остался незамеченным - появились новые игроки.

Boom Supersonic (производитель самолетов) использует свои авиационные наработки для создания турбин на базе двигателей самолётов Mach 2, а корейская Doosan Enerbility, благодаря опыту производства паровых турбин запустила производство турбин H-класса.

Пока в перспективе ИИ-гиганты выбирают гибридные решения где собственная генерация сначала выводит ЦОД в работу, а потом становится резервом при подключении к сетям, это однозначно повлияет еще на пару-тройку смежных сфер деятельности.

Так что "энергетический" и "чиповый" кризис - не последние, кого породила ИИ-гонка.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
175🔥32🤔30👍28🤬5🥱5👨‍💻2🦄2
🌟 IQuest-Coder-V1: китайская модель, которая обошла лидеров в кодинге.

Quest Research, поддержанная фондом Ubiquant, представила 40-миллиардную модель c контекстным окном в 128K токенов, которая, со слов авторов, выбивает 81,4% на SWE-Bench Verified, 49,9% на BigCodeBench и 81,1% на LiveCodeBench v6.

Это превосходит показатели Claude Sonnet 4.5 и GPT-5.1, несмотря на значительно меньшее количество параметров.

Модель использует технику "code-flow" — обучение на эволюции репозиториев и коммитах, и разделена на 2 ветки:

🟠Dense Models : Base и Instruct версии для дообучения и следованию инструкциям

🟢Loop Models: оптимизированная версия с максимальной эффективностью по VRAM (int4 может запускаться на 3090\4090)

Архитектура LoopCoder использует циклическую конструкцию трансформера, где одни и те же параметры модели используются в 2-х последовательных проходах обработки данных.

На первом проходе модель обрабатывает эмбеддинги через свои слои с учетом позиций слов.

На втором проходе модель одновременно использует два типа внимания: глобальное внимание, которое обращается ко всей информации из первого прохода для понимания общего контекста, и локальное внимание, которое смотрит только на предыдущие слова во втором проходе для сохранения последовательности текста.

Оба типа внимания комбинируются с помощью механизма, который решает, сколько веса дать глобальному контексту, а сколько локальной последовательности.

В техотчете заявлены еще 7B и 14B версии, но сроки их публикации неизвестны.


📌Лицензирование: Modified MIT License


🟡Страница проекта
🟡Техотчет
🟡Набор моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #IQuest #QuestResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍139🤩92👨‍💻8742🤔23🔥20👏20👌12🥰85🎉5
This media is not supported in your browser
VIEW IN TELEGRAM
🎾 Твой новый роботозированный партнёр по теннису.

UBTECH показали как их гуманоид Walker S2 вышел на корт и провёл полноценный розыгрыш против человека в прямом эфире.

Похоже, время обычных машин для подач подходит к концу.

@ai_machinelearning_big_data


#Robotics #Tennis #AI #UBTECH #Future
🔥59👍2113😁6💋2🙈1
📌Как делали MiniMax М2.1 и что будет дальше.

Когда говорят, что одна модель пишет код лучше другой, обычно имеется ввиду бенчмарк SWE-Bench. Модель получает реальный баг из настоящего проекта с Github, который она должна прочитать, найти ошибку и исправить её. Это частично повторяет ежедневную работу программиста.

Но у этого бенча, как и у любого другого, есть свои недостатки.

🟠SWE-Bench работает только с Python. В реальном мире разработчики имеют дело с Java, Go, TypeScript, Rust, C++ и еще кучей других.

🟠Бенчмарк только про исправление ошибок, а программисты еще пишут новые функции, занимаются рефакторингом и оптимизацией.

🟠Его результаты сильно зависят от того, в каком окружении работает модель.

И вот здесь MiniMax-AI задалась вопросом: как создать по-настоящему универсального ИИ-программиста?

Ответ они нашли
и реализовали его в своей свежайшей модели M2.1.

🟡Масштабирование окружения.

За этим расплывчатым термином кроется огромная система, которая оперирует популярными языками: JS, TS, Python, Java, Go, C++ и Rust.

Для этого с GitHub были собраны более 100 тыс. реальных задач с описанием проблемы, кодом и тестами. Это было непросто, так как сложные языки (Java или C++) требуют настройки и у каждого языка свои фреймворки и системы управления зависимостями.

Чтобы обучить модель на таком массиве данных, MiniMax построил инфраструктуру, способную запускать более 5 тыс. изолированных сред выполнения за максимально короткое время - 10 секунд.

🟡Выход за рамки баг-фиксов.

MiniMax-M2.1 обучали и генерации тестов и в результате оказалось, что это критически важный навык.

Предыдущая версия, M1, писала слишком простые тесты и часто выбирала неверные решения. M2.1 в этом преуспела и сравнялась по результатам с мощным конкурентом Claude Sonnet 4.5.

Еще она научилась оптимизировать производительность кода — на SWE-Perf показала средний прирост эффективности в 3.1%.

И наконец, M2.1 научили делать Code Review, для чего создали внутренний бенчмарк SWE-Review.

🟡Обобщение на незнакомых окружениях (Generalization on OOD Scaffolds).

Модель должна одинаково хорошо следовать длинным инструкциям и адаптироваться к разным способам управления контекстом диалога.

Команда провела тесты в mini-swe-agent, Droid и Claude Code и если посмотреть на цифры из их сравнительной таблицы, то можно увидель, что модель стала гораздо более гибкой и универсальной.

На том же SWE-Bench, при использовании Claude Code, MiniMax-M2.1 выбила 74 балла, что выше, чем у модели M2 с ее 69.2 баллами, и практически наравне с Claude Sonnet 4.5 и DeepSeek V3.2.

На другом тесте, OctoCodingBench, разрыв еще больше: 26.1 у новой модели против 13.3 у старой.

🟡Планы на 2026.

Во-первых, MiniMax планирует научить модель оценивать не только правильность кода, но и читаемость кода, качество комментариев, прозрачность процесса работы.

Во-вторых - повысить эффективность решения задач, чтобы модель не делала лишних шагов, например, не перечитывала один и тот же файл по несколько раз.

Но самое интересное — это их планы по RL Scaling, и создание так называемой Coding World Model.

Идея в том, чтобы построить модель-симулятор, которая сможет предсказывать результат выполнения кода, не запуская его в реальности.


Наконец, они планируют расширяться в узкоспециализированные области: разработка GPU Kernel, компиляторов и смарт-контрактов.

Похоже, концепция "ИИ-кодера" становится все более реальной. Успех MiniMax-M2.1 показал, что дело уже не в написании отдельных строк кода, а в комплексном понимании всего процесса разработки.


@ai_machinelearning_big_data

#AI #ML #LLM #MiniMaх
Please open Telegram to view this post
VIEW IN TELEGRAM
51👍26🔥13👌2🦄1
🔥 Год ChatGPT Plus бесплатно: экономим 20 000 рублей

Нашли рабочую лазейку в правилах OpenAI.
Вы получаете полноценный аккаунт без лимитов и с доступом ко всем топовым моделям.
Инструкция (займет 2 минуты):

1️⃣ Переходим на сервис временной почты: https://em.bjedu.tech/en/
2️⃣ Важно: в списке доменов выбираем erzi me.
3️⃣ Регистрируем новый аккаунт ChatGPT на этот адрес.
4️⃣ Получаем код подтверждения в почту - готово!

⚡️ Проверили, пока еще работает

Или всегда можно воспользоваться ботом в тг 😂

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
131🔥22🤬20👍15😁5🙈5🌭2🌚1
Media is too big
VIEW IN TELEGRAM
✔️ Science Context Protocol: научное расширение стандарта MCP.

Шанхайская лаборатория ИИ выложила в опенсорс спецификации SCP — протокола, созданного для формирования глобальной сети автономных исследовательских систем. Новинка развивает идеи стандарта MCP от Anthropic, добавляя к нему критически важный слой для взаимодействия с физическим миром науки.

В отличие от MCP, ориентированного на подключение данных, SCP поддерживает подключение лабораторного оборудования, расширенные метаданные экспериментов и API для оркестрации сложных рабочих процессов.

Фактически это позволяет ИИ-агентам напрямую управлять приборами и обмениваться результатами между различными институтами. Технология уже обкатана на платформе Internal Discovery, где доступно более 1600 инструментов, преимущественно для биологии, физики и химии.
arxiv.org

✔️ OpenAI переводит производство своего первого гаджета на заводы Foxconn.

Компания Сэма Альтмана меняет стратегию выпуска дебютного аппаратного устройства под кодовым именем «Gumdrop». По данным Economic Daily News, OpenAI отказалась от услуг китайской Luxshare и передала контракт тайваньскому гиганту Foxconn, чтобы исключить материковый Китай из цепочки поставок - сборка будет развернута на мощностях во Вьетнаме или США.

Gumdrop находится на стадии проектирования и, вероятно, это будет умная ручка или носимый аудио-гаджет. Устройство получит камеру и микрофон, а его киллер-фичей станет нативная интеграция с ChatGPT для оцифровки и анализа рукописных заметок.
Релиз устройства запланирован на 2026–2027 годы.
money.udn.com

✔️ Попытка главы Microsoft защитить репутацию ИИ обернулась вирусным трендом «Microslop».

Сатья Наделла непреднамеренно спровоцировал имиджевый кризис, опубликовав в конце 2025 года призыв к обществу «перерасти» использование термина «slop» в отношении генеративного контента. Реакция сообщества оказалась мгновенной: эффект Стрейзанд вывел в тренды тег «Microslop», ставший символом отторжения агрессивной политики компании по повсеместному внедрению ИИ.

Пользователи выражают недовольство тем, что Microsoft принудительно встраивает Copilot в каждый продукт, игнорируя реальные потребности аудитории. Пока руководство Big Tech обещает глобальные прорывы, рынок фиксирует негативные побочные эффекты: от дефицита и удорожания памяти и сокращения рабочих мест до засорения экосистемы бесполезными функциями.
windowscentral.com

✔️ Neuralink запускает серийное производство нейро-чипов.

Илон Маск подтвердил планы компании начать массовый выпуск интерфейсов «мозг-компьютер» в 2026 году. Технологический процесс станет полностью автономной хирургической процедурой: роботы будут устанавливать импланты без прямого участия людей-нейрохирургов.

Проект уже вышел за рамки лабораторных экспериментов - база пациентов с активными имплантами достигла 12 человек. Устройства позволяют людям с тяжелыми нарушениями моторики управлять цифровыми интерфейсами и игровыми контроллерами напрямую через нейронную активность.
reuters.com

✔️ Армия США ввела специальность по ИИ и ML для офицеров.

С 5 января Пентагон официально открыл прием заявок на новую специализацию, позволяющую офицерам строить карьеру в ИИ и ML. Приоритет при отборе отдается кандидатам с профильным образованием и опытом разработки.

Офицеры пройдут углубленную подготовку, после чего займутся созданием, развертыванием и поддержкой военных ИИ-систем. Инициатива реализуется на фоне жестких дедлайнов по внедрению ИИ-управления в штабах к 2027 году и обеспечению армии автономными системами до конца 2026 года.

Параллельно Минобороны США запустило платформу GenAi.mil с Gemini for Government на борту, чтобы предоставить армии доступ к передовым языковым моделям. Таким образом, ИИ перестает быть экспериментальным направлением и становится штатной функцией офицерского состава.
federalnewsnetwork.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
80👍23🔥11😁1🦄1
🌟 Technology Innovation Institute выпустила компактную модель Falcon H1R 7B.

Falcon H1R 7B — языковая ризонинг-модель с открытыми весами на 7 млрд. параметров и контекстным окном в 256 тыс. токенов.

Разработчики утверждают, что их модель способна на равных тягаться с конкурентами от 14 до 47 млрд. параметров. То есть, речь идет о сопоставимой эффективности при разнице в размерах от 2 до 7 раз.

Архитектурно - это гибрид классического Transformer и Mamba. Такое решение принято не ради эксперимента, а ради скорости обработки данных, где Mamba традиционно сильна.

Фундаментом стала базовая модель Falcon H1 Base, которую прогнали через SFT, затем подключили масштабирование через RL с использованием GRPO.

Одной из фишек новинки стало использование механизма Deep Think with confidence (DeepConf) на этапе test-time scaling. Он позволяет модели повышать точность ответов, при этом снижая общее количество генерируемых токенов.

Если смотреть на метрики эффективности, то Falcon H1R 7B выдает до 1500 токенов в секунду. Для сравнения, это почти в 2 раза быстрее, чем показатели Qwen3-8B.

В тесте AIME 24 модель показала точность 88,1%. В математическом бенчмарке MATH-500 результат - 97,4%. И даже в сложном GPQA-D Falcon выбил 61,3 балла.

Веса уже на Hugging Face, причем доступны как полные чекпоинты, так и квантованные версии в формате GGUF.

С запуском проблем быть не должно: заявлена поддержка всех основных фреймворков: Transformers, vLLM и SGLang.


📌Лицензирование: Falcon LLM License.


🟡Статья
🟡Модель
🟡Набор GGUF
🟡Техотчет
🟡Demo
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #FalconH1R #TII
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5526🔥16🤗2🦄1
Media is too big
VIEW IN TELEGRAM
✔️ NVIDIA представила на CES 2026 платформу нового поколения Vera Rubin.

Компания анонсировала архитектуру, которую индустрия ждала лишь к концу года. Ядром системы стал GPU Rubin, который дает 5х-прирост вычислительной мощности в задачах обучения ИИ по сравнению с Blackwell. Платформа объединяет 6 компонентов: центральный процессор Vera, сам GPU Rubin, коммутатор NVLink шестого поколения, DPU BlueField4 и сетевой адаптер Connect-X9.

В NVIDIA говорят, что переход на Vera Rubin позволит сократить необходимый парк видеокарт на 75% и уменьшить итоговые затраты в 7 раз относительно Blackwell. Продукты и сервисы на базе нового железа станут доступны через партнеров компании во второй половине 2026 года.
theverge.com

✔️ Boston Dynamics встроит ИИ-модели Google в гуманоида Atlas.

Компании объявили о стратегическом партнерстве, которое объединит аппаратную платформу Boston Dynamics с базовыми моделями Gemini Robotics. Цель коллаборации — превратить робота Atlas из исполнителя в интеллектуального агента, способного воспринимать окружающую среду и обучаться новым задачам на лету.

Благодаря системам DeepMind, обновленный Atlas сможет понимать команды на естественном языке и самостоятельно выстраивать логику действий. Первые серийные образцы поступят в пилотную эксплуатацию на объекты Hyundai и Google DeepMind уже в этом году. Полноценное внедрение роботов в промышленные процессы намечено на 2028 год с плановым тиражом до 30 000 единиц ежегодно.
bostondynamics.com

✔️ Из OpenAI уходит глава команды Reasoning Models и один из создателей GPT-4.

Джерри Творек, проработавший в компании почти 7 лет, объявил об увольнении. Он был одной из ключевых фигур в технической команде OpenAI: участвовал в создании GPT-4, ChatGPT и первых моделей для генерации кода.

В последнее время Творек руководил направлением «Reasoning Models», отвечая за ризонинг-системы. Именно его группа стояла за разработкой архитектур o1 и o3, которые стали фундаментом последних релизов компании.

В прощальном сообщении Джерри сообщил, что хочет заняться исследованиями, которые «трудно реализовать внутри OpenAI». О новом месте работы Творека не сообщается.
Jerry Tworek в сети Х

✔️ Amazon запустила веб-версию обновленного ассистента Alexa+.

Alexa.com — браузерный интерфейс генеративного чат-бота, поддерживающего бесшовную синхронизацию контекста и истории диалогов с физическими устройствами Amazon Echo и Fire TV. На этапе раннего доступа взаимодействие ограничено текстовым вводом, голосовые функции в веб-версии пока отсутствуют.

Главной фишкой Alexa+ стала интеграция с экосистемой Amazon для решения прикладных задач. Помимо стандартной генерации контента и поиска информации, ассистент управляет умным домом, оформляет заказы продуктов и бронирует услуги. Монетизация сервиса в 2026 году будет гибридной: Alexa+ войдет в подписку Amazon Prime без доплат, а для остальных пользователей доступ обойдется в $19.99 в месяц.
aboutamazon.com

✔️ C# стал языком 2025 года по версии TIOBE.

Индекс TIOBE подвел итоги года: звание «Язык 2025 года» досталось C#, который показал рекордный рост популярности (+2.94%)? однако в общем зачете он по-прежнему занимает 5-ю строчку. Абсолютным лидером остается Python с 22.61% долей рынка.

В первой пятерке произошли перестановки: язык C поднялся на 2 место, сместив C++ на 4-ю позицию; 3 место досталось Java, а R вернулся в топ-10. Провал года - Go, который неожиданно сдал позиции, опустившись сразу на 16-е место.

Индекс оценивает популярность технологий на основе поисковых запросов, активности комьюнити и количества обучающих материалов.
tiobe.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6933👍16😨2
🌟 Открытые модели и инструментарий для автопилотов от NVIDIA.

NVIDIA, сдержала обещания c NeurIPS 2025 и сделала еще один шаг к тому чтобы автомобили наконец научились понимать контекст вождения, а не просто детектировать разметку.

Современные автопилоты неплохо справляются со стандартными ситуациями. Но главная головная боль инженеров — это редкие, сложные сценарии, которые почти невозможно предугадать. Традиционные архитектуры, где восприятие отделено от планирования, часто пасуют, когда случается что-то нестандартное.

И вот здесь предлагается подход, где модель учится рассуждать причинно-следственными связями, почти как человек, разбирая ситуацию шаг за шагом. А это важный фактор для безопасности и доверия к системе.

🟡NVIDIA выкатила целую экосистему, которую можно пощупать руками:

🟢Alpamayo - первая в индустрии 10 миллиардная VLA-модель с поддержкой СoT, созданная специально для исследований. Она берет на вход видеопоток и генерирует не только траекторию движения, но и "reasoning traces" — то есть буквально объясняет логику своего решения.

Модель позиционируется как модель-учитель, которая может быть использована для обучения более компактных моделей или для авто-разметки данных.

🟢AlpaSim - полностью открытый, end-to-end фреймворк для симуляции, который позволяет моделировать реалистичные сенсоры и трафик, создавая идеальную песочницу для тестов.

🟢Physical AI Open Datasets - пожалуй, самый богатый датасет для автономного вождения на сегодняшний день. Туда входит более 1700 часов записей вождения из самых разных географических зон и условий. И, что важно, там куча тех самых редких кейсов, о которых мы говорили выше.

На практике, NVIDIA предлагает применять эти инструменты в своих решениях NVIDIA Cosmos и NVIDIA Omniverse.

В них можно дообучать модели на своих данных, валидировать их в симуляции и затем деплоить на железо.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
60🤩35👍33🔥20🤓6👏5👌2🤗1
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI запустила ChatGPT Health.

ChatGPT Health — отдельный раздел чат-бота исключительно для запросов, связанных со здоровьем, с возможностью интеграции с сервисами трекинга: Apple Health, MyFitnessPal, а также с личными медицинскими записями для анализа результатов анализов и истории болезни.

Вопросы приватности и безопасности данных решены с помощью многоуровневого шифрования и отдельной инфраструктуры; данные из ChatGPT Health по умолчанию не используются для обучения основных моделей ChatGPT.

Доступ к бета-версии открыт через лист ожидания для пользователей за пределами ЕС, Швейцарии и Великобритании; интеграция с медицинскими картами пока доступна только в США.
openai.com

✔️ Китай проверяет сделку по покупке Manus на нарушение экспортного контроля.

Министерство торговли КНР начало расследование приобретения стартапа Manus. Власти подозревают, что релокация сотрудников и технологий компании из Китая в Сингапур с последующей продажей американскому техно-гиганту могла быть попыткой обхода требований по лицензированию экспорта технологий.

Команда и основатели Manus покинули Китай летом 2025 года, чтобы дистанцироваться от геополитических рисков. Этот маневр позволил привлечь $75 млн. от американского фонда Benchmark, что ранее уже вызывало вопросы у Минфина США.

Компания Цукерберга утверждает, что на момент закрытия сделки в Manus не осталось китайского капитала, однако Пекин намерен выяснить, легально ли технологии покинули страну до того, как стартап сменил юрисдикцию.
ft.com

✔️ Siemens и NVIDIA создадут ИИ-ОС для заводов.

Компании объявили о расширении партнерства ради создания единой среды Industrial AI Operating System. Она построена на концепции централизованного интеллекта, который позволит непрерывно анализировать цифровые двойники и валидировать любые производственные изменения в виртуальной среде до их реализации в поле. Эталоном такого производства станет завод Siemens в немецком Эрлангене.

Для инженеров альянс готовит новые инструменты. В середине 2026 года выйдет Digital Twin Composer на движке NVIDIA Omniverse для построения промышленных мета-вселенных, а интеграция библиотек CUDA-X в программный стек Siemens обещает кратный прирост производительности в проектировании полупроводников и тяжелых инженерных симуляциях.
press.siemens.com

✔️ OpenAI, Anthropic и Google разделили лидерство в Intelligence Index 4.0.

Artificial Analysis представила 4-ю версию рейтинга ИИ-моделей, зафиксировав жесткую конкуренцию между топовыми игроками. Формальное лидерство досталось GPT-5.2 (Х-High), однако Claude Opus 4.5 и Gemini 3 Pro отстают от нее с минимальным разрывом, фактически образуя тройку равных лидеров.

В новой итерации индекса заметно просели абсолютные показатели: лучшие модели теперь набирают в районе 50 баллов против 73 в прошлой версии. Это связано с ужесточением методологии и ротацией тестовых наборов.

На смену AIME 2025 и MMLU-Pro пришли более суровые тесты: AA-Omniscience для проверки эрудиции и склонности к галлюцинациям, GDPval-AA для прикладных задач в 44 сферах и CritPt, оценивающий способности в физических исследованиях. Итоговый балл формируется из 4-х категорий: агенты, программирование, научное мышление и общие задачи.
Artificial Analysis в сети Х

✔️ Учёные из Ватерлоо научились бэкапить квантовые данные.

Команда из Университета Ватерлоо решила одну из фундаментальных проблем квантовых вычислений — невозможность прямого копирования информации. Суть метода, описанного в Physical Review Letters, заключается в шифровании квантовой информации в процессе ее копирования.

Как поясняют авторы, запрет на клонирование можно обойти, если создавать неограниченное количество зашифрованных дубликатов кубитов. Механизм защиты работает через одноразовые ключи: как только пользователь расшифровывает одну из копий, ключ автоматически аннулируется.

Это открытие фактически легализует создание «квантового облака». Технология позволяет хранить квантовые данных на распределенных серверах и создать аналог квантового Dropbox или Google Drive.
uwaterloo.ca

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
117👍67🔥9🎉8👏3😁1🤗1
Многие инженеры играются с LLM, но до продакшна у проектов дело доходит редко.
Пока всё ограничивается промптами, кажется, что всё просто.
Но как только появляется реальный кейс, сразу всплывают вопросы: архитектура, масштабирование, стабильность, контроль качества.

Курс «LLM-инженер» от GIGASCHOOL и AI Talent Hub сделан как раз про это.
Не про «потыкать модель», а про то, как строятся и запускаются LLM-продукты в реальных условиях.

Что разбирают на курсе:
- дообучение моделей: fine-tuning, PEFT, LoRA / QLoRA, основы RLHF
- инструменты: LangChain, LangGraph, работа с векторными базами
- архитектуры: RAG, поиск, безопасность LLM-продуктов
- MLOps: пайплайны, деплой, трекинг, версии моделей
- дополнительные темы: мультиагентные решения и AI-ассистенты

Это уже третий поток. Преподают люди, которые ежедневно работают с LLM:
Кристина Желтова (Газпромбанк), Александр Потехин (X5 Tech), Евгений Кокуйкин (HiveTrace).

На выходе - готовый проект в портфеле и понимание, что ты действительно управляешь процессом, а не просто повторяешь туториалы.

- Старт: 26 января
- Длительность: 25 недель (с каникулами)
- Итог: диплом о переподготовке

Подробности - на странице программы.
👍78👏18😁1710🤓10😎8🙈6🗿4🤣3🎉2💯2
📌ИИ-модель от Стэнфорда диагностирует 130 заболеваний по анализу одной ночи сна.

Стэнфордский университет натренировал SleepFM — фундаментальную модель для прогноза целого спектра патологий: от мерцательной аритмии и инфаркта миокарда до деменции и болезни Паркинсона.

Полисомнография — «золотой стандарт» изучения сна: человека обвешивают датчиками (ЭЭГ, ЭКГ, дыхание, мышцы) и пишут гигабайты сырых сигналов.


Но в ML-мире эти данные используются бездарно. Существующие модели тренировались на мелких датасетах сугубо под узкие задачи (найти апноэ, определить фазу сна).

Огромный пласт физиологической информации о здоровье пациента просто игнорировался, потому что размечать вручную сотни часов записи под каждую болячку — невозможно.

К тому же, если в одной клинике датчик ЭЭГ повесили чуть иначе или он отвалился, обычная модель ломалась.

В университете поняли, что врачи-разметчики не нужны, нужны объемы. Они собрали огромный датасет из 585 тыс. часов записей сна более 65 тыс. пациентов и придумали уникальный алгоритм обучения SSL для будущей модели.

🟡LOO-CL (Leave-One-Out Contrastive Learning)

Вместо того чтобы учить модель предсказывать диагноз, еt заставили решать пазл: система получает на вход сигналы от 3-x модальностей (сердце, мышцы, дыхание) и должна предсказать эмбеддинг четвертой (мозговые волны).

Это заставляет нейросеть на базе 1D CNN и Transformers выучивать глубокие, скрытые связи между физиологическими процессами.

🟡Вторая фишка — Channel-Agnostic Attention.

Модели все равно, какие именно датчики подключены и в каком порядке. Если канал отвалился или отсутствует, attention pooling просто перераспределяет веса, и инференс продолжается.

🟡SleepFM научилась читать по сну не только бессонницу.

Получив на вход 1 ночь записи, модель предсказывает риск 130 заболеваний, причем она делает это точнее, чем специализированные модели, обученные с учителем: риск болезни Паркинсона выявляется в 89% случаев, деменции — в 85%, а вероятность сердечного приступа — в 81%.

Авторы работы полагают, что с развитием носимой электроники такая диагностика может перекочевать из лабораторий в умные часы, а тесты модели доказали, что что в шуме сигналов сна может быть скрыта полная медкарта пациента.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍141🔥64👏5020😁11🤩8👀5👌2🤓2👻2