Big Data AI – Telegram

Big Data AI

17.6K subscribers

988 photos

127 videos

19 files

978 links

@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe

Download Telegram

About

Blog

Apps

Platform

17.6K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

Новая модель для анализа УЗИ сердца — EchoJEPA.

- Обучена на 18 млн видео эхокардиографии
- Снижает ошибку оценки фракции выброса левого желудочка примерно на 20% по сравнению с лучшими существующими моделями
- Работает zero-shot даже на детских исследованиях, на которых не обучалась
- Устойчива к шуму и лучше выделяет именно структуры сердца

Интересен сам подход.

EchoJEPA построена на архитектуре JEPA (идея Yann LeCun):
- модель учится понимать структуру и движение, а не просто пиксели
- предсказывает представления (embeddings), а не изображение целиком
- за счёт этого лучше обобщает на новые данные

Что это даёт на практике:

- более стабильные измерения при анализе УЗИ
- меньше зависимости от качества изображения
- потенциально — автоматическую предварительную оценку для врача

Это хороший пример того, как foundation-подходы начинают работать в реальных медицинских задачах, а не только в общих CV-бенчмарках.

Paper: https://arxiv.org/abs/2602.02603
Code: https://github.com/bowang-lab/EchoJEPA

❤11👍3

1.88K views14:26

🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇

🖥 ИИ: t.me/ai_machinelearning_big_data

🖥 Python: t.me/pythonl

🖥 Linux: t.me/linuxacademiya

🖥 C++ t.me/cpluspluc

🖥 Docker: t.me/DevopsDocker

🖥 Хакинг: t.me/linuxkalii

🖥 Devops: t.me/DevOPSitsec

👣 Golang: t.me/Golang_google

🖥 Аналитика: t.me/data_analysis_ml

🖥 Javascript: t.me/javascriptv

🖥 C#: t.me/csharp_ci

🖥 Java: t.me/javatg

🖥 Базы данных: t.me/sqlhub

👣 Rust: t.me/rust_code

🤖 Технологии: t.me/vistehno

💰 Экономика и инвестиции в ИИ t.me/financeStable

💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi

🖥 Chatgpt бот в тг: t.me/Chatgpturbobot

📚 Бесплатные ит-книги: https://t.me/addlist/HwywK4fErd8wYzQy

🖥Подборка по Golang: https://t.me/addlist/MUtJEeJSxeY2YTFi

⚡️ Лучшие ИИ ресурсы: https://t.me/addlist/2Ls-snqEeytkMDgy

Самое лучшее в этом: ты учишься даже тогда, когда “нет времени, просто потому что читаешь правильную ленту.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1

1.34K views13:04

🧠 UnsolvedMath - 1000+ открытых математических задач как бенчмарк для ИИ

Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.

Выложен датасет UnsolvedMath — это:
- 1000+ открытых математических проблем
- 600+ задач из списка Эрдёша
- аккуратно структурировано в machine-friendly формате

Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.

Почему это важно

Обычные тесты:
- часто содержат задачи, похожие на обучающие данные
- проверяют знание, а не исследовательское мышление

UnsolvedMath:
- требует построения новых гипотез
- проверяет глубину логики
- показывает, способна ли модель делать научно полезные инсайты

Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.

Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.

Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.

https://huggingface.co/datasets/ulamai/UnsolvedMath

⚡3👍1🔥1

1.45K views15:03

Forwarded from Machinelearning

📌

OVQA: прощай, KV-cache offloading.

В Zyphra придумали как усидеть на двух стульях сразу, когда хочется резиновый контекст, но под рукой нет тонны памяти.

То. что они предложили, называется Online Vector-Quantized Attention - это модификация векторного квантования, которая учит словарь думать на лету.

В классическом VQ ключи заменяются ближайшими центроидами из статичного словаря. Это бустит вычисления, но создает проблему: словарь обучен на одних данных, а во время генерации модель видит совсем другое распределение ключей. Ошибка квантования растет, внимание теряет точность и как итог: VQ начинает плавать.

Так вот, модификация в том, чтобы отказаться от статического словаря в пользу адаптивного к текущей последовательности: каждый новый токен обновляет только один центроид - тот, к которому ближе всего.

Это разреженное обновление работает как защита от катастрофического забывания: старая информация не вымывается новой волной токенов, а аккуратно перезаписывается по мере необходимости.

Плюс есть хард-лимит на размер состояния, после достижения которого объем памяти перестает расти, а вычисления становятся строго линейными.

🟡

Результаты тестовых экспериментов

🟢Модель, обученная на 4К токенах, уверенно справлялась с контекстом до 64К без деградации качества;

🟢На внутриконтекстном поиске OVQ почти не отставала от полноценного самовнимания, потребляя при этом в 4 раза меньше памяти;

🟢На In-Context Learning VQ провалился, а OVQ вышла на уровень классического внимания, используя всего ~4К центроидов;

🟢Сравнения с линейными альтернативами (Mamba2 и дельта-сети) тоже в пользу OVQ: она стабильнее держит долгий контекст без просадок точности;

🟠В задачах Positional ICR OVQA работает чуть хуже, чем классическое внимание но все равно достойно.

Очень хочется надеяться, что OVQ - это предтеча настоящего непрерывного обучения, где в светлом будущем вместо бесконечно пухнущего KV-кэша появится компактная, но живая память, способная удерживать важные детали без потерь.

🟡

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #LLM #OVQA #Zyphra

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥1

1.41K views06:24

Forwarded from Машинное обучение digest

⚡️

Reuters сообщает: исследователи обнаружили множество публичных серверов с open-source LLM, где защитные ограничения просто удалены.

Реальность оказалась простой и немного неудобной:

Если модель можно скачать, изменить и запустить —
безопасность перестаёт быть гарантией.

Любой может:
- форкнуть репозиторий
- убрать guardrails
- изменить системные промпты
- развернуть модель в открытом доступе

Open source выигрывает в скорости и доступности.
Но open source также выигрывает и в масштабируемости злоупотреблений.

Проблема здесь не в самих моделях, а в природе открытого кода:

— ограничения можно отключить
— фильтры можно переписать
— контроль централизованно невозможен

И главный вопрос для индустрии сейчас:

Стоит ли выпускать мощные open-source модели с более жёсткими ограничениями по умолчанию?

Потому что в мире open source безопасность - это не функция.
Это лишь настройка.

Please open Telegram to view this post

VIEW IN TELEGRAM

😁8😱2👍1

1.5K views09:03

🎨 Excalidraw MCP App: Интерактивные диаграммы в чате

Сервер для потоковой передачи нарисованных от руки диаграмм Excalidraw с возможностью управления камерой и редактирования в полноэкранном режиме. Идеально подходит для создания визуализаций и архитектурных схем прямо в ваших беседах.

🚀 Основные моменты:
- Поддержка интерактивных диаграмм в чате
- Легкая интеграция с Claude.ai
- Возможность локального развертывания
- Удобный интерфейс для рисования
- Постоянные обновления и улучшения

📌 GitHub: https://github.com/antonpk1/excalidraw-mcp-app

#javascript

👍4❤2

1.48K views06:01

Корпоративный ИИ чат-бот с нуля - практическое руководство от Navicon👇

На примере кейсов продемонстрируем как спроектировать, реализовать и запустить ИИ-чат-бота внутри компании. Пойдем от бизнес-задач и архитектуры до пошагового руководства и разбора типовых проблем внедрения.

Также затронем тему альтернативных вариантов ИИ-помощников для бизнеса на примере ИИ-помощника по продажам. А еще анонсируем крупное очное мероприятие для ИИ-комьюнити.

⏰Дата и время: 19 февраля 11:00

Зарегистрироваться и узнать подробности.

❤1👍1🔥1

1.81K views07:27

Каково это - наблюдать, как ИИ за пару секунд обесценивает 4 года универа и стопку твоих сертификатов?

😁4💩3❤1👍1

1.86K views08:34

🚀 Step-Audio-R1.1 от StepFun AI только что поставил новый SOTA на лидерборде Artificial Analysis по Speech Reasoning! 🏆

И это не просто «чуть лучше» - модель обошла Grok, Gemini и GPT-Realtime, показав 96.4% точности.

Почему это реально мощно:

✅ Native Audio Reasoning (End-to-End) - рассуждает прямо в аудио, без костылей
✅ Audio-native CoT (Chain of Thought) - цепочка рассуждений «родная» для аудио
✅ Real-time streaming inference - работает в режиме стриминга, почти как живой диалог
✅ FULLY OPEN SOURCE - полностью открыта 🔥

Короче: это один из тех релизов, после которых становится понятно - аудио-ИИ выходит на новый уровень.

🌟 Demo: https://modelscope.cn/studios/stepfun-ai/Step-Audio-R1
🤖 Model: https://modelscope.cn/models/stepfun-ai/Step-Audio-R1.1

👍5❤2🔥2

1.83K views15:51

🖥

Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2🔥1

1.77K views07:33

Дать ИИ права root и надеяться на лучшее - план надёжный, как швейцарский сыр.

😁6👍2❤1🥰1

1.8K views09:31

⚡️ Маленькая модель - большие возможности.

Вышла Nanbeige4.1-3B - модель всего на 3B параметров, которая в ряде задач обходит модели в 10 раз больше.

Что внутри:

- Контекст до 256K токенов
- Встроенные агентные возможности Deep Search
- Обучение коду в два этапа:
- сначала правильность
- затем эффективность
- На ключевых бенчмарках обгоняет Qwen3-32B
- Можно запускать локально без мощных серверов
- Сильно ниже стоимость инференса
- Быстрая работа на edge и локальных машинах
- Подходит для локальных AI-агентов и автоматизации

Дешёвый Локальный AI.

Модель:
https://modelscope.cn/models/nanbeige/Nanbeige4.1-3B

👍5❤3

1.95K views05:57

🔌 OpenAI продолжает собирать лучшие умы индустрии.

На этот раз компания пригласила к себе Питера Штайнбергера - создателя нашумевшего проекта OpenClaw.

Сам Альтман назвал его «гением». В OpenAI он будет работать над следующим поколением персональных AI-агентов и именно агенты, по словам компании, станут основой будущих продуктов.

OpenClaw не закрывают.
Проект останется open-source, и OpenAI обещает продолжать его поддержку.

Но самое впечатляющее - скорость.

Путь OpenClaw:
- идея и разработка одним человеком
- быстрый рост и хайп в сообществе
- приглашение в OpenAI

Всё это - за 82 дня.

В эпоху AI окно возможностей стало экстремально коротким.
Один сильный проект может изменить карьеру за пару месяцев.

Мотивация простая: сейчас лучшее время, чтобы запускать своё.

https://x.com/sama/status/2023150230905159801?s=46

❤4👍3🔥2

1.68K views08:03

⚡️ Датасет UltraData-Math сейчас в топе трендов на HuggingFace. Его идея - сделать упор не на объём, а на качество данных для обучения математическому мышлению.

После обучения на этом наборе модель MiniCPM-1.2B показала результат 61.79 на GSM8K - уровень, который обычно требуют гораздо более крупные модели и массивные датасеты. При этом она сохраняет общие знания.

Что в нём особенного

- Минимум шума - данные проходят оценку качества, слабые примеры удаляются
- Не только учебники — есть обсуждения с форумов, разборы решений и многошаговые диалоги
- Несколько уровней плотности (L1–L3) — можно выбрать вариант под свои вычислительные ресурсы

Вывод простой

Для сильной модели важен не только размер, но и чистота и полезность данных.

Датасет подойдёт тем, кто работает с дообучением или обучает компактные модели.

https://huggingface.co/datasets/openbmb/UltraData-Math

❤2👍2🔥2

1.67K views09:04

⚡️ GLM-5 - новый лидер среди open-source LLM

Вышёл технический отчёт по модели, которая показывает SOTA и особенно сильна в реальных задачах разработки.

DSA (Dynamic Sparse Attention)
- снижает стоимость обучения и инференса
- сохраняет качество на длинном контексте

Async RL Infrastructure
- генерация отделена от обучения
- посттренинг проходит значительно быстрее и эффективнее

Agent RL
- обучение на длинных цепочках действий
- высокая производительность в реальных задачах software engineering

Что это значит

Фокус смещается с «больше параметров» на:
- эффективность
- длинные сценарии
- агентное поведение
- практические задачи, а не бенчмарки

Open-source модели всё быстрее догоняют закрытые уже не по возможностям, а по эффективности и применимости.

http://arxiv.org/abs/2602.15763

❤6👍4🔥1

1.72K views06:24

💰

OpenAI готовится к крупнейшему раунду финансирования в истории AI

OpenAI близка к закрытию первой фазы нового раунда, общий объём которого может превысить $100 млрд. Если условия подтвердятся, оценка компании может вырасти до ~$850 млрд.

Что важно в этом раунде

Это не классическое финансирование "деньги в обмен на долю".

Сделка структурирована как многоэтапный, много-траншевый раунд, где инвестиции идут не только в виде капитала, но и в виде инфраструктуры:
- облачные мощности
- GPU и ускорители
- долгосрочные вычислительные ресурсы

То есть партнёры фактически инвестируют compute, а не только деньги.

Предполагаемое участие компаний:
- Amazon - до $50 млрд
- SoftBank - до $30 млрд
- Nvidia - около $20 млрд
- Microsoft - стратегический партнёр (детали не раскрыты)

Ожидается, что распределение долей и обязательств будет финализировано к концу февраля 2026 года.

Оценка компании

Если первая фаза пройдёт по верхней границе:
- pre-money оценка - около $730 млрд
- post-money - более $850 млрд
- это выше предыдущей оценки ~$830 млрд

Условия ещё могут измениться, но масштаб уже понятен.

Почему это важно

1) Главный дефицит в AI - не деньги, а вычисления
Современные модели упираются в:
- GPU
- энергетику
- дата-центры
- сетевую инфраструктуру

Капитал без compute больше не решает проблему.

2) Формируется новый тип инвестиций
Это уже не венчурная модель, а инфраструктурные альянсы:
компании инвестируют, потому что:
- продают облако
- продают GPU
- закрепляют долгосрочный спрос
-
3) AI становится инфраструктурным рынком уровня нефти или электроэнергии
Участники сделки - это не фонды, а:
- облачные гиганты
- производители чипов
- глобальные финансовые конгломераты

AI-гонка окончательно сместилась из области моделей в область инфраструктуры.

Побеждает не тот, у кого лучший алгоритм.
Побеждает тот, у кого больше энергии, дата-центров и GPU.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1🤔1🤡1

1.36K views06:58

Forwarded from Machinelearning

Media is too big

VIEW IN TELEGRAM

✔️

OpenAI и Paradigm представили инструмент для оценки навыков ИИ в защите смарт-контрактов.

EVMbench - специализированный фреймворк, который проверяет, насколько хорошо языковые модели справляются с 3 задачами: находят баги в коде смарт-контрактов, эксплуатируют их в контролируемой среде и исправляют без нарушения логики контракта.

Тестовая база построена на реальных примерах багов, найденных ранее в ходе аудитов и профильных соревнований.

Авторы рассчитывают, что EVMbench станет отраслевым стандартом, что важно для защиты активов в секторе децентрализованных финансов, где исправить ошибку после деплоя уже невозможно.
openai.com

✔️

Google обновила NotebookLM.

Теперь в NotebookLM сгенерированные презентации можно дорабатывать прямо в диалоге с ИИ, без ручной правки каждого слайда. Достаточно написать, что изменить, и модель перестроит контент сама.

Второе обновление - экспорт в PPTX. Готовую презентацию можно скачать и открыть в Microsoft PowerPoint. Поддержка Google Slides анонсирована, но пока не запущена.
NotebookLM в сети Х

✔️

Perplexity полностью отказывается от рекламы.

ИИ-поисковик прекратил эксперименты с рекламной монетизацией, посчитав, что она фундаментально противоречит миссии сервиса. Несмотря на то, что стартап одним из первых начал тестировать спонсорские ответы в 2024 году, сейчас руководство решило свернуть эту инициативу.

Представители компании пояснили, что их главная ценность - это точность и объективность информации. Даже если промо-блоки четко маркированы и технически не влияли на генерацию текста, сам факт их наличия заставляет людей сомневаться в честности ответов.

В Perplexity пришли к выводу, что для удержания платных подписчиков пользователь должен быть уверен, что получает лучший возможный ответ, не искаженный коммерческими интересами рекламодателей.
ft.com

✔️

Gemini теперь может генерировать музыку.

В чат-бот добавили модель Lyria 3 от DeepMind. На вход она принимает текст, картинку или видео, а если указать в запросе имя исполнителя, Gemini создаст трек в похожем стиле (но скопировать артиста напрямую не получится).

Инструмент в бете, но уже пишет полноценные треки на английском, немецком, испанском, французском, хинди, японском, корейском и португальском языках. Вся музыка, созданная через Lyria 3, получает метку SynthID.
blog.google

✔️

В MIT приспособили языковую модель для удешевления производства лекарств.

Команда инженеров-химиков института адаптировала архитектуру LLM для нужд биотехнологий. Созданный алгоритм помогает промышленным дрожжам Komagataella phaffii эффективнее производить сложные белки, используемые в вакцинах и препаратах от рака.

Суть разработки - решении проблемы генетических синонимов. Одна и та же аминокислота может кодироваться разными триплетами ДНК (кодонами), но на классических методах оптимизации выбор самых часто встречающихся вариантов нередко приводит к дефициту ресурсов клетки и снижению выработки.

Инженеры обучили модель на геноме дрожжей, заставив ее воспринимать ДНК как текст. ИИ не просто запомнил частоту кодонов, но и усвоил скрытый контекст — «синтаксис» их взаимодействия. В тестах на реальных белках, включая человеческий гормон роста и моноклональные антитела, последовательности от ИИ превзошли результаты лучших коммерческих инструментов в 5 случаях из 6.
Технология обещает сократить расходы на разработку новых лекарств, которые на этапе подготовки производства сейчас составляют до 20% от общего бюджета.
news.mit.edu

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2

1.3K views07:33

Состояние на февраль 2026

❤7👍2😁1

1.52K views08:03