329K subscribers
4.2K photos
775 videos
17 files
4.71K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
ML-квалификация — сегодня в 16:00

Яндекс открыл регистрацию на Yandex Cup — международный чемпионат с призовым фондом 12 млн рублей и финалом в Стамбуле.

В ML-треке можно участвовать с 14 лет. Это возможность выиграть от 100 тысяч рублей и попасть в Яндекс по упрощённой схеме.

Этапы:
— регистрация до 29 октября
— онлайн-квалификация с 15 октября по 5 ноября
— финал 5–7 декабря в Стамбуле

Пора регистрироваться.
👍3214🥰5😁4🙈4🔥1🤬1
🔥 Nanochat D32 : микромодель Карпаты за $1000, которая реально работает

Карпаты написал, что завершил обучение Nanochat D32, обученной за 33 часа при бюджете $1000 (вместо $100).

Результаты - удивительно хорошие для такой «крошки»:

- 📈 CORE score: 0.31 (выше, чем у GPT-2 — ~0.26)
- 🧮 GSM8K: с 8% до 20%
- 🚀 Рост виден на всех этапах - pretraining, SFT и RL

Карпати пишет:
> «Не ждите от микромоделей чудес. Они обходятся $100–$1000, а не миллиарды долларов, как у крупных лабораторий.
> Разговаривать с моделью - как с ребёнком из детсада: они милые, ошибаются, путаются, галлюцинируют, но это весело.»


💡 Факты:
- Nanochat тренируется с нуля
- Самая маленькая модель Nanochat содержит примерно в тысячу раз меньше параметров, чем GPT-3.
- Обнолвенный скрипт run1000.sh уже доступен в репозитории

📎 Подробности и отчёт:
https://github.com/karpathy/nanochat/discussions/8

Карпати уже тестирует веб-чат с моделью (ссылку не публикует, чтобы не обвалили сервер).

Дальше -оптимизация и возможно, переход к следующему уровню масштабирования.

#AI #LLM #Nanochat #Karpathy #AIresearch #OpenSourceAI
🔥7419👍12😁2👌1💘1
Машинное обучении и ИИ станут одним из треков CyberCamp 2025

С 20 по 25 октября пройдет четвертый ежегодный CyberCamp 2025 — онлайн-кэмп по кибербезопасности для более, чем 30 000 специалистов по информационной безопасности. В программе: 6 дней эфира, 40+ докладов от топ-экспертов, 40+ практических заданий для всех и рекордный призовой фонд — 7 млн ₽ для участников киберучений.

Один из блоков деловой программы посвящен ML и ИИ. В рамках кэмпа запланированы доклады: «MLSecOps: замок для ящика Пандоры» и «Применение ML для защиты от DDoS-атак» с разбором реальных кейсов.

Участие бесплатное, программа и регистрация на сайте.
24👍9🔥9😁3
📄 PaddleOCR-VL (0.9B) — компактная Vision-Language модель нового поколения

Команда Baidu AI представила PaddleOCR-VL (0.9B) — сверхлёгкую VLM-модель, которая достигает SOTA-точности в задачах распознавания:

- текстов,
- таблиц,
- формул,
- графиков

💡 Под капотом:
- NaViT - динамический vision-энкодер
- ERNIE - облегчённая языковая модель от Baidu

⚡️ Поддержка 109 языков.


🟠GitHub: https://github.com/PaddlePaddle/PaddleOCR)
🟠HuggingFace: https://huggingface.co/PaddlePaddle/PaddleOCR-VL
🟠Docs https://paddleocr.ai/latest/en/index.html

@ai_machinelearning_big_data


#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR
Please open Telegram to view this post
VIEW IN TELEGRAM
49🔥25👍16😁2💘1
🤗 Кто реально двигает open-source ИИ: анализ топ-50 самых скачиваемых моделей на Hugging Face

Исследование показывает, какие организации и типы моделей определяют экосистему открытых моделей.


🔥 Главное:
📦 Топ-50 - это всего 3.4% всех моделей на Hugging Face, но именно они собирают более 80% из 45 миллиардов скачиваний.

Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров -
именно эти модели формируют лицо всего open-source ИИ.

📉 Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров
- 86.3% — < 500M
- 70% — < 200M
- 40% — < 100M

Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.

🧠 Популярные направления:
- NLP — 58.1%
- Computer Vision — 21.2%
- Audio — 15.1%
- Multimodal — 3.3%
- Time Series — 1.7%

Кто создаёт самые скачиваемые модели:
- Компании - 63.2% (Google лидер)
- Университеты - 20.7%
- Индивидуальные авторы - 12.1%
- НКО - 3.8%
- Прочие лаборатории - 0.3%

Какие типы моделей побеждают:
- Текстовые энкодеры - 45% всех загрузок
- Декодеры - всего 9.5%
- Энкодер-декодеры - 3%

📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки для интеграции в собственные продукты.

🇺🇸 Лидеры по странам:
США доминируют по всем категориям:
- встречаются 18 раз среди топ-50 скачиваний
- на США приходится 56.4% всех загрузок

Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям, мкоторые реально работают в продуктах и проектах.

🟠 Почитать полностью: https://huggingface.co/blog/lbourdois/huggingface-models-stats

@ai_machinelearning_big_data


#AI #HuggingFace #OpenSource #ML #Research #LLM #AITrends
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥8137❤‍🔥10👍64😐2🆒1💘1
Media is too big
VIEW IN TELEGRAM
✔️ 19% старшеклассников уже имели «романтические отношения» с ИИ-чатботом или знают кого-то, кто имел.

Такой вывод сделал Центр демократии и технологий (CDT) в новом отчёте о влиянии искусственного интеллекта на школьную жизнь.

ИИ стремительно становится нормой: 85% учителей и 86% учеников уже им пользуются, причём чаще - в личных целях, а не для учёбы. Почти половина школ (46%) официально разрешают использование ИИ-инструментов.

Подростки активно взаимодействуют с чатботами - 56% делают это еженедельно, а 31% используют для этого школьные аккаунты и устройства. При этом в классах, где ИИ используется чаще, ученики чувствуют меньшую связь с преподавателями и чаще обращаются за помощью к алгоритмам.

Отчёт фиксирует и проблемы: утечки данных происходят в 23% школ, системы мониторинга следят за учениками даже вне школы и на личных устройствах, но доверие к ним низкое. Лишь 21% учебных заведений имеют протоколы для случаев deepfake или утечки интимных изображений.
cdt

✔️ Anthropic представила Claude Skills: новую систему «папок навыков», которая делает Claude универсальным офисным ассистентом.

Claude Skills - это настраиваемые папки с инструкциями, скриптами и ресурсами, которые модель автоматически загружает для выполнения конкретных задач. Теперь Claude может самостоятельно создавать таблицы Excel с формулами, презентации PowerPoint, документы Word и заполняемые PDF-файлы.

Функция доступна пользователям тарифов Pro, Max, Team и Enterprise, которые могут создавать, изменять и делиться своими Skill-папками в приложениях Claude, Claude Code и через API. Это позволяет адаптировать модель под нужды компании или конкретной команды.

Anthropic также запустила интеграцию с Microsoft 365 через MCP-коннектор. Благодаря этому Claude теперь умеет искать документы в SharePoint и OneDrive, анализировать переписки в Outlook, находить инсайты в чатах Teams и выполнять поиск по всем корпоративным приложениям сразу.
anthropic

✔️ Исследователи предложили единое определение AGI - искусственного общего интеллекта.

Сегодня нет единого понимания, что именно считать AGI. OpenAI уже несколько раз меняла своё определение и теперь использует 5-уровневую шкалу развития, а Google DeepMind применяет собственные критерии. Из-за этого прогнозы появления AGI сильно различаются.

Авторы нового исследования считают, что унифицированное определение необходимо, чтобы чётко фиксировать прогресс и прекратить использовать термин «AGI» как маркетинговый слоган.

Исследователь koltregaskes предложил следующее определение:

AGI - это искусственный интеллект, который демонстрирует способности на уровне или выше среднего человека в десяти когнитивных областях из модели Кэттелла–Хорна–Кэрролла (CHC), описывающей структуру человеческого интеллекта.


В работе также сравниваются подходы OpenAI и Google DeepMind, что делает её первой попыткой сформировать научно измеримое определение AGI, а не абстрактное маркетинговое обещание.
X

✔️ Huawei представила SINQ - новый метод квантования для больших языковых моделей.

Исследователи из Huawei CSL разработали технику Sinkhorn-Normalized Quantization (SINQ) — быстрый и точный метод уменьшения размера моделей без предварительной калибровки и потери качества.

Главная идея - применять двойное масштабирование весов по строкам и колонкам, что помогает равномерно распределить ошибку квантования и сохранять стабильность модели даже при понижении разрядности до 4 бит.

Метод показал впечатляющие результаты:
- квантование модели Qwen3-14B занимает всего 21 секунду,
- для DeepSeekV2.5-236B — около 5 минут на одной GPU.

SINQ не требует повторного обучения и работает с любыми архитектурами - это делает его удобным решением для разработчиков, которые хотят запускать крупные модели на слабом железе.
github


@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4225👍12😁5😢2💘1
25% рабочего времени специалистов кибербеза научились экономить в Авито.

Технологическая платформа внедрила в работу отдела кибербезопасности собственную языковую модель A-Vibe. Совместно с их же разработкой, сканером DeepSecrets, который можно найти на GitHub, модель эффективно анализирует потенциально чувствительные данные и находит 99 из 100 уязвимостей. Для этого LLM заранее обучили на тысячах примерах уязвимостей.

Команда исключила человеческий фактор и ускорила проверку кода в 5 раз. Если раньше бэклог из 50 000 угроз один специалист мог анализировать полгода, то сейчас машина справляется с этим объемом за рабочий день (6–8 часов). Это экономит около 25% рабочего времени, которое специалисты по кибербезопасности теперь могут направить на решение сложных задач.

Компания планирует внедрить ИИ в оценку рисков и моделирование угроз, также рассматривают применение возможностей нейросетей в безопасности на всех этапах разработки. Что логично: по данным IBM, компании, использующие ИИ, на 100 дней быстрее узнают об утечках данных.

Подпишитесь на полезные каналы Авито
🔥2012👍7👏2
⚡️ Omni-Embed-Nemotron - новая единая модель от NVIDIA для поиска по тексту, изображениям, аудио и видео

Модель обучена на разнообразных мультимодальных данных и может объединять разные типы входных сигналов в общее векторное представление.

- Поддержка всех типов данных: текст, изображение, аудио, видео.
- Основана на архитектуре Qwen Omni (Thinker-модуль, без генерации текста).
- Контекст - до 32 768 токенов, размер embedding — 2048.
- Оптимизирована под GPU, поддерживает FlashAttention 2.

Это делает её идеальной для:
- кросс-модального поиска (поиск текста по видео или изображению);
- улучшения RAG-проектов;
- систем мультимодального понимания контента.

Просто, быстро и эффективно - всё в одном открытом решении.

🌐 Открытая модель: https://huggingface.co/nvidia/omni-embed-nemotron-3b

@ai_machinelearning_big_data


#crossmodal #retrieval #openAI #NVIDIA #OmniEmbed #multimodal #AIModels #OpenSource #Search #UnifiedEmbedding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57🔥336🥰5💘1