Анализ данных (Data analysis)
45.2K subscribers
2.03K photos
205 videos
1 file
1.83K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📚 AICI — новый уровень контроля над генерацией текста в LLM. Это не просто очередная библиотека, а принципиально новый подход к интеграции пользовательской логики в процесс генерации текста.

Суть в том, что разработчики с помощью данного инструмента дают возможно встраивать собственные алгоритмы прямо в процесс декодирования токенов. Например, можно динамически редактировать промпты, ограничивать вывод по грамматике или координировать несколько параллельных генераций. Всё это работает через компактные Wasm-модули, выполняющиеся на CPU параллельно с GPU-вычислениями модели.

🤖 GitHub

@data_analysis_ml
Открыт приём научных работ в журнал Международной конференции AI Journey с призом за лучшую статью
— 1 миллион рублей.


Ключевые исследования будут опубликованы в спецвыпуске журнала «Доклады РАН. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics.

Условия участия:
✓ Оригинальные исследования (без плагиата)
✓ Языки: русский/английский
✓ Дедлайн подачи — 20 августа 2025

Подать заявку → https://aij.ru/science
🚀 MaxText — высокопроизводительный LLM-фреймворк для на Python/JAX для TPU и GPU. В отличие от многих аналогов, он достигает высокой эффективности без ручных оптимизаций — за счёт возможностей JAX и компилятора XLA.

Проект поддерживает Llama 2/3, Mistral, Mixtral, Gemma и DeepSeek, а его ключевая фишка — линейная масштабируемость: от одного устройства до кластеров в 51 000 чипов. При этом код остаётся минималистичным, что упрощает кастомизацию под исследовательские и продакшн-задачи.

🤖 GitHub

@data_analysis_ml
Forwarded from Machinelearning
🖥 OpenAi представлют новые модели o-серии (o3 и o4-mini)

OpenAI утверждает, что эти модели способны генерировать новые и полезные идеи.

Обе будут добавлены с сегодняшнего дня в ChatGPT и API.

Эти ризонинг модели стали лучше использовать внутренние инструменты для решения сложных задач.

Модель o3 установила новый рекорд на AIME 2025 с точностью 98.4%.

А вот o4-mini, набрала 99.5% — лучший результат среди всех моделей.

На Codeforces модели набирают более 2700 баллов, что помещает их в число 200 лучших программистов в мире!

На Humanity Last Exam её показатели находятся на уровне флагманской модели Deep Research.

API — о3 сильно дешевле о1: 10/40$ вместо 15/60$, а o4-mini будет доступна для БЕСПЛАТНЫХ пользователей

С помощью внутренних инструментов модель также умеет рассуждать и работать с изображениями (например, использовать Python для их преобразования).

Эти способности к рассуждению достигнуты благодаря масштабированию как во время обучения, так и во время инференса.

Трансляция: https://www.youtube.com/watch?v=sq8GBPUb3rk

@ai_machinelearning_big_data

#openai
Please open Telegram to view this post
VIEW IN TELEGRAM
Алгоритмическая торговля и количественный анализ: успех зависит от точного тестирования. Как избежать убытков и ошибок в логике торговых стратегий?

На открытом уроке 28 апреля в 20:00 мск научим вас, как правильно тестировать торговые стратегии с помощью самых популярных инструментов. Применение таких инструментов, как pandas, backtrader и backtesting, поможет вам избежать переобучения и непредсказуемых рыночных условий.

Используя полученные знания, вы сможете точно оценивать эффективность своих стратегий, настраивать метрики, такие как доходность и Sharpe ratio, и улучшать результаты с минимальными рисками.

➡️ Присоединяйтесь к открытому уроку и получите скидку на большое обучение «ML для финансового анализа»: https://otus.pw/lQq0/?erid=2W5zFHubd2g 

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Roboflow Trackers

Roboflow/trackers — это новая, унифицированная Python‑библиотека object‑tracking, в которой «с нуля» реализуются популярные алгоритмы многoобъектного трекинга (первым уже готов SORT, вскоре планируются Deep SORT, ByteTrack и др.) 

Проект входит в open‑source‑экосистему Roboflow (Supervision, RF‑DETR и т.д.) и предоставляет единый API поверх разных детекторов, так что вы можете, например, скрестить Ultralytics YOLO‑v9, MMDetection или HuggingFace Transformers с любым трекером из пакета без «клея»‑оберток.

Установка
pip install trackers


import supervision as sv
from rfdetr import RFDETRBase # любой детектор
from trackers.sort_tracker import SORTTracker

model = RFDETRBase() # или Ultralytics, MMDet…
tracker = SORTTracker()

def callback(frame, _):
dets = model.predict(frame) # сводим к sv.Detections
dets = tracker.update(dets) # добавляем tracker_id
return sv.LabelAnnotator(
text_position=sv.Position.CENTER
).annotate(frame, dets, dets.tracker_id)

sv.process_video("in.mp4", "out.mp4", callback)



На выходе ‑ ролик с пронумерованными боксами, где каждый объект сохраняет ID между кадрами.

Лицензия без ограничений (Apache‑2.0) и возможность править алгоритм под себя.

👉 Репозиторий
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Строим рекомендательную систему фильмов на Kaggle

Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬

Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.

Что будем делать на вебинаре:
🟠Разберем имеющиеся данные фильмов с их оценками
🟠Проведем предобработку данных
🟠Построим рекомендательную систему на основе машинного обучения
🟠Проведем расчет и анализ метрик на основе результатов работы модели

Вебинар будет интересен как новичкам, так и уже опытным специалистам

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🎮 VideoGameBench — первый в своём роде бенчмарк, который проверяет возможности VLM в реальном времени играть в 20 классических игр для Game Boy и MS‑DOS:

В списке есть: Doom II и Quake до Pokemon Red и Super Mario Land и другие.

Например, при игре в Doom. Sonnet 3.7 прошёл дальше всех и даже нашёл «синюю комнату»!

Режим реального времени: агент получает только raw‑фреймы и контролирует игру «на ходу» в режиме реального времени.

VideoGameBench‑Lite: среда автоматически ставит игру на паузу, пока модель думает, чтобы убрать задержки инференса и дать время на обдуманные действия
vgbench.com
.
Единый интерфейс: абстрагируем эмуляторы (PyBoy для Game Boy, DOSBox для MS‑DOS) и предоставляем API для передачи изображений, нажатий кнопок и проверки завершения игры
vgbench.com

Open‑source: код и примеры агентов доступны на GitHub — клонируйте, форкайте и тестируйте свои LLM/VLM‑агенты!
vgbench.com


📂 Репозиторий: https://github.com/alexzhang13/videogamebench
🔗 Документация и примеры агентов: https://www.vgbench.com/

#VideoGameBench #VLM #AI #ReinforcementLearning #AIGC

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ Tesla показала суперкомпьютер Dojo.

Tesla опубликовала изображения своего суперкомпьютера Dojo - системы, созданной на заказ для обучения ИИ-моделей проекта полного автономного вождения (FSD). Фото были опубликованы 17 апреля не случайно - это совпало с недавним заявлением Илона Маска о расширении крупного вычислительного кластера в Giga Texas. Dojo полностью работает на чипах, разработанных Tesla.
TeslaAI в Х (ex-Twitter)

✔️ Chatbot Arena трансформируется в отдельную компанию Arena Intelligence Inc.

Популярная платформа для оценки ИИ-моделей Chatbot Arena, которую используют ведущие лаборатории ИИ, официально становится компанией Arena Intelligence Inc. Это позволит команде расширить ресурсы для развития сервиса, сохранив нейтралитет тестирования. Проект, запущенный в 2023 году исследователями из UC Berkeley, давно стал ключевым инструментом для сравнения языковых моделей — его рейтинги влияют на маркетинг и развитие ИИ.

До сих пор Chatbot Arena работала на грантах и спонсорской поддержке от Kaggle, Google, Andreessen Horowitz и Together AI.
bloomberg.com

✔️ Anthropic инвестирует 1 млн. долларов в Goodfire.

Anthropic впервые инвестировала в стартап, поддержав Goodfire. Инвестиционный раунд, возглавляемый Menlo Ventures, собрал в общей сложности 50 миллионов долларов, а Anthropic внесла 1 миллион долларов.

Goodfire специализируется на механистической интерпретации - методе, который помогает разработчикам понять, как работают системы ИИ, причем методы Goodfire считается более продвинутым, чем существующие инструменты, используемые Anthropic.
theinformation.com

✔️ Википедия выпустила датасет для обучения ИИ.

Википедия представила структурированный датасет на платформе Kaggle, чтобы облегчить разработчикам ИИ доступ к данным и снизить нагрузку на свою инфраструктуру. Вместо парсинга сырого текста ботамы, теперь доступны JSON-файлы на английском и французском языках с разделами статей, краткими описаниями, инфобоксами и ссылками на изображения.

Датасет оптимизирован для ML-задач: файнтюна моделей, анализа и тестирования. Это часть стратегии Викимедии, которая не только экономит ресурсы Википедии, но и упрощает работу с контентом — вместо борьбы с ботами разработчики получают готовый инструмент.
enterprise.wikimedia.com

✔️ Количество полностью сгенерированной ИИ-музыки выросло в 2 раза на платформе Deezer.

Deezer, французский музыкальный стриминговый сервис, сообщил, что около 18 % песен, загружаемых на его платформу, создаются ИИ. Этот показатель непрерывно растет: ежедневно на платформу загружается около 20 000 композиций, созданных искусственным интеллектом, что почти вдвое больше, чем 4 месяца назад.

Deezer внедрил инструмент обнаружения ИИ для выявления музыки, созданной с помощью Suno и Udio в январе 2025 года, когда ежедневное количество загружаемых песен, созданных ИИ, составляло около 10 000.
billboard.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Мечтаешь хакнуть свою продуктивность с помощью ИИ? Приходи на AI-митап в Нижнем Новгороде! 👌

📍 Встречаемся 24 апреля в 18:00 по адресу: ул. Октябрьская, 35, пространство «Гараж».

Регистрируйся на митап и готовься к апгрейду своих скиллов!
🔥 Promptify: Python library for LLM Prompt Management

В примере на картинке Promptify использует OpenAI для выполнения распознавания именованных сущностей (NER) в медицинском тексте.

Она извлекает ключевые данные, такие как возраст, диагнозы и симптомы, из истории болезни пациента и структурирует их в удобный формат.

- Что она делает:
Берёт предложение: "Пациент — 93-летняя женщина с хронической болью в правом бедре, остеопорозом, гипертонией, депрессией и хронической фибрилляцией предсердий, поступившая для оценки и лечения сильной тошноты, рвоты и инфекции мочевыводящих путей."

Выдаёт структурированные данные, выделяя сущности:
93-летняя → Возраст

хроническая боль в правом бедре → Медицинское состояние

сильная тошнота и рвота → Симптом

Плюс метаданные: Отделение: Внутренняя медицина, Группа: Гериатрия
Почему это круто:
- Упрощает создание промптов для задач NLP.

- Поддерживает модели вроде GPT, PaLM и другие.

- Выдаёт структурированный результат (списки, словари) для лёгкой обработки.

pip3 install promptify

🖥 Github

#Python #ИИ #NLP #Promptify #МашинноеОбучение
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Gemma 3 QAT — обновлённую версию своей модели Gemma 3, оптимизированную с помощью технологии Quantization-Aware Training (QAT).

Эта модификация позволяет запускать модель на видеокартах с ограниченными ресурсами, сохраняя при этом высокое качество генерации.​

🔍 Что нового в Gemma 3 QAT
QAT-оптимизация: Благодаря использованию Quantization-Aware Training модель требует меньше оперативной памяти, что делает её доступной для запуска на более широком спектре устройств.​

Поддержка BF16: Gemma 3 QAT использует формат BFloat16, обеспечивая высокую производительность при меньших требованиях к вычислительным ресурсам.​

Улучшенная доступность: Теперь разработчики могут использовать мощные возможности Gemma 3 на стандартных GPU, таких как NVIDIA H100, без необходимости в специализированном оборудовании.​

Эти улучшения делают Gemma 3 QAT привлекательным выбором для разработчиков, стремящихся интегрировать передовые возможности ИИ в свои приложения без значительных затрат на оборудование.​

Подробнее о релизе можно узнать в официальном блоге Google: https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 Исследователи NYU представили RUKA (да-да)

Это — открытый робот‑манипулятор с приводом на сухожилиях и 15 степенями свободы, стоимостью всего $1.3 тыс., который может работать 20 часов подряд без потери производительности.

Он обучается моделям «сустав–привод» и «кончик пальца–привод» на основе данных системы захвата движения.

🔜 Подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 LLM Reasoners — это библиотека с открытым исходным кодом, разработанная для улучшения способности больших языковых моделей выполнять сложные рассуждения с использованием передовых алгоритмов! Она рассматривает многошаговые рассуждения как процесс планирования и поиска оптимальной цепочки рассуждений, достигая баланса между исследованием и эксплуатацией с помощью концепций "Мировой модели" и "Вознаграждения".

🔎 Основные особенности LLM Reasoners:

🌟 Современные алгоритмы рассуждений: Библиотека предлагает новейшие алгоритмы поиска для рассуждений с LLM, такие как Reasoner Agent, масштабирование на этапе вывода с помощью PRM, рассуждение через планирование, MCTS, Tree-of-Thoughts и другие.

🌟 Интуитивная визуализация и интерпретация: LLM Reasoners предоставляет инструменты визуализации, помогающие пользователям понимать процесс рассуждений. Даже для сложных алгоритмов, таких как Монте-Карло Tree Search, пользователи могут легко диагностировать и понимать процесс с помощью одной строки кода на Python.

🌟 Эффективные рассуждения с LLM: Библиотека оптимизирует производительность передовых методов рассуждений, интегрируя SGLang, высокопроизводительную инфраструктуру вывода LLM, поддерживающую структурированную генерацию. Также поддерживаются другие бэкенды LLM, такие как Huggingface Transformers, OpenAI API, Exllama, Fairscale, Llama.cpp и другие.

🌟 Строгая реализация и воспроизводимость: LLM Reasoners уделяет приоритетное внимание точности и надежности своих реализаций, обеспечивая, что алгоритмы не являются лишь теоретическими концепциями, а практически применимыми инструментами. Все методы тщательно разработаны, чтобы соответствовать их оригинальным формулировкам и производительности.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
В основе любого сильного проекта стоит сильный специалист.

В IT-мире сложно представить востребованного специалиста, который не разбирается в том, как работают: архитектура, API, базы данных, алгоритмы.

Без этого никуда.

И не страшно, если вы пока плохо разбираетесь в каких-то современных системах. Хуже, если продолжаете игнорировать свои пробелы в hard skills.

Начните с бесплатных уроков по архитектуре и интеграциям:

▪️мощный инструмент — SOAP UI
▪️подробное описание процесса загрузки сайта
▪️модель TCP/IP и устройства
▪️XML — это вам не ХSD

Присоединяйтесь в чат-боте по ссылке:
👇
@studyit_help_bot

🚀 Скидка на полный курс от канала — 1 000 ₽ на Stepik по промокоду DATAA до конца апреля
🔮 Instill Core — универсальный инструмент для работы с неструктурированными данными.

Этот open-source проект предлагает комплексное решение для ETL-обработки, подготовки данных для ИИ и развертывания LLM-моделей. Платформа объединяет в единый workflow обработку документов, изображений и видео, что особенно ценно для RAG-сценариев и построения AI-пайплайнов.

Instill Core легко встраивается в существующие системы через Python/TypeScript SDK или CLI. Локальный запуск возможен через Docker, а готовые рецепты позволяют быстро развернуть парсинг PDF, веб-скрапинг или сегментацию изображений.

🔗 GitHub

@data_analysis_ml