Анализ данных (Data analysis)
45.2K subscribers
2.05K photos
213 videos
1 file
1.85K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🧠 MaxKB — open-source ИИ-ассистент для бизнеса с RAG-движком. Это не просто чат-бот, а целая платформа для создания умных ассистентов на базе языковых моделей. Система умеет работать с документами, поддерживает сложные workflows и интеграцию через API.

Для своей работы инструмент использует комбинацию проверенных технологий: Django для бэкенда, LangChain для работы с LLM и pgvector для хранения эмбеддингов. Проект универсален, уже сейчас можно подключить как локальные модели, так и облачные.

🤖 GitHub

@data_analysis_ml
Скайнет, который мы заслужили

@data_analysis_ml
🦉Модели Qwen 3 были опубликованы на ModelScope и затем были быстро удалены.



Теперь мы знаем параметры (0.6B / 1.7B / 4B / 8B / 30B-A3B / 238B ) и архитектуру.

> Tripled language coverage, новые архитектурные фишки и контекст до 32k — всё в одной серии моделей.

- 🔧 Новые техники: global-batch load balancing (MoE), qk layernorm, тонкая настройка гиперпараметров через scaling laws
- 🚀 Dens + Mixture-of-Experts линейка: разные размеры и режимы для любых задач
- 📈 Улучшена стабильность и качество выводов по сравнению с Qwen 2.5

🤖 Модель Qwen3-8B в цифрах
- Тип: causal language model
- Параметры всего: 8,2 B (6,95 B без эмбеддингов)
- Слои: 36
- Attention heads (GQA): 32 для Q и 8 для KV
- Контекстное окно: 32 768 токенов
- разработчикам — компактная, но мощная 8B-модель с длинным контекстом
- продвинутая MoE-архитектура
- это мультиязычная plug-and-play LLM и

https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@data_analysis_ml
📄 Sparrow интеллектуальный парсинг документов с помощью LLM. Этот проект сочетает компьютерное зрение и языковые модели для извлечения информации из счетов, банковских выписок и других сложных документов.

Инструмент имеет модульную архитектуру, позволяющую запускать pipelines как локально, так и в облаке через Hugging Face. Интересно, что Sparrow не просто распознает текст, а понимает семантику документов — система может извлекать конкретные поля по JSON-шаблону и даже обрабатывать многостраничные PDF с сохранением структуры.

🤖 GitHub

@data_analysis_ml
Forwarded from Machinelearning
🔥 Релиз Qwen 3 от Alibaba

В релиз вошли 2 MoE-модели и 6 Dense models (плотные модели), размером от 0.6B до 235B параметров.

🏆 Флагманская модель Qwen3-235B-A22B демонстрирует конкурентные результаты в задачах Кодина, математики и общих способностей, уверенно соперничая с передовыми моделями, такими как DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro.
Небольшая MoE-модель Qwen3-30B-A3B превосходит QwQ-32B, испрльзуя в 10 раз больше параметров.
🔥 Компактная модель Qwen3-4B сопоставима по производительности с Qwen2.5-72B-Instruct.


🔜Blog: https://qwenlm.github.io/blog/qwen3/
🔜GitHub: https://github.com/QwenLM/Qwen3
🔜Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
🔜 ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@ai_machinelearning_big_data

#Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 GPT-4 больше не будет доступен с завтрашнего дня.

Прощай, легенда.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Welcome Time для аналитиков: дружелюбная встреча с командой Поиска с Нейро в штаб-квартире Яндекса

Расскажем в чем специфика аналитики в продукте, проведем диагностику навыков и ответим на все ваши вопросы.

Где и когда: 17 мая в 12:00, штаб-квартира Яндекса «Красная Роза» (Льва Толстого, 16)

Что в программе:

-Как устроена аналитика Поиска
-В чём специфика аналитики доли и дистрибуции
-Как работает продуктовая аналитика YandexGPT
-Всё об аналитике срезов в Поиске
-Диагностика навыков и нетворкинг

Да, один из главных пойнтов встречи — диагностика навыков аналитики и математической статистики. Если пройдёте успешно — в течение двух лет сможем засчитать как техническую секцию собеседования в Яндекс.

Поиск с Нейро — первый и самый широко используемый сервис Яндекса. Наши аналитики развивают сложный и высоконагруженный сервис, который постоянно обновляется и нуждается в свежих идеях! Возможно, в ваших.

➡️ Регистрируйтесь на Welcome Time для аналитиков здесь
Microsoft: до 30 % кода уже пишет AI

На конференции LlamaCon CEO Microsoft Сатья Наделла объявил, что от 20 % до 30 % кода в репозиториях компании сегодня «написаны программным обеспечением», то есть с использованием искусственного интеллекта.

## Ключевые моменты

- Зависимость от языка. Лучшие результаты при генерации — на Python, более слабые — на C++.
- Интеграция на всех этапах. AI применяется не только для генерации чернового кода, но и для его ревью.
- Сравнение с конкурентами. Google уже сообщает о более 30 % AI-сгенерированного кода, Meta прогнозирует до 50 % при разработке своих языковых моделей.
- Долгосрочная перспектива. По прогнозам CTO Microsoft, к 2030 г. доля AI-генерируемого кода может вырасти до 95 %.
- Ограничения метрик. Пока не до конца ясно, что именно учитывается в «AI-коде» (автодополнение, шаблоны, бизнес-логика), поэтому цифры стоит воспринимать с осторожностью.

## Почему это важно

1. Ускорение разработки. Рутинные задачи автоматизируются, разработчики получают больше времени на архитектуру.
2. Новый уровень качества. Автоматическое ревью помогает быстрее находить ошибки, но требует строгой проверки.
3. Риски безопасности. Сгенерированный код нуждается в дополнительном анализе на уязвимости.
4. Эволюция ролей. Разработчики всё больше становятся архитекторами и аудиторами, а не «создателями» кода.
🚀 17 000 промптов в одной базе — собрано всё, что нужно для работы с ИИ!

Разработчики собрали огромное хранилище запросов для всех топовых нейросетей: от Midjourney и ChatGPT до Runway и DALL·E.

Что внутри:
• Все промпты удобно отсортированы по категориям, задачам, стилям и инструментам — не заблудитесь.
• К каждому запросу прикладываются примеры использования.
• Сервис помогает адаптировать ваши собственные промпты под конкретные задачи.
• Можно публиковать свои промпты и делиться ими с другими.
• Есть быстрое расширение для Chrome.
• И всё это бесплатно.

https://promptport.ai/
🚨 Microsoft представила Phi-4 Reasoning — ризониг модель на 14B параметров для сложных задач!

📐 Phi-4 Reasoning — это версия Phi-4, дообученная для математики, науки и программирования. Несмотря на относительно компактный размер (14B параметров), она конкурирует с более крупными моделями, вроде DeepSeek-R1 и OpenAI o3-mini, на бенчмарках вроде AIME 2025 и OmniMath.

🔍 Ключевые моменты:
• 14B параметров
• версия Phi-4-Reasoning-Plus дообучена с Reinforcement Learning
• превосходит DeepSeek-R1-Distill-Llama-70B
• почти догоняет оригинальную DeepSeek-R1 (70B) по качеству

https://huggingface.co/collections/unsloth/phi-4-all-versions-677eecf93784e61afe762afa

@data_analysis_ml
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Gemini планирует интеграцию с GitHub.

Gemini для GitHub упростит работу с чужим кодом. Интеграция позволяет прикрепить репозиторий к запросу и получить от ИИ помощь: разобраться в структуре проекта, объяснить функции, предложить оптимизацию или найти баги.

Пока функционал ограничен: нельзя просматривать историю коммитов, пул-реквесты или вносить изменения напрямую в репозиторий. Загрузить можно только один проект (до 5000 файлов и 100 МБ), а для приватных репозиториев потребуется привязать GitHub-аккаунт к Google. Импорт доступен через веб-версию Gemini, но начатый диалог можно продолжить в мобильном приложении. Интеграция появится в настройках Gemini в ближайшее время.
9to5google.com

✔️ Релиз моделей серии Phi-4 с ризонингом.

Microsoft выпустила Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning с 14 миллиардов параметров у первых двух и 3.6 млрд. у mini.

Phi-4-reasoning-plus обошёл 671-миллиардную DeepSeek-R1 в тестах AIME 2025, а mini-reasoning была создана для работы на смартфонах или IoT-устройствах: она решает задачи от школьного уровня до научных расчетов, не нагружая систему.
Детали создания доступны в техническом отчете, а сами модели - на Azure или HuggingFace.
azure.microsoft.com

✔️ Anthropic добавила интеграцию приложений и улучшила исследовательские возможности Claude .

Anthropic представила 2 ключевых обновления для своего Claude: интеграцию сторонних сервисов и расширенный инструмент для глубокого анализа. Новая функция "Integrations" позволяет подключать Claude к бизнес-приложениям вроде Confluence, Zapier или PayPal через серверы на базе протокола MCP. Это даст ИИ доступ к данным проектов, автоматизирует задачи и улучшает контекстную работу.

Параллельно запущен Advanced Research: теперь Claude может анализировать сотни источников (включая корпоративные данные и локальные диски) за несколько минут, формируя детальные отчеты со ссылками на источники. Обновление использует «рассуждающие» модели ИИ.

Функции доступны в бета-версии для подписчиков Claude Max, Team и Enterprise, а также скоро появятся в плане Pro. Anthropic также увеличила лимиты для кодинг-инструмента Claude Code.
anthropic.com

✔️ Google тестирует рекламу в диалогах с AI-чатами через AdSense.

Google начал внедрять рекламу в чаты пользователей с некоторыми сторонними ИИ-ассистентами через сеть AdSense. Функция, запущенная в этом году, уже тестировалась с стартапами Ask и Liner. Представитель компании подтвердил: «AdSense для Поиска доступен сайтам, которые хотят показывать релевантную рекламу в своих AI-диалогах».

Этот шаг выглядит попыткой монетизировать растущую популярность ИИ-чатов вроде ChatGPT или Claude, которые постепенно заменяют традиционный поиск. Ранее компания уже добавляла рекламу в ИИ-сниппеты поиска. Однако интеграция с внешними сервисами — новый этап.
bloomberg.com

✔️ Умные очки Ray-Ban будут собирать пользовательские данные для обучения ИИ.

Facebook-research внесли ключевые изменения в правила конфиденциальности своих умных очков Ray-Ban. С 29 апреля владельцы устройств больше не могут отключать сохранение голосовых записей в облаке — удалить их можно только вручную через настройки. По словам компании, аудио и транскрипты хранятся до года для улучшения продуктов, а случайные активации удаляются через 90 дней.

Фото и видео с камеры очков по-прежнему остаются в галерее смартфона и не используются для обучения ИИ, если не загружены в облачные сервисы компании или сторонние приложения. Однако голосовой помощник теперь всегда активен, пока пользователь не отключит его вручную. Это решение направлено на сбор данных для тренировки алгоритмов.
theverge.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Google встраивает рекламу в ответы чат-ботов

Google теперь размещает рекламу непосредственно в разговорах чат-ботов на базе ИИ, расширяя свою сеть AdSense для поиска. Этот шаг позволяет бесшовно интегрировать рекламу в диалоги, управляемые ИИ.

Мы все знали, что этот день настанет. Это был всего лишь вопрос времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 DeepWiki-Open: автоматическая генерация вики-документации с ИИ

Это open-source инструмент для автоматического создания интерактивной вики-документации на основе исходного кода репозитория. Идеально подходит для разработчиков и команд, которые хотят быстро структурировать знания о проекте.

## 🔍 Что умеет DeepWiki
- Анализирует код и его архитектуру
- Генерирует документацию по компонентам и их связям
- Создает визуальные диаграммы (например, с помощью Mermaid)
- Структурирует всё в вики с удобной навигацией

Особенности
Мгновенная генерация вики
Поддержка приватных репозиториев
Интеллектуальный анализ кода с помощью OpenAI и Google Gemini
Автоматические архитектурные диаграммы
Удобный интерфейс

🛠️ Стек технологий
- Backend: Python (FastAPI)
- Frontend: Next.js + React
- Визуализация: Mermaid
- Контейнеризация: Docker, docker-compose

🚀 Быстрый старт

git clone https://github.com/AsyncFuncAI/deepwiki-open.git
cd deepwiki-open
echo "GOOGLE_API_KEY=ваш_google_api_key" > .env
echo "OPENAI_API_KEY=ваш_openai_api_key" >> .env
docker-compose up


GitHub
Media is too big
VIEW IN TELEGRAM
🤖 Deep Live Cam: тулза для создания дипфейков в реальном времени без искажений и с идеальной подгонкой под свет и движение головы.

Можно даже спокойно трясти головой и лицо останется без искажений.

🔜 Код
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 PyXL — первый в мире специализированный процессор для нативного запуска Python

Что это?
PyXL исполняет байт-код CPython прямо на чипе — без JIT, интерпретатора и виртуальных машин. Ваши .py файлы компилируются в байт-код, затем транслируются в набор инструкций PySM, которые обрабатываются процессором.

Ключевые особенности:

Скорость: в тестах обработки GPIO PyXL в 30× быстрее MicroPython на Pyboard (480 нс vs 14 741 нс при 100 MHz vs 168 MHz).

🔧 Прототип на FPGA: реализован на Verilog и тестируется на платах Zynq-7000.

🚀 Без прослоек: доступ к GPIO — напрямую, без Си-функций и внешних вызовов.

🏗️ Архитектура: конвейерная обработка, стековая модель, динамическая типизация без ограничений на типы переменных.

🛠️ Инструменты: транслятор на Python под неизм. CPython, готов к встраиваемым системам и реальному времени.

Что дальше?
📅 Полные технические детали будут представлены 17 мая на PyCon 2025. Рассматривается открытие кода и выпуск ASIC-чипа.

Автор проекта — Рон Ливне (Ron Livne), эксперт по аппаратному ускорению и оптимизации.

#Python #PyXL #Embedded #FPGA #PyCon2025

https://runpyxl.com/gpio
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Огромная статья, которая посвящена оптимизации вывода (инференса) больших языковых моделей (LLM) с использованием одного графического процессора!

🌟 Автор делится опытом создания собственного движка для LLM на основе C++ и CUDA, фокусируясь на максимизации пропускной способности. Рассматриваются ключевые этапы, такие как загрузка модели, выполнение прямого прохода, использование кеша KV и многозадачность на CPU. Также подчеркивается важность пропускной способности памяти и квантования модели (например, FP16) для эффективного вывода. В статье приводятся бенчмарки и сравнение с другими фреймворками, такими как llama.cpp и Hugging Face, чтобы установить реалистичные цели по производительности.

🔗 Ссылка: *клик*

#machinelearning

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Как найти аномалии в данных с помощью машинного обучения?

В мире данных выявление аномалий — ключевая задача, которая помогает находить неисправности, мошенничество и отклонения. Без правильных методов вы рискуете упустить важные факты, которые могут повлиять на результаты.

На открытом вебинаре 13 мая в 18:00 мск мы подробно разберем, как эффективно искать аномалии в данных с использованием популярных методов, от простых статистических до продвинутых, таких как Isolation Forest и OneClassSVM.

📣 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist и преподаватель в одном из крупнейших университетов России.

➡️ Запишитесь на вебинар и получите скидку на большое обучение «Специализация Machine Learning»: https://otus.pw/RBJq/?erid=2W5zFFwo5AQ

#реклама
О рекламодателе
Forwarded from Machinelearning
🌟 Atropos: тренажерный зал для RL языковых моделей.

Atropos от NousResearch - это гибкий фреймворк для асинхронного управления RL-средами. Его архитектура построена так, чтобы максимизировать эффективность даже в распределенных системах, будь то локальный кластер или облако.

Atropos поддерживает децентрализацию. Он позволяет запускать несколько экземпляров сред (от статических датасетов, интерактивных игр, RLAIF и RLHF до обучения сложным многоэтапным взаимодействиям), которые асинхронно передают данные в центральный узел.

Это избавляет от простоя ресурсов, когда обновления политики модели тормозят из-за ожидания результатов всех окружений. Под капотом — интеграция с любыми API (OpenAI, vLLM, SGLang), позволяя свободу выбора LLM-провайдера без переписывания кода.

Практическая польза протестирована в экспериментах:

🟢В задачах параллельного вызова функций точность тестовой модели DeepHermes Tool Calling Specialist выросла в 4,6 раза — с 10% до 46%.

🟢В прогнозировании финансовых показателей на модели DeepHermes Financial Fundamentals Prediction Specialist, RL через Atropos удвоил точность (с 20% до 50%).

Такие результаты достигнуты благодаря многозадачности: фреймворк одновременно управляет разными типами сред, объединяя их в единый тренировочный поток. Вы можете обучать модель на статических данных утром и переключаться на интерактивные игры вечером, не меняя инфраструктуру.

Для разработчиков Atropos предлагает готовые инструменты: от датасетов для тонкой настройки (SFT, DPO) до дебаггеров и визуализации.

Atropos не привязывает вас к конкретному алгоритму RL или инфраструктуре. Запустите 10 экземпляров на ноутбуке или 10 000 через Slurm — фреймворк равномерно распределит нагрузку. Это особенно ценно для исследований: можно быстро экспериментировать с разными подходами, не тратя недели на настройку пайплайнов.

В репозитории есть все, что нужно: коллекция готовых к использованию сред RL, библиотека с базовыми классами и утилитами и примеры конфигураций обучения.

Если хотите понять, как ускорить свои эксперименты с LLM - загляните в документацию проекта, возможно, это именно тот инструмент, который избавит вас от боли асинхронной координации.


📌Лицензирование: MIT License.


🟡Статья
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RL #Framework #NousResearch #Atropos
Please open Telegram to view this post
VIEW IN TELEGRAM