Forwarded from Machinelearning
В релиз вошли 2 MoE-модели и 6 Dense models (плотные модели), размером от 0.6B до 235B параметров.
🏆 Флагманская модель Qwen3-235B-A22B демонстрирует конкурентные результаты в задачах Кодина, математики и общих способностей, уверенно соперничая с передовыми моделями, такими как DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro.
⚡ Небольшая MoE-модель Qwen3-30B-A3B превосходит QwQ-32B, испрльзуя в 10 раз больше параметров.
🔥 Компактная модель Qwen3-4B сопоставима по производительности с Qwen2.5-72B-Instruct.
@ai_machinelearning_big_data
#Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
У DeepSeek на подходе новая версия (671B math/prover model), но это не R2
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
@data_analysis_ml
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
@data_analysis_ml
huggingface.co
deepseek-ai/DeepSeek-Prover-V2-671B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Welcome Time для аналитиков: дружелюбная встреча с командой Поиска с Нейро в штаб-квартире Яндекса
Расскажем в чем специфика аналитики в продукте, проведем диагностику навыков и ответим на все ваши вопросы.
Где и когда: 17 мая в 12:00, штаб-квартира Яндекса «Красная Роза» (Льва Толстого, 16)
Что в программе:
-Как устроена аналитика Поиска
-В чём специфика аналитики доли и дистрибуции
-Как работает продуктовая аналитика YandexGPT
-Всё об аналитике срезов в Поиске
-Диагностика навыков и нетворкинг
Да, один из главных пойнтов встречи — диагностика навыков аналитики и математической статистики. Если пройдёте успешно — в течение двух лет сможем засчитать как техническую секцию собеседования в Яндекс.
Поиск с Нейро — первый и самый широко используемый сервис Яндекса. Наши аналитики развивают сложный и высоконагруженный сервис, который постоянно обновляется и нуждается в свежих идеях! Возможно, в ваших.
➡️ Регистрируйтесь на Welcome Time для аналитиков здесь
Расскажем в чем специфика аналитики в продукте, проведем диагностику навыков и ответим на все ваши вопросы.
Где и когда: 17 мая в 12:00, штаб-квартира Яндекса «Красная Роза» (Льва Толстого, 16)
Что в программе:
-Как устроена аналитика Поиска
-В чём специфика аналитики доли и дистрибуции
-Как работает продуктовая аналитика YandexGPT
-Всё об аналитике срезов в Поиске
-Диагностика навыков и нетворкинг
Да, один из главных пойнтов встречи — диагностика навыков аналитики и математической статистики. Если пройдёте успешно — в течение двух лет сможем засчитать как техническую секцию собеседования в Яндекс.
Поиск с Нейро — первый и самый широко используемый сервис Яндекса. Наши аналитики развивают сложный и высоконагруженный сервис, который постоянно обновляется и нуждается в свежих идеях! Возможно, в ваших.
➡️ Регистрируйтесь на Welcome Time для аналитиков здесь
Microsoft: до 30 % кода уже пишет AI
На конференции LlamaCon CEO Microsoft Сатья Наделла объявил, что от 20 % до 30 % кода в репозиториях компании сегодня «написаны программным обеспечением», то есть с использованием искусственного интеллекта.
## Ключевые моменты
- Зависимость от языка. Лучшие результаты при генерации — на Python, более слабые — на C++.
- Интеграция на всех этапах. AI применяется не только для генерации чернового кода, но и для его ревью.
- Сравнение с конкурентами. Google уже сообщает о более 30 % AI-сгенерированного кода, Meta прогнозирует до 50 % при разработке своих языковых моделей.
- Долгосрочная перспектива. По прогнозам CTO Microsoft, к 2030 г. доля AI-генерируемого кода может вырасти до 95 %.
- Ограничения метрик. Пока не до конца ясно, что именно учитывается в «AI-коде» (автодополнение, шаблоны, бизнес-логика), поэтому цифры стоит воспринимать с осторожностью.
## Почему это важно
1. Ускорение разработки. Рутинные задачи автоматизируются, разработчики получают больше времени на архитектуру.
2. Новый уровень качества. Автоматическое ревью помогает быстрее находить ошибки, но требует строгой проверки.
3. Риски безопасности. Сгенерированный код нуждается в дополнительном анализе на уязвимости.
4. Эволюция ролей. Разработчики всё больше становятся архитекторами и аудиторами, а не «создателями» кода.
На конференции LlamaCon CEO Microsoft Сатья Наделла объявил, что от 20 % до 30 % кода в репозиториях компании сегодня «написаны программным обеспечением», то есть с использованием искусственного интеллекта.
## Ключевые моменты
- Зависимость от языка. Лучшие результаты при генерации — на Python, более слабые — на C++.
- Интеграция на всех этапах. AI применяется не только для генерации чернового кода, но и для его ревью.
- Сравнение с конкурентами. Google уже сообщает о более 30 % AI-сгенерированного кода, Meta прогнозирует до 50 % при разработке своих языковых моделей.
- Долгосрочная перспектива. По прогнозам CTO Microsoft, к 2030 г. доля AI-генерируемого кода может вырасти до 95 %.
- Ограничения метрик. Пока не до конца ясно, что именно учитывается в «AI-коде» (автодополнение, шаблоны, бизнес-логика), поэтому цифры стоит воспринимать с осторожностью.
## Почему это важно
1. Ускорение разработки. Рутинные задачи автоматизируются, разработчики получают больше времени на архитектуру.
2. Новый уровень качества. Автоматическое ревью помогает быстрее находить ошибки, но требует строгой проверки.
3. Риски безопасности. Сгенерированный код нуждается в дополнительном анализе на уязвимости.
4. Эволюция ролей. Разработчики всё больше становятся архитекторами и аудиторами, а не «создателями» кода.
🚀 17 000 промптов в одной базе — собрано всё, что нужно для работы с ИИ!
Разработчики собрали огромное хранилище запросов для всех топовых нейросетей: от Midjourney и ChatGPT до Runway и DALL·E.
✅ Что внутри:
• Все промпты удобно отсортированы по категориям, задачам, стилям и инструментам — не заблудитесь.
• К каждому запросу прикладываются примеры использования.
• Сервис помогает адаптировать ваши собственные промпты под конкретные задачи.
• Можно публиковать свои промпты и делиться ими с другими.
• Есть быстрое расширение для Chrome.
• И всё это бесплатно.
https://promptport.ai/
Разработчики собрали огромное хранилище запросов для всех топовых нейросетей: от Midjourney и ChatGPT до Runway и DALL·E.
✅ Что внутри:
• Все промпты удобно отсортированы по категориям, задачам, стилям и инструментам — не заблудитесь.
• К каждому запросу прикладываются примеры использования.
• Сервис помогает адаптировать ваши собственные промпты под конкретные задачи.
• Можно публиковать свои промпты и делиться ими с другими.
• Есть быстрое расширение для Chrome.
• И всё это бесплатно.
https://promptport.ai/
🚨 Microsoft представила Phi-4 Reasoning — ризониг модель на 14B параметров для сложных задач!
📐 Phi-4 Reasoning — это версия Phi-4, дообученная для математики, науки и программирования. Несмотря на относительно компактный размер (14B параметров), она конкурирует с более крупными моделями, вроде DeepSeek-R1 и OpenAI o3-mini, на бенчмарках вроде AIME 2025 и OmniMath.
🔍 Ключевые моменты:
• 14B параметров
• версия Phi-4-Reasoning-Plus дообучена с Reinforcement Learning
• превосходит DeepSeek-R1-Distill-Llama-70B
• почти догоняет оригинальную DeepSeek-R1 (70B) по качеству
https://huggingface.co/collections/unsloth/phi-4-all-versions-677eecf93784e61afe762afa
@data_analysis_ml
📐 Phi-4 Reasoning — это версия Phi-4, дообученная для математики, науки и программирования. Несмотря на относительно компактный размер (14B параметров), она конкурирует с более крупными моделями, вроде DeepSeek-R1 и OpenAI o3-mini, на бенчмарках вроде AIME 2025 и OmniMath.
🔍 Ключевые моменты:
• 14B параметров
• версия Phi-4-Reasoning-Plus дообучена с Reinforcement Learning
• превосходит DeepSeek-R1-Distill-Llama-70B
• почти догоняет оригинальную DeepSeek-R1 (70B) по качеству
https://huggingface.co/collections/unsloth/phi-4-all-versions-677eecf93784e61afe762afa
@data_analysis_ml
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Gemini для GitHub упростит работу с чужим кодом. Интеграция позволяет прикрепить репозиторий к запросу и получить от ИИ помощь: разобраться в структуре проекта, объяснить функции, предложить оптимизацию или найти баги.
Пока функционал ограничен: нельзя просматривать историю коммитов, пул-реквесты или вносить изменения напрямую в репозиторий. Загрузить можно только один проект (до 5000 файлов и 100 МБ), а для приватных репозиториев потребуется привязать GitHub-аккаунт к Google. Импорт доступен через веб-версию Gemini, но начатый диалог можно продолжить в мобильном приложении. Интеграция появится в настройках Gemini в ближайшее время.
9to5google.com
Microsoft выпустила Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning с 14 миллиардов параметров у первых двух и 3.6 млрд. у mini.
Phi-4-reasoning-plus обошёл 671-миллиардную DeepSeek-R1 в тестах AIME 2025, а mini-reasoning была создана для работы на смартфонах или IoT-устройствах: она решает задачи от школьного уровня до научных расчетов, не нагружая систему.
Детали создания доступны в техническом отчете, а сами модели - на Azure или HuggingFace.
azure.microsoft.com
Anthropic представила 2 ключевых обновления для своего Claude: интеграцию сторонних сервисов и расширенный инструмент для глубокого анализа. Новая функция "Integrations" позволяет подключать Claude к бизнес-приложениям вроде Confluence, Zapier или PayPal через серверы на базе протокола MCP. Это даст ИИ доступ к данным проектов, автоматизирует задачи и улучшает контекстную работу.
Параллельно запущен Advanced Research: теперь Claude может анализировать сотни источников (включая корпоративные данные и локальные диски) за несколько минут, формируя детальные отчеты со ссылками на источники. Обновление использует «рассуждающие» модели ИИ.
Функции доступны в бета-версии для подписчиков Claude Max, Team и Enterprise, а также скоро появятся в плане Pro. Anthropic также увеличила лимиты для кодинг-инструмента Claude Code.
anthropic.com
Google начал внедрять рекламу в чаты пользователей с некоторыми сторонними ИИ-ассистентами через сеть AdSense. Функция, запущенная в этом году, уже тестировалась с стартапами Ask и Liner. Представитель компании подтвердил: «AdSense для Поиска доступен сайтам, которые хотят показывать релевантную рекламу в своих AI-диалогах».
Этот шаг выглядит попыткой монетизировать растущую популярность ИИ-чатов вроде ChatGPT или Claude, которые постепенно заменяют традиционный поиск. Ранее компания уже добавляла рекламу в ИИ-сниппеты поиска. Однако интеграция с внешними сервисами — новый этап.
bloomberg.com
Facebook-research внесли ключевые изменения в правила конфиденциальности своих умных очков Ray-Ban. С 29 апреля владельцы устройств больше не могут отключать сохранение голосовых записей в облаке — удалить их можно только вручную через настройки. По словам компании, аудио и транскрипты хранятся до года для улучшения продуктов, а случайные активации удаляются через 90 дней.
Фото и видео с камеры очков по-прежнему остаются в галерее смартфона и не используются для обучения ИИ, если не загружены в облачные сервисы компании или сторонние приложения. Однако голосовой помощник теперь всегда активен, пока пользователь не отключит его вручную. Это решение направлено на сбор данных для тренировки алгоритмов.
theverge.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Google теперь размещает рекламу непосредственно в разговорах чат-ботов на базе ИИ, расширяя свою сеть AdSense для поиска. Этот шаг позволяет бесшовно интегрировать рекламу в диалоги, управляемые ИИ.
Мы все знали, что этот день настанет. Это был всего лишь вопрос времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 DeepWiki-Open: автоматическая генерация вики-документации с ИИ
Это open-source инструмент для автоматического создания интерактивной вики-документации на основе исходного кода репозитория. Идеально подходит для разработчиков и команд, которые хотят быстро структурировать знания о проекте.
## 🔍 Что умеет DeepWiki
- Анализирует код и его архитектуру
- Генерирует документацию по компонентам и их связям
- Создает визуальные диаграммы (например, с помощью Mermaid)
- Структурирует всё в вики с удобной навигацией
✨ Особенности
✅ Мгновенная генерация вики
✅ Поддержка приватных репозиториев
✅ Интеллектуальный анализ кода с помощью OpenAI и Google Gemini
✅ Автоматические архитектурные диаграммы
✅ Удобный интерфейс
🛠️ Стек технологий
- Backend: Python (FastAPI)
- Frontend: Next.js + React
- Визуализация: Mermaid
- Контейнеризация: Docker, docker-compose
🚀 Быстрый старт
▪ GitHub
Это open-source инструмент для автоматического создания интерактивной вики-документации на основе исходного кода репозитория. Идеально подходит для разработчиков и команд, которые хотят быстро структурировать знания о проекте.
## 🔍 Что умеет DeepWiki
- Анализирует код и его архитектуру
- Генерирует документацию по компонентам и их связям
- Создает визуальные диаграммы (например, с помощью Mermaid)
- Структурирует всё в вики с удобной навигацией
✨ Особенности
✅ Мгновенная генерация вики
✅ Поддержка приватных репозиториев
✅ Интеллектуальный анализ кода с помощью OpenAI и Google Gemini
✅ Автоматические архитектурные диаграммы
✅ Удобный интерфейс
🛠️ Стек технологий
- Backend: Python (FastAPI)
- Frontend: Next.js + React
- Визуализация: Mermaid
- Контейнеризация: Docker, docker-compose
🚀 Быстрый старт
git clone https://github.com/AsyncFuncAI/deepwiki-open.git
cd deepwiki-open
echo "GOOGLE_API_KEY=ваш_google_api_key" > .env
echo "OPENAI_API_KEY=ваш_openai_api_key" >> .env
docker-compose up
▪ GitHub
Media is too big
VIEW IN TELEGRAM
Можно даже спокойно трясти головой и лицо останется без искажений.
Please open Telegram to view this post
VIEW IN TELEGRAM
Что это?
PyXL исполняет байт-код CPython прямо на чипе — без JIT, интерпретатора и виртуальных машин. Ваши .py файлы компилируются в байт-код, затем транслируются в набор инструкций PySM, которые обрабатываются процессором.
Ключевые особенности:
⚡ Скорость: в тестах обработки GPIO PyXL в 30× быстрее MicroPython на Pyboard (480 нс vs 14 741 нс при 100 MHz vs 168 MHz).
🔧 Прототип на FPGA: реализован на Verilog и тестируется на платах Zynq-7000.
🚀 Без прослоек: доступ к GPIO — напрямую, без Си-функций и внешних вызовов.
🏗️ Архитектура: конвейерная обработка, стековая модель, динамическая типизация без ограничений на типы переменных.
🛠️ Инструменты: транслятор на Python под неизм. CPython, готов к встраиваемым системам и реальному времени.
Что дальше?
📅 Полные технические детали будут представлены 17 мая на PyCon 2025. Рассматривается открытие кода и выпуск ASIC-чипа.
Автор проекта — Рон Ливне (Ron Livne), эксперт по аппаратному ускорению и оптимизации.
#Python #PyXL #Embedded #FPGA #PyCon2025
https://runpyxl.com/gpio
Please open Telegram to view this post
VIEW IN TELEGRAM
#machinelearning
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❓Как найти аномалии в данных с помощью машинного обучения?
В мире данных выявление аномалий — ключевая задача, которая помогает находить неисправности, мошенничество и отклонения. Без правильных методов вы рискуете упустить важные факты, которые могут повлиять на результаты.
На открытом вебинаре 13 мая в 18:00 мск мы подробно разберем, как эффективно искать аномалии в данных с использованием популярных методов, от простых статистических до продвинутых, таких как Isolation Forest и OneClassSVM.
📣 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist и преподаватель в одном из крупнейших университетов России.
➡️ Запишитесь на вебинар и получите скидку на большое обучение «Специализация Machine Learning»: https://otus.pw/RBJq/?erid=2W5zFFwo5AQ
#реклама
О рекламодателе
В мире данных выявление аномалий — ключевая задача, которая помогает находить неисправности, мошенничество и отклонения. Без правильных методов вы рискуете упустить важные факты, которые могут повлиять на результаты.
На открытом вебинаре 13 мая в 18:00 мск мы подробно разберем, как эффективно искать аномалии в данных с использованием популярных методов, от простых статистических до продвинутых, таких как Isolation Forest и OneClassSVM.
📣 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist и преподаватель в одном из крупнейших университетов России.
➡️ Запишитесь на вебинар и получите скидку на большое обучение «Специализация Machine Learning»: https://otus.pw/RBJq/?erid=2W5zFFwo5AQ
#реклама
О рекламодателе
Forwarded from Machinelearning
Atropos от NousResearch - это гибкий фреймворк для асинхронного управления RL-средами. Его архитектура построена так, чтобы максимизировать эффективность даже в распределенных системах, будь то локальный кластер или облако.
Atropos поддерживает децентрализацию. Он позволяет запускать несколько экземпляров сред (от статических датасетов, интерактивных игр, RLAIF и RLHF до обучения сложным многоэтапным взаимодействиям), которые асинхронно передают данные в центральный узел.
Это избавляет от простоя ресурсов, когда обновления политики модели тормозят из-за ожидания результатов всех окружений. Под капотом — интеграция с любыми API (OpenAI, vLLM, SGLang), позволяя свободу выбора LLM-провайдера без переписывания кода.
Практическая польза протестирована в экспериментах:
Такие результаты достигнуты благодаря многозадачности: фреймворк одновременно управляет разными типами сред, объединяя их в единый тренировочный поток. Вы можете обучать модель на статических данных утром и переключаться на интерактивные игры вечером, не меняя инфраструктуру.
Для разработчиков Atropos предлагает готовые инструменты: от датасетов для тонкой настройки (SFT, DPO) до дебаггеров и визуализации.
Atropos не привязывает вас к конкретному алгоритму RL или инфраструктуре. Запустите 10 экземпляров на ноутбуке или 10 000 через Slurm — фреймворк равномерно распределит нагрузку. Это особенно ценно для исследований: можно быстро экспериментировать с разными подходами, не тратя недели на настройку пайплайнов.
В репозитории есть все, что нужно: коллекция готовых к использованию сред RL, библиотека с базовыми классами и утилитами и примеры конфигураций обучения.
Если хотите понять, как ускорить свои эксперименты с LLM - загляните в документацию проекта, возможно, это именно тот инструмент, который избавит вас от боли асинхронной координации.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Framework #NousResearch #Atropos
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
- ChatGPT посетили 4,786 млрд раз
- X 4,028 млрд посещений
Please open Telegram to view this post
VIEW IN TELEGRAM
🧩 The Ultimate LLM Benchmark Collection
Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время.
🌐 Общие (multi‑skill) лидерборды
SimpleBench — https://simple-bench.com/index.html
SOLO‑Bench — https://github.com/jd-3d/SOLOBench
AidanBench — https://aidanbench.com
SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard
LMArena (Style Control) — https://beta.lmarena.ai/leaderboard
LiveBench — https://livebench.ai
ARC‑AGI — https://arcprize.org/leaderboard
Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization
дополнительные бенчмарки Lech Mazur:
Elimination Game — https://github.com/lechmazur/elimination_game
Confabulations — https://github.com/lechmazur/confabulations
EQBench (Longform Writing) — https://eqbench.com
Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87
MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard
TrackingAI – IQ Bench — https://trackingai.org/home
Dubesor LLM Board — https://dubesor.de/benchtable.html
Balrog‑AI — https://balrogai.com
Misguided Attention — https://github.com/cpldcpu/MisguidedAttention
Snake‑Bench — https://snakebench.com
SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard
Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai
OpenCompass — https://rank.opencompass.org.cn/home
HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard
🛠️ Coding / Math / Agentic
Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/
BigCodeBench — https://bigcode-bench.github.io
WebDev‑Arena — https://web.lmarena.ai/leaderboard
WeirdML — https://htihle.github.io/weirdml.html
Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/
PHYBench — https://phybench-official.github.io/phybench-demo/
MathArena — https://matharena.ai
Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard
XLANG Agent Arena — https://arena.xlang.ai/leaderboard
🚀 Для отслеживания AI take‑off
METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org
PaperBench — https://openai.com/index/paperbench/
SWE‑Lancer — https://openai.com/index/swe-lancer/
MLE‑Bench — https://github.com/openai/mle-bench
SWE‑Bench — https://swebench.com
🏆 Обязательный «классический» набор
GPQA‑Diamond — https://github.com/idavidrein/gpqa
SimpleQA — https://openai.com/index/introducing-simpleqa/
Tau‑Bench — https://github.com/sierra-research/tau-bench
SciCode — https://github.com/scicode-bench/SciCode
MMMU — https://mmmu-benchmark.github.io/#leaderboard
Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle
🔍 Классические бенчмарков
Simple‑Evals — https://github.com/openai/simple-evals
Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard
Artificial Analysis — https://artificialanalysis.ai
⚠️ «Перегретые» метрики, на которые можно не смотреть
MMLU, HumanEval, BBH, DROP, MGSM
Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ...
Модели близки к верхним значениям на них и в них нет особого смысла.
Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время.
🌐 Общие (multi‑skill) лидерборды
SimpleBench — https://simple-bench.com/index.html
SOLO‑Bench — https://github.com/jd-3d/SOLOBench
AidanBench — https://aidanbench.com
SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard
LMArena (Style Control) — https://beta.lmarena.ai/leaderboard
LiveBench — https://livebench.ai
ARC‑AGI — https://arcprize.org/leaderboard
Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization
дополнительные бенчмарки Lech Mazur:
Elimination Game — https://github.com/lechmazur/elimination_game
Confabulations — https://github.com/lechmazur/confabulations
EQBench (Longform Writing) — https://eqbench.com
Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87
MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard
TrackingAI – IQ Bench — https://trackingai.org/home
Dubesor LLM Board — https://dubesor.de/benchtable.html
Balrog‑AI — https://balrogai.com
Misguided Attention — https://github.com/cpldcpu/MisguidedAttention
Snake‑Bench — https://snakebench.com
SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard
Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai
OpenCompass — https://rank.opencompass.org.cn/home
HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard
🛠️ Coding / Math / Agentic
Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/
BigCodeBench — https://bigcode-bench.github.io
WebDev‑Arena — https://web.lmarena.ai/leaderboard
WeirdML — https://htihle.github.io/weirdml.html
Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/
PHYBench — https://phybench-official.github.io/phybench-demo/
MathArena — https://matharena.ai
Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard
XLANG Agent Arena — https://arena.xlang.ai/leaderboard
🚀 Для отслеживания AI take‑off
METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org
PaperBench — https://openai.com/index/paperbench/
SWE‑Lancer — https://openai.com/index/swe-lancer/
MLE‑Bench — https://github.com/openai/mle-bench
SWE‑Bench — https://swebench.com
🏆 Обязательный «классический» набор
GPQA‑Diamond — https://github.com/idavidrein/gpqa
SimpleQA — https://openai.com/index/introducing-simpleqa/
Tau‑Bench — https://github.com/sierra-research/tau-bench
SciCode — https://github.com/scicode-bench/SciCode
MMMU — https://mmmu-benchmark.github.io/#leaderboard
Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle
🔍 Классические бенчмарков
Simple‑Evals — https://github.com/openai/simple-evals
Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard
Artificial Analysis — https://artificialanalysis.ai
⚠️ «Перегретые» метрики, на которые можно не смотреть
MMLU, HumanEval, BBH, DROP, MGSM
Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ...
Модели близки к верхним значениям на них и в них нет особого смысла.
Как меняется ИТ-индустрия с внедрением AI? Узнай 6 июня на ИТ-конференции МТС True Tech Day
True Tech Day 2025 — третья масштабная технологическая конференция МТС для профессионалов ИТ‑индустрии.
В программе:
— Больше 40 докладов от известных ученых и ИТ-компаний.
— Выступления зарубежных спикеров с индексом Хирша более 50.
— Концентрация практических кейсов: как создаются большие проекты с применением AI.
— Доклады по архитектуре, бэкенд-разработке и построению ИТ-платформ.
— AI-интерактивы и технологические квесты.
— Пространство для нетворкинга,
Когда: 6 июня
Где: Москва, МТС Live Холл и онлайн
Участие бесплатно. Регистрация по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔧 Основные возможности
- Инкрементальная обработка данных: CocoIndex отслеживает изменения в исходных данных и логике трансформации, обновляя только изменённые части индекса, что снижает вычислительные затраты.
- Поддержка пользовательской логики: Фреймворк позволяет интегрировать собственные функции обработки данных, обеспечивая гибкость при построении пайплайнов.
- Модульная архитектура: Встроенные компоненты для чтения данных (локальные файлы, Google Drive), обработки (разбиение на чанки, генерация эмбеддингов) и сохранения результатов (PostgreSQL с pgvector, Qdrant).
- Поддержка различных форматов данных: Поддержка текстовых документов, кода, PDF и структурированных данных, что делает CocoIndex универсальным инструментом.
🚀 Примеры использования
- Семантический поиск: Индексация текстовых документов и кода с эмбеддингами для семантического поиска.
- Извлечение знаний: Построение графов знаний из структурированных данных, извлечённых из документов.
- Интеграция с LLM: Извлечение структурированной информации из неструктурированных данных с помощью больших языковых моделей.
⚙️ Быстрый старт
1. Установите библиотеку CocoIndex:
pip install -U cocoindex
https://github.com/cocoindex-io/cocoindex
2. Настройте базу данных PostgreSQL с расширением pgvector.
3. Создайте файл quickstart.py и настройте пайплайн обработки данных.
4. Запустите пайплайн для обработки и индексации данных.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM