Анализ данных (Data analysis)
45.2K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Хронология самых интересных ИИ релизов в 2024 году🔥

От Gemma до Llama 3.1 405B, от Sonnet 3.5 до o3 !

https://huggingface.co/spaces/reach-vb/2024-ai-timeline

@data_analysis_ml
🔥 eliza — это проект, направленный на создание платформы для автономных агентов, способных выполнять сложные задачи, взаимодействовать с пользователями и использовать внешние инструменты!

🌟 Цель проекта — упростить процесс разработки агентов, которые могут действовать независимо, обрабатывать команды на естественном языке и решать поставленные задачи с минимальным вмешательством человека. Такие агенты могут использоваться как чат-боты, NPC в видеоиграх, для трейдинга и многих других задач!

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 CPU vs GPU

Очень хорошее и интуитивно понятное объяснение CPU vs GPU

Источник

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ 50 статей/моделей/блогов по 10 направлениям в AI: LLMs, Benchmarks, Prompting, RAG, Agents, CodeGen, Vision, Voice, Diffusion, Finetuning.

Если вы начинаете изучать мл с нуля, это хороший список.

Секция 1:топовые LLMs

- GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4 статьи. GPT3.5, 4o, o1, и o3.
- Claude 3 и Gemini 1, Claude 3.5 Sonnet и Gemini 2.0 Flash/Flash Thinking. Gemma 2.
LLaMA 1, Llama 2, Llama 3 статьи для понимания внутреннего устройства моделей.
- Mistral 7B, Mixtral и Pixtral
- DeepSeek V1, Coder, MoE, V2, V3.
- Apple Intelligence

Секция 2: бенчмарки

- MMLU paper - the main knowledgebenchmark, next to GPQA and BIG-Bench. In 2025 frontier labs use MMLU Pro, GPQA Diamond, and BIG-Bench Hard.
- MuSR paper - evaluating long context, next to LongBench, BABILong, and RULER. Solving Lost in The Middle and other issues with Needle in a Haystack.
- MATH paper.

🔥 Полный список
👩‍💻 Pathway — это фреймворк на Python для обработки данных в реальном времени, который поддерживает ETL-процессы, аналитические потоки и создание ИИ-конвейеров, включая работу с LLM и методами RAG!

🌟 Фреймворк предоставляет простой API на Python, который интегрируется с популярными ML-библиотеками и может использоваться для потоковой и пакетной обработки данных.

🔐 Лицензия: BSL-1.1

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 MarS — движок для симуляции финансовых рынков, основанный на генеративной модели, называемой Large Market Model (LMM)!

🌟 Цель проекта — создание реалистичных, контролируемых сценариев торговли, которые могут моделировать рыночные ордера и их влияние. MarS позволяет исследовать законы масштабирования модели LMM в финансовых рынках и ее потенциал для реальных приложений, таких как создание рыночных моделей и генерация рыночных сценариев.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
💡Академия Alibaba DAMO выпустили мультимодельный Vision-language датасет

 6.5M изображений + 0.8B текста из 22k часов обучающих видео
 Охватывает такие предметы, как математика, физика и химия.
 Apache 2.0

- Датасет: https://huggingface.co/datasets/DAMO-NLP-SG/multimodal_textbook
-  Статья: https://huggingface.co/papers/2501.00958

@data_analysis_ml
🎉OLMo2 установили новый стандарт для релизов с открытым исходным кодом. 🫡

Пристегните ремни -
выпущен
подробный репорт о OLMo 2 . В нем 50 с лишним страниц о 4 важнейших компонентах конвейера развития LLM.

Они выпустил: Модели, датасеты, код обучения и все возможные данные. А вишенкой на торте стали журналы wandb.

Итак, если вы хотите создать современный LLM? Создатели OLMo 2 делятся полным рецептом.

-----

🔧 Ключевые методы в этой статье:

→ В OLMo 2 реализован двухэтапный подход к обучению: предварительное обучение на 4-5T токенах и обучение на специализированном Dolmino Mix 1124.

→ Архитектура отличается повышенной стабильностью благодаря RMSNorm, переупорядоченной нормализации и QK-норме для вычисления внимания.

→ Трехфазный конвейер тюнинга сочетает в себе контролируемую тонкую настройку, прямую оптимизацию предпочтений и обучение с подкреплением и проверяемым вознаграждением.

→ Инфраструктура обучения включает два кластера (Jupiter и Augusta) с оптимизированным управлением рабочей нагрузкой с помощью системы Beaker.

-----

💡 Основные выводы:

→ Стабильность обучения значительно повышается за счет фильтрации повторяющихся n-грамм и использования инициализации нормальным распределением

→ Обучение в середине обучения на высококачественных данных эффективно расширяет возможности модели

→ Усреднение веса модели неизменно повышает производительность

→ Оптимизация инфраструктуры имеет решающее значение для успешного обучения LLM

-----

📊 Результаты:

→ Модели 7B и 13B соответствуют или превосходят Llama 3.1 и Qwen 2.5, используя меньшее количество FLOPs

→ Оценки GSM8K: 67,5 для 7B, 75,1 для 13B

→ Показатели MMLU: 63,7 для 7B, 67,5 для 13B

💡Подробнее про модель
💡Paper
💡Blog
💡Demo
🔥 miniperplx — минималистичный поисковый движок, работающий на базе ИИ!

🌟 Он использует модели, такие как GPT-4o и Claude 3.5, для предоставления ответов на запросы, а также поддерживает функции веб-поиска, поиск по URL, прогноз погоды, выполнение программного кода, перевод текста и многие другие возможности.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов.

Лицензия MIT!

🤗 HF: https://huggingface.co/microsoft/phi-4

🧠Demo: https://huggingface.co/spaces/Tonic/Phi-4

@ai_machinelearning_big_data

#phi4 #llm #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Ollama-OCR

Пакет для Python и приложение Streamlit, использующие модели зрения Ollama для извлечения текста из изображений различных форматов, с поддержкой пакетной обработки.

pip install ollama-ocr

Github

@data_analysis_ml
📢 Релиз Moondream 2B

Новая vision модель для эйдж девайсов

Поддерживает структурированные выводы, улучшенное понимание текста, отслежтвание взгляда.



from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

model = AutoModelForCausalLM.from_pretrained(
"vikhyatk/moondream2",
revision="2025-01-09",
trust_remote_code=True,
# Uncomment to run on GPU.
# device_map={"": "cuda"}
)

# Captioning
print("Short caption:")
print(model.caption(image, length="short")["caption"])

print("\nNormal caption:")
for t in model.caption(image, length="normal", stream=True)["caption"]:
# Streaming generation example, supported for caption() and detect()
print(t, end="", flush=True)
print(model.caption(image, length="normal"))

# Visual Querying
print("\nVisual query: 'How many people are in the image?'")
print(model.query(image, "How many people are in the image?")["answer"])

# Object Detection
print("\nObject detection: 'face'")
objects = model.detect(image, "face")["objects"]
print(f"Found {len(objects)} face(s)")

# Pointing
print("\nPointing: 'person'")
points = model.point(image, "person")["points"]
print(f"Found {len(points)} person(s)")


https://huggingface.co/vikhyatk/moondream2


HF: https://huggingface.co/vikhyatk/moondream2

Demo: https://moondream.ai/playground

Github: https://github.com/vikhyat/moondream

@data_analysis_ml
Только что был опубликован анализ выбросов CO₂ от 3000+ LLM на Open LLM Leaderboard! 🌱

В статье описана оценка энергопотребления, показаны тенденции и интригующие выводы 🙌

👉 Читать здесь: https://huggingface.co/blog/leaderboard-emissions-analysis