🧐 Игра: испытайте свою наблюдательность в эпоху ИИ
На изображении два кинопостера: один — подлинная фотография, другой — продукт нейросети.
⬇️ Попробуйте определить, какой из них настоящий, и в комментариях расскажите, почему вы так решили и на какие детали обратили внимание.
🤫 Ответ раскрою в воскресенье. -> A
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244
Библиотека дата-сайентиста #междусобойчик
На изображении два кинопостера: один — подлинная фотография, другой — продукт нейросети.
⬇️ Попробуйте определить, какой из них настоящий, и в комментариях расскажите, почему вы так решили и на какие детали обратили внимание.
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Модели и релизы:
— Amazon Nova Act — AI-модель для действий в браузере, обходит Claude 3.7 в web UI-бенчмарках
— MinIO запускает MCP-сервер — первый в отрасли для enterprise AI-хранилищ
— OpenAI выпускает AI Academy — онлайн-ресурсы, кодинг-сессии и практические кейсы GPT-4
— Claude for Education от Anthropic — AI для вузов и студентов
— LLaMA 4 — новое окно контекста до 10M токенов
— Devin 2.0 — конкурент Cursor для разработчиков
— Midjourney v7 — новая версия генеративной модели
— Gemini 2.5 Pro (preview) — Google открывает доступ разработчикам
— YandexGPT 5 Lite (instruct) в open-source + упрощённая лицензия
🧠 Исследования и бенчмарки:
— GPT-4.5 прошёл тест Тьюринга — в 74% случаев принят за человека
— PaperBench от OpenAI — бенчмарк на репликацию SOTA-ресёрча
— CodeScientist от Allen AI — AI-агент, открывший 6 новых научных закономерностей
— Исследование от Anthropic — LLM часто скрывают истинное рассуждение
— AGI и безопасность — 145-страничный отчёт Google DeepMind
— Multi-Token Attention — новый механизм внимания
📈 Индустрия и кадры:
— Опрос Hookline — 82% американцев отличают AI-контент
— GPT-5 отложен — сложности с инфраструктурой и интеграцией
🧰 Инструменты и инфраструктура:
— DuckDB UI для Hugging Face Datasets — удобно работать с 380k+ датасетами
— NotebookLM от Google — добавил функцию Discover Sources
— Unsloth + Hugging Face — гайд по обучению разума у моделей
📚 Что почитать:
— Обратное распространение ошибки без формул
— Введение в SciPy
— 15 лучших нейросетей для генерации изображений в 2025
— Как мы пишем ML-приложения по пайплайн-паттерну
— OCR на базе LLM
— Что важно знать при внедрении LLM
— Vision Transformers — применение в CV
— Семантический поиск в сложных документах
— Гайд по промпт-инжинирингу
— Нейросети и проблема сильного ИИ
— История увольнения Сэма Альтмана
Библиотека дата-сайентиста #свежак
— Amazon Nova Act — AI-модель для действий в браузере, обходит Claude 3.7 в web UI-бенчмарках
— MinIO запускает MCP-сервер — первый в отрасли для enterprise AI-хранилищ
— OpenAI выпускает AI Academy — онлайн-ресурсы, кодинг-сессии и практические кейсы GPT-4
— Claude for Education от Anthropic — AI для вузов и студентов
— LLaMA 4 — новое окно контекста до 10M токенов
— Devin 2.0 — конкурент Cursor для разработчиков
— Midjourney v7 — новая версия генеративной модели
— Gemini 2.5 Pro (preview) — Google открывает доступ разработчикам
— YandexGPT 5 Lite (instruct) в open-source + упрощённая лицензия
🧠 Исследования и бенчмарки:
— GPT-4.5 прошёл тест Тьюринга — в 74% случаев принят за человека
— PaperBench от OpenAI — бенчмарк на репликацию SOTA-ресёрча
— CodeScientist от Allen AI — AI-агент, открывший 6 новых научных закономерностей
— Исследование от Anthropic — LLM часто скрывают истинное рассуждение
— AGI и безопасность — 145-страничный отчёт Google DeepMind
— Multi-Token Attention — новый механизм внимания
📈 Индустрия и кадры:
— Опрос Hookline — 82% американцев отличают AI-контент
— GPT-5 отложен — сложности с инфраструктурой и интеграцией
🧰 Инструменты и инфраструктура:
— DuckDB UI для Hugging Face Datasets — удобно работать с 380k+ датасетами
— NotebookLM от Google — добавил функцию Discover Sources
— Unsloth + Hugging Face — гайд по обучению разума у моделей
📚 Что почитать:
— Обратное распространение ошибки без формул
— Введение в SciPy
— 15 лучших нейросетей для генерации изображений в 2025
— Как мы пишем ML-приложения по пайплайн-паттерну
— OCR на базе LLM
— Что важно знать при внедрении LLM
— Vision Transformers — применение в CV
— Семантический поиск в сложных документах
— Гайд по промпт-инжинирингу
— Нейросети и проблема сильного ИИ
— История увольнения Сэма Альтмана
Библиотека дата-сайентиста #свежак
Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
🔍 Как скрытые состояния в HMM отличаются от скрытых представлений в RNN и как это влияет на интерпретируемость
🧠 Скрытые марковские модели (HMM):
В HMM скрытые состояния — этодискретные латентные переменные с четким вероятностным значением. Каждое состояние соответствует конкретному режиму или явлению (например, «дождливо» или «солнечно» в модели погоды) , что способствует интерпретируемости . Переходы между состояниями описываются матрицей вероятностей.
🤖 Рекуррентные нейронные сети (RNN):
В отличие от HMM, скрытые состояния в RNN — этонепрерывные векторы, которые обучаются автоматически с помощью градиентного спуска. Они могут кодировать сложные аспекты истории последовательности, но не всегда легко интерпретируемы. Каждый элемент скрытого состояния может быть связан с более сложными зависимостями, которые сложно трактовать в явной форме.
💡 Главная проблема:
При попытке трактовать скрытые состояния в RNN как дискретные состояния в HMM можно столкнуться с ошибками.Непрерывные скрытые представления могут не иметь четких «меток», что затрудняет их интерпретацию и объяснение. Важно учитывать, что RNN может захватывать более сложные, но менее интерпретируемые зависимости.
⚠️ Как избежать ошибок:
Не стоит пытаться трактовать скрытые состояния RNN как дискретные. Лучше использовать методы интерпретации, такие как визуализация внимания, чтобы понять, как скрытые состояния влияют на выход модели.
Библиотека собеса по Data Science
🧠 Скрытые марковские модели (HMM):
В HMM скрытые состояния — это
🤖 Рекуррентные нейронные сети (RNN):
В отличие от HMM, скрытые состояния в RNN — это
💡 Главная проблема:
При попытке трактовать скрытые состояния в RNN как дискретные состояния в HMM можно столкнуться с ошибками.
⚠️ Как избежать ошибок:
Библиотека собеса по Data Science
Forwarded from Библиотека задач по Data Science | тесты, код, задания
This media is not supported in your browser
VIEW IN TELEGRAM
🔄 Обновление: Gradio стал ещё удобнее
Gradio — это open-source фреймворк на Python для создания веб-интерфейсов для моделей машинного обучения и приложений с минимумом кода.
🔘 Почему стоит использовать Gradio:
➡️ Мгновенное прототипирование — пользовательский интерфейс запускается за считанные минуты
➡️ Поддержка Hugging Face и других AI-фреймворков
➡️ Интерактивность: ввод текста, загрузка изображений, аудио, видео, работа с таблицами и кодом
➡️ Удобный шаринг — можно расшарить ссылку или встроить приложение в сайт
🔘 Пример:
🆕 Что нового в компоненте gr.Dataframe:
Недавно команда Gradio выпустила обновление компонента
🔘 Основные улучшения:
➡️ Мультивыделение ячеек — можно копировать или удалять сразу несколько значений
➡️ Нумерация строк и закрепление колонок — удобно при работе с широкими таблицами
➡️ Кнопка копирования и полноэкранный режим — для более комфортной работы с данными
➡️ Поиск и фильтрация — находите нужные строки за секунды
➡️ Статичные колонки — защита важной информации от случайного редактирования
➡️ Выбор строк и колонок — для удобного взаимодействия с данными
🔗 Попробуйте Gradio в действии: https://clc.to/YKU9yw
💬 А вы уже использовали Gradio в своих проектах?
Библиотека дата-сайентиста #свежак
Gradio — это open-source фреймворк на Python для создания веб-интерфейсов для моделей машинного обучения и приложений с минимумом кода.
import gradio as gr
def greet(name):
return f"Привет, {name}!"
gr.Interface(fn=greet, inputs="text", outputs="text").launch()
Недавно команда Gradio выпустила обновление компонента
gr.Dataframe()
, закрыв более 70 задач и багов.🔗 Попробуйте Gradio в действии: https://clc.to/YKU9yw
💬 А вы уже использовали Gradio в своих проектах?
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
В ML-проектах множество параметров: данные, модели, обучение, инференс. Чтобы не потеряться в этом хаосе, важно организовать конфигурации понятно и масштабируемо.
🎯 Лучшее решение — использовать связку OmegaConf + Hydra.
OmegaConf создана для сложных ML-пайплайнов и позволяет:
• Объединять несколько YAML-файлов в единую структуру
• Обращаться к полям как через
config.model.optimizer
, так и config["model"]["optimizer"]
• Использовать проверку типов через
dataclasses
или Pydantic
-моделей• Пример:
# model.yaml
model:
name: resnet50
optimizer:
type: Adam
lr: 0.001
from omegaconf import OmegaConf
cfg = OmegaConf.load("model.yaml")
print(cfg.model.optimizer.lr) # 0.001
Hydra расширяет OmegaConf и упрощает работу с конфигурациями:
• Группировка конфигураций через
defaults:
# config.yaml
defaults:
- data: imagenet.yaml
- model: resnet.yaml
- training: adam.yaml
• Структура может быть произвольной:
conf/
├── config.yaml
├── data/imagenet.yaml
├── model/resnet.yaml
├── training/adam.yaml
• Переопределения из командной строки:
python train.py model.optimizer=SGD training.lr=0.01
• Параметрические прогоны (sweeps):
python train.py -m training.lr=0.001,0.01 model.optimizer=Adam,SGD
Это удобно при автоматизированном поиске гиперпараметров.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🧱⛏️ Чекни свой крафт: 8 признаков, что разработчик слишком залип в Minecraft
Думаешь, что твоя продуктивность падает из-за багов в коде? А может, все дело в том, что ты мысленно фармишь крипперов, пока твой PM объясняет задачу?
😎 Пройди наш тест и узнай, насколько глубоко ты провалился в пиксельную кроличью нору!
👉 Пройти тест
Библиотека питониста
Думаешь, что твоя продуктивность падает из-за багов в коде? А может, все дело в том, что ты мысленно фармишь крипперов, пока твой PM объясняет задачу?
😎 Пройди наш тест и узнай, насколько глубоко ты провалился в пиксельную кроличью нору!
👉 Пройти тест
Библиотека питониста
Forwarded from Proglib.academy | IT-курсы
📚 13 ресурсов, чтобы выучить математику с нуля — подборка, которую просили
Хочешь прокачаться в математике для Data Science, ML или просто чтобы понимать, что происходит в формулах. Лови список лучших источников, которые собрали на Proglib.
➡️ Что внутри:
• Книги: от Пойи и Перельмана до Хофштадтера
• Советы: как учить, с чего начать, как не сдаться
• Математика для Data Science: разбор тем и формул
• Ссылки на форумы и задачи
• Как не бояться, если всё кажется сложным
• Что читать, если ты гуманитарий и страдал от школьной алгебры
✍️ Простой язык, много примеров и ноль академического занудства.
🔵 Для полного понимания Архитектуры, забирайте наш курс → «Архитектуры и шаблоны проектирования»
👉 Читай статью тут
Хочешь прокачаться в математике для Data Science, ML или просто чтобы понимать, что происходит в формулах. Лови список лучших источников, которые собрали на Proglib.
• Книги: от Пойи и Перельмана до Хофштадтера
• Советы: как учить, с чего начать, как не сдаться
• Математика для Data Science: разбор тем и формул
• Ссылки на форумы и задачи
• Как не бояться, если всё кажется сложным
• Что читать, если ты гуманитарий и страдал от школьной алгебры
✍️ Простой язык, много примеров и ноль академического занудства.
👉 Читай статью тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Дата-сайентисты!
Проголосуйте за наш канал, и в сторис мы опубликуем топ материалов, которые должен прочитать каждый дата-сайентист.
➡️ Поддержать канал: https://t.me/boost/dsproglib
Проголосуйте за наш канал, и в сторис мы опубликуем топ материалов, которые должен прочитать каждый дата-сайентист.
Please open Telegram to view this post
VIEW IN TELEGRAM
В центре внимания сегодня — Smallpond, который оптимизирует работу с большими объемами данных, обеспечивая высокую производительность и гибкость при решении задач в области ИИ.
Архитектура Smallpond:
Как использовать Smallpond:
pip install smallpond
import smallpond
sp = smallpond.init(job_name="flightdatajob", ray_address="http://127.0.0.1:8265")
df = sp.read_parquet("flight_summary.parquet")
df = df.repartition(10, hash_by="DEST_COUNTRY_NAME")
df = sp.partial_sql("SELECT DEST_COUNTRY_NAME, count(distinct ORIGIN_COUNTRY_NAME) as ORIGIN FROM {0} GROUP BY DEST_COUNTRY_NAME HAVING DEST_COUNTRY_NAME='United States'", df)
print(df.to_pandas())
Что происходит в коде:
Smallpond использует ленивые вычисления, создавая DAG (направленный ациклический граф) и выполняя задачи только при вызове действий, таких как
to_pandas()
. Это позволяет эффективно управлять вычислениями и минимизировать ресурсы.Smallpond подходит для задач, где требуется высокая производительность и оптимизация работы с большими данными. Его простота и интеграция с популярными инструментами делают его отличным выбором для проектов в области ИИ.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🧮 Matrix Multiplication (matmul) — основа современных нейросетей. И теперь вы можете наглядно увидеть, как это работает.
Инструмент от PyTorch называется mm — это визуализатор, который показывает, как матрицы взаимодействуют во время перемножения. Отличный способ понять внутреннюю механику операций, лежащих в основе ИИ.
📎 Ссылка на проект: https://clc.to/LG_pgw
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
А какие перлы находили в своем коде? Делитесь в комментариях
Библиотека дата-сайентиста #развлекалово
Please open Telegram to view this post
VIEW IN TELEGRAM
Цель: обеспечить воспроизводимость, удобную работу с зависимостями и подготовку модели к деплою с помощью контейнеризации.
docker --version
docker run hello-world
Это подтвердит, что Docker работает корректно.
—
python:3.11-slim
— компактный образ на Python—
jupyter/datascience-notebook
— включает Jupyter и популярные библиотекиDockerfile
и опишите в нём:FROM python:3.11-slim
WORKDIR /app
COPY . .
RUN pip install -r requirements.txt
requirements.txt
содержит все зависимости проектаrequirements.txt
, например: pandas==2.2.1
numpy==1.26.0
.git
*.csv
__pycache__/
docker build -t my-ds-image .
docker run -v /path/to/data:/app/data my-ds-image
docker run -p 8888:8888 my-ds-image jupyter notebook --ip=0.0.0.0 --allow-root
— Убедитесь, что установлен
nvidia-docker
— Используйте флаг
--gpus all
docker run -it my-ds-image bash
python -c "import pandas; print(pandas.__version__)"
docker logs <container_id>
app.py
)CMD ["python", "app.py"]
docker run -p 5000:5000 my-ds-image
—
tensorflow/tensorflow:latest-gpu
— с поддержкой GPU—
continuumio/anaconda3
— включает Anaconda и библиотекиХраните
Dockerfile
и requirements.txt
в репозитории. Это залог воспроизводимости и эффективной командной работы в проектах Data Science.Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
От базовых принципов до сложных техник, таких как chain of thought, где LLM строит цепочки решений.
Звучит очень громко и амбициозно!
Согласны ли вы с этим утверждением? Может ли человек без опыта в Data Science создать эффективный промпт для решения задачи?
👍 — Да, с правильным подходом можно
🔥 — Нет, всё равно нужен опыт и знания
🔗 Ссылка на гайд: https://clc.to/q-7AXw
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🙈 Что скрывает дисперсия: разгадка секрета точных ML-моделей
Представьте, что вы строите модель, которая прекрасно работает на тренировочных данных, но стоит подать ей новые примеры... и всё рушится. Знакомо? За этим почти всегда скрывается неправильное обращение с дисперсией.
🧐 Но что, если есть простая формула, способная:
• Мгновенно определить, насколько «разбросаны» ваши данные
• Значительно улучшить точность ваших ML-моделей
• Помочь обнаружить аномалии, которые вы раньше не замечали
В нашем вебинаре мы раскрываем все секреты дисперсии — без сложных терминов и занудных объяснений. Вы узнаете, почему дисперсия — как соль: без нее все пресно, а с переизбытком — несъедобно.
Хотите узнать, как находить идеальный баланс в своих моделях, причем тут Random Forest и много другого о Data Science?
➡️ Тогда смотрите бесплатный вебинар от Proglib: https://proglib.io/w/b9e06b9e
Представьте, что вы строите модель, которая прекрасно работает на тренировочных данных, но стоит подать ей новые примеры... и всё рушится. Знакомо? За этим почти всегда скрывается неправильное обращение с дисперсией.
🧐 Но что, если есть простая формула, способная:
• Мгновенно определить, насколько «разбросаны» ваши данные
• Значительно улучшить точность ваших ML-моделей
• Помочь обнаружить аномалии, которые вы раньше не замечали
В нашем вебинаре мы раскрываем все секреты дисперсии — без сложных терминов и занудных объяснений. Вы узнаете, почему дисперсия — как соль: без нее все пресно, а с переизбытком — несъедобно.
Хотите узнать, как находить идеальный баланс в своих моделях, причем тут Random Forest и много другого о Data Science?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Индустрия шумит, новостей море, а времени — как всегда, впритык. Поэтому мы собрали для вас список подкастов, где обсуждают суть: машинное обучение, реальные кейсы и будущее AI. Без лишнего хайпа.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека питониста | Python, Django, Flask
🖼 ТОП-5 структур данных для обработки изображений
Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?
Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.
👉 В этой статье — подборка топ решений и советы, как их использовать.
Библиотека питониста
Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?
Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.
Библиотека питониста
Please open Telegram to view this post
VIEW IN TELEGRAM