Создавайте LLM с нуля
Наткнулся на отличную находку от Vizuara — серию из 43 лекций, которая действительно выполняет своё обещание: показать, как построить большую языковую модель с нуля.
Большинство людей пользуются ChatGPT.
Но лишь немногие действительно понимают, как он устроен под капотом.
Этот плейлист пошагово разбирает все ключевые концепции, не перегружая сложными объяснениями.
Что вы изучите:
→ Архитектуру Transformer
→ Внутреннее устройство GPT
→ Токенизацию и BPE
→ Механизмы внимания (Attention)
→ Процесс обучения LLM
→ Полноценные реализации на Python
Подойдёт для:
• ML-инженеров
• Энтузиастов ИИ
• Разработчиков, входящих в сферу GenAI
• Всех, кто устал от объяснений ИИ как «чёрного ящика»
Если вы действительно хотите понять, что лежит в основе таких моделей, как ChatGPT, Claude и Gemini, — этот материал стоит посмотреть.
🔗 Ссылка на плейлист
👉 @PythonPortal
Наткнулся на отличную находку от Vizuara — серию из 43 лекций, которая действительно выполняет своё обещание: показать, как построить большую языковую модель с нуля.
Большинство людей пользуются ChatGPT.
Но лишь немногие действительно понимают, как он устроен под капотом.
Этот плейлист пошагово разбирает все ключевые концепции, не перегружая сложными объяснениями.
Что вы изучите:
→ Архитектуру Transformer
→ Внутреннее устройство GPT
→ Токенизацию и BPE
→ Механизмы внимания (Attention)
→ Процесс обучения LLM
→ Полноценные реализации на Python
Подойдёт для:
• ML-инженеров
• Энтузиастов ИИ
• Разработчиков, входящих в сферу GenAI
• Всех, кто устал от объяснений ИИ как «чёрного ящика»
Если вы действительно хотите понять, что лежит в основе таких моделей, как ChatGPT, Claude и Gemini, — этот материал стоит посмотреть.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍5
Перестаньте искать Python-библиотеки для машинного обучения по случайным туториалам.
Best-of Machine Learning with Python — это курируемый GitHub-индекс open-source библиотек для машинного обучения на Python, созданный для разработчиков, которым нужен более быстрый способ ориентироваться в экосистеме и сравнивать инструменты между собой.
Проект помогает составить шорт-лист подходящих решений, группируя библиотеки по категориям и ранжируя их с помощью оценки качества проекта, основанной на метриках из GitHub и менеджеров пакетов.
Ключевые особенности:
• Индекс из 920 проектов — большая и удобная для навигации карта open-source ML-проектов на Python
• 34 категории — поиск по направлениям: ML-фреймворки, NLP, обработка изображений, AutoML, деплой, интерпретируемость моделей и многое другое
• Рейтинг по оценке качества — проекты сортируются на основе автоматически рассчитываемого рейтинга, использующего сигналы из репозиториев и менеджеров пакетов
• Подробная метаинформация о проектах — для каждого проекта доступны такие показатели, как количество звёзд, форков, issues, контрибьюторов, активность разработки, загрузки и зависимости
• Еженедельные обновления и вклад сообщества — список регулярно обновляется, а улучшения можно вносить через issues, pull request'ы или редактирование файла
Проект полностью открыт и распространяется по лицензии CC BY-SA 4.0.
👉 @PythonPortal
Best-of Machine Learning with Python — это курируемый GitHub-индекс open-source библиотек для машинного обучения на Python, созданный для разработчиков, которым нужен более быстрый способ ориентироваться в экосистеме и сравнивать инструменты между собой.
Проект помогает составить шорт-лист подходящих решений, группируя библиотеки по категориям и ранжируя их с помощью оценки качества проекта, основанной на метриках из GitHub и менеджеров пакетов.
Ключевые особенности:
• Индекс из 920 проектов — большая и удобная для навигации карта open-source ML-проектов на Python
• 34 категории — поиск по направлениям: ML-фреймворки, NLP, обработка изображений, AutoML, деплой, интерпретируемость моделей и многое другое
• Рейтинг по оценке качества — проекты сортируются на основе автоматически рассчитываемого рейтинга, использующего сигналы из репозиториев и менеджеров пакетов
• Подробная метаинформация о проектах — для каждого проекта доступны такие показатели, как количество звёзд, форков, issues, контрибьюторов, активность разработки, загрузки и зависимости
• Еженедельные обновления и вклад сообщества — список регулярно обновляется, а улучшения можно вносить через issues, pull request'ы или редактирование файла
projects.yamlПроект полностью открыт и распространяется по лицензии CC BY-SA 4.0.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤7👍4
Стоп Слоп: нашли скилл для Claude и других LLM, который учит их избавляться от предсказуемых фраз и конструкций, из-за которых сгенерированный текст звучит по-машинному. 😁
- Находит и удаляет запрещённые речевые шаблоны: вводные разогревающие фразы, слова-паразиты для усиления акцента и любые наречия.
- Убирает структурные клише, такие как противопоставления по схеме «не X, а Y» и искусственно драматизированное дробление текста на короткие фразы.
- Применяет правила на уровне предложений: запрет на начало предложений с вопросительных слов (Wh- words) и использование только активного залога.
- Включает систему оценки по пяти измерениям для анализа прямоты изложения, ритма текста и его естественности.
https://github.com/hardikpandya/stop-slop
👉 @PythonPortal
- Находит и удаляет запрещённые речевые шаблоны: вводные разогревающие фразы, слова-паразиты для усиления акцента и любые наречия.
- Убирает структурные клише, такие как противопоставления по схеме «не X, а Y» и искусственно драматизированное дробление текста на короткие фразы.
- Применяет правила на уровне предложений: запрет на начало предложений с вопросительных слов (Wh- words) и использование только активного залога.
- Включает систему оценки по пяти измерениям для анализа прямоты изложения, ритма текста и его естественности.
https://github.com/hardikpandya/stop-slop
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭7❤4👍3🤣1
Опытный разработчик с реддита, показал, как превратить Claude Code в персонального аналитика, который сам собирает для вас информацию из интернета каждое утро. Пока вы спите.
Схема выглядит так:
→ Использовать команду
→ Подключить Brave Search MCP для поиска актуальной информации в интернете
→ Подключить своё хранилище Obsidian через Filesystem MCP
→ Создать файл
→ Дать инструкцию: «Каждый будний день в 6:00 ищи новые события по этим темам и сохраняй сводку в Obsidian»
После этого Claude сам преобразует инструкцию на естественном языке в cron-задачу.
Без N8N.
Без собственного сервера.
Без необходимости держать компьютер включённым.
👉 @PythonPortal
Схема выглядит так:
→ Использовать команду
/schedule в Claude Code для запуска постоянных облачных задач→ Подключить Brave Search MCP для поиска актуальной информации в интернете
→ Подключить своё хранилище Obsidian через Filesystem MCP
→ Создать файл
CLAUDE.md с темами интересов и фильтрами «не показывать»→ Дать инструкцию: «Каждый будний день в 6:00 ищи новые события по этим темам и сохраняй сводку в Obsidian»
После этого Claude сам преобразует инструкцию на естественном языке в cron-задачу.
Без N8N.
Без собственного сервера.
Без необходимости держать компьютер включённым.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11
Выглядит как одна из самых практичных идей вокруг Claude Skills за последнее время.
book-to-skill превращает книгу не просто в заметки или summary, а в набор структурированных skill-файлов, которые Claude может подгружать по запросу. Вместо того чтобы каждый раз скармливать модели PDF на сотни страниц, инструмент разбивает материал на главы, вытаскивает ключевые концепции, паттерны, glossary и cheatsheet.
Самая интересная часть не в конвертации PDF, а в том, что книга начинает работать как часть контекста агента:
Для разработчиков это особенно полезно на книгах вроде:
- Designing Data-Intensive Applications
- Database Internals
- Computer Systems: A Programmer's Perspective
- Operating Systems: Three Easy Pieces
Обычно такие книги содержат огромное количество деталей, которые сложно держать в голове. Skill-формат превращает их в что-то вроде локального экспертного консультанта по конкретной теме.
По сути это ещё один шаг к модели:
То есть книга перестаёт быть статичным файлом и становится частью рабочего процесса агента.
Идея вообще хорошо ложится на текущий тренд вокруг Agent Skills, где знания хранятся как отдельные
👉 @PythonPortal
book-to-skill превращает книгу не просто в заметки или summary, а в набор структурированных skill-файлов, которые Claude может подгружать по запросу. Вместо того чтобы каждый раз скармливать модели PDF на сотни страниц, инструмент разбивает материал на главы, вытаскивает ключевые концепции, паттерны, glossary и cheatsheet.
Самая интересная часть не в конвертации PDF, а в том, что книга начинает работать как часть контекста агента:
/database-internals replication и Claude подгружает только нужный раздел, а не весь документ целиком. Это сильно экономит контекстное окно и уменьшает количество галлюцинаций, потому что ответы строятся на содержимом конкретной главы. Для разработчиков это особенно полезно на книгах вроде:
- Designing Data-Intensive Applications
- Database Internals
- Computer Systems: A Programmer's Perspective
- Operating Systems: Three Easy Pieces
Обычно такие книги содержат огромное количество деталей, которые сложно держать в голове. Skill-формат превращает их в что-то вроде локального экспертного консультанта по конкретной теме.
По сути это ещё один шаг к модели:
↓
Knowledge Extraction
↓
Structured Skill
↓
On-demand Context Loading
↓
AI Agent
То есть книга перестаёт быть статичным файлом и становится частью рабочего процесса агента.
Идея вообще хорошо ложится на текущий тренд вокруг Agent Skills, где знания хранятся как отдельные
SKILL.md файлы и подгружаются только при необходимости. Это позволяет держать сотни навыков без раздувания постоянного контекста. Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
This media is not supported in your browser
VIEW IN TELEGRAM
Этот инструмент показывает промпт, стоящий за любым GitHub-репозиторием.
Пользоваться им очень просто:
→ Замените
→ Сервис покажет промпт, с помощью которого можно воспроизвести проект
Ничего не нужно устанавливать или настраивать.
Достаточно изменить URL.
Реверс-инжиниринг любого проекта за считанные секунды.
На 100% бесплатно.
https://www.gitreverse.com/
👉 @PythonPortal
Пользоваться им очень просто:
→ Замените
github на gitreverse в URL репозитория→ Сервис покажет промпт, с помощью которого можно воспроизвести проект
Ничего не нужно устанавливать или настраивать.
Достаточно изменить URL.
Реверс-инжиниринг любого проекта за считанные секунды.
На 100% бесплатно.
https://www.gitreverse.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯13😁7❤3
Новый терминал для вайбкодеров
Специально создан для работы с ИИ.
✓ Всего 7 МБ. Очень высокая производительность
✓ Поддерживает Windows, macOS и Linux
✓ Встроены редактор, Git, агенты и предпросмотр веб-страниц
✓ Без телеметрии и регистрации
Бесплатный и с открытым исходным кодом
🥩 🥩 🥩
👉 @PythonPortal
Специально создан для работы с ИИ.
✓ Всего 7 МБ. Очень высокая производительность
✓ Поддерживает Windows, macOS и Linux
✓ Встроены редактор, Git, агенты и предпросмотр веб-страниц
✓ Без телеметрии и регистрации
Бесплатный и с открытым исходным кодом
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤2
PewDiePie продолжает вайбкодить: 15тыс звёзд на GitHub менее чем за 24 часа.
Он назвал его Odysseus и это своего рода аналог ChatGPT и Claude, но ориентированный на локальный запуск ИИ. Сейчас он стремительно набирает популярность.👃
Он описывает его как «селф-хост интерфейс для работы с языковыми моделями», в котором есть чат, автономные агенты, инструменты, запуск и обслуживание моделей, почта, ресёрч и другие возможности.
https://github.com/pewdiepie-archdaemon/odysseus
👉 @PythonPortal
Он назвал его Odysseus и это своего рода аналог ChatGPT и Claude, но ориентированный на локальный запуск ИИ. Сейчас он стремительно набирает популярность.
Он описывает его как «селф-хост интерфейс для работы с языковыми моделями», в котором есть чат, автономные агенты, инструменты, запуск и обслуживание моделей, почта, ресёрч и другие возможности.
https://github.com/pewdiepie-archdaemon/odysseus
Please open Telegram to view this post
VIEW IN TELEGRAM
❤22👍5🏆3😢2
This media is not supported in your browser
VIEW IN TELEGRAM
DuckDuckGo официально добавила режим No-AI 🦆
Он автоматически отключает AI-функции и скрывает AI-сгенерированные изображения из результатов поиска.
Что входит:
→ Без AI-ответов в поиске
→ Без Duck.ai и AI-чата
→ Фильтрация AI-сгенерированных изображений
→ Обычная выдача без AI-вставок
Забавно наблюдать, как после нескольких лет гонки за внедрением ИИ поисковики начали добавлять кнопку «выключить ИИ».
Похоже, классический поиск снова стал фичей :)
👉 @PythonPortal
Он автоматически отключает AI-функции и скрывает AI-сгенерированные изображения из результатов поиска.
Что входит:
→ Без AI-ответов в поиске
→ Без Duck.ai и AI-чата
→ Фильтрация AI-сгенерированных изображений
→ Обычная выдача без AI-вставок
Забавно наблюдать, как после нескольких лет гонки за внедрением ИИ поисковики начали добавлять кнопку «выключить ИИ».
Похоже, классический поиск снова стал фичей :)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55❤15👍15
Наткнулся на open-source PDF-парсер, который конвертирует PDF в Markdown со скоростью до 100 страниц в секунду.
На CPU.
Без GPU, облака и API-ключей.
Что умеет:
• Таблицы
• Сложные макеты документов
• Вложенные структуры
• OCR для 80+ языков
• Интеграция с LangChain
Называется OpenDataLoader.
По бенчмаркам авторов сейчас занимает первое место среди PDF → Markdown решений.
Для контекста:
• Docling показывает хорошие результаты, но работает примерно в 15 раз медленнее
• Marker требует GPU и значительно медленнее
• PyMuPDF4LLM быстрый, но заметно хуже справляется с таблицами
Отдельно удивило, что проект делали вместе с PDF Association и командой veraPDF.
То есть не просто очередной AI-стартап с громкими заявлениями, а люди, которые много лет работают с самим PDF-форматом.
Если собираете RAG, индексируете документацию или регулярно разбираете PDF-файлы, выглядит как проект, на который стоит посмотреть.
https://github.com/opendataloader-project/opendataloader-pdf
👉 @PythonPortal
На CPU.
Без GPU, облака и API-ключей.
Что умеет:
• Таблицы
• Сложные макеты документов
• Вложенные структуры
• OCR для 80+ языков
• Интеграция с LangChain
Называется OpenDataLoader.
По бенчмаркам авторов сейчас занимает первое место среди PDF → Markdown решений.
Для контекста:
• Docling показывает хорошие результаты, но работает примерно в 15 раз медленнее
• Marker требует GPU и значительно медленнее
• PyMuPDF4LLM быстрый, но заметно хуже справляется с таблицами
Отдельно удивило, что проект делали вместе с PDF Association и командой veraPDF.
То есть не просто очередной AI-стартап с громкими заявлениями, а люди, которые много лет работают с самим PDF-форматом.
Если собираете RAG, индексируете документацию или регулярно разбираете PDF-файлы, выглядит как проект, на который стоит посмотреть.
https://github.com/opendataloader-project/opendataloader-pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - opendataloader-project/opendataloader-pdf: PDF Parser for AI-ready data. Automate PDF accessibility. Open-source.
PDF Parser for AI-ready data. Automate PDF accessibility. Open-source. - opendataloader-project/opendataloader-pdf
👍8❤3
14-дневный туториал, где ты с нуля собираешь на Python code-agent CLI в стиле Claude Code и параллельно разбираешь, как вообще работает Agent Harness.
В итоге ты не просто вызываешь готового агента через API, а понимаешь, из каких деталей собирается Claude Code-подобный инструмент.
https://github.com/bozhouDev/14days-build-claude-code-cli
👉 @PythonPortal
В итоге ты не просто вызываешь готового агента через API, а понимаешь, из каких деталей собирается Claude Code-подобный инструмент.
https://github.com/bozhouDev/14days-build-claude-code-cli
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - bozhouDev/14days-build-claude-code-cli: 网页版教程,看起来会舒服一点
网页版教程,看起来会舒服一点. Contribute to bozhouDev/14days-build-claude-code-cli development by creating an account on GitHub.
❤9
40 собесов и оффер за 1 месяц
Алексей разработчик.
Искал работу с декабря - написание сопроводов и отклики занимали очень много времени.
Выхлоп - почти нулевой.
В какой-то момент понял:
так можно искать бесконечно.
И по совету друга попробовал ии-ассистента Софи.
▫️За ~1 месяц прошел около 40 собеседований
▫️Получил оффер с вакансии, на которую, по его словам, не откликнулся бы сам
Весь процесс - от первого собеседования до оффера - занял 4 дня.
P.S. Попробовать Софи бесплатно можно будет 16 июня.
Не пропусти анонс здесь.
Алексей разработчик.
Искал работу с декабря - написание сопроводов и отклики занимали очень много времени.
Выхлоп - почти нулевой.
В какой-то момент понял:
так можно искать бесконечно.
И по совету друга попробовал ии-ассистента Софи.
▫️За ~1 месяц прошел около 40 собеседований
▫️Получил оффер с вакансии, на которую, по его словам, не откликнулся бы сам
В описании она выглядела скучно, а по факту - одна из самых интересных компаний, с которыми я общался.
Весь процесс - от первого собеседования до оффера - занял 4 дня.
P.S. Попробовать Софи бесплатно можно будет 16 июня.
Не пропусти анонс здесь.
😁6🤣4👀1
Перестаньте изучать LLM по случайным статьям и видео, которые объясняют только отдельные куски картины.
LLM from Scratch — это практический курс на PyTorch для тех, кто хочет понять весь путь современной LLM: от первого Transformer-блока до RLHF.
Вместо бесконечной теории здесь собирают полноценную цепочку обучения модели:
• Pretraining → Finetuning → Alignment в одном курсе
• Transformer с нуля: positional embeddings, self-attention, multi-head attention, MLP, residual connections, LayerNorm и полные Transformer-блоки
• Собственный training loop без Trainer-магии: токенизация, батчи, cross-entropy, validation loss, генерация текста
• Современные улучшения архитектуры: RMSNorm, RoPE, SwiGLU, KV Cache, sliding-window attention и streaming cache
• Полный раздел по alignment: SFT, reward models, PPO-style RLHF и GRPO с разбором того, как это выглядит в тренировочном цикле на практике
https://github.com/vivekkalyanarangan30/llm_from_scratch
👉 @PythonPortal
LLM from Scratch — это практический курс на PyTorch для тех, кто хочет понять весь путь современной LLM: от первого Transformer-блока до RLHF.
Вместо бесконечной теории здесь собирают полноценную цепочку обучения модели:
• Pretraining → Finetuning → Alignment в одном курсе
• Transformer с нуля: positional embeddings, self-attention, multi-head attention, MLP, residual connections, LayerNorm и полные Transformer-блоки
• Собственный training loop без Trainer-магии: токенизация, батчи, cross-entropy, validation loss, генерация текста
• Современные улучшения архитектуры: RMSNorm, RoPE, SwiGLU, KV Cache, sliding-window attention и streaming cache
• Полный раздел по alignment: SFT, reward models, PPO-style RLHF и GRPO с разбором того, как это выглядит в тренировочном цикле на практике
https://github.com/vivekkalyanarangan30/llm_from_scratch
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2