Принесли вам отличный ресурс, который собрал огромное количество практических задач по SQL.
Там можно найти всё: от базовых упражнений до сложных вопросов, включая отдельный блок с заданиями от FAANG.
Но самое ценное здесь не сами вопросы, а структура подачи:
- Формулировка задачи в формате собеседования
- Подробное решение с объяснением
- Встроенный редактор, чтобы попробовать свои силы прямо на месте
И главное — доступ полностью бесплатный.
Начать тренироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤4👍4
✨ Возможности:
- Объединение и разделение файлов
- Поворот и обрезка страниц
- Перестановка и удаление страниц
- Интуитивный drag-and-drop интерфейс
Полностью опенсорс (GPL-3.0).
Идеален, если нужно быстро подготовить PDF к печати или презентации — без сложных настроек.
📌 GitHub
#PDF #opensource #Linux #devtools
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥4👍3
Kyvo — это трансформер, который умеет работать сразу с текстом, изображениями и 3D-сценами. Он синхронизирует всё это *токен за токеном*, что открывает новые возможности для мульти-модальных ИИ.
🔍 Что делает Kyvo
- Представляет 3D-сцену как список объектов с атрибутами: форма, размер, тип, поза, положение.
- Объединяет текст, изображения и 3D в одно общее представление.
- Может рендерить картинку по сцене, восстанавливать 3D по фото, отвечать на вопросы о сцене или менять её по инструкции.
- Использует специальные кодировки для более точного восстановления форм объектов.
🧪 На чём проверяли
- Датасеты: CLEVR, ObjaWorld, Objectron, ARKitScenes.
- Задачи: рендеринг, распознавание объектов, инструкции к сцене, ответы на вопросы.
✅ Чем интересна:
- Универсальность: одна модель - много задач и форматов данных.
- Гибкость: одинаково хорошо работает и в генерации, и в понимании.
- Шаг к тому, чтобы ИИ начал воспринимать мир в трёх измерениях, а не только в 2D.
🔗 Ссылки
- Статья на arXiv: https://arxiv.org/abs/2506.08002
- Проект: https://glab-caltech.github.io/kyvo/
- GitHub: https://github.com/glab-caltech/kyvo
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍8
🚀 DeepFaceLab — главный open-source инструмент для создания deepfake-видео
📌 Факты:
- Более 95% всех deepfake сделаны через DeepFaceLab
- Поддержка Windows, Linux и Google Colab
- Основан на TensorFlow, с гибкой модульной архитектурой
- Реалистичные результаты — уровень киноэффектов
- Репозиторий получил 18.5k⭐ и 669 форков
- С ноября 2024 проект в архиве, но доступен для изучения
Автор: iperov — один из первых разработчиков, сделавших face-swap доступным для всех.
🔗 Репозиторий: https://github.com/iperov/DeepFaceLab
💡 Используй для обучения, экспериментов и ресерча — это основа всех современных deepfake-технологий.
📌 Факты:
- Более 95% всех deepfake сделаны через DeepFaceLab
- Поддержка Windows, Linux и Google Colab
- Основан на TensorFlow, с гибкой модульной архитектурой
- Реалистичные результаты — уровень киноэффектов
- Репозиторий получил 18.5k⭐ и 669 форков
- С ноября 2024 проект в архиве, но доступен для изучения
Автор: iperov — один из первых разработчиков, сделавших face-swap доступным для всех.
🔗 Репозиторий: https://github.com/iperov/DeepFaceLab
💡 Используй для обучения, экспериментов и ресерча — это основа всех современных deepfake-технологий.
😁11🆒5❤3🔥2👍1
Forwarded from Machinelearning
🐳 А вот и обновленная DeepSeek-V3.1-Terminus
Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.
Доступна в приложении и в веб-версии и через API.
🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
@ai_machinelearning_big_data
#DeepSeek #opensource #llm
Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.
Доступна в приложении и в веб-версии и через API.
🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
@ai_machinelearning_big_data
#DeepSeek #opensource #llm
❤7🔥4🥰4
🚀 Подборка свежих моделей и датасетов на Hugging Face (16 сентября)
Здесь интересные релизы из разных областей: текст, аудио, изображения и даже видео.
✨ Модели:
- https://huggingface.co/ibm-granite/granite-docling-258M — универсальный инструмент для работы с документами (конвертация и Q&A).
- https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base — мощная аудио-модель для понимания и генерации.
- https://huggingface.co/OpenGVLab/ScaleCUA-3B — мультимодальная модель (картинка → текст).
- https://huggingface.co/decart-ai/Lucy-Edit-Dev — модель для редактирования видео.
- https://huggingface.co/inclusionAI/Ling-flash-2.0 — текстовая модель на 103B параметров.
Эта подборка удобна, чтобы быстро посмотреть, что вышло нового и полезного за последние дни.
🔗 Полный список доступен здесь: https://huggingface.co/collections/merve/sep-16-releases-68d13ea4c547f02f95842f05
Здесь интересные релизы из разных областей: текст, аудио, изображения и даже видео.
✨ Модели:
- https://huggingface.co/ibm-granite/granite-docling-258M — универсальный инструмент для работы с документами (конвертация и Q&A).
- https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base — мощная аудио-модель для понимания и генерации.
- https://huggingface.co/OpenGVLab/ScaleCUA-3B — мультимодальная модель (картинка → текст).
- https://huggingface.co/decart-ai/Lucy-Edit-Dev — модель для редактирования видео.
- https://huggingface.co/inclusionAI/Ling-flash-2.0 — текстовая модель на 103B параметров.
Эта подборка удобна, чтобы быстро посмотреть, что вышло нового и полезного за последние дни.
🔗 Полный список доступен здесь: https://huggingface.co/collections/merve/sep-16-releases-68d13ea4c547f02f95842f05
👍9❤5🔥4🤝3
🧠 MIT доказал: LLM могут логически рассуждать, если правильно их учить.
📄 Исследователи предложили метод PDDL-INSTRUCT. Он превращает обучение модели из «угадай ответ» в пошаговое решение задач с внешней проверкой.
Как это устроено:
1️⃣ На первом этапе модели показывают правильные и неправильные планы с объяснениями.
2️⃣ На втором этапе она сама прописывает рассуждения для каждого шага. После этого внешний инструмент (**VAL**) проверяет логику. Если ошибка - модель получает чёткое объяснение, что не так.
📊 Результаты:
- У Llama-3-8B точность выросла с 28% до 94% на задачах планирования.
- Подробная обратная связь работает намного лучше, чем простое «правильно/неправильно».
💡 Главное: модель не заменяет символический планировщик, а учится мыслить как он, сохраняя внешнюю проверку.
⚡ Такой подход можно применить к любым многошаговым задачам - от математики до программирования. Возможно, многие «невозможные» способности моделей скрыты внутри и ждут правильного метода обучения.
🟠 Статья: https://arxiv.org/abs/2509.13351
@machinelearning_interview
📄 Исследователи предложили метод PDDL-INSTRUCT. Он превращает обучение модели из «угадай ответ» в пошаговое решение задач с внешней проверкой.
Как это устроено:
1️⃣ На первом этапе модели показывают правильные и неправильные планы с объяснениями.
2️⃣ На втором этапе она сама прописывает рассуждения для каждого шага. После этого внешний инструмент (**VAL**) проверяет логику. Если ошибка - модель получает чёткое объяснение, что не так.
📊 Результаты:
- У Llama-3-8B точность выросла с 28% до 94% на задачах планирования.
- Подробная обратная связь работает намного лучше, чем простое «правильно/неправильно».
💡 Главное: модель не заменяет символический планировщик, а учится мыслить как он, сохраняя внешнюю проверку.
⚡ Такой подход можно применить к любым многошаговым задачам - от математики до программирования. Возможно, многие «невозможные» способности моделей скрыты внутри и ждут правильного метода обучения.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33❤9👍5😁3
Как выбрать IT-инфраструктуру для ML и как внедрить MLOps?
Реальные бизнес-кейсы
Присоединяйтесь к Selectel Tech Day 8 октября, чтобы узнать о лучших практиках масштабирования ML-проектов и актуальных трендах инфраструктурного ML.
На отдельном ML-треке обсудят:
🔺Как превратить экспериментальные модели в стабильные продакшн-системы.
🔺Как оценить эффективность внедрения ML-решений.
🔺Какая инфраструктура закроет все потребности ML-проектов.
Вас ждет насыщенная программа: содержательные доклады, экспертная дискуссия и воркшоп. Участие бесплатное, нужно только зарегистрироваться →
Реклама. АО "Селектел". erid:2W5zFGUvC1W
Реальные бизнес-кейсы
Присоединяйтесь к Selectel Tech Day 8 октября, чтобы узнать о лучших практиках масштабирования ML-проектов и актуальных трендах инфраструктурного ML.
На отдельном ML-треке обсудят:
🔺Как превратить экспериментальные модели в стабильные продакшн-системы.
🔺Как оценить эффективность внедрения ML-решений.
🔺Какая инфраструктура закроет все потребности ML-проектов.
Вас ждет насыщенная программа: содержательные доклады, экспертная дискуссия и воркшоп. Участие бесплатное, нужно только зарегистрироваться →
Реклама. АО "Селектел". erid:2W5zFGUvC1W
❤8👍4
🧠 Интеллектуальный маршрутизатор для LLM
Semantic Router направляет запросы к OpenAI API на основе семантического понимания, выбирая наиболее подходящие модели из пула. Использует классификацию BERT для повышения точности вывода и предлагает функции безопасности, такие как обнаружение PII и защита от jailbreak.
🚀 Основные моменты:
- Авто-выбор моделей для оптимизации запросов
- Инструменты выбора на основе контекста запроса
- Обнаружение и защита от PII
- Кэширование семантических представлений для ускорения обработки
📌 GitHub: https://github.com/vllm-project/semantic-router
#python
Semantic Router направляет запросы к OpenAI API на основе семантического понимания, выбирая наиболее подходящие модели из пула. Использует классификацию BERT для повышения точности вывода и предлагает функции безопасности, такие как обнаружение PII и защита от jailbreak.
🚀 Основные моменты:
- Авто-выбор моделей для оптимизации запросов
- Инструменты выбора на основе контекста запроса
- Обнаружение и защита от PII
- Кэширование семантических представлений для ускорения обработки
📌 GitHub: https://github.com/vllm-project/semantic-router
#python
GitHub
GitHub - vllm-project/semantic-router: Intelligent Mixture-of-Models Router for Efficient LLM Inference
Intelligent Mixture-of-Models Router for Efficient LLM Inference - vllm-project/semantic-router
❤9🔥9🥰2
🧠 Yandex B2B Tech запустила AI Studio: создавай ИИ-агентов без навыков разработки
Платформа позволяет собирать AI-агентов на базе облачных моделей Яндекса или опенсорсных нейросетей.
📌 Что можно делать:
• Автоматизировать рутину: комплаенс-проверки, бухотчётность, поддержку клиентов
• Строить мультиагентные системы (например, один анализирует спрос, другой планирует закупки)
• Подключать голосовых агентов для кол-центров на базе realtime API;
• Встраивать умный поиск по интернету, а также по картинкам, таблицам и документам;
• Быстро подключать ИИ-агентов к внешним системам по шаблонам через MCP Hub (там уже доступны amoCRM и “Контур.Фокус”).
Такие ИИ-ассистенты уже доступны в самих сервисах Yandex Cloud – они могут сами составить запросы для баз данных, проверить алерты и развернуть ВМ в консоли. Для этого достаточно сформулировать запрос на простом языке.
#YandexCloud #AIStudio #NoCodeAI #бизнесавтоматизация
Платформа позволяет собирать AI-агентов на базе облачных моделей Яндекса или опенсорсных нейросетей.
📌 Что можно делать:
• Автоматизировать рутину: комплаенс-проверки, бухотчётность, поддержку клиентов
• Строить мультиагентные системы (например, один анализирует спрос, другой планирует закупки)
• Подключать голосовых агентов для кол-центров на базе realtime API;
• Встраивать умный поиск по интернету, а также по картинкам, таблицам и документам;
• Быстро подключать ИИ-агентов к внешним системам по шаблонам через MCP Hub (там уже доступны amoCRM и “Контур.Фокус”).
Такие ИИ-ассистенты уже доступны в самих сервисах Yandex Cloud – они могут сами составить запросы для баз данных, проверить алерты и развернуть ВМ в консоли. Для этого достаточно сформулировать запрос на простом языке.
#YandexCloud #AIStudio #NoCodeAI #бизнесавтоматизация
👍7🔥4🥱4❤1🙏1
Tiny LLM — запускаем LLM-сервис за неделю
Это небольшой курс-гайд, где шаг за шагом показывается, как с нуля (на чистых матричных операциях) поднять модель Qwen2-7B, а затем оптимизировать её производительность.
Неделя 1: просто на Python, без “чёрной магии”
Неделя 2: оптимизации, C++ / Metal ядра
Неделя 3: батчинг и масштабирование сервиса
Подходит системным инженерам, которые хотят прозрачности — увидеть, из чего состоит работа LLM-сервера, без слоёв абстракций.
Работает с MLX (для Apple Silicon) и проверяется через сравнение с CPU-реализацией на PyTorch.
🔗 Подробнее: https://skyzh.github.io/tiny-llm/
Это небольшой курс-гайд, где шаг за шагом показывается, как с нуля (на чистых матричных операциях) поднять модель Qwen2-7B, а затем оптимизировать её производительность.
Неделя 1: просто на Python, без “чёрной магии”
Неделя 2: оптимизации, C++ / Metal ядра
Неделя 3: батчинг и масштабирование сервиса
Подходит системным инженерам, которые хотят прозрачности — увидеть, из чего состоит работа LLM-сервера, без слоёв абстракций.
Работает с MLX (для Apple Silicon) и проверяется через сравнение с CPU-реализацией на PyTorch.
🔗 Подробнее: https://skyzh.github.io/tiny-llm/
👍12🔥6❤4
📰 Реклама в ChatGPT — даже в платной версии?
По данным источников, OpenAI рассматривает идею запускать рекламу прямо в ChatGPT. Ходят слухи, что Марк Симo ведёт переговоры с потенциальными кандидатами (в том числе бывшими коллегами из Facebook), чтобы собрать команду, которая займётся монетизацией — включая и подписки, и новые рекламные форматы.
⚖️ Почему это может быть правдой:
- OpenAI тратит огромные суммы и остаётся убыточной.
- Стартапы часто работают в минус, но рано или поздно нужно выходить на прибыльность.
- Реклама — очевидный источник дохода.
⚖️ Почему это вызывает сомнения:
- Платные пользователи могут потерять доверие, если реклама появится даже там.
- Это ударит по бренду ChatGPT.
- Вероятно, куда больший доход принесёт B2B-направление, а не потребительский сегмент.
📊 На сегодня около 3% пользователей платят за ChatGPT, а 97% используют бесплатный тариф. Поддерживать такую модель дорого, и OpenAI ищет варианты. Но станет ли реклама решением — пока не ясно.
#OpenAI #ChatGPT #Ads #AIbusiness
По данным источников, OpenAI рассматривает идею запускать рекламу прямо в ChatGPT. Ходят слухи, что Марк Симo ведёт переговоры с потенциальными кандидатами (в том числе бывшими коллегами из Facebook), чтобы собрать команду, которая займётся монетизацией — включая и подписки, и новые рекламные форматы.
⚖️ Почему это может быть правдой:
- OpenAI тратит огромные суммы и остаётся убыточной.
- Стартапы часто работают в минус, но рано или поздно нужно выходить на прибыльность.
- Реклама — очевидный источник дохода.
⚖️ Почему это вызывает сомнения:
- Платные пользователи могут потерять доверие, если реклама появится даже там.
- Это ударит по бренду ChatGPT.
- Вероятно, куда больший доход принесёт B2B-направление, а не потребительский сегмент.
📊 На сегодня около 3% пользователей платят за ChatGPT, а 97% используют бесплатный тариф. Поддерживать такую модель дорого, и OpenAI ищет варианты. Но станет ли реклама решением — пока не ясно.
#OpenAI #ChatGPT #Ads #AIbusiness
🔥8❤4👍3
Wink AI Challenge — хакатон на стыке IT и кино. Участников ждут задачи, которые ускорят производство фильмов и сериалов за счёт прикладных AI-решений. Призовой фонд соревнования — 1 125 000 рублей.
Регистрация до 31 октября: https://cnrlink.com/winkaichallengemlinterview
Приглашаем на первый в России хакатон, посвящённый применению ИИ в кинопроизводстве, ML-инженеров, backend- и frontend-разработчиков, специалистов в DevOps, MLOps, а также инженеров в сфере мультимедиа.
Вы сможете:
🔸 Разработать ML-модель, которую оценят и будут использовать продюсеры популярных российских фильмов и сериалов.
🔸 Решить кейсы, основанные на реальных задачах, с которыми продюсеры сталкиваются каждый день.
🔸 Использовать настоящие сценарии и видеоматериалы для анализа текстов, извлечения сущностей и генерации структуры съёмок.
🔸 Попрактиковаться в применении NLP, NER и мультимодальных данных в задачах кинопроизводства.
Регистрируйтесь на платформе Codenrock и создайте ИИ-ассистента для кинопроизводства: https://cnrlink.com/winkaichallengemlinterview
Регистрация до 31 октября: https://cnrlink.com/winkaichallengemlinterview
Приглашаем на первый в России хакатон, посвящённый применению ИИ в кинопроизводстве, ML-инженеров, backend- и frontend-разработчиков, специалистов в DevOps, MLOps, а также инженеров в сфере мультимедиа.
Вы сможете:
🔸 Разработать ML-модель, которую оценят и будут использовать продюсеры популярных российских фильмов и сериалов.
🔸 Решить кейсы, основанные на реальных задачах, с которыми продюсеры сталкиваются каждый день.
🔸 Использовать настоящие сценарии и видеоматериалы для анализа текстов, извлечения сущностей и генерации структуры съёмок.
🔸 Попрактиковаться в применении NLP, NER и мультимодальных данных в задачах кинопроизводства.
Регистрируйтесь на платформе Codenrock и создайте ИИ-ассистента для кинопроизводства: https://cnrlink.com/winkaichallengemlinterview
👍4🔥2❤1
🧠 Hallucination Risk Toolkit for LLMs
Этот инструмент позволяет оценивать риск галлюцинаций в больших языковых моделях без повторного обучения. Он преобразует запросы, используя закон декомпрессии, чтобы определить, стоит ли отвечать или отказываться, основываясь на целевом уровне обслуживания.
🚀Основные моменты:
- Оценка риска галлюцинаций с помощью математической модели.
- Поддержка двух режимов: с контекстом и без.
- Использует только API Chat Completions от OpenAI.
- Прозрачные математические расчеты для принятия решений.
📌 GitHub: https://github.com/leochlon/hallbayes
#python
Этот инструмент позволяет оценивать риск галлюцинаций в больших языковых моделях без повторного обучения. Он преобразует запросы, используя закон декомпрессии, чтобы определить, стоит ли отвечать или отказываться, основываясь на целевом уровне обслуживания.
🚀Основные моменты:
- Оценка риска галлюцинаций с помощью математической модели.
- Поддержка двух режимов: с контекстом и без.
- Использует только API Chat Completions от OpenAI.
- Прозрачные математические расчеты для принятия решений.
📌 GitHub: https://github.com/leochlon/hallbayes
#python
❤9👍7🥰2
🧠 Thinking Machines предложила новый способ обучения нейросетей — manifold Muon, который делает веса более стабильными и предсказуемыми.
🔑 Суть метода:
- Веса ограничиваются на специальной математической поверхности (многообразии Стифеля), где они не могут «разъехаться».
- Размер обновлений контролируется через спектральную норму, чтобы шаги обучения не искажали сеть слишком сильно.
- Обновления считаются в касательном пространстве и возвращаются обратно на многообразие.
📊 На тестах CIFAR-10 метод оказался точнее AdamW и удерживал веса в стабильном диапазоне, хотя шаги обучения занимали больше времени.
🎯 Главная идея — ИИ может давать последовательные и надёжные ответы. То, что сейчас считается «рандомностью» моделей, авторы называют исправимым багом.
Это может стать основой для создания безопасных AGI-систем, где нельзя допускать хаотичное поведение модели.
https://thinkingmachines.ai/blog/modular-manifolds/
🔑 Суть метода:
- Веса ограничиваются на специальной математической поверхности (многообразии Стифеля), где они не могут «разъехаться».
- Размер обновлений контролируется через спектральную норму, чтобы шаги обучения не искажали сеть слишком сильно.
- Обновления считаются в касательном пространстве и возвращаются обратно на многообразие.
📊 На тестах CIFAR-10 метод оказался точнее AdamW и удерживал веса в стабильном диапазоне, хотя шаги обучения занимали больше времени.
🎯 Главная идея — ИИ может давать последовательные и надёжные ответы. То, что сейчас считается «рандомностью» моделей, авторы называют исправимым багом.
Это может стать основой для создания безопасных AGI-систем, где нельзя допускать хаотичное поведение модели.
https://thinkingmachines.ai/blog/modular-manifolds/
❤25🔥8👍7💅1
Почему GPT-5 обучался меньше, чем GPT-4.5
Меньше pre-training, больше post-training.
Обычно модели тратили в ~100 раз больше вычислений на предобучение, чем на дообучение.
В GPT-5 ситуация изменилась: масштабирование post-training оказалось выгоднее по качеству на доллар.
- Ключевые факты:
- GPT-5 учился на меньшей базе, но с сильным упором на дообучение.
- Методы reasoning-ориентированного post-training позволяют сократить предобучение примерно в 10 раз при сохранении качества.
- В 2024 году бюджет R&D-вычислений OpenAI был ~$5B, в 2025 вырос до ~$9B.
- Почему не масштабировали как GPT-4.5?
Для безопасного увеличения post-training нужны огромные датасеты задач, среда для RL и длинные циклы экспериментов. Из-за конкуренции OpenAI решила выпустить GPT-5 быстрее, «выжав» максимум из post-training на меньшей модели.
👉 Вероятно, GPT-6 вернётся к большему pre-training + post-training, чтобы раскрыть потенциал масштабирования.
🔬 Новый отчёт от Epoch AI: https://epoch.ai/gradient-updates/why-gpt5-used-less-training-compute-than-gpt45-but-gpt6-probably-wont
Меньше pre-training, больше post-training.
Обычно модели тратили в ~100 раз больше вычислений на предобучение, чем на дообучение.
В GPT-5 ситуация изменилась: масштабирование post-training оказалось выгоднее по качеству на доллар.
- Ключевые факты:
- GPT-5 учился на меньшей базе, но с сильным упором на дообучение.
- Методы reasoning-ориентированного post-training позволяют сократить предобучение примерно в 10 раз при сохранении качества.
- В 2024 году бюджет R&D-вычислений OpenAI был ~$5B, в 2025 вырос до ~$9B.
- Почему не масштабировали как GPT-4.5?
Для безопасного увеличения post-training нужны огромные датасеты задач, среда для RL и длинные циклы экспериментов. Из-за конкуренции OpenAI решила выпустить GPT-5 быстрее, «выжав» максимум из post-training на меньшей модели.
👉 Вероятно, GPT-6 вернётся к большему pre-training + post-training, чтобы раскрыть потенциал масштабирования.
🔬 Новый отчёт от Epoch AI: https://epoch.ai/gradient-updates/why-gpt5-used-less-training-compute-than-gpt45-but-gpt6-probably-wont
👍16❤7🔥5🤣3