🇨🇳 Почему Китай может быстрее всех внедрять ИИ в повседневную жизнь
В Китае отношение общества к ИИ-продуктам необычно позитивное - заметно более тёплое, чем во многих других странах.
И это важно, потому что:
✅ меньше страхов и сопротивления
✅ ниже “трение” при внедрении
✅ ИИ проще массово встраивать в сервисы, которыми люди пользуются каждый день
Когда у аудитории нет сильного отторжения, внедрение идёт быстрее:
от платежей и поддержки клиентов до медицины, образования и госуслуг.
Но есть и второй фактор 👇
🌍 “Гравитация разработчиков” уходит в сторону Китая
В open-source всё сильнее заметен сдвиг:
доля скачиваний и активности постепенно перетекает от США и Европы к Китаю.
Если тренд сохранится, это означает:
- больше новых библиотек и фреймворков будет рождаться там
- больше tooling и инфраструктуры будет заточено под китайскую экосистему
- и в целом - Китай может стать центром притяжения для dev-сообщества в ИИ
В Китае отношение общества к ИИ-продуктам необычно позитивное - заметно более тёплое, чем во многих других странах.
И это важно, потому что:
✅ меньше страхов и сопротивления
✅ ниже “трение” при внедрении
✅ ИИ проще массово встраивать в сервисы, которыми люди пользуются каждый день
Когда у аудитории нет сильного отторжения, внедрение идёт быстрее:
от платежей и поддержки клиентов до медицины, образования и госуслуг.
Но есть и второй фактор 👇
🌍 “Гравитация разработчиков” уходит в сторону Китая
В open-source всё сильнее заметен сдвиг:
доля скачиваний и активности постепенно перетекает от США и Европы к Китаю.
Если тренд сохранится, это означает:
- больше новых библиотек и фреймворков будет рождаться там
- больше tooling и инфраструктуры будет заточено под китайскую экосистему
- и в целом - Китай может стать центром притяжения для dev-сообщества в ИИ
🤖 ИИ превращает учёных в “конвейеры по выпуску статей”
Интересное наблюдение: AI-инструменты реально ускоряют карьеру учёных, но могут убить научное любопытство.
Что показало исследование (анализ 40+ миллионов научных работ): учёные, которые внедряют ИИ, в среднем:
📈 публикуют в 3 раза больше статей
⭐ получают почти в 5 раз больше цитирований
🏁 становятся тимлидами на 1-2 года раньше, чем те, кто ИИ не использует
То есть AI - это прямой буст:
скорость, видимость, карьера.
Но есть обратная сторона.
Минус:
наука может становиться менее “живой”.
AI-подход приводит к тому, что исследователи чаще:
- уходят в более узкие темы
- крутятся вокруг одних и тех же data-heavy задач
- вызывают меньше follow-up исследований (меньше новых веток и продолжений)
Итог парадоксальный:
👤 карьера учёного ускоряется
🧪 а научное открытие в среднем становится более “плоским”
ИИ увеличивает производительность.
Но вопрос остаётся: не снижает ли он разнообразие идей и риск ради настоящих прорывов?
spectrum. ieee.org/amp/ai-science-research-flattens-discovery-2674892739
Интересное наблюдение: AI-инструменты реально ускоряют карьеру учёных, но могут убить научное любопытство.
Что показало исследование (анализ 40+ миллионов научных работ): учёные, которые внедряют ИИ, в среднем:
📈 публикуют в 3 раза больше статей
⭐ получают почти в 5 раз больше цитирований
🏁 становятся тимлидами на 1-2 года раньше, чем те, кто ИИ не использует
То есть AI - это прямой буст:
скорость, видимость, карьера.
Но есть обратная сторона.
Минус:
наука может становиться менее “живой”.
AI-подход приводит к тому, что исследователи чаще:
- уходят в более узкие темы
- крутятся вокруг одних и тех же data-heavy задач
- вызывают меньше follow-up исследований (меньше новых веток и продолжений)
Итог парадоксальный:
👤 карьера учёного ускоряется
🧪 а научное открытие в среднем становится более “плоским”
ИИ увеличивает производительность.
Но вопрос остаётся: не снижает ли он разнообразие идей и риск ради настоящих прорывов?
spectrum. ieee.org/amp/ai-science-research-flattens-discovery-2674892739
🚨 Похоже найдены следы DeepSeek V4?.
В репозитории/ветках заметили MODEL1 - и самое интересное, что он выглядит как отдельная независимая ветка, параллельная V3.2.
То есть это не “патч” внутри линейки V3,
а похоже на:
✅ новый модельный ряд
✅ с другими архитектурными параметрами
✅ потенциально flagship-апдейт
Если следовать неймингу DeepSeek:
после V3.2 крупный архитектурный скачок логично назывался бы V4.
Пока без официального подтверждения, но сигнал жирный:
если MODEL1 действительно новая архитектура, нас ждёт большой релиз.
https://x.com/nopainkiller/status/2013522059662614653
В репозитории/ветках заметили MODEL1 - и самое интересное, что он выглядит как отдельная независимая ветка, параллельная V3.2.
То есть это не “патч” внутри линейки V3,
а похоже на:
✅ новый модельный ряд
✅ с другими архитектурными параметрами
✅ потенциально flagship-апдейт
Если следовать неймингу DeepSeek:
после V3.2 крупный архитектурный скачок логично назывался бы V4.
Пока без официального подтверждения, но сигнал жирный:
если MODEL1 действительно новая архитектура, нас ждёт большой релиз.
https://x.com/nopainkiller/status/2013522059662614653
RealOmni - это не просто каталог видео, где роборука хватает кубик на белом столе. Это мультимодальный подарок с траекториями, аннотациями и движениями суставов.
Картинка с Fisheye-камер, данные IMU (инерциалка), энкодеры и данные с тактильных датчиков с разрешением 1 мм.
Снимали в 3000 реальных домах, никаких стерильных лабораторий: складывание одежды, завязывание шнурков, разбор посуды и сортировка всякого хлама.
Почти все таски двурукие.
Медианная длина клипа ~ 210 секунд. То есть это не "схватил-положил", а полноценные процессы "достать, сложить, убрать в ящик".
В свежем обновлении добавили 35 тыс. клипов с фокусом на разгребание куч разнородных предметов. Это именно та задача, на которой сыпется большинство моделей.
Немного цифр о всем датасете
Весть проект запланирован объемом 95 ТБ и хронометражем 10,000 часов. Но если посчитать, то что уже залито (Stage 1 + Stage 2), то суммарно около 5.4 ТБ и ~1600 часов. Остальное обещают догрузить as soon as possible.
Данные собраны специфическим гриппером GenDAS, так что если у вас другой сенсорный массив (или его нет), transfer learning может стать болью. Ассеты заточены под железку GenRobot.
Это все еще телеоперация. То есть мы учим робота копировать движения человека-оператора и если он тупил или руки дрожали сетка это тоже выучит.
Тем не менее, это очень крутой релиз для тех, кто пилит домашних роботов. Данные по завязыванию шнурков и разбору предметов в open-source редкость.
@ai_machinelearning_big_data
#AI #ML #Robotics #Dataset #RealOmni #GenRoborAI
Please open Telegram to view this post
VIEW IN TELEGRAM
💼 5 AI-репозиториев, которые реально помогут устроиться на работу в 2026
Сохрани себе - это готовые идеи, которые можно собрать в портфолио и показать на собесе.
1) RAG с нуля (RAG from Scratch)
Поймёшь, как устроены retrieval, embeddings, чанкинг, ранжирование и ответы LLM.
GitHub: https://github.com/langchain-ai/rag-from-scratch
2) AI-агент для соцсетей (Social Media Agent)
Автоматизация контента: генерация постов, планирование, работа с трендами.
GitHub: https://github.com/langchain-ai/social-media-agent
3) Анализ медицинских изображений (Medical Image Analysis)
Компьютерное зрение + реальные кейсы: классификация, сегментация, пайплайны.
GitHub: https://github.com/databricks-industry-solutions/pixels
4) MCP Tool-Calling агенты
Агенты, которые умеют вызывать инструменты и внешние сервисы (LangGraph + MCP).
Notebook: https://docs.databricks.com/aws/en/notebooks/source/generative-ai/langgraph-mcp-tool-calling-agent.html
5) AI-ассистент с памятью (Assistant with Memory)
Персонализация: хранение контекста, long-term memory, улучшение диалогов со временем.
GitHub: https://github.com/Makememo/MemoAI
Если хочешь войти в AI - собирай не “игрушки”, а проекты, которые показывают реальные навыки.
Сохрани себе - это готовые идеи, которые можно собрать в портфолио и показать на собесе.
1) RAG с нуля (RAG from Scratch)
Поймёшь, как устроены retrieval, embeddings, чанкинг, ранжирование и ответы LLM.
GitHub: https://github.com/langchain-ai/rag-from-scratch
2) AI-агент для соцсетей (Social Media Agent)
Автоматизация контента: генерация постов, планирование, работа с трендами.
GitHub: https://github.com/langchain-ai/social-media-agent
3) Анализ медицинских изображений (Medical Image Analysis)
Компьютерное зрение + реальные кейсы: классификация, сегментация, пайплайны.
GitHub: https://github.com/databricks-industry-solutions/pixels
4) MCP Tool-Calling агенты
Агенты, которые умеют вызывать инструменты и внешние сервисы (LangGraph + MCP).
Notebook: https://docs.databricks.com/aws/en/notebooks/source/generative-ai/langgraph-mcp-tool-calling-agent.html
5) AI-ассистент с памятью (Assistant with Memory)
Персонализация: хранение контекста, long-term memory, улучшение диалогов со временем.
GitHub: https://github.com/Makememo/MemoAI
Если хочешь войти в AI - собирай не “игрушки”, а проекты, которые показывают реальные навыки.
📜 Anthropic опубликовала “новую конституцию” Claude - самое интересное (и зачем это нужно)
Anthropic выложила обновлённую “конституцию” Claude - документ, который задаёт ценности и поведение модели. Это не просто PR: такие принципы реально используются при обучении, чтобы Claude действовал предсказуемо в сложных ситуациях.
Вот самое важное:
1) Это больше не список запретов, а логика мышления
Раньше конституция больше походила на набор правил.
Теперь идея другая: модель должна понимать “почему так”, а не просто следовать инструкциям. Иначе она будет ломаться в нестандартных кейсах.
2) Жёстко прописан порядок приоритетов
Anthropic прямо фиксирует, что важнее всего для Claude (по убыванию):
- безопасность
- этичность
- следование политике Anthropic
- полезность
“Быть полезным” для модели - важно, но никогда не ценой безопасности.
3) Есть неснимаемые запреты (hard constraints)
Один из ключевых моментов: одних принципов недостаточно.
В самых рискованных темах у модели есть жёсткие линии - например, она не должна усиливать опасные направления вроде создания биологического оружия.
4) Самый обсуждаемый блок: “природа Claude”
В документе есть отдельный раздел, где Anthropic честно говорит: что разработчики Клода не уверены, может ли ИИ когда-то иметь форму сознания или морального статуса.
И важная мысль: даже если сознания нет, модели всё равно нужно уметь рассуждать о своей роли, идентичности и границах - чтобы быть безопасной и устойчивой.
5) Документ написан не для людей, а для модели
Конституция сделана так, чтобы Claude мог использовать её как “внутреннюю систему координат”: принимать решения, балансировать честность и сочувствие, избегать манипуляций и вреда.
6) Конституцию отдали в public domain (CC0)
То есть её можно свободно копировать, переиспользовать и адаптировать - хоть для своих моделей, хоть для исследований.
Anthropic позиционируют Клода не как “бота с фильтрами”, а как модель, у которой есть понятная система ценностей и объяснённые принципы поведения - и всё это максимально прозрачно.
https://www.anthropic.com/news/claude-new-constitution
@ai_machinelearning_big_data
Anthropic выложила обновлённую “конституцию” Claude - документ, который задаёт ценности и поведение модели. Это не просто PR: такие принципы реально используются при обучении, чтобы Claude действовал предсказуемо в сложных ситуациях.
Вот самое важное:
1) Это больше не список запретов, а логика мышления
Раньше конституция больше походила на набор правил.
Теперь идея другая: модель должна понимать “почему так”, а не просто следовать инструкциям. Иначе она будет ломаться в нестандартных кейсах.
2) Жёстко прописан порядок приоритетов
Anthropic прямо фиксирует, что важнее всего для Claude (по убыванию):
- безопасность
- этичность
- следование политике Anthropic
- полезность
“Быть полезным” для модели - важно, но никогда не ценой безопасности.
3) Есть неснимаемые запреты (hard constraints)
Один из ключевых моментов: одних принципов недостаточно.
В самых рискованных темах у модели есть жёсткие линии - например, она не должна усиливать опасные направления вроде создания биологического оружия.
4) Самый обсуждаемый блок: “природа Claude”
В документе есть отдельный раздел, где Anthropic честно говорит: что разработчики Клода не уверены, может ли ИИ когда-то иметь форму сознания или морального статуса.
И важная мысль: даже если сознания нет, модели всё равно нужно уметь рассуждать о своей роли, идентичности и границах - чтобы быть безопасной и устойчивой.
5) Документ написан не для людей, а для модели
Конституция сделана так, чтобы Claude мог использовать её как “внутреннюю систему координат”: принимать решения, балансировать честность и сочувствие, избегать манипуляций и вреда.
6) Конституцию отдали в public domain (CC0)
То есть её можно свободно копировать, переиспользовать и адаптировать - хоть для своих моделей, хоть для исследований.
Anthropic позиционируют Клода не как “бота с фильтрами”, а как модель, у которой есть понятная система ценностей и объяснённые принципы поведения - и всё это максимально прозрачно.
https://www.anthropic.com/news/claude-new-constitution
@ai_machinelearning_big_data
Sequoia выпустила отчёт с тезисом, что по их ощущениям мы уже вошли в эпоху AGI.
Главное не«разум как человек», а в том, что системы начали самостоятельно разбираться с задачами без постоянного пошагового контроля.
Главный драйвер - long-horizon agents: агенты, которые могут долго выполнять работу, исправлять ошибки, возвращаться после тупиков и продолжать движение к цели.
Sequoia объясняет “умение разобраться самому” через 3 компонента:
1) Pre-training (знания)
То, что дала волна ChatGPT 2022 года - модели получили огромный запас знаний и базовую языковую компетентность.
2) Inference-time compute (больше рассуждений при ответе)
Следующий шаг - модели, которые «думают дольше», прежде чем отвечать (в отчёте это связывают с линией OpenAI o1 в конце 2024).
3) Agent loops (итерации)
Самое новое - агенты, которые умеют:
- составить план,
- использовать инструменты,
- хранить состояние,
- делать несколько попыток, пока не дойдут до результата.
В качестве примера упоминаются инструменты уровня Claude Code.
Один из кейсов в отчёте - рекрутинг:
агент получает задачу найти кандидатов, дальше сам ищет, фильтрует по сигналам, перепроверяет источники и пишет текст для outreach.
В отчёте это занимает около 31 минуты - чтобы показать работу через гипотезы, ошибки и корректировки.
Технически Sequoia разделяет прогресс на две ветки:
- RL (reinforcement learning) - учит модель более длинному и связному поведению;
- agent harnesses - внешняя “обвязка”: память, handoff между шагами, ограничения и guardrails.
Итог: фокус смещается от чатботов к системам, которые могут долго и автономно выполнять задачи, а не просто отвечать на вопросы.
https://sequoiacap.com/article/2026-this-is-agi/
Главное не«разум как человек», а в том, что системы начали самостоятельно разбираться с задачами без постоянного пошагового контроля.
Главный драйвер - long-horizon agents: агенты, которые могут долго выполнять работу, исправлять ошибки, возвращаться после тупиков и продолжать движение к цели.
Sequoia объясняет “умение разобраться самому” через 3 компонента:
1) Pre-training (знания)
То, что дала волна ChatGPT 2022 года - модели получили огромный запас знаний и базовую языковую компетентность.
2) Inference-time compute (больше рассуждений при ответе)
Следующий шаг - модели, которые «думают дольше», прежде чем отвечать (в отчёте это связывают с линией OpenAI o1 в конце 2024).
3) Agent loops (итерации)
Самое новое - агенты, которые умеют:
- составить план,
- использовать инструменты,
- хранить состояние,
- делать несколько попыток, пока не дойдут до результата.
В качестве примера упоминаются инструменты уровня Claude Code.
Один из кейсов в отчёте - рекрутинг:
агент получает задачу найти кандидатов, дальше сам ищет, фильтрует по сигналам, перепроверяет источники и пишет текст для outreach.
В отчёте это занимает около 31 минуты - чтобы показать работу через гипотезы, ошибки и корректировки.
Технически Sequoia разделяет прогресс на две ветки:
- RL (reinforcement learning) - учит модель более длинному и связному поведению;
- agent harnesses - внешняя “обвязка”: память, handoff между шагами, ограничения и guardrails.
Итог: фокус смещается от чатботов к системам, которые могут долго и автономно выполнять задачи, а не просто отвечать на вопросы.
https://sequoiacap.com/article/2026-this-is-agi/
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Дарио Амодеи: софт скоро может стать «почти бесплатным»
CEO Anthropic Дарио Амодеи предупреждает: мы быстро идём к миру, где создание софта становится настолько дешёвым, что будет ощущаться почти бесплатным.
Из-за этого может исчезнуть старая логика рынка:
раньше приложения делали “в массовую дистрибуцию”, чтобы окупить разработку.
А дальше этот принцип может перестать работать.
Возможный сценарий будущего:
- приложения и функции будут генерироваться под конкретный запрос,
- даже для простых задач “на один раз”,
- без долгой разработки, команды и релизных циклов.
Но у этого есть обратная сторона:
карьеры, построенные на традиционной разработке, могут полностью исчезнуть.
По мнению Амодеи, адаптироваться можно, но проблема в том, что многие ещё не понимают масштаб изменения, которое уже началось.
@pythonl
CEO Anthropic Дарио Амодеи предупреждает: мы быстро идём к миру, где создание софта становится настолько дешёвым, что будет ощущаться почти бесплатным.
Из-за этого может исчезнуть старая логика рынка:
раньше приложения делали “в массовую дистрибуцию”, чтобы окупить разработку.
А дальше этот принцип может перестать работать.
Возможный сценарий будущего:
- приложения и функции будут генерироваться под конкретный запрос,
- даже для простых задач “на один раз”,
- без долгой разработки, команды и релизных циклов.
Но у этого есть обратная сторона:
карьеры, построенные на традиционной разработке, могут полностью исчезнуть.
По мнению Амодеи, адаптироваться можно, но проблема в том, что многие ещё не понимают масштаб изменения, которое уже началось.
@pythonl
PyTorch 2.10 - что нового (коротко и по делу)
PyTorch выпустили версию 2.10 - релиз с упором на ускорение компиляции/инференса и отладку численных расхождений, что особенно полезно в больших distributed-тренировках.
Главное по фичам:
• torch.compile + Python 3.14
Добавили поддержку Python 3.14, включая экспериментальный freethreaded build (3.14t).
• Меньше overhead на GPU (horizontal fusion)
TorchInductor теперь лучше объединяет независимые операции в один GPU kernel, уменьшая kernel launch overhead и ускоряя пайплайны.
• varlen_attn() - attention для variable-length входов
Появилась новая опа в
- работает и на forward, и на backward
- хорошо дружит с
- сейчас через FlashAttention2, дальше планируют поддержку через cuDNN/FA4
- CUDA (A100+), dtype BF16/FP16
• Быстрее eigendecomposition на GPU
В
Отладка / детерминизм:
• torch.compile теперь уважает deterministic mode
Если включить
• DebugMode для поиска numerical divergence
Новый режим для диагностики:
- логирование dispatch
- tensor hashing (видно, где именно “поехали” тензоры)
- dispatch hooks для заметок и аннотаций
Ещё важное:
• TorchScript официально deprecated
Рекомендуемый путь вперёд - torch.export.
• tlparse + TORCH_TRACE
Упростили сбор трассировок и артефактов, чтобы легче репортить баги в компиляторе.
• Релизы чаще в 2026
Планируют перейти на релиз раз в 2 месяца (вместо quarterly).
https://pytorch.org/blog/pytorch-2-10-release-blog/
#PyTorch #OpenSourceAI #AIInfrastructure
PyTorch выпустили версию 2.10 - релиз с упором на ускорение компиляции/инференса и отладку численных расхождений, что особенно полезно в больших distributed-тренировках.
Главное по фичам:
• torch.compile + Python 3.14
Добавили поддержку Python 3.14, включая экспериментальный freethreaded build (3.14t).
• Меньше overhead на GPU (horizontal fusion)
TorchInductor теперь лучше объединяет независимые операции в один GPU kernel, уменьшая kernel launch overhead и ускоряя пайплайны.
• varlen_attn() - attention для variable-length входов
Появилась новая опа в
torch.nn.attention для ragged/packed последовательностей:- работает и на forward, и на backward
- хорошо дружит с
torch.compile- сейчас через FlashAttention2, дальше планируют поддержку через cuDNN/FA4
- CUDA (A100+), dtype BF16/FP16
• Быстрее eigendecomposition на GPU
В
torch.linalg ускорили eigen decomposition на NVIDIA за счёт cuSOLVER DnXgeev.Отладка / детерминизм:
• torch.compile теперь уважает deterministic mode
Если включить
torch.use_deterministic_algorithms(True), то torch.compile сохранит детерминированность между запусками - удобно для дебага.• DebugMode для поиска numerical divergence
Новый режим для диагностики:
- логирование dispatch
- tensor hashing (видно, где именно “поехали” тензоры)
- dispatch hooks для заметок и аннотаций
Ещё важное:
• TorchScript официально deprecated
Рекомендуемый путь вперёд - torch.export.
• tlparse + TORCH_TRACE
Упростили сбор трассировок и артефактов, чтобы легче репортить баги в компиляторе.
• Релизы чаще в 2026
Планируют перейти на релиз раз в 2 месяца (вместо quarterly).
https://pytorch.org/blog/pytorch-2-10-release-blog/
#PyTorch #OpenSourceAI #AIInfrastructure
🚀 Подборка репозиториев, которые реально полезно добавить в закладки - от фронтенда до AI/LLM.
Frontend / UI
1) Flexbox Froggy - учим flexbox в формате игры
https://github.com/thomaspark/flexboxfroggy
2) shadcn/ui - топовая база UI-компонентов для React
https://github.com/shadcn-ui/ui
3) 50 Projects in 50 Days - прокачка практикой
https://github.com/bradtraversy/50projects50days
4) Awesome React Components - огромная коллекция компонентов
https://github.com/brillout/awesome-react-components
5) Awesome CSS - всё про CSS, паттерны и идеи
https://github.com/awesome-css-group/awesome-css
AI / Multimodal / LLM
6) LLaVA - Large Language and Vision Assistant
https://github.com/haotian-liu/LLaVA
7) CLIP - contrastive обучение текста и изображений
https://github.com/openai/CLIP
8) Transformers - главная библиотека для SOTA NLP/Multimodal моделей
https://github.com/huggingface/transformers
9) Awesome Multimodal ML - бумаги + репозитории по multimodal
https://github.com/pliang279/awesome-multimodal-ml
10) RAG from Scratch - собрать RAG пошагово и понять как работает
https://github.com/langchain-ai/rag-from-scratch
11) Awesome LLM Apps - подборка production-ready LLM приложений
https://github.com/Shubhamsaboo/awesome-llm-apps
12) LLM Engineer Handbook - гайд по профессии LLM-инженера
https://github.com/PacktPublishing/LLM-Engineers-Handbook
Agents / Tools
13) MCP Python SDK - официальный SDK Model Context Protocol
https://github.com/modelcontextprotocol/python-sdk
ML / CV collections
14) Awesome Machine Learning - curated ML фреймворки и библиотеки
https://github.com/josephmisiti/awesome-machine-learning
15) Awesome Computer Vision - огромная база по Computer Vision
https://github.com/jbhuang0604/awesome-computer-vision
16) AI Engineering Hub (ZenML) - MLOps и инженерная часть AI
https://github.com/zenml-io/zenml
Qwen ecosystem
17) Qwen (Official)
https://github.com/QwenLM/Qwen
18) Qwen Fine-Tuning Examples
https://github.com/QwenLM/Qwen-Finetuning
Reinforcement Learning
19) Spinning Up in Deep RL (OpenAI)
https://github.com/openai/spinningup
20) Reinforcement Learning: An Introduction (Sutton & Barto)
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
Core DL
21) PyTorch
https://github.com/pytorch/pytorch
Generative AI
22) Awesome Generative AI Guide
https://github.com/steven2358/awesome-generative-ai
Frontend / UI
1) Flexbox Froggy - учим flexbox в формате игры
https://github.com/thomaspark/flexboxfroggy
2) shadcn/ui - топовая база UI-компонентов для React
https://github.com/shadcn-ui/ui
3) 50 Projects in 50 Days - прокачка практикой
https://github.com/bradtraversy/50projects50days
4) Awesome React Components - огромная коллекция компонентов
https://github.com/brillout/awesome-react-components
5) Awesome CSS - всё про CSS, паттерны и идеи
https://github.com/awesome-css-group/awesome-css
AI / Multimodal / LLM
6) LLaVA - Large Language and Vision Assistant
https://github.com/haotian-liu/LLaVA
7) CLIP - contrastive обучение текста и изображений
https://github.com/openai/CLIP
8) Transformers - главная библиотека для SOTA NLP/Multimodal моделей
https://github.com/huggingface/transformers
9) Awesome Multimodal ML - бумаги + репозитории по multimodal
https://github.com/pliang279/awesome-multimodal-ml
10) RAG from Scratch - собрать RAG пошагово и понять как работает
https://github.com/langchain-ai/rag-from-scratch
11) Awesome LLM Apps - подборка production-ready LLM приложений
https://github.com/Shubhamsaboo/awesome-llm-apps
12) LLM Engineer Handbook - гайд по профессии LLM-инженера
https://github.com/PacktPublishing/LLM-Engineers-Handbook
Agents / Tools
13) MCP Python SDK - официальный SDK Model Context Protocol
https://github.com/modelcontextprotocol/python-sdk
ML / CV collections
14) Awesome Machine Learning - curated ML фреймворки и библиотеки
https://github.com/josephmisiti/awesome-machine-learning
15) Awesome Computer Vision - огромная база по Computer Vision
https://github.com/jbhuang0604/awesome-computer-vision
16) AI Engineering Hub (ZenML) - MLOps и инженерная часть AI
https://github.com/zenml-io/zenml
Qwen ecosystem
17) Qwen (Official)
https://github.com/QwenLM/Qwen
18) Qwen Fine-Tuning Examples
https://github.com/QwenLM/Qwen-Finetuning
Reinforcement Learning
19) Spinning Up in Deep RL (OpenAI)
https://github.com/openai/spinningup
20) Reinforcement Learning: An Introduction (Sutton & Barto)
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
Core DL
21) PyTorch
https://github.com/pytorch/pytorch
Generative AI
22) Awesome Generative AI Guide
https://github.com/steven2358/awesome-generative-ai
⚡️ ERNIE 5.0 - официальный релиз.
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.
Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.
То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.
Самое интересное - результаты на бенчмарках (по графикам Baidu):
- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.
Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.
Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)
https://ernie.baidu.com
🗣 Qwen3-TTS - мощный open-source релиз (voice design + клонирование голоса)
Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign.
Что внутри:
- 5 моделей (0.6B и 1.8B классы)
- Free-form Voice Design - генерация/редаквтирование голоса по описанию
- Voice Cloning - клонирование голоса
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
- полная поддержка fine-tuning
- заявляют SOTA качество на ряде метрик
Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно:
- обучать под домен,
- делать кастомные голоса,
- и не зависеть от провайдера.
▪GitHub: https://github.com/QwenLM/Qwen3-TTS
▪Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
▪Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS
▪Блог: https://qwen.ai/blog?id=qwen3tts-0115
▪Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
@ai_machinelearning_big_data
#AI #TTS #Qwen #OpenSource #SpeechAI
Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign.
Что внутри:
- 5 моделей (0.6B и 1.8B классы)
- Free-form Voice Design - генерация/редаквтирование голоса по описанию
- Voice Cloning - клонирование голоса
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
- полная поддержка fine-tuning
- заявляют SOTA качество на ряде метрик
Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно:
- обучать под домен,
- делать кастомные голоса,
- и не зависеть от провайдера.
▪GitHub: https://github.com/QwenLM/Qwen3-TTS
▪Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
▪Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS
▪Блог: https://qwen.ai/blog?id=qwen3tts-0115
▪Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
@ai_machinelearning_big_data
#AI #TTS #Qwen #OpenSource #SpeechAI
Forwarded from Machinelearning
Интересная история, которая доказывает, что в индустрии ИИ не всегда нужны миллиарды долларов и сотни сотрудников.
Знакомьтесь - проект Linum.
Два брата, Сахила Чопра и Ману Чопра, сделали две text-to-video модели на 2 миллиарда параметров, которые генерируют клипы длиной от 2 до 5 секунд в разрешении до 720p.
Согласитесь, это редкое явление в мире, где большинство видео-генераторов закрыты за платными API.
Изначально братья совсем не планировали заниматься генерацией видео.
Сахил окончил Стэнфордский университет в 2019, где в соавторстве разработал курс по LLM и занимался исследованиями в области когнитивных наук на стыке ИИ и лингвистики.
Ману досрочно окончил Калифорнийский университет в Беркли в 2021 г.. До основания Linum занимался исследованиями ИИ в биоинженерии.
Стартовав осенью 2022 года и пройдя через YCombinator, они пилили ИИ-инструмент для раскадровки фильмов. Но, пообщавшись с режиссерами, поняли: рынок слишком узкий, а творческий процесс у всех разный.
Linum v1, была, по их признанию, франкенштейном. Они взяли за основу SDXL, раздули U-NET, превратив 2D-свертки в 3D и добавили временные слои внимания.
Получился забавный бот для Discord, который делал гифки в разрешении 180p. Это работало, но было тупиковой ветвью эволюции.
Расширять модель, заточенную под картинки, для работы с видео - плохая идея в долгосроке. VAE, идущий в комплекте с имидж-моделью, просто не умеет нормально сжимать и разжимать видеопоток. Качество на выходе получается никакое.
К тому же распределения данных в картинках и видео слишком разные, да и переучивать модель стоит дорого.
VAE взяли от Wan 2.1, успев попутно разработать свой собственный temporal VAE, но решили сэкономить на эмбеддингах, DIT и T5 на роль текстового энкодера.
Представьте объем работы: двое парней делали то, чем обычно занимаются отделы с десятками сотрудников.
Они сами собирали датасеты, настраивали VLM для фильтрации контента, писали пайплайны для аннотирования архива видео.
И, конечно, бенчмаркали провайдеров, пытаясь понять, почему H100 у одного хостера работает хуже, чем у другого.
Linum v2 — pretrained веса. Модель пока ошибается в физике и эстетике, а генерация 5-секундного клипа в 720p занимает около 15 минут на H100 при 50 шагах.
Но, главное, братья не останавливаются: есть планы по ускорению через CFG и timestep distillation, работа над звуком и масштабированием.
@ai_machinelearning_big_data
#AI #ML #T2V #Linum
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
32-летний программист после повышения стал регулярно задерживаться, работать по выходным и жить в режиме “ещё один таск и спать”. В итоге его госпитализировали из-за состояния здоровья, связанного с перегрузками.
Самый абсурдный момент, даже в этот период коллеги добавили его в ещё один рабочий чат.
Это напоминание о простой вещи:
никакая задача не стоит здоровья. “Геройство” на работе часто заканчивается тем, что система продолжает крутиться, а человек нет.
Иногда лучший профессиональный навык это вовремя закрыть ноутбук.https://www.asiaone.com/china/32-year-old-programmer-china-allegedly-dies-overwork-added-work-group-chat-even-while
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Step-DeepResearch - новый уровень AI-исследований
Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.
Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.
Что внутри
🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда
📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц
Метрики
🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов
Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.
Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.
▪API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
▪Homepage: https://stepfun.ai/deep-research-invitation
▪Technical report: https://arxiv.org/pdf/2512.20491
▪Github: https://github.com/stepfun-ai/StepDeepResearch
Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.
Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.
Что внутри
🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда
📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц
Метрики
🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов
Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.
Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.
▪API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
▪Homepage: https://stepfun.ai/deep-research-invitation
▪Technical report: https://arxiv.org/pdf/2512.20491
▪Github: https://github.com/stepfun-ai/StepDeepResearch
🤯 Tencent и Tsinghua предлагают переосмыслить саму основу LLM
Continuous Autoregressive Language Models (CALM) и это прям удар по классической парадигме *next-token prediction*.
Сегодняшние LLM работают по одной схеме:
➡️ предсказать следующий токен
➡️ ещё один
➡️ ещё один
Именно эта пошаговость и становится главным бутылочным горлышком по скорости и вычислениям.
Что предлагает CALM
Вместо предсказания отдельных токенов модель предсказывает непрерывные векторы, каждый из которых кодирует сразу кусок смысла.
То есть:
- было — шаг = 1 токен
- стало — шаг = целый семантический фрагмент
Используется высокоточный автоэнкодер, который сжимает K токенов в один continuous-вектор и восстанавливает их с точностью >99.9%.
Что это даёт
🚀 Меньше шагов генерации — модель проходит текст «крупными блоками»
⚡ Каждый шаг несёт ~4× больше информации
💻 Снижение вычислительных затрат на обучение до –44%
📈 Лучшее соотношение *performance / compute* по сравнению с дискретными моделями
Это уже не просто оптимизация — это сдвиг оси масштабирования LLM:
от «больше параметров» к «больше семантики на шаг».
Главный вывод работы:
предсказание в пространстве смысловых векторов может стать дорогой к ультра-эффективным языковым моделям, а не бесконечная гонка за токенами.
Если подход взлетит в проде - это один из самых серьёзных архитектурных апгрейдов LLM за последние годы.
Статья: https://arxiv.org/abs/2510.27688
Код: https://github.com/shaochenze/calm
Continuous Autoregressive Language Models (CALM) и это прям удар по классической парадигме *next-token prediction*.
Сегодняшние LLM работают по одной схеме:
➡️ предсказать следующий токен
➡️ ещё один
➡️ ещё один
Именно эта пошаговость и становится главным бутылочным горлышком по скорости и вычислениям.
Что предлагает CALM
Вместо предсказания отдельных токенов модель предсказывает непрерывные векторы, каждый из которых кодирует сразу кусок смысла.
То есть:
- было — шаг = 1 токен
- стало — шаг = целый семантический фрагмент
Используется высокоточный автоэнкодер, который сжимает K токенов в один continuous-вектор и восстанавливает их с точностью >99.9%.
Что это даёт
🚀 Меньше шагов генерации — модель проходит текст «крупными блоками»
⚡ Каждый шаг несёт ~4× больше информации
💻 Снижение вычислительных затрат на обучение до –44%
📈 Лучшее соотношение *performance / compute* по сравнению с дискретными моделями
Это уже не просто оптимизация — это сдвиг оси масштабирования LLM:
от «больше параметров» к «больше семантики на шаг».
Главный вывод работы:
предсказание в пространстве смысловых векторов может стать дорогой к ультра-эффективным языковым моделям, а не бесконечная гонка за токенами.
Если подход взлетит в проде - это один из самых серьёзных архитектурных апгрейдов LLM за последние годы.
Статья: https://arxiv.org/abs/2510.27688
Код: https://github.com/shaochenze/calm