Интересное что-то

🐶 Твой будущий пет-проект поэтапно, ч. 1: откуда взять идею и данные

У Andrey Karpathy есть такой твит:

How to become expert at thing:
1 iteratively take on concrete projects and accomplish them depth wise, learning “on demand” (ie don’t learn bottom up breadth wise)
2 teach/summarize everything you learn in your own words
3 only compare yourself to younger you, never to others

, в котором ясно сказано, что, чтобы по-настоящему «зашарить в теме», нужно взять проект и усердно работать над ним

Pet-project - это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия.

Вообще, про Pet-проекты и их важность в резюме мы уже писали один обзорный пост, но хотим напомнить ещё: в этот раз подробно разберем каждый этап создания пет-проекта, чтобы у вас больше не осталось причин не делать его: сегодня обсудим идею проекта и откуда можно взять данные для него

# Идея
– Если идей нет, то участвуйте во всяких хакатонах (можно посмотреть актуальные на сайте хакатоны.рус или ods.ai) и kaggle-чемпионатах
– Не думайте, берите и делайте! У ODS 25 июля стартует хакатон, в котором команды вайбкодят пет-проекты – найти себе единомышленников можно в их чате @ods_pet_projects, зарегистрироваться можно в форме до 24 июля, а посмотреть проекты прошлых лет можно тут
– Очень важно, чтобы идея резонировала с вами. Вместо того, чтобы брать скучную идею, лучше подольше подумать над ней
– Чтобы найти такую идею, можно обратиться к ChatGPT/Perplexity, рассказать им свои интересы и увлечения, и с какой-то вероятностью вы получите что-то действительно годное
– Копировать чужую идею – норм. Если вам что-то интересно, но это уже существует, ничего страшного, как минимум вы разберетесь в том, как это работает подробнее, как максимум – сделаете лучше

# Данные
Можно чуть заморочиться и тянуть данные через api (например, у HeadHunter), но мы собрали супер-подборку, откуда можно напрямую скачать годные данные в удобном формате:
– Kaggle Datasets: датасеты на любой вкус, многие из которых уже стали классикой ML-жанра
– Google Dataset: поможет найти необходимый датасет и подскажет, где и в каком формате можно скачать
– Исследования 2ГИС: содержит стату по сферам экономики в городах России, удобно экспортируется в Excel
– Google Trends: отличный вариант, если хочется поисследовать популярность чего-либо. Можно выгрузить динамику популярности, популярность по субрегионам, "еще по теме" и похожие запросы в формате csv.
– Датасет с отзывами на Яндекс картах: хороший вариант потренироваться в NLP
– BI Portal Росстата: собранная статистика по РФ и агрегированные датасетов, которые можно экспортировать в Excel или CSV

А еще нашли для вас годную репу на гитхабе со сборником PET-проектов по DS. Советуем сначала посмотреть идеи, оформления и лучшие практики там, перед тем как начать делать свой проект. Насмотренность порождает качество!

Ставьте 🔥, и пишите в комментарии самые абсурдные идеи для пет проектов)
Как только пост наберет больше 50 огонечков, дропаем следующую часть

Start Career in DS

🐶 Пет-проекты для начинающего Data Scientistа

Pet-project - это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия. Начинающему дата саентисту почти что необходимо сделать какой-нибудь (пусть даже совсем небольшой) пет…

62 views09:54

Интересное что-то

#ml #systemdesign #interview

53 views10:04

Интересное что-то

Forwarded from Ivan Bukun

Какие материалы для подготовки к SD используете? Я слышал про hello interview

Hellointerview

Machine Learning System Design in a Hurry | ML System Design in a Hurry

The essentials needed to pass the machine learning (ML) system design interview, built by FAANG hiring managers and staff engineers.

76 views10:04

Интересное что-то

#python

50 views10:05

Интересное что-то

Forwarded from Находки в опенсорсе

Лучший курс по Python 15: Subinterpreters

Продолжаем говорить про субинтерпретаторы.
Пригласил их автора – Eric Snow – чтобы поговорить про историю, актуальное состояние проекта и его будущее. Особо отмечу темы про будущие оптимизации. Как ускорить старт интерпретатора? Как сделать возможным шеринг большего количества данных?

Все здесь! Есть русские и английские субтитры.
А еще я добавил много примеров кода и ссылки на исходники / пепы / статьи.
Жмите на паузу и читайте :)

https://www.youtube.com/watch?v=VBiaNNpLzWA

Внутри:
00:00 Вступление
00:11 Представление гостя
01:20 Введение в subinterpreters и PEP-554
04:21 Как subinterpreters выглядят с точки зрения OS?
05:50 Зачем добавили субинтерпретаторы в Python1.5?
08:01 Сколько субинтерпретаторов можно запустить в один момент?
09:19 История subinterpreters
17:25 Изоляция модулей и PEP-687
25:22 Immortal objects и PEP-683
29:15 Static Types
32:50 Проблема с модулем SSL
34:44 Связь subinterpreters и free-threading
42:45 Erlang и Actor Model
43:50 CSP, Channels
45:23 _interpqueues
46:11 (не)Копирование данных при отправке данных в очередь
48:53 Можно ли безопасно делить все буфферы? memoryview
49:53 subinterpreters vs multiprocessing
53:09 subinterpreters and asyncio
56:07 PEP-734
56:37 Сборщик мусора, GC
58:13 Как сделать еще быстрее и лучше в будушем?
01:03:34 Какие библиотеки стоит сделать сообществу?
01:08:14 Завершение

Обсуждение: кого бы вы хотели видеть в качестве будущего гостя?

| Поддержать | YouTube | GitHub | Чат |

50 views10:05

Интересное что-то

#llm #petproject

42 views10:07

Интересное что-то

Forwarded from Лёха ведет дневник

🔥 Топ AI-инструментов середины 2025: что реально работает

Собрали с Мишей Пантелеевым, автором канала «эй, ай!» список инструментов, которые используем каждый день. Без воды — только то, что решает реальные задачи. Сохраняйте, чтобы не потерять!

💡 ГЕНЕРАЦИЯ ИДЕЙ

🧠 Claude → Заменил ChatGPT в 90% задач. Отлично работает с кодом, текстом, есть Deep Research, можно создавать интерактивные приложения через новую фичу с AI-артефактами. Минимально галлюцинирует при анализе данных. Модель Sonnet 4 идеально подходит для большинства задач.

💎 Google Gemini → Лучшая точка входа для знакомства с AI. Бесплатно с американским VPN. Deep Research, reasoning-подход с длинным контекстом, интеграция со всеми Google-сервисами. Генерация картинок (недавно они прокачали движок генерации), создание видео с хайповой моделью Veo3 (правда, только на Pro-версии), быстрый поиск источников, генерации идей итд.

⚡ Lovable → Из идеи в рабочий лендинг за 10 минут. Дают 5 запросов в день бесплатно. Отличный инструмент для быстрой визуализации, чтобы синхронизироваться с командой или показать прототип MVP-решения. Идеальная связка: анализируешь материалы в Claude → генерируешь в Claude промпт для переноса всех результатов в Lovable → вставляешь промпт и получаешь готовый сайт.

📊 АНАЛИЗ ДАННЫХ

📚 Google NotebookLM → Можно создавать базы знаний из 50 источников в одном окне (в Pro – 300). Загружаешь тексты, PDF, ссылки на YouTube – получаешь ответы только по твоим материалам. Идеально для анализа интервью и работы с большими объемными документами (даже фреймы из Miro, экспортированные в PDF принимает). Ключевая фишка: минимальная "температура" – почти не креативит и опирается только на то, что ты ей даешь.

🔍 ПОИСК ИНФОРМАЦИИ

🎯 Perplexity → Замена Google Поиска. Deep Research как стартовый драфт для глубокой прокопки тем. В последнее время появляется много новых фич: автоматическое получение новостных отчетов по расписанию, Perplexity Labs для создания мини-приложений в вебе. Лайфхак: Прямо сейчас годовую подписку на Pro-версию можно найти на плати маркет за 100 рублей вместо 200$, пользуйтесь🔥

📝 КОНТЕНТ

🎬 Hey Gen → Создание AI-аватаров из твоего видео. Снимаешь 2-3 минуты себя на камеру → получаешь говорящего цифрового двойника. Интеграция с ElevenLabs через API — твое лицо говорит твоим голосом. Идеально для масштабирования контента без постоянных съемок.

🎤 ElevenLabs → Клонирование голоса на профессиональном уровне. За 10 минут настройки + 1 час обработки получаешь голос, который звучит как ты. Используем Turbo 2.5 для русского — качество потрясающее. Лайфхак: подходят даже голосовые из мессенджеров, только очисти от шума и приведи к одному уровню громкости (нужно > 30 минут общего исходника).

⚙️ КОД И АВТОМАТИЗАЦИЯ

🔗 n8n → Автоматизация без программирования. Связываешь любые сервисы между собой. Достаточно просто собирать различные workflow. Примеров — куча: от автосоздания контента, в том числе видео, до более сложных b2b сценариев. Бонус — можно установить локально в вашем контуре.

💻 Cursor → AI-powered IDE с пониманием контекста всего проекта. Кстати теперь работает в браузере и на телефоне! Агенты пишут код, отвечают на вопросы, пушат PR. Можно запускать несколько агентов одновременно. Кодить с AI нужно приловчиться, чтобы ИИ следовал твоим инструкциям, не писал лишнего и не ломал то, что уже работает.

📞 ПРОДУКТИВНОСТЬ

☎️ Granola → топовый инструмент для записи встреч. Не нужно добавлять в звонки, просто включаешь в фоне. Куча полезных функций, как для реалтайм работы (можно задать вопрос по ходу звонка), так и качественная постобработка. (У нас есть и собственная разработка на эту тему, которую можно в контур компании поставить. Решение выложили в open source — за ссылочкой приходите в комменты).

Напишите, какие AI-инструменты используете вы? Что мы пропустили? Хочется собрать максимально полный список от реальных практиков и любителей AI.

Ставьте 🔥, если пост полезен, и делитесь своими находками

эй, ай!

меня зовут Миша и здесь я показываю, как прокачиваю свои будни с AI

делюсь всем, что помогает мне и может помочь тебе

47 views10:07

Интересное что-то

#python #code

36 views10:08

Интересное что-то

Forwarded from Artem Ryblov’s Data Science Weekly

python-patterns

A collection of design patterns and idioms in Python.

Remember that each pattern has its own trade-offs. And you need to pay attention more to why you're choosing a certain pattern than to how to implement it.

Link: GitHub

Navigational hashtags: #armsite
General hashtags: #python #programming #patterns #development #engineering

@data_science_weekly

40 views10:08

Интересное что-то

#llm #papers

38 views10:09

Интересное что-то

Forwarded from Душный NLP

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Сегодня разберём короткую, но ёмкую статью из Китая. Авторы предлагают опенсорсный метод работы с большими LLM RL: алгоритмы, инфраструктуру кода и датасеты. Забавно, что на момент подготовки обзора у ребят почти пустой GitHub — большая его часть заполнена картинками.

DAPO — Dynamic sAmpling Policy Optimization — не представляет из себя чего-то кардинально нового. Использованные авторами подходы либо витали в воздухе, либо публиковались в других статьях.

Этот метод — модификация GRPO, который в свою очередь получился после улучшения PPO. Все эти алгоритмы объединяет возможность переиспользовать генерации. В обычных on-policy RL-алгоритмах каждый шаг оптимизации требует генерации свежей модели. А в PPO-подобных можно заранее создать большой батч ответов и сделать для него не один, а сразу несколько шагов оптимизации. Зачем? Большой батч эффективнее генерировать!

Новое классное свойство появляется за счёт использования importance sampling и трюка с обрезкой градиентов там, где свежая политика и так уже слишком сильно отличается от той, что сгенерировала данные.

Конкретно DAPO отличается от GRPO четырьмя вещами. Здесь есть:

— Модификация процедуры обрезки градиентов — Clip-Higher. Верхний порог обрезки выше, чем у GRPO, что улучшает итоговое качество.
— Динамическое сэмплирование: авторы предлагают с запасом генерировать ответы и выкидывать те, которые набрали одинаковую награду.
— Усреднение функционала ошибки по токенам, а не по запросам. Это придаёт больший вес длинным генерациям в общем функционале.
— Фильтрация слишком длинных ответов. Ответы, превысившие рекомендуемую длину получают небольшой штраф, а ответы вышедшие за максимальную длину — вообще не участвуют в оптимизации.

Кроме прочего, авторы модифицируют обучающий датасет: используют LLM, которая модифицирует запросы так, чтобы правильные ответы на них были целыми числами. Это упрощает парсинг ответов модели и их валидацию.

Самый классный, на мой взгляд, результат, — авторам DAPO удалось обойти SoTA DeepSeek-R1-Zero-Qwen-32B в решении задач олимпиадной математики. При этом они потратили 50% от мощностей, которые использовали для аналогичного обучения Qwen.

Разбор подготовил ❣ Павел Темирчев

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

42 views10:09

Интересное что-то

#llm #papers

43 views10:10

Интересное что-то

Forwarded from Душный NLP

Впечатления от конференции ICLR 2025

Минувшая ICLR была насыщенной и полезной. Мы попросили инженеров Яндекса, посетивших конференцию, поделиться впечатлениями и рассказать о том, что им запомнилось.

Материалы, которые упоминаются в карточках:

— Asynchronous RLHF. Faster And More Efficient Off-Policy RL For LLMs
— Learning Dynamics of LLM Finetuning
— Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates
— Strong Model Collapse
— Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory
— IST-DASLab/MoE-Quant: Code for data-aware compression of DeepSeek models

*Компания Meta признана экстремистской организацией в России.

Душный NLP

48 views10:10

About

Blog

Apps

Platform