Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
🔥 Agentic Reward Modeling: Интеграция человеческих предпочтений с проверяемыми сигналами корректности для надежных систем вознаграждения!

💡 Данный репозиторий представляет собой реализацию системы вознаграждения, объединяющей модели вознаграждения с проверяемыми сигналами корректности из различных аспектов для обеспечения надежных вознаграждений. В частности, реализован агент вознаграждения под названием RewardAgent, который сочетает вознаграждения на основе человеческих предпочтений с двумя проверяемыми сигналами: фактичностью и следованием инструкциям, что обеспечивает более надежные вознаграждения.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Самые популярные архитектуры в Enterprise RAG Challenge

Вот вам краткая выжимка того, что люди использовали во время Enterprise RAG Challenge round 2. Она сделана на основе анализа 55 описаний архитектур, которые заполнили команды.

🤗 Спасибо всем, кто участвовал и заполнял! 🤗

Key Takeaways

- RAG is near-universal. Almost every approach tries to solve the “long PDF → targeted answer” problem by chunking, storing embeddings, retrieving relevant sections, then letting the model “read” only those sections.
- Structured prompts (with JSON/Pydantic) were popular to ensure consistent outputs—particularly for numeric or Boolean questions that required a definite format.
- Chain-of-thought or multi-step reasoning is common, sometimes with multiple LLM calls for expansions, validations, or final re-checks.
- Performance + Cost trade-offs surfaced: several teams used “fast & cheap” LLMs for search or chunk-labelling, then a heavier model (e.g., GPT-4o) for final answers.

Most submissions combined:
- Document parsing (Docling, PyMuPDF, or similar),
- Vector or keyword-based retrieval (FAISS, Qdrant, BM25, etc.),
- Iterative LLM-based reasoning (chain-of-thought or agent-like flows),
- Structured response schemas (Pydantic or JSON).

Despite the variety of LLM families (OpenAI GPT-4o variants, Llama, Gemini, Qwen, DeepSeek, IBM Granite, Microsoft phi, etc.), the underlying RAG pipeline structure remained strikingly consistent: parse PDFs, embed or index them, fetch relevant chunks, and prompt an LLM to produce carefully formatted answers.

А то, насколько хорошо все эти архитектуры показали себя в рамках соревнования - мы узнаем уже в эту пятницу.

Ваш, @llm_under_hood 🤗
👨‍💻С чего начать запуск продукта? 5 шагов, чтобы не провалиться в пустоту

Я часто общаюсь с подписчиками канала, на те или иные кейсы.
Решил написать шпаргалку для начинающих "стартаперов", которые хотят запустить продукт от стадии идеи.

«Сначала продавайте, потом создавайте» — но как понять, кому и что продавать?

🗣5 шагов:

1️⃣ Исследуйте рынок: ваш TAM/SAM/SOM — это не абстракция!
- TAM (общий рынок): Сколько всего клиентов могли бы купить ваш продукт?
- SAM (доступный рынок): Сколько из них реально достижимы?
- SOM (ваша доля): Какую часть захватите за 1-2 года?

2️⃣ Разберитесь с конкурентами
— Кто уже решает ту же проблему?
— Чем их решение не устраивает клиентов? (читайте отзывы, форумы, соцсети!)
— Как займете свою нишу? «Делаем как Х, но с упором на Y».

3️⃣ Поймите ЦА до мурашек
— Кто они? (демография, профессия, привычки)
— Какие боли испытывают? (не «хотят похудеть», а «не успевают готовить полезную ечу из-за работы»)
— Как закрывают потребность сейчас? (костыли в виде Excel, дорогие аналоги, рутина).

4️⃣ Создайте MMP (Minimum Marketable Product)
— Не идеальный продукт, а решение ключевой боли.
B2B: Идите к тем, с кем общались на этапе интервью — предложите прототип за фидбек/предоплату.
B2C: Запустите лендинг или рекламу в соцсетях. Если трафик не идет — проблема не та, или решение не «зажигает».

5️⃣ Фишка: артефакты — ваша Библия
— CJM клиента, портреты ЦА, SWOT конкурентов — не для красоты, а чтобы каждый в команде понимал: куда идем и зачем.

❗️ Ошибка новичков: потратить полгода на разработку «идеального» продукта без тестов.
📌 Правило: 80% времени — на исследование, 20% — на создание.

#продукт #старт #маркетинг
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DevFM
The 37signals Guide to Internal Communication

Мы уже писали про замечательную книгу Getting Real от ребят из 37signals.

Давно хотел написать про ещё один классный гайдлайн от ребят — The 37signals Guide to Internal Communication.

Мы внедряем различные практики разработки — как пишем код, какие линтеры используем, как проводим ревью и т.д. А вот как правильно коммуницировать, чтобы были единые, всем понятные правила? На моей практике с этим аспектом не всё так гладко.

В гайде вас ждёт набор очень ёмко сформулированных правил коммуникации. Приведу без перевода особенно откликнувшиеся мне:
— Real-time sometimes, asynchronous most of the time.
— Meetings are the last resort, not the first option.
— Speaking only helps who’s in the room, writing helps everyone.
— If your words can be perceived in different ways, they’ll be understood in the way which does the most harm.
— Never expect or require someone to get back to you immediately unless it’s a true emergency. The expectation of immediate response is toxic.
— Five people in a room for an hour isn’t a one hour meeting, it’s a five hour meeting. Be mindful of the tradeoffs.
— “Now” is often the wrong time to say what just popped into your head. It’s better to let it filter it through the sieve of time. What’s left is the part worth saying.
— Urgency is overrated, ASAP is poison.
— Ask if things are clear. Ask what you left out. Ask if there was anything someone was expecting that you didn’t cover. Address the gaps before they widen with time.

#teamwork #edu
Forwarded from whargarbl
Стыдно признаться, но я потратил 2 недели на чтение грязных бумажонок, исследование кодовых баз трейна моделей и внедрение передовых практик. Перепробовал кучу дерьма.

Выяснилось что стабильность трейна определяется правильностью архитектуры, а не свистоперделками

После того как исправил архитектуру - все начало тренится лайк э шарм на ванильном адамВ и без танцев с бубном

Абсолютно похрен адам или лайон, косиносум вы затухаете или вприпрыжку и юзаете ли ЕМА или нет.

Модель либо тренится, либо нет.
Forwarded from Data Secrets
Что почитать и посмотреть про обучение LLM и ризонинг? Подборка топ-7 ресурсов от нашей редакции, после которых вы точно лучше поймете, как работают и учатся современные модели 🤓

1. Несомненно, трехчасовое видео Андрея Карпаты "Погружение в LLM". Вся теория по основным этапам обучения, архитектуре, файнтюнингу, ризонингу и обучению с подкреплением верхнеуровнего и доступно. Идеально для первого знакомства с теорией по LLM.

2. Видео про трансформеры от 3Blue1Brown. Немного подробнее про внутреннее устройство LLM. Необходимо хотя бы идейно понять архитектуру, чтобы потом разбираться с новейшими техниками, и этот максимально наглядный гайд подойдет идеально. В видео есть русский дубляж.

3. Для тех, кому хочется практики, отличный бесплатный курс от Hugging Face. Классные иллюстрации, понятные примеры, все необходимое для того, чтобы вы могли сами запускать модели.

4. Статья про модель DeepSeekMath от DeepSeek. Да, здесь все еще не про ризонинг, зато очень подробно и понятно описан этап сбора данных, претрен, эксперименты и обучение с подкреплением. Этот текст даст вам крепкую базу для понимания того, как обучают модели в индустрии. Вот, кстати, наш большой разбор этой статьи.

5. У истоков ризонинга: статья про CoT от Google Research. Одна из первых и самых влиятельных работ, в которой обстоятельно обсуждается, что такое цепочки мыслей CoT и как они влияют на качество результатов. Много примеров. Историческая и необходимая база.

6. Cтатья про DeepSeek-R1. Да, эти ребята умеют хорошо писать. Подробно, лаконично, с практической точки зрения. Прочитайте это, и будете понимать ризонинг лучше, чем 99.9% пользователей ChatGPT. Наш разбор.

7. Очень содержательное выступление "Learning to Reason with LLMs" от Ноама Брауна – известного ученого из OpenAI, который работает как раз над ризонингом и агентами. Про игры, масштабирование компьюта и то, как индустрия пришла к моделям, основанным на рассуждениях.

Сохраняйте!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
MIT перезапустили свой легендарный курс 6.S191: Introduction to Deep Learning

NLP, CV, LLM, приложения в медицине: тут все end-to-end, включая теорию и практику с актуальными версиями библиотек.

Подходит курс даже для тех, кто вкатывается с нуля: достаточно уметь брать производные и умножать матрицы, остальное обещают объяснить на ходу.

Лекции будут выходить в свободный доступ на YouTube по понедельникам, первая вышла вчера. Слайды, код и доп.материалы лежат здесь.

Такое не пропускаем
Начало карьеры в DS

Последнее время много кто спрашивает меня про старт карьеры в DS от студентов и ребят из других профессий: разработчики, продакты и даже был один социолог! Кстати, я был удивлен, но на соцфаке капец как много матстата - это годная база для старта в DS. Собрал в кучу все эти разговоры и свои советы - делюсь с вами

Этап 1. А оно вам надо?
Многие идут в DS за деньгами 300к/секунду. Может, лет 5-10 назад и было легко залететь с минимальными знаниями и супер-быстро вырасти, но сейчас это не так. Поиск стажировки или junior позиции - кровавый океан с конкуренцией под 100 чел на место. Чтобы вырваться в этой гонке вперед пригодится сильная мотивация помимо денег:
- Сделать мир лучше: для HealthTech, Self-driving Cars, автоматизации производства и кучи других отраслей есть и правда социально полезное применение ML
- Применить 4 года изучения математики/программирования: и правда получится это делать. Но скорее всего несколько в другом виде (много математики+ml в логиситике и страховании, например) и не факт, что в ML-направлении. В той же продуктовой аналитике мат стата может быть по факту даже больше
- Быть на острие технологий/науки: GPT, GenAI, графовые сети, создание видео через AI - это действительно многим интересно. Но SOTA модели делают далеко не везде: учитывайте это
- Занятный разговор про мотивацию услышал в подкасте "AI в действии" от ребят из ecom.tech - таймкод 5:48, если интересно

Этап 2. Попробуй - точно надо?
Только не надо на этом этапе платить деньги) Есть куча бесплатных легендарных курсов
- Andrew Ng для олдов
- Курс от ODS
- Курсы от Стэнфорда типа CS231n
- Kaggle курсы, если вас драйвят ml-соревнования
- Бесплатные курсы на Coursera, Stepik и тд

Берите курс с изучением python + ml и обязательными домашками на код. Тут вы хотя бы минимально симитируете работу DS и поймете, а точно ли оно вам нравится? DS - sexy job со стороны, но в реальности 90% времени мы не делаем SOTA ml-модели, а выясняем суть задачи, чистим данные, строим фичи (предобрабатываем/токенизируем в llm/cv) и упорно растим какой-нибудь precision модели

Этап 3. Погружение
Понравилось? Теперь стоит выбрать предварительную специализацию: таблички, nlp или cv. И уже пройти более глубокий курс на эту тему. Тут советовать ничего не буду: есть годные и бесплатные, и платные курсы. Думайте сами - решайте сами

Специализация вам точно пригодится, потому что собесы проходят не по data science в общем (так было лет 7 назад), а по конкретным задачам команды. И как правило, даже для стажировки стоит довольно глубоко разбираться в специализации хотя бы в теории

Этап 4. Первая стажировка / работа
После завершения базового ml-курса + специализации рекомендую сделать такие пункты для стажировки или работы джуном
- Сделайте pet-проект и оформите его на github. В теме разберетесь, из толпы выделитесь. На финалах вас могут спросить о пет проекте, а не рандомный вопрос, который вам особо не знаком
- Сделайте хорошее CV на hh.ru и LinkedIn. Опыта работы у вас нет - опишите в деталях свои учебные и пет-проекты: что за задачу решали, какие метрики, что применяли и тд. Только пишите честно, что это учебные проект, а не работа (крик души нанимающего менеджера) 😅
- Активно подавайтесь в релевантные компании. В порядке убывания эффективности работают такие каналы: Личное знакомство > Рефералка от сотрудника > One day offer > карьерный день студента > Подача через сайт компании > подача через hh.ru
- Готовьтесь, что поиск работы может занять 2, 3, а то и 6 месяцев
- Предложил бы ориентироваться на интересность задач и потенуиал роста, а не на деньги. Деньги в IT в любом случае у вас появятся только от уровня middle и выше

Ну вот и все! Удачи во вкатывание в DS - все получится 🫰

Реклама. ООО «Умное пространство», ИНН: 7811554010. Ерид: 2W5zFJhD57N
Forwarded from VF | Science
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full Length Song Generation with Latent Diffusion
[paper] | [code] | [hf_demo]

Опенсурс для генерации музыки развивается 👍

Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Также можно указать тайминги для лирики, крутая фича. Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).

VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугментацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.

DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
*️⃣ Стиль. Короткий аудиофрагмент обрабатывается через LSTM, где финальное скрытое состояние используется как глобальная информация о стиле.
*️⃣ Временной шаг. Embedding текущего шага диффузии суммируется со стилевым признаком, формируя глобальное условие.
*️⃣ Текст песни. Преобразуется в фонемы через grapheme-to-phoneme (G2P) конверсию, затем встраивается в непрерывные эмбеддинги через слой embedding. Эти признаки конкатенируются с зашумлённым латентным представлением и подаются в DiT.

DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))

Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
*️⃣ Преобразуют текст в последовательность фонем через G2P преобразование
*️⃣ Инициализуют последовательность для алаймента P_i длиной L_max (4м45с), которая полностью заполнена падингами
*️⃣ Размещение фонем p_i в P_i на позициях, соответствующих временным меткам (𝑓_𝑖_start=[𝑡_𝑖_start * 𝐹_𝑠], где 𝐹_𝑠=21.5Гц)

Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.

А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хорошая тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел (upd: видел). Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?

#music #papers
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Quant Valerian
Про лидершип

Несмотря на мемы про природный лидершип, мне все-таки есть, что сказать по этому поводу.

В этой ветке мало теории. Поэтому ща одним постом выдам вам базу, которая на 90% покрывает всё, что я видел на эту тему.

Очень много армейского. Видимо, там очень важная компетенция, считается. Прям брошюры есть от армий разных стран. Содержание там примерно следующее:
- Leadership by example
- Веди себя нормально по отношению к подчиненным
Больше там ничего нет.

Вести себя нормально дано не всем. Очень много людей, которым нужно самоутверждаться за счет других, всюду показывать свою лычку начальника и вообще демонстрировать КТО ЗДЕСЬ ВЛАСТЬ.
Если вы такой (в текущий момент времени), не рекомендую идти в тимлиды, потому что нормальную команду собрать не получится. Вас либо размажут и сожрут взрослые дяди, либо будете сидеть и загнивать в сомнительном обществе.

А вот быть примером нужно учиться. Но чтобы научиться этому, нужно, блин, стараться. С майндсетом "я начальник, ты дурак" точно не получится. Нужно вести себя так, как ты хочешь, чтобы работали твои ребята:
- решали проблемы, а не закапывали под ковер
- бежали к цели, а не плыли по течению
- решали задачи в срок
- выполняли закоммиты
- признавали ошибки
- не опаздывали на встречи...
Вот, что вам надо — то выберите и делайте сами. Долго. Всегда.

Но как мне занять лидерскую позицию? Как получить уважение? А что, если я вообще не программист, а они все победители олимпиад?
А у тебя работа не программировать, а управлять. Вот ты покажи, что ты свою работу хорошо делаешь, прям вот круто, тогда и уважение получишь. Авторитет зарабатывается трек-рекордом. Тебе нужно быть последовательным, выполнять обещания, не отступать от заявленных правил.

Обещал уволить за еще один подобный факап? Сам виноват, теперь увольняй.

Обещал дать премию за успешное закрытие проекта? Не важно, как его закрыли, есть факт — давай деньги!

Обещал, что к следующему разу решишь вопрос? Придется решить. И прям к следующему разу.

Буквально все эти вещи выше — это про то, что вам важно, про приоритеты. Если тебе важно быть лидером — бери себя в руки и делай. Если тебе важно, чтобы работа работалась — работай сам, покажи пример. Люди верят не словам, а действиям. А когда ты раз сказал одноЮ а сделал другое, два... На третий раз никто уже и слушать не будет. А это буквально потеря авторитета.

P.S.:
Хотя на первом этапе знакомства с командой рассказы, какой ты крутой программист дают некоторую фору, дальше нужно всё-таки показать, какой ты управленец. А программировать можно и посредственно.