Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from Quant Valerian
Очередная итерация по повышению точности прогнозирования сроков проектов 🤓

В этой работе нами было показано

В какой-то раз, похоже, придется реально статью уже писать 😁
КОРОЧЕ, опять Канеманн меня вдохновил на идею. В главе «Взгляд извне» он рассказывает, что они с коллегами собрались написать учебник. Попланировали, поприкидывали, написали несколько глав.

❗️ВНИМАНИЕ!❗️Планинг покер!❗️ Канеманн попросил каждого участника независимо оценить срок, в который они закончат книгу. В среднем они оценили срок в два года.

А потом они спросили одного из членов группы, специалиста по спецкурсам, как исторически справлялись другие группы?💡
Он ответил, что в среднем книгу такого объема пишут минимум за семь лет, но не больше, чем за десять. Ещё он сказал, что их группа несколько слабее среднего по уровню подготовки и ресурсов.
Услышав это, они погрустнели.

И забили хер на эту информацию! 😁 В итоге, книгу они писали ещё восемь лет с того эпизода.😱

Что с этим делать?
Я уже рассказывал, что мы пользуемся статистикой. Кратко 🤡 напомню:

1. Собираем диаграмму Гантта (там нарезано на MOVE a la стори, других задач там нет, даже самое мелкое внесено через MOVE) 😋

2. Оцениваем стори маечно (совсем мелочь / что-то невообразимо большое / всё остальное) 📏

3. Смотрим цикл-тайм (на самом деле lead time) диаграммы в разрезе этих размеров (медианы и 85%%)👩‍🔬

4. Выделяем критический путь в Гантте (с учетом ресурсов) ☢️

5. Для критического пути считаем медиану (как сумму медиан задач) и 85%% (как сумму 85%%), вообще говоря, так нельзя делать математически, но нам для примерности сойдет (распределения там логнормальные примерно, я проверял на разных командах из разных частей компании) 🧮

6. Теперь мы знаем, когда закончим с вероятностью 50%, когда с вероятностью 85% — скорее всего где-то между этими значениями и получится 🤞

7*. Не надо закладывать никакие буферы, они учтены в статистике 🤌

Это работает, мы пробовали. Но не так хорошо, как на бумаге. Потому что люди (ну мы) туповаты 🤤 и, например, на старте проекта забывают, не учитывают какой-то кусок работы. Или приходит какой-нибудь аудитор/регулятор/юрист🤵🏼‍♂️ и наваливает вам 💩 еще обязательного в скоуп.

!!!НОВАЯ ИНФОРМАЦИЯ!!! 🎉

Поэтому предлагается ко взгляду извне (метод выше) добавить ещё субъективщины. И важно, что я говорю не о том, что мы ко всем проектам просто будем докидывать какой-то одинаковый (в абсолютах или процентах) запас. А о том, что у нас есть:

1. Чуйка (aka интуиция aka насмотренность) 🐕

2. Осознанное знание, как шли какие-то похожие проекты 👴🏻

И вот тут уже, имея опору в виде объективной априорной оценки, стоит опросить членов команды, что они думают о сроках. И эти данные использовать, как поправку. Конкретную методику я ещё не пробовал, поэтому мне нечего вам посоветовать. 🌝 Пока!

Из этой истории, btw, можно сделать вывод, что не работают не только стори поинты, но и планинг покер. Хотя для взвешивания быка 🐂 вроде работает. Разница в том, что при планировании работы, мы оцениваем себя, а от веса быка нам ни холодно, ни жарко.
Forwarded from MWS AI
Может ли LLM с 1 миллиардом параметров обойти LLM c 405 миллиардами?

Всем привет, сегодня хотел обсудить статью с многообещающим названием "Can 1B LLM Surpass 405B LLM?".

забегая вперед, ответ - да (можно увидеть на картинке 1), конечно, с оговоркой, что на некоторых задачах и при определенных условиях

что за задачи и условия? об этом и поговорим; задач в статье рассмотрено две, точнее два набора задач - MATH-500 и AIME24

MATH-500 - это 500 математических задач уровня старшей школы, которые предназначены для решения школьниками в классе, AIME24 - это 24 олимпиадных задачи также уровня старшей школы; в последнее время эти два набора стали популярны для оценки моделей по математике


теперь про условия, условие здесь самое важное - это дополнительные рассуждения модели в момент ответа на вопрос

для рассуждения в статье используют и Llama 3 и Qwen 2.5,, точнее по несколько разновеликих моделей из этих семейств

тут есть хитрость, рассуждения сейчас принято делить на несколько видов:

выбор из нескольких параллельно сгенерированных вариантов (Best of N, BoN), построения дерева рассуждений (Beam Search) и выбор из нескольких таких деревьев (Diverse Verifier Tree Search, DVTS), они все показаны на картинке 2; у каждого из этих вариантов есть свои гиперпараметры, например, количество вариантов для BoN или деревьев для DVTS


но сгенерировать набор гипотез мало, необходимо еще как-то из этих гипотез выбрать, а чтобы выбрать, необходимо сначала оценить, и тут коллеги разошлись на полную - используют 7 разных моделей, каждая из которых еще может быть в разных весовых категориях; эти модели могут использоваться по-разному - например, для оценки конечного результата Beam Search или каждого шага

дополнительно, они исследуют разные схемы выбора из нескольких оцененных вариантов, такие как - выбор самого частого варианта, выбор варианта с самой высокой оценкой и другие

после всех ухищрений с поиском оптимального сочетания всех факторов, они как раз и приходят к картинке 1 и положительному ответу на вопрос, но на мой взгляд тут на мой взгляд интересна картинка 3: она показывает, что общие затраты вычислений на все рассуждения маленькой моделькой и затраты на вычисление ответа большой моделью оказываются сопоставимы

это на мой взгляд фундаментально - качество зависит от того, сколько вы "думаете" над задачей, не так важно - большая у вас модель или маленькая; этому есть аналогия в живой природе - есть такой род пауков Portia (порция), которые демонстрируют сложность поведения сравнимую с кошкой, они своим небольшим нервным узлом, заменяющим им мозг, могут рассчитывать сложные прыжки, например, хотя количество нейронов у них в сотни раз меньше; делают они это за счет обработки задачи по частям, то есть они сначала долго сидят и думают, а потом - как прыгнут!

на этой оптимистической ноте я бы хотел закончить свой рассказ; в комментариях накидывайте варианты статей для будущих разборов 🔚
Please open Telegram to view this post
VIEW IN TELEGRAM
Как подойти к дизайну визуализации?🪜

Вчера в рассылке писала про модель Тамары Мунзнер, которая предлагает учитывать разные уровни вложенности в процессе визуализации. Идея в том, что ошибка на предыдущем уровне ломает все на следующем, поэтому важно идти по ступенькам:

👩‍💻1. Понимание домена – кто целевая аудитория и что они делают?
Самое опасное тут – неправильно понять конечные цели пользователей. Решать можно через качественный сбор требований:
- Dashbaord Canvas Ромы Бунина
- Про пользовательские интервью от Nielsen Group
- Jobs to be Done

🔎2. Задача и данные – какие данные мы показываем и зачем люди на них смотрят?
Из опасностей – выбор не тех данных и трансформация к ним, непревильно подобранные аналитические вопросы к данным
- Lean Anlaytics
- Как измерять?
- Дата команды и пониманием метрик бизнеса
- Одинаковые данные, разные вопросы

📊3. Визуальное представление – как это визуализировано?
Важен правильный выбор визуализаций.
- Как выбрать график?
- Эффективность базовых графиков
- Когнитивные искажения

🛠4. Валидация алгоритма – можем ли мы это сделать?
Проверка, что с визуализаций реально взаимодействовать и она технически реализуема.
- Про перфоманс дэшбордов в Tableau и перфоманс тестирование
Forwarded from ML Baldini • Nikita Boyandin (Nikita Boyandin)
#Инструменты Docker

Docker медленно, но очень верно становится обязательным приложением для Data Science(особенно, в связке в kuber). Возможность сохранять особенности своего окружения, при этом разворачивать проекты на своем устройстве делает Docker на 1000 процентов обязательный для человека в IT😍

Поэтому в этом посте я собрал бесплатные материалы для изучения, для тех, кто давно хотел, но руки не доходили:
1. Karpov.cources
Классный курс, сам его проходил (буквально пару недель назад), немного душноват ну а как еще с docker
2. Docker для начинающий на Stepik + практический опыт
3. Docker, GIT и Gitlab CI для начинающих от преподавателей МФТИ
4. Ну и куда же без хабра

Надеюсь, данный пост вам был полезен, и вы сможете улучшить свои навыки🫡
Всех обнял, приподнял💗
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Nik | Growth and Product
CAC:LTV. Как много в этой аббревиатуре для сердца предпринимателя слилось.🚬

На самом деле академический LTV считается криво, и как правило мало кому понятен 😂

Поэтому я использую LTGM - Life time gross margin - сколько денег заработали с пользователя в течение его срока жизни как клиента.⌨️ - и вам советую использовать эту метрику.

Почему так? Потому что метрика любая должна быть легко интерпретируема, и понятна любому, а не только людям с финансовым образованием 😂

Почему CAC - LTGM чуть ли не самая важная метрика в бизнесе? Потому что она дает вам самое четкое представление о том:

1. Сколько вы зарабатываете с одного клиента
2. Как быстро вы отбиваете затраты на его привлечение и совершение сделки

Далее исходя из этих двух переменных вы строите стратегию:
1. Либо апсейлов 😐
2. Либо увеличения среднего чека 😐
3. Либо снижения затрат на привлечение (что к слову, сложнее, чем увеличить средний чек). 😔

Бенчмарки - при CAC:LTGM = 1:3 делается устойчивый бизнес.💰
При 1:10 или 1:20 делается тонна денег и знакомые задают вопрос, а легально ли ты вообще зарабатываешь🤨

К слову, чтобы достичь 1:10 нужен определенный набор навыков у фаундера🤑

Как только получилось достичь соотношения 1:3 и выше - заливаете деньгами воронку привлечения клиентов, и кайфуете (на самом деле нет, поскольку к скейлингу надо подготовить бэк оффис, в виде сапорта, онбординг команду и ИТ отдел. Но об этом в следующей серии)😘
Please open Telegram to view this post
VIEW IN TELEGRAM
Как раскачаться на максимальную продуктивность в 2025. Делюсь 8-ю методами, проверенными на собственном опыте

Ребята, астрологи-инфобизнесмены объявили, что прошло уже 8% года и население с невыполненными целями удвоилось. 🔥.

Сейчас будет полезно сравнить факты и планы января. Проверить, что маршрут на 2025 реально построен и время прибытия к ожидаемым результатам полностью совпадает с вашим темпом работы.


В этом году у меня получился классный и размеренный старт, за что огромное спасибо моей команде и работе по методике из
8 «буду делать».

Детали и примеры к каждому пункту - в статье на vc.ru:
• Как быстро выйти на максимальную продуктивность в 2025?
• Как находить время на личные задачи, не срываться на встречи и перестать прокрастинировать?
• Как разобраться, для каких задач действительно полезны нейросети?


1️⃣Формулировать цели в OKR на 6 и 12 месяцев. Методику и примеры описания целей я разобрал в моем посте ранее.

2️⃣Распределять зоны ответственности и ресурсы для команды. Самое важное — определить бюджет, роли и время сотрудников для достижения OKR. Комбинация OKR и зон ответственности команд (пример шаблона) — самый ценный инструмент для фокусной работы над планированием года.

3️⃣Применять выводы с прошлых ретро по запущенным проектам. В начале года анализ ретро помогает предвидеть потенциальные проблемы и заранее учесть лернинги прошлого для планирования будущего.

4️⃣Мониторить прогресс по OKR в трекере задач команды. После утверждения с руководителями OKR команды переезжают в трекер задач, чтобы все понимали прогресс, обсуждали проблемы и пути их решения.

5️⃣Управлять всем своим временем через календарь: решать сложные задачи (те самые «лягушки» Брайана Трейси) утром, забивать слоты для «подумать», сверяться с целями и перепланировать следующие дни.

6️⃣Приходить на встречи, чтобы принимать решения. Год назад я адаптировал для себя правила проведения встреч в Amazon, про которые рассказывал Андрей Стыскин. Готовлю краткую адженду (цель, ключевые вопросы и проблемы с краткими вариантами решения) к каждой встрече и прошу делать то же самое других организаторов.

7️⃣Фиксировать мелкие задачи в бэклог долгов и возвращаться к ним позже. Обычно такие задачи не сильно влияют на OKR, но требуют внимания и связаны с идеями, замечаниями, наблюдениями команды в рабочих чатах. Для бэклога я использую шаблон, который можно вести как в доке, так и в таск-трекере.

8️⃣Применять нейросети для рабочих задач: разобравшись, где они полезны.
🔴Для сообщений в рабочие чаты, текстов для презентаций и документов пользуюсь Нейроредактором Яндекс 🙂 Браузера: исправляю ошибки и делаю длинные тексты короче, чтобы они подходили для переписки.
🔴В случаях, когда быстро нужен один емкий ответ с ссылками на источники в интернете, использую Нейро.
🔴Для творческих задач и аналитики часто пишу одинаковый запрос в несколько сервисов из списка: Алиса Про с YandexGPT, ChatGPT, Gemini, Claude. Забираю или доуточняю лучшие результаты для дальнейшей работы.

За 3 года взаимодействия с нейросетями я сформулировал для себя 3 правила работы с GPT

❇️Если ожидаю высокое качество результата и процесса размышлений (Reasoning) от нейросетевых моделей — пишу задачу только через промпт. Варианты короткого и длинного шаблона на заполнение промпта перечислил вот в этом посте ранее.
❇️Продолжаю писать задачи в чаты, в которых уже выдавал комментарии или ставил промпт на постановку темы, роли и формата ответа для GPT. Это существенно экономит время на описание контекста вместо создания новых чатов с нуля.
❇️Если сам могу решить задачу быстрее, чем буду писать и итерировать с нейросетями над запросом, то сделаю всё самостоятельно. 👍

❤️ и 👍 - если пост полезен. Написал его по мотивам моих наблюдений за тем, как знакомые мне люди все еще раскачиваются после новогодних.
💬 - поделитесь опытом как справляетесь справляетесь с потоком задач и выполнением целей. Какие у вас лайфхаки по организации продуктивной работы и взаимодействию с командой? Мне интересно 🙂

Мальцев: Карьера. Маркетинг. AI.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸Курс AI Safety от DeepMind🌸
#nlp #про_nlp #ai_alignment

DeepMind выпустил серию коротких видео с мини-лекциями про безопасность в ИИ
— Введение в AI Safety
— Глава 2: 5 частей про проблему AI Alignment
— Глава 3, Технические решения: обучение моделей и мониторинг качества, интерпретируемость, более безопасные дизайн-паттерны, стресс-тестирование
— Глава 4, Подходы к управлению рисками: институциональный подход к ИИ-безопасности, лучшие практики, оценка экзистенциальных рисков

🟣План курса: https://deepmindsafetyresearch.medium.com/introducing-our-short-course-on-agi-safety
(В конце есть две вакансии, в Лондоне и Нью-Йорке)
🟣Youtube-плейлист: https://youtube.com/playlist?list=PLw9kjlF6lD5UqaZvMTbhJB8sV-yuXu5eW&si=mSHlo4s7u6Q_aXSy
Please open Telegram to view this post
VIEW IN TELEGRAM
Шестой месяц. Управление процессами

Прошел шестой месяц курса Стратоплана «Руководитель отдела». Две трети позади

Контент первого, второго, третьего, четвертого и пятого месяцев я описывал ранее.

Это второй по счету месяц, в котором я не смог посетить онлайн. А очень жаль. Контент был важный и полезный, так что, лишившись практики в группах, я точно намерен наверстать это, особенно внимательно прикидывая это на рутинную работу.

О чем было
- Типы оргструктур (плоская, линейная, матричная, функциональная, проектная и т.д.). Надо понимать, когда какая нужна, плюсы и минусы разных подходов. Особенно важно в небольших компаниях, чтобы при росте уметь сформировать подходящую, а в больших компаниях, чтобы не страдать на тему «Ну почему же так? Ведь в моей прошлой маленько было иначе, и нормально же жили!»
- Ну и дальше всё связанное с оргструктурой и ролевой моделью. Типа не просто берите оргструктуру, наложите её на людей и погнали. А у вас должны быть роли лидеров, интеграторов, поддерживающие всякие, и разберитесь, кто какую роль будет закрывать в вашем конкретном случае, а не в базовом трафарете.
- Очевидная, вроде бы, история про систематизацию и формализацию бизнес-процессов. Кажется, что капитанство, однако очень часто нет процесса, а есть клубок в паре голов старожилов с лейблом «так исторически сложилось».
- Вторая тоже очевидная мысль, но редко проваливаемая — делегирование через бизнес-процесс. Хочешь делегировать и пойти заниматься другими делами? Сделай процесс, формализуй, опиши, научи и гуляй смело.
- Матрица «доверие-прозрачность». Золотая классика, всем рекомендую так работать. Чем понятнее и прозрачнее то, что вы делаете, тем больше к вам доверия и отношения как к профессионалу.
- Разные способы оптимизации бизнес-процессов, типа теории ограничений, 7 потоков потерь и прочего. Всё это очень интересно, но за один урок так, чисто по верхам рассмотрели, и дальше надо самим углубляться. Во что-то я когда-то уже ходил и пробовал, что-то так и осталось на поверхностном уровне.
- И кууууча всего про метрики продуктовые, канбановые, скрамовые, HEART, PROJECT, и т.д.
- Системы отчетности: кому, когда, как, в каком формате, на основе каких метрик.
- KPI и как они совместимы с работой. Например, видел в одной компании, как человеку поставили KPI для премии — ряд доработок и нового функционала на одном из важных сайтов компании. А разработчиков не дали. Вот и крутись как хочешь. Ну, как вы понимаете, премии, конечно же, не было 🙂

Какое мнение
Обычно я делаю описание того, какой контент был мне знаком, а какой нет. В этот раз мне было это сделать очень трудно, поэтому я выделил одной портянкой важные, на мой взгляд, темы.

С одной стороны, практически всё мне было известно и понятно. Только мало кто всё это разумно делает. Основной вызов для меня лично тут не в том, чтобы что-то новое узнать, а чтобы унести это в практику, да еще и никому не навредить. А то знаете эти приколы, когда кто-то наслушается на конфе про метрики, прибежит на работу и как давай внедрять во все места всё, что услышал? 🙂
Forwarded from Sinекура
Вышел мой большой пост про рассуждающие модели (large reasoning models, LRM), которые начались с OpenAI o1-preview в конце прошлого сентября, а самой громкой новостью начала года стал DeepSeek-R1.

https://synthesis.ai/2025/02/25/large-reasoning-models-how-o1-replications-turned-into-real-competition/

Как обычно, я постарался рассказать всю структуру происходящего:
— сначала про chain-of-thought методы и как они развивались;
— потом про o1 и новые законы масштабирования;
— в середине небольшое отступление про самые последние новости — модель s1, которая за $50 обучилась почти до того же уровня;
— а потом уже подробно о том, что происходит в DeepSeek-V3 и DeepSeek-R1;
— в частности, о том, как там используется RL и какой именно (здесь у DeepSeek тоже есть своё новшество, алгоритм GRPO).

Думаю, рассуждающие модели — это самое главное, что произошло в AI за последние несколько месяцев. И, как всегда в последнее время, прогресс невероятно быстрый: только появилось, а уже прочно вошло в обиход, у всех есть свои варианты reasoning models, а где-то уже есть и следующие уровни надстройки над этим вроде deep research. Надеюсь, пост тоже интересный получился — или хотя бы познавательный.)
Forwarded from Записки из горящего дома (Anastasia Abrashitova)
ЗВОНИЛ И НЕ ДОЗВОНИЛСЯ

Недавно жизнь занесла меня на Белградский митап QA. Кстати, очень приятное сообщество, всем его очень рекомендую. Надеюсь, я не сильно пошатнула ребят экзистенциальными вопросами к докладам.

И вот стою я в перерыве и ем пиццу, ибо откуда у меня днем время пообедать, догоняюсь. А рядом несколько QA обсуждают, кто такой старший QA, каким же он должен быть. И вот я их слушаю, слушаю, а потом предлагаю им свою теорию: что линейный специалист становится старшим, когда готов отвечать не за процесс, а за результат.

Помню, когда-то давно в одной моей команде был стажер. У него была задача договориться с разработчиком из соседней команды об интерфейсах взаимодействия. И вот утро, стендап, мы его спрашиваем, как дела с задачей, а он отвечает: "Я ему два раза звонил, и не дозвонился!" И серьезно видимо думает, что все правильно сделал.

Так вот, стажеру можно, а старшему нельзя. Потому что старший отвечает не за процесс — с кем ты там поговоришь, кому письмо напишешь, кому встречу назначишь, о чем вы поговорите. Старший отвечает за результат: интерфейсы согласованы. Можно было, не дозвонившись, написать в мессенджер или сходить ногами. Можно было связаться с тимлидом соседней команды и узнать, как выйти на контакт с нужным разработчиком. Можно было в конце концов попросить, чтобы интерфейсы с той стороны согласовал кто-то другой. Важно, чтобы они были согласованы, результат, а не процесс.

Младшему говорят, что и как делать.
Мидлу говорят, что делать.
Старшему говорят, какую задачу надо решить.
Ведущему говорят, в какой области надо приложить усилия, задачи он найдет себе сам.

Может показаться, что это только про софты, но нет. Без хардов этого тоже не достичь, просто харды в каждой профессии свои, а софты примерно одинаковые.

QA со мной, кстати, согласились.

#softskills