Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from IT-girl talks💗
Книга для аналитика

Я пошла на курс для подготовки к собеседованиям, потому что четко заметила за собой полное отсутствие понимания метрик для бизнеса и других связанных с тестированием гипотез тем.

Книги по аналитике я обычно не читаю - смотрела только видео на ютьюбе, но каждый раз я забывала абсолютно всё, да и какого-то четкого понимания так и не сложилось.

На курсе после лекций и семинаров появилась хорошая база и я потренировалась на кейсах. Уже хвалила курс - до сих пор рада, что учусь на нем и на следующей неделе он уже закончится, к сожалению:(

Я вам обещала книгу - делюсь. Посоветовали на курсе и многие однокурсники, как оказалось, ее уже читали и тоже хвалили.

Взяла себе в твердом переплете - и вам советую, потому что книга может вам еще пригодиться для повторения тем перед собеседованием. Но вроде бы есть слитая…

Интересная, читается легко и конечно - же она не только про игры, а в целом смысл можно экстраполировать на другие приложения.

Про метрики и суть аналитики подробно, понятно и интересно. Я эту книгу взяла с собой и рука действительно потянулась к ней. Похожа на учебник, но современный. Мне помогла начать осмыслять вообще в целом концепцию аналитики продукта и работу с данным более глубоко на уровне бизнеса. Да, почти 4 года работала и меня это не интересовало🤔

🥁И это:🥁

«Игра в цифры» Василий Сабиров


Короче - рекомендую. Читали?
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет всем!👋

Неожиданным (даже для меня) стало наличие записи моего выступления с IT-Сеанс.

Так что вашему вниманию предлагается серьезный Андрей (в пиджаке) и менее серьезная презентация (с котами) про серьезные вещи, которые мы делаем на работе.

Бегом смотреть!

👉Ссылка на видео👈

Кстати, вся информация по школе и другие материалы доступны по ссылке.

#мероприятия #видео
Please open Telegram to view this post
VIEW IN TELEGRAM
Поговорим про p-value

Многие аналитики знают формулировку, хотя встречаются кейсы, когда люди путают понятия, предыдущий пост

👍 Правильный вариант:
p-value — это вероятность получить наблюдаемое или более экстремальное значение статистики, если нулевая гипотеза верна (не отклонена).


👎 Неправильный вариант, интерпретаций встречается очень много:
p-value — это вероятность, что нулевая гипотеза верна
p-value = вероятность, что результаты случайны
Чем меньше p-value, тем больше вероятность, что гипотеза H₁


🥳 Окей, вроде бы понятно, а как это прочувствовать или почему мы вообще ссылаемся на p-value?

Мы не знаем, где именно начинается отклонение от нормы, поэтому смотрим не только на наш результат, а и на все, которые встречаются ещё реже и сильнее отличаются. Так мы понимаем, насколько результат действительно выбивается из обычных случаев, а не просто совпадение.


Самый простой вариант: это показать, что монетка нечестная (например, мы подбрасывали 10 раз монетку, 9 раз выпал орел).

H₀ (нулевая гипотеза) — Монета честная, то есть орёл и решка выпадают с равной вероятностью 50/50. p = 1/2
H₁ (альтернативная гипотеза для орлов), можно проверить одностороннюю гипотезу , тогда p > 1/2 или p != 1/2 (двустороннюю)


В данном примере мы будем проверять одностороннюю гипотезу.

В этом случае биномиальное распределение описывает все возможные исходы количества орлов и решек при подбрасывании монеты.

👀 Например, 9 орлов из 10 могли выпасть в любом порядке: и в первых 10 подбрасываниях, и вперемешку с решками. Биномиальное распределение как раз учитывает все комбинации, при которых общее число орлов равно 9, независимо от последовательности их выпадения.

👨‍🔬 Общая формула биномиального распределения:

P(X = k) = Cn^k * p^k * (1-p)^(n-k)

Эта формула показывает вероятность того, что при n подбрасываниях монеты орёл выпадет ровно k раз.

где:
n — количество подбрасываний (в нашем случае 10),
k — количество орлов (успехов),
p — вероятность орла (для честной монеты 0.5),
Cn^k (сочетания из n по k) — число способов выбрать, в каких бросках выпадет орёл.

💡 Тогда при верной H₀ подставляем вероятности p = 1/2, считаем а какая вероятность получить такие же или более экстремальные значения статистики

Считаем P(X=9), P(X=10) и складываем их между собой.
Получаем p-value ~ 0.01074

🔽 Далее, полученное значение p-value мы сравниваем с уровнем значимости.

1️⃣ Если p-value > alpha, не отвергаем H₀, говорим что монетка честная на уровне значимости alpha.
2️⃣ Если p-value < alpha, отвергаем H₀, говорим что монетка нечестная на уровне значимости alpha.

На уровне значимости 0.05 мы можем сказать, что монетка нечестная, на уровне значимости 0.01 результат на грани, но мы не можем отвергнуть нулевую гипотезу.


🙊 А вообще самый сок, это объяснить бизнесу, что такое p-value, мне кажется, это даже можно спрашивать на собесах. Именно не само определение, а как бы вы простым языком на абстрактном примере рассказали продактам, что это такое и почему мы на это смотрим. Интересно почитать будет ваши комменты.

Ставьте 🐳, если пост зашел, делитесь вашими интерпретациями p-value простым языком!

@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Manus 1.5: Обновление ИИ-платформы для разработки

Компания Manus выпустила версию 1.5 своей платформы с несколькими значимыми улучшениями.

Основные изменения:

⚡️ Ускоренный движок — задачи выполняются заметно быстрее благодаря оптимизации архитектуры

🎯 Повышенное качество вывода — интерфейсы, переходы и выравнивание стали более профессиональными и точными

📊 Неограниченный контекст — возможность работы с крупными проектами без потери данных и истории, что упрощает командную работу (немного про то, как manus делает context engineering, будет в следующей заметке)

🛠 App Builder — создание полноценных приложений с фронтендом, серверной логикой, базой данных и аутентификацией по одному запросу.

Я с использованием этого App Builder в 1 промпт сделал приложение по генерации картинок при помощи YandexART и Nano Banana (на выбор), результаты можно посмотреть в комментариях. Можно сравнить с приложением от Lovable, которое мной создавалось по тому же промпту чуть ранее.
Мне результат от Manus App Builder очень понравился. Похоже, что у нас есть новый лидер Vibe Coding'а с самым низким порогом входа. Весь предварительный ресерч, подготовка PRD и спецификации на разработку - все делается автоматически. Особенно меня порадовало, что добавить YandexART в этот генератор картинок оказалось предельно просто: добавь пожалуйста поддержку модели yandexart с необходимостью ввода credentials: folder id и api key (добавь ссылку на инструкцию где их взять https://telegra.ph/Kak-i-otkuda-brat-kredy-dlya-dostupa-k-YandexGPT-10-09).
Чуть позже я напишу в комментариях как с добавленим YandexART справился Lovable и Genspark AI Developer.
Пару дней назад я для демонстрации заказчику делал простенького веб-бота на базе yandexart (исходники здесь) , использовал: Github Codespaces, claude code (частично онлайн claude code в рамках бета тестирования), а также поиск рабочих код-снипетов в yandex cloud ml sdk и примерно представляю уровень неудобств. К слову, онлайн Codex так и не смог мне сгенерировать рабочий код такого бота.

🖼 Генерация и поиск изображений — интеграция с пониманием намерений пользователя

Для кого актуально:

1️⃣ Разработчики, работающие с ИИ-инструментами
2️⃣ Команды, создающие веб-приложения
3️⃣ Специалисты по автоматизации процессов
4️⃣ Пользователи, работающие с большими объемами данных

Обновление направлено на повышение производительности и расширение возможностей платформы для решения сложных задач разработки.
Если к этому добавить еще возможность отправки задач в manus по email, интеграцию manus с внешними инструментами и зарождающийся в документации API интерфейс к продукту, то Manus в скором времени может стать самым крутым универсальным ИИ-помощником. Который можно будет использовать и в "личном" общении, и в программном коде.

@llm_notes

#manus #ai #vibecoding #automation #productivity #app
Доверительные интервалы, часть 2

Привет, товарищи-статистики!

Можно ли при стат.значимом результате добирать аудиторию для получения более суженного доверительного интервала эффекта? Хороший вопрос, так как кажется, что тут нет никакого подвоха, результат-то стат. значимый, можем открывать шампанское и вообще. Но все не так просто.

1) Концептуально, мы не застрахованы от того, что наш результат это ошибка 1-го рода, отсюда это мало чем отличается от обратной ситуации “донаберем данных до стат. значимости”. Стат. значимость не делает эффект достоверным, нам просто так удобнее думать.

2) Мы продолжим работать с условными CI, что охватили истинный эффект, то есть с 95 из 100, но после донабора охватывать истинный эффект будет уже 94. И вот тут вряд ли есть где-то ошибка в очень дубовой симуляции.

Почему так происходит? Дело в том, что каждые новые данные это реализация случайной величины с определенным разбросом, отсюда CI не только сужаются, но и колеблются, а поэтому из CI, которые уже охватили эффект, могут не охватить при новом наборе данных.

При этом CI как механизм охвата истинного параметра не сломаются, полна группа такая после добора:
CI охватил эффект | CI охватил эффект = 94,
CI не охватил эффект | CI охватил эффект = 1
CI не охватил эффект | CI не охватил эффект = 4,
CI охватил эффект | CI не охватил эффект = 1

Чуть перетасуем и получим более читаемый вид:
CI охватил эффект | CI охватил эффект = 94,
CI охватил эффект | CI не охватил эффект = 1

CI не охватил эффект | CI охватил эффект = 1
CI не охватил эффект | CI не охватил эффект = 4

п.2 порождают риск того, что ваш следующий интервал будет не стат. значимый. И что вы будете делать тогда? Мета-анализ зависимых гипотез? Но был ли он у вас в дизайне? Сможете ли вы его объяснить заказчику?

Я думаю, запланировать донабор возможно, но это потребует корректировки альфы и мощности; можно запланировать и мета-анализ. Просто это выглядит избыточным, мудреным и абсолютно не нужным. А незапланированный набор выглядит как, грубо говоря, подлог, который нужно штрафовать на уровне оценки объективности теста.

Если вам нужен узкий доверительный интервал, то на этапе дизайна:
- обратите внимание на то, что стандартная ошибка (вшитая в CI, если что) пропорциональна 1/корень(n). Это значит, например, увеличение в 2 раза выборки приведет только лишь к сокращению в 1.41 раза ширины CI, то есть на ~29%:
1/корень(1) - 1/корень(2) = 1 - 1/корень(2) = 1 - 0.71 = 0.29


Пользуйтесь эвристикой, вывод ее простой, сначала обобщим пример выше:
1 - 1/корень(1+k) = d, где d - доля снижения, где k - наш множитель

Через ряд алгебраических преобразований, мы получим:

k = (1 / (1-d) )^2, - смотри картинку поста для читаемости

Указывай долю снижения = получай множитель.


- подберите прокси-метрику с меньшей дисперсией, сохраняя тот же размер выборки по базовой метрике, но только помните про требования к таковой - связанность и сонаправленность с этой базовой

P.S. И к слову о штрафах. Так как игнорирование дизайна это бич стат. анализа, то уже давно думаю над тем, как внедрить как раз оценку объективности теста. Пока в голове просто прикидка а-ля пускай тест, задизайненный как следует и сделанный как планировалось, имеет объективность 100 баллов. За каждое отклонение, будь то “че-то еще давай посмотрим” или техническая проблема, минус сколько-то баллов. Само собой, не хватает конкретики, за что и насколько будем штрафовать, но мысль уже есть, думаю, рано или поздно что-нибудь да развернется. А если у вас что-то готово, делитесь :)
Forwarded from 🏆 Data Feeling | AI (Aleron M)
⚡️ Google выкатил свой каталог расширений для Gemini CLI — там собрано больше 70 плагинов, которые можно подключить к нейросети прямо из командной строки.

• Дизайнерам: плагин для Canva/Figma конвертирует макеты в рабочий код
• Разработчикам: плагин в Postman генерирует коллекцию API-запросов для вашего приложения.
• Креаторам: плагин в NanoBanana генерирует логотип для сайта в один клик


🎚️ Сохраняйте - пригодится.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Полный цикл отбора в HFT (Wunderfund)

Товарищи, один из выпускников наших курсов предложил поделиться своей попыткой отбора в hft.

Два года назад окончил магу МФТИ ПМИ. Во время учебы занимался спортивным программированием (один раз с командой даже прошел в 1/4). На втором курсе бака работал бэкендером, потом ушел в ML-ресёрч. Из стэка: golang, c++, python. Понял что в бигтехе есть потолок и нужно искать сферу, где будет намного больше перспектив (все стартапы, которые я пытался реализовать не дошли до зарабатывания денег). Я нашел такую отрасль, в которую ушли многие знакомые олимпиадники, как HFT. Там требуется всё, что я так углублённо изучал 6 лет в МФТИ, матан, теорвер, статы, мл, алгоритмы, c++ (этот багаж требуется именно на позицию трейдера, не swe/qr), так что как минимум было интересно попробовать себя. В вакансии было указано, что очень желательно было бы иметь олимпиадные достижения (всош/icpc/kaggle master+/олимпиады по математике), у меня же не было каких либо серьёзных достижений, максимум взял Япрофи, чтобы в магу поступить, но тем не менее позвали на собеседования.
Готовился я в основном по старым курсам поступашек (так как нужно было быстро вспомнить как решать задачи, а вовзвращаться к большим вузовским курсам не было времени). Всего я прошёл на два этапа. Алгоритмический этап я решил полностью, на математическом не удалось додумать одну из 6и задач. На собес с командой и мл кейсом, по итогу не позвали, так как вакансия успела закрыться и они нашли какого-то межнарника по математике с опытом в другом фонде, на следующий день после моего мат. этапа. Но всё же это отличный опыт и я получил представление о задачах, которые встречаются на таких собеседованиях

Алгоритмический этап
В первой задаче требовалось просто дать описание решения и доказать асимптотику. Во второй задаче лайфкодинг был, на всё собеседование давался 1 чаc. Часть с лайфкодингом значительно отличалась от яндексовского алгособеса тем, что мелкие ошибки в реализации не воспринимались, как критические, а интервьюер на протяжении всей реализации напротив задавал наводящие вопросы на эти ошибки.

1. Дано дерево из n вершин, в нём есть m отмеченных вершин. Для каждой
отмеченной вершины выписываются все отмеченные вершины, наиболее удаленные от нее. Вы
можете удалить ровно одну вершину из дерева. Если из отмеченной вершины нельзя добрать-
ся до никакой из ее списка, то она грустит. Надо удалить такую вершину, чтобы огорчить
наибольшее количество вершин за O(n logn).
2. Даны N (1<=N<=10^5) двумерных предметов размеров X_i * Y_i и N упаковок для них, тоже
каких-то размеров. Предмет можно убрать в упаковку если влезает по обеим координатам, поворачиватьнельзя. Сколько максимум предметов можно упаковать?

Математический этап
Математический этап, тут спрашивали задачки из олмата, дискретной математики. Фактически досчитывать не требовали, достаточно было лишь предложить идею, так как собес длился 40 минут, а задачи были достаточно сложные, чтобы решать их полностью за это время. Задачи практически не требовали глубохил знаний.

1. Какая последняя цифра в числе 123**(45**67) ?
2. Пусть X, Y, Z — три независимые случайные величины из нормального распределения N(0, 1). Какая вероятность что Y > X * Z.
3. Чему равна 13 цифра после запятой в числе (3+sqrt(7))^2030?
4. Сколько существует способов покрыть доску размером 3*100 прямоугольниками вида 3*1?
5. Пьяница идёт по плоскости следующим образом: сначала делает шаг вперед, после чего поворачивается на 90 градусов в одну из сторон с равной вероятностью, после этого снова делает шаг, и так далее. Все шаги имеют длину 1. Найти матожидание квадрата расстояния от начальной точки до положения пьяницы через 100 шагов.
6. Найти предел lim_{n -> \inf} \sum_{k=1}/^{k <= n} 1 / C^k_n.

@postypashki_old
Forwarded from Quant Valerian
Сходил на пятнадцатый сезон подлодки

Но был в отпуске, а потому вживую только кусок доклада Дмитрия Болдырева посмотрел. Тем не менее сейчас смотрю записи докладов, на которые хотел сходить изначально и буду вам комментировать.

Илья Прахт. Менеджмент по науке: фундаментальные подходы, проверенные исследованиями

Сразу скажу, что в мои ожидания доклад вообще не попал. Я ожидал душную телегу со ссылками на научные статьи и срывы покровов, а получил историческую справку развития дисциплины управления.

Но доклад очень интересный и полезный! Из него можно узнать следующие вещи.

1. У менеджера фундаментально четыре задачи: планирование, организация, мотивация, контроль

2. Есть концепции менеджмента:
- менеджмент 1.0 — как на первых заводах и конвеерах: начальник тебе говорит, что и как делать, ты делаешь
- менеджмент 2.0 — появляется история про мотивацию людей, понимание, что они профессионалы и могут что-то получше начальника знать. Здесь появляется AR из SMART
- менеджмент 3.0 — смотрим на команду в целом: собрать не только по функциям, но и по ролям, сплотить и т.п.

3. Куча моделей и теорий.
- Ситуационное руководство (менеджмент 2.0)
- Модель GRPI (менеджмент 3.0)
- Модель Белбина (менеджмент 3.0)

4. История PMBOK
До пятой версии менеджмент 1.0
В шестой версии появился Agile и что-то между менеджмент 2.0 и 3.0
В седьмой вообще полный менеджмент 3.0

5. Исследования говорят о том, что задачи становятся всё сложнее. Автор доклада считает это причиной эволюции подходов в менеджменте. Что мы вынуждены оказывать больше доверия сотрудникам, чтобы решать всё более сложные задачи.
Я здесь думаю, что вырос общий уровень образования и специализации, поэтому люди стали более крутыми специалистами, а уже из-за этого мы можем им больше доверять в работе. И как следствие мы способны решать всё более сложные задачи. Можем поспорить в комментариях!

6. Все эти умозрительные менеджменты 1.0-3.0 используются вперемежку, можно выбирать подходящие инструменты.

Снова хочется сказать: «Головой думай, анализируй, решения принимай. Плохо не делай, делай хорошо». А, ну да, еще «Говори словами через рот». Типичный менеджмент.
Forwarded from Neural Kovalskii
История трёх технологий которые изменили AI (часть 1/3)

После марафона на 30 дней по sgr-deep-research (спасибо вам за 500+ звезд) сел разбираться за историю и матчасть Structured Output, Function Calling и MCP, оказалось это история полная косяков провайдеров и года потраченного на исправление того что должно было работать с первого релиза

И так составил вот такой вот таймлайн дабы закрепить изученный материал и передаю его вам =)

Июнь 2023: Function Calling появился первым и сломанным

OpenAI 13 июня выкатили Function Calling для GPT-4 и GPT-3.5-turbo, идея была крутая, LLM может вызывать функции с аргументами через JSON Schema контракт, разработчики обрадовались но радость длилась недолго

Проблема была жосткая, аргументы функций приходили невалидными!
LLM могла выдать temperature как строку "twenty degrees" вместо числа 20, могла забыть кавычки у ключей, могла написать "celsuis" вместо "celsius"
Все лепили костыли в виде retries и validation вручную (я тут менял работу из DevOps в CEO)

OpenAI не сказали об этой проблеме явно, просто в документации было "рекомендуется валидировать аргументы", на деле reliability меньше 60%, в production такое не работает

Июль 2023: Structured Output как отдельное решение

Параллельно появилась библиотека Outlines, она решала другую задачу, как заставить LLM генерировать строго валидных структур
Механика простая, генерировать маски для токенов через logit-bias, блокировать невалидные токены на уровне бэкенда внутри модели

Вышла научная работа "Efficient Guided Generation for Large Language Models", там описали как через Context-Free Grammar (CFG) контролировать генерацию на уровне токенов

Параллельно развивался guidance от Microsoft Research, их guidance реализовала constrained decoding
Она работает очень быстро: ~50 микросекунд на токен через CFG parser с алгоритмом Earley

Вся соль в том что Structured Output, Function Calling и guidance развивались ОТДЕЛЬНО почти год КАРЛ!
Как будто изобрели руль и колёса по отдельности а потом удивлялись почему машина не едет

Ноябрь 2023: JSON Mode не решил проблему

OpenAI добавили JSON Mode, он гарантировал валидный JSON синтаксически, но НЕ гарантировал соответствие schema!
Могли прилететь другие поля, неправильные типы данных

В тот же месяц Anthropic выкатили Claude 2.1с beta версией Tool Use на 200K контекстном окне, у них была та же проблема, аргументы могли быть невалидными

Индустрия билась над одной проблемой, как заставить LLM генерировать валидные аргументы для функций, каждый провайдер решал по своему, единого стандарта не было

Май 2024: Anthropic первыми сделали Tool Use стабильным

30 мая Anthropic объявили что Tool Use стал generally available для всего семейства Claude 3, reliability значительно вырос Проблема с невалидными аргументами почти исчезла, я предполагаю что они видимо встроили аналог Structured Output внутрь Tool Use первыми

Август 2024: 100% reliability достигнут

6 августа OpenAI выпустили gpt-4o-2024-08-06 которая достигла 100% reliability через комбинацию constrained decoding и fine-tuning, до этого gpt-4-0613 показывал меньше 40%

Важный момент: в официальном acknowledgments OpenAI признали что Structured Outputs вдохновлён работами open-source, включая outlines, jsonformer, instructor, guidance и lark

Ушёл ровно год чтобы довести до production-ready, целый год разработчики мучились с невалидными аргументами и писали костыли

Near-zero overhead в JSON generation означало что Structured Output почти не замедляет inference, это сделало технологию production-ready для высоконагруженных систем, интегрировали в MLC-LLM, SGLang, а в январе 2025 в vLLM и TensorRT-LLM на офф уровне

Ноябрь 2024: MCP как решение проблемы N×M интеграций

25 ноября Anthropic анонсировали Model Context Protocol, ответ на проблему что каждый AI агент требовал кастомную интеграцию с каждым data source

Апрель 2025: Google и OpenAI поддержали MCP
Google DeepMind с CEO Demis Hassabis публично подтвердили поддержку MCP, OpenAI тоже анонсировали поддержку протокола, это означало что MCP может стать стандартом де-факто