Интересное что-то

#ml

68 views07:19

Андрей Дзись. Как модели минимизируют риск?

Forwarded from DziS Science | Data Science

YouTube

Выступление на летней школе IT-сеанс: погружение в мир данных 2025, организованной центром непрерывного образования факультета компьютерных наук (ФКН) ВШЭ.

Мой ТГ канал: @dzis_science
Подробнее о школе по ссылке: cs.hse.ru/dpo/datascienceschool/summer2025/

Привет всем!👋

Неожиданным (даже для меня) стало наличие записи моего выступления с IT-Сеанс.

Так что вашему вниманию предлагается серьезный Андрей (в пиджаке) и менее серьезная презентация (с котами) про серьезные вещи, которые мы делаем на работе.

Бегом смотреть!

👉Ссылка на видео👈

Кстати, вся информация по школе и другие материалы доступны по ссылке.

#мероприятия #видео

Please open Telegram to view this post

VIEW IN TELEGRAM

72 views07:19

#ab

69 views13:16

Forwarded from Заскуль питона (Data Science)

✅

Поговорим про p-value

Многие аналитики знают формулировку, хотя встречаются кейсы, когда люди путают понятия, предыдущий пост

👍

Правильный вариант:

p-value — это вероятность получить наблюдаемое или более экстремальное значение статистики, если нулевая гипотеза верна (не отклонена).

👎

Неправильный вариант, интерпретаций встречается очень много:

p-value — это вероятность, что нулевая гипотеза верна
p-value = вероятность, что результаты случайны
Чем меньше p-value, тем больше вероятность, что гипотеза H₁

🥳

Окей, вроде бы понятно, а как это прочувствовать или почему мы вообще ссылаемся на p-value?

❓ Мы не знаем, где именно начинается отклонение от нормы, поэтому смотрим не только на наш результат, а и на все, которые встречаются ещё реже и сильнее отличаются. Так мы понимаем, насколько результат действительно выбивается из обычных случаев, а не просто совпадение.

Самый простой вариант: это показать, что монетка нечестная (например, мы подбрасывали 10 раз монетку, 9 раз выпал орел).

H₀ (нулевая гипотеза) — Монета честная, то есть орёл и решка выпадают с равной вероятностью 50/50. p = 1/2
H₁ (альтернативная гипотеза для орлов), можно проверить одностороннюю гипотезу , тогда p > 1/2 или p != 1/2 (двустороннюю)

⚠ В данном примере мы будем проверять одностороннюю гипотезу.

В этом случае биномиальное распределение описывает все возможные исходы количества орлов и решек при подбрасывании монеты.

👀 Например, 9 орлов из 10 могли выпасть в любом порядке: и в первых 10 подбрасываниях, и вперемешку с решками. Биномиальное распределение как раз учитывает все комбинации, при которых общее число орлов равно 9, независимо от последовательности их выпадения.

👨‍🔬

Общая формула биномиального распределения:

P(X = k) = Cn^k * p^k * (1-p)^(n-k)

Эта формула показывает вероятность того, что при n подбрасываниях монеты орёл выпадет ровно k раз.

где:
n — количество подбрасываний (в нашем случае 10),
k — количество орлов (успехов),
p — вероятность орла (для честной монеты 0.5),
Cn^k (сочетания из n по k) — число способов выбрать, в каких бросках выпадет орёл.

💡

Тогда при верной H₀ подставляем вероятности p = 1/2, считаем а какая вероятность получить такие же или более экстремальные значения статистики

Считаем P(X=9), P(X=10) и складываем их между собой.
Получаем p-value ~ 0.01074

🔽 Далее, полученное значение p-value мы сравниваем с уровнем значимости.

1️⃣ Если p-value > alpha, не отвергаем H₀, говорим что монетка честная на уровне значимости alpha.
2️⃣ Если p-value < alpha, отвергаем H₀, говорим что монетка нечестная на уровне значимости alpha.

На уровне значимости 0.05 мы можем сказать, что монетка нечестная, на уровне значимости 0.01 результат на грани, но мы не можем отвергнуть нулевую гипотезу.

🙊

А вообще самый сок, это объяснить бизнесу, что такое p-value, мне кажется, это даже можно спрашивать на собесах. Именно не само определение, а как бы вы простым языком на абстрактном примере рассказали продактам, что это такое и почему мы на это смотрим. Интересно почитать будет ваши комменты.

Ставьте 🐳, если пост зашел, делитесь вашими интерпретациями p-value простым языком!

@zasql_python

Please open Telegram to view this post

VIEW IN TELEGRAM

53 views13:16

#llm #petproject

54 views13:24

Заметки LLM-энтузиаста Chat

Forwarded from Заметки LLM-энтузиаста

🚀 Manus 1.5: Обновление ИИ-платформы для разработки

Компания Manus выпустила версию 1.5 своей платформы с несколькими значимыми улучшениями.

Основные изменения:

⚡️ Ускоренный движок — задачи выполняются заметно быстрее благодаря оптимизации архитектуры

🎯 Повышенное качество вывода — интерфейсы, переходы и выравнивание стали более профессиональными и точными

📊 Неограниченный контекст — возможность работы с крупными проектами без потери данных и истории, что упрощает командную работу (немного про то, как manus делает context engineering, будет в следующей заметке)

🛠 App Builder — создание полноценных приложений с фронтендом, серверной логикой, базой данных и аутентификацией по одному запросу.

Я с использованием этого App Builder в 1 промпт сделал приложение по генерации картинок при помощи YandexART и Nano Banana (на выбор), результаты можно посмотреть в комментариях. Можно сравнить с приложением от Lovable, которое мной создавалось по тому же промпту чуть ранее.
Мне результат от Manus App Builder очень понравился. Похоже, что у нас есть новый лидер Vibe Coding'а с самым низким порогом входа. Весь предварительный ресерч, подготовка PRD и спецификации на разработку - все делается автоматически. Особенно меня порадовало, что добавить YandexART в этот генератор картинок оказалось предельно просто:

добавь пожалуйста поддержку модели yandexart с необходимостью ввода credentials: folder id и api key (добавь ссылку на инструкцию где их взять https://telegra.ph/Kak-i-otkuda-brat-kredy-dlya-dostupa-k-YandexGPT-10-09)

.
Чуть позже я напишу в комментариях как с добавленим YandexART справился Lovable и Genspark AI Developer.
Пару дней назад я для демонстрации заказчику делал простенького веб-бота на базе yandexart (исходники здесь) , использовал: Github Codespaces, claude code (частично онлайн claude code в рамках бета тестирования), а также поиск рабочих код-снипетов в yandex cloud ml sdk и примерно представляю уровень неудобств. К слову, онлайн Codex так и не смог мне сгенерировать рабочий код такого бота.

🖼 Генерация и поиск изображений — интеграция с пониманием намерений пользователя

Для кого актуально:

1️⃣ Разработчики, работающие с ИИ-инструментами
2️⃣ Команды, создающие веб-приложения
3️⃣ Специалисты по автоматизации процессов
4️⃣ Пользователи, работающие с большими объемами данных

Обновление направлено на повышение производительности и расширение возможностей платформы для решения сложных задач разработки.
Если к этому добавить еще возможность отправки задач в manus по email, интеграцию manus с внешними инструментами и зарождающийся в документации API интерфейс к продукту, то Manus в скором времени может стать самым крутым универсальным ИИ-помощником. Который можно будет использовать и в "личном" общении, и в программном коде.

@llm_notes

#manus #ai #vibecoding #automation #productivity #app

или вот еще вариант приложения - "генератор изображений"
приложение генерируется в "одно касание" без необходимости что-то траблшутить

вот такой исходный промпт:
🚀 Создайте приложение-генератор изображений на базе ИИ с Google Gemini Nano
Используйте новейшую…

54 views13:24

#ab

44 views13:40

Forwarded from Не AБы какие тесты

Доверительные интервалы, часть 2

Привет, товарищи-статистики!

Можно ли при стат.значимом результате добирать аудиторию для получения более суженного доверительного интервала эффекта? Хороший вопрос, так как кажется, что тут нет никакого подвоха, результат-то стат. значимый, можем открывать шампанское и вообще. Но все не так просто.

1) Концептуально, мы не застрахованы от того, что наш результат это ошибка 1-го рода, отсюда это мало чем отличается от обратной ситуации “донаберем данных до стат. значимости”. Стат. значимость не делает эффект достоверным, нам просто так удобнее думать.

2) Мы продолжим работать с условными CI, что охватили истинный эффект, то есть с 95 из 100, но после донабора охватывать истинный эффект будет уже 94. И вот тут вряд ли есть где-то ошибка в очень дубовой симуляции.

Почему так происходит? Дело в том, что каждые новые данные это реализация случайной величины с определенным разбросом, отсюда CI не только сужаются, но и колеблются, а поэтому из CI, которые уже охватили эффект, могут не охватить при новом наборе данных.

При этом CI как механизм охвата истинного параметра не сломаются, полна группа такая после добора:
CI охватил эффект | CI охватил эффект = 94,
CI не охватил эффект | CI охватил эффект = 1
CI не охватил эффект | CI не охватил эффект = 4,
CI охватил эффект | CI не охватил эффект = 1

Чуть перетасуем и получим более читаемый вид:
CI охватил эффект | CI охватил эффект = 94,
CI охватил эффект | CI не охватил эффект = 1

CI не охватил эффект | CI охватил эффект = 1
CI не охватил эффект | CI не охватил эффект = 4

п.2 порождают риск того, что ваш следующий интервал будет не стат. значимый. И что вы будете делать тогда? Мета-анализ зависимых гипотез? Но был ли он у вас в дизайне? Сможете ли вы его объяснить заказчику?

Я думаю, запланировать донабор возможно, но это потребует корректировки альфы и мощности; можно запланировать и мета-анализ. Просто это выглядит избыточным, мудреным и абсолютно не нужным. А незапланированный набор выглядит как, грубо говоря, подлог, который нужно штрафовать на уровне оценки объективности теста.

Если вам нужен узкий доверительный интервал, то на этапе дизайна:
- обратите внимание на то, что стандартная ошибка (вшитая в CI, если что) пропорциональна 1/корень(n). Это значит, например, увеличение в 2 раза выборки приведет только лишь к сокращению в 1.41 раза ширины CI, то есть на ~29%:
1/корень(1) - 1/корень(2) = 1 - 1/корень(2) = 1 - 0.71 = 0.29

—
Пользуйтесь эвристикой, вывод ее простой, сначала обобщим пример выше:
1 - 1/корень(1+k) = d, где d - доля снижения, где k - наш множитель

Через ряд алгебраических преобразований, мы получим:

k = (1 / (1-d) )^2, - смотри картинку поста для читаемости

Указывай долю снижения = получай множитель.
—

- подберите прокси-метрику с меньшей дисперсией, сохраняя тот же размер выборки по базовой метрике, но только помните про требования к таковой - связанность и сонаправленность с этой базовой

P.S. И к слову о штрафах. Так как игнорирование дизайна это бич стат. анализа, то уже давно думаю над тем, как внедрить как раз оценку объективности теста. Пока в голове просто прикидка а-ля пускай тест, задизайненный как следует и сделанный как планировалось, имеет объективность 100 баллов. За каждое отклонение, будь то “че-то еще давай посмотрим” или техническая проблема, минус сколько-то баллов. Само собой, не хватает конкретики, за что и насколько будем штрафовать, но мысль уже есть, думаю, рано или поздно что-нибудь да развернется. А если у вас что-то готово, делитесь :)

50 views13:40

#llm #petproject

52 views13:48

Forwarded from 🏆 Data Feeling | AI (Aleron M)

0:35

1:07

0:33

0:47

⚡️ Google выкатил свой каталог расширений для Gemini CLI — там собрано больше 70 плагинов, которые можно подключить к нейросети прямо из командной строки.

• Дизайнерам: плагин для Canva/Figma конвертирует макеты в рабочий код
• Разработчикам: плагин в Postman генерирует коллекцию API-запросов для вашего приложения.
• Креаторам: плагин в NanoBanana генерирует логотип для сайта в один клик

🎚️ Сохраняйте - пригодится.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

48 views13:48

#quant #interview

53 views13:51

Forwarded from Поступашки - ШАД, Стажировки и Магистратура

Полный цикл отбора в HFT (Wunderfund)

Товарищи, один из выпускников наших курсов предложил поделиться своей попыткой отбора в hft.

Два года назад окончил магу МФТИ ПМИ. Во время учебы занимался спортивным программированием (один раз с командой даже прошел в 1/4). На втором курсе бака работал бэкендером, потом ушел в ML-ресёрч. Из стэка: golang, c++, python. Понял что в бигтехе есть потолок и нужно искать сферу, где будет намного больше перспектив (все стартапы, которые я пытался реализовать не дошли до зарабатывания денег). Я нашел такую отрасль, в которую ушли многие знакомые олимпиадники, как HFT. Там требуется всё, что я так углублённо изучал 6 лет в МФТИ, матан, теорвер, статы, мл, алгоритмы, c++ (этот багаж требуется именно на позицию трейдера, не swe/qr), так что как минимум было интересно попробовать себя. В вакансии было указано, что очень желательно было бы иметь олимпиадные достижения (всош/icpc/kaggle master+/олимпиады по математике), у меня же не было каких либо серьёзных достижений, максимум взял Япрофи, чтобы в магу поступить, но тем не менее позвали на собеседования.
Готовился я в основном по старым курсам поступашек (так как нужно было быстро вспомнить как решать задачи, а вовзвращаться к большим вузовским курсам не было времени). Всего я прошёл на два этапа. Алгоритмический этап я решил полностью, на математическом не удалось додумать одну из 6и задач. На собес с командой и мл кейсом, по итогу не позвали, так как вакансия успела закрыться и они нашли какого-то межнарника по математике с опытом в другом фонде, на следующий день после моего мат. этапа. Но всё же это отличный опыт и я получил представление о задачах, которые встречаются на таких собеседованиях

Алгоритмический этап
В первой задаче требовалось просто дать описание решения и доказать асимптотику. Во второй задаче лайфкодинг был, на всё собеседование давался 1 чаc. Часть с лайфкодингом значительно отличалась от яндексовского алгособеса тем, что мелкие ошибки в реализации не воспринимались, как критические, а интервьюер на протяжении всей реализации напротив задавал наводящие вопросы на эти ошибки.

1. Дано дерево из n вершин, в нём есть m отмеченных вершин. Для каждой
отмеченной вершины выписываются все отмеченные вершины, наиболее удаленные от нее. Вы
можете удалить ровно одну вершину из дерева. Если из отмеченной вершины нельзя добрать-
ся до никакой из ее списка, то она грустит. Надо удалить такую вершину, чтобы огорчить
наибольшее количество вершин за O(n logn).
2. Даны N (1<=N<=10^5) двумерных предметов размеров X_i * Y_i и N упаковок для них, тоже
каких-то размеров. Предмет можно убрать в упаковку если влезает по обеим координатам, поворачиватьнельзя. Сколько максимум предметов можно упаковать?

Математический этап
Математический этап, тут спрашивали задачки из олмата, дискретной математики. Фактически досчитывать не требовали, достаточно было лишь предложить идею, так как собес длился 40 минут, а задачи были достаточно сложные, чтобы решать их полностью за это время. Задачи практически не требовали глубохил знаний.

1. Какая последняя цифра в числе 123**(45**67) ?
2. Пусть X, Y, Z — три независимые случайные величины из нормального распределения N(0, 1). Какая вероятность что Y > X * Z.
3. Чему равна 13 цифра после запятой в числе (3+sqrt(7))^2030?
4. Сколько существует способов покрыть доску размером 3*100 прямоугольниками вида 3*1?
5. Пьяница идёт по плоскости следующим образом: сначала делает шаг вперед, после чего поворачивается на 90 градусов в одну из сторон с равной вероятностью, после этого снова делает шаг, и так далее. Все шаги имеют длину 1. Найти матожидание квадрата расстояния от начальной точки до положения пьяницы через 100 шагов.
6. Найти предел lim_{n -> \inf} \sum_{k=1}/^{k <= n} 1 / C^k_n.

@postypashki_old

51 views13:51

#career #softskills

52 views13:54

Forwarded from Quant Valerian

Сходил на пятнадцатый сезон подлодки

Но был в отпуске, а потому вживую только кусок доклада Дмитрия Болдырева посмотрел. Тем не менее сейчас смотрю записи докладов, на которые хотел сходить изначально и буду вам комментировать.

Илья Прахт. Менеджмент по науке: фундаментальные подходы, проверенные исследованиями

Сразу скажу, что в мои ожидания доклад вообще не попал. Я ожидал душную телегу со ссылками на научные статьи и срывы покровов, а получил историческую справку развития дисциплины управления.

Но доклад очень интересный и полезный! Из него можно узнать следующие вещи.

1. У менеджера фундаментально четыре задачи: планирование, организация, мотивация, контроль

2. Есть концепции менеджмента:
- менеджмент 1.0 — как на первых заводах и конвеерах: начальник тебе говорит, что и как делать, ты делаешь
- менеджмент 2.0 — появляется история про мотивацию людей, понимание, что они профессионалы и могут что-то получше начальника знать. Здесь появляется AR из SMART
- менеджмент 3.0 — смотрим на команду в целом: собрать не только по функциям, но и по ролям, сплотить и т.п.

3. Куча моделей и теорий.
- Ситуационное руководство (менеджмент 2.0)
- Модель GRPI (менеджмент 3.0)
- Модель Белбина (менеджмент 3.0)

4. История PMBOK
До пятой версии менеджмент 1.0
В шестой версии появился Agile и что-то между менеджмент 2.0 и 3.0
В седьмой вообще полный менеджмент 3.0

5. Исследования говорят о том, что задачи становятся всё сложнее. Автор доклада считает это причиной эволюции подходов в менеджменте. Что мы вынуждены оказывать больше доверия сотрудникам, чтобы решать всё более сложные задачи.
Я здесь думаю, что вырос общий уровень образования и специализации, поэтому люди стали более крутыми специалистами, а уже из-за этого мы можем им больше доверять в работе. И как следствие мы способны решать всё более сложные задачи. Можем поспорить в комментариях!

6. Все эти умозрительные менеджменты 1.0-3.0 используются вперемежку, можно выбирать подходящие инструменты.

Снова хочется сказать: «Головой думай, анализируй, решения принимай. Плохо не делай, делай хорошо». А, ну да, еще «Говори словами через рот». Типичный менеджмент.

50 views13:54

#llm #petproject

45 views13:56