Интересное что-то
517 subscribers
2.72K photos
253 videos
138 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Дашборд без бара = работа в трубу 🛑

Неделю делал дашборд — а заказчик так и не понял, где растут продажи»
Потому что вместо ответа дал ему «аналитику». Фильтры, карты, справочники — но не то, зачем он пришёл.

Барчарт — не скучно. Это честно 📊
Он не украшает данные. Он говорит прямо: «Вот где больше. Вот где меньше». И именно за это тебя начинают слушать — не как исполнителя, а как специалиста.

Даже барчарт врёт — если не знать три тихих правила 🤔
➡️ всегда с нуля (иначе +5% выглядит как взрыв)
➡️ сортировка по значению — не по алфавиту
➡️ никаких «толстых» столбцов для «важных» категорий.
Это манипуляция, даже если ты не хотел.

Однажды я сделал дашборд по аптечным продажам — и провалил задачу»
Были плиточные карты, топ-10 регионов, количество аптек и юрлиц… Но не было самого главного: какие позиции продаются. Заказчик спросил: «А что именно растёт в Татарстане?» — и я не смог ответить. Пришлось переделывать всё с нуля. Просто добавил барчарт по ТОП-5 SKU — и вопрос исчез.


Когда стоит отказаться от барчарта ?
Если нужно показать тренд во времени — берите линию. Если сравниваете части целого — подумайте о круговой. Если много категорий — таблица.
Главное: график отвечает на вопрос, а не задает новые 📌

А у тебя был момент, когда ты заморочился с визуализацией — а потом понял: достаточно было одного бара?

P.S. Напишите в комментах, насколько комфортен такой формат постов 🙏

#база_для_визуализации
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему статистика в науке в среднем сложнее

В прошлом посте я писала, что в индустрии A/B тестеров в основном используются t-тесты и z-тесты конверсий. Понятно, что и здесь хватает нюансов: проблема SRM, ratio-метрик, снижение дисперсии через CUPED, а еще можно пойти в сторону causal inference, но это совсем отдельная история. В целом методология сравнительно проста, как правило, дизайн ограничен одним фактором и двумя группами.

При этом данных много (иногда очень много), эксперименты идут на десятках тысяч пользователей, и ЦПТ работает. Поэтому применяются относительно простые статистические методы: t-тесты, z-тесты (при необходимости с поправками на множественное тестирование, чаще всего используется Бонферрони), продвинутым разделом считается CUPED (вариация на тему ANCOVA). Этот набор уже закрывает ~90% стандартных A/B тестов. Основная сложность здесь не в математике, а в понимании метрик и продукта, работе с некачественными данными и в согласовании процессов с разработкой.

В академических исследованиях все иначе. Дизайн эксперимента часто многомерный: исследуется влияние сразу нескольких факторов и их взаимодействий. При этом выборки нередко маленькие, и центральная предельная теорема может не работать. Поэтому простого t-теста обычно недостаточно (а даже в простых дизайнах ученые часто применяют тест Манна–Уитни).

Кроме того, отдельная большая тема — работа с пропущенными значениями. В академической статистике это целый раздел, про это читают отдельные курсы. Но при работе с A/B тестами обычно природа пропущенных значений более прозаичная: например сломалось логгирование событий или пользователь не попал в нужную группу и просто приходится перезапускать тест.

Что касается поправок на множественное тестирование, в науке применяются разные подходы, от пост хок тестов в сложных дизайнах до расчета FDR при работе с транскриптомными данными. В аналитике же обычно ничего сложнее Бонферрони и не требуется, иногда применяют поправку Холма, а FDR вообще противопоказан, на мой взгляд, так как решает другую задачу (почему так, можно почитать в разборе поправок).

Поэтому ученому, который привык к более сложной статистике, сравнительно легко перейти в продуктовую аналитику: статистический бэкграунд обычно выше того, что требуется в индустрии, а многие модные аналитические термины на деле оказываются лишь переименованными или упрощёнными версиями давно известных методов 😏

#stats #analytics
Forwarded from Dataism
📕 8 книг для аналитика, которые реально стоят вашего времени*

Это не книги из серии «прочитаешь и станешь крутым аналитиком данных».
Это книги, которые дадут широкий кругозор в темах, порой не связанных с аналитикой напрямую.

📚Главная проблема курсов/книг в том, что зачастую в них слишком много шума, а сигнала - самый мизер.
Поэтому те, кто переживает, что его read лист раздулся до невероятных размеров, а времени и сил все прочитать нет, то расслабьтесь: 80% книг - проходные.

Но я собрала для вас самый цимес, ловите:

1) Джедайские техники - немного lifeops методик, книга полезная всем
2) Графики, которые убеждают всех - много примеров и разборов того, как надо и как не надо делать. «Нормально делай - нормально будет»
3) Доверительное АБ-тестирование - классика. Разбор продуктовой и методологической стороны экспериментов.
4) Спроси маму - о том, как правильно разговаривать с пользователями и клиентами. Плохие вопросы → бесполезные ответы.
5) DAMA-DMBOOK - это скорее настольный справочник по организации работы с данными в компании, захватывает все аспекты. Мне кажется, это единственная книга в этом роде.
6) Lean Analytics - я уже пару раз о ней писала. Если вы еще не прочитали ее, то атата по жопке.
7) Не заставляйте меня думать - вообще книга о проектировании интерфейсов и юзабилити, но у нее сильный посыл - «интерфейс/продукт/отчет/дашборд должен быть интуитивно понятным»
8) Product-Led Growth - про то, как строить продукты, которые “продают себя” (спасибо, кэп)


А сколько из этих книг ты уже читал?
Пиши в комменты свой результат x/8
⬇️

*мое субъективное мнение
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Young&&Yandex
🔘 Техническое собеседование C++

Что чаще всего спрашивают на теории и какие темы стоит повторить — в карточках.

Оставляй заявку на стажировку 🔘 yandex.ru/yaintern/backend

Подписывайся 🔴⚫️
@Young_and_Yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Quant Researcher
🤖 ML инструменты кванта

В мире квантовых стратегий всем известны оси Ильинского: гамма‑риск, вега‑риск, jump‑риск (и тета). Эти оси помогают понять, какие риски и премии мы продаём или покупаем. Но когда речь заходит о машинном обучении, многие сразу представляют себе «магическую коробочку», которая будет угадывать цену завтра. Это заблуждение. ML в работе кванта — это набор инструментов для анализа и понимания данных.

Рассказываем, где ML действительно полезен.

📊 1. Сбор, отчистка и подготовка данных

Любая стратегия начинается с данных (треш на входе — треш на выходе). В современном альфа‑конвейере данные бывают числовые (котировки, фундаментальные показатели), реляционные (например, граф связей между компаниями), альтернативные (тексты в соцсетях, новости, спутниковые снимки, Wi‑Fi‑трафик) и даже симуляции (From Deep Learning to LLMs: A survey of AI in Quantitative Investment). Такие разнородные потоки нужно очистить, стандартизировать и привести к единому формату, а затем превратить в признаки, чтобы они могли служить входом для моделей, необязательно ML.

На этот этап уходит львиная доля времени кванта. И опыт ML может в этом сильно-сильно помочь!

🔍 2. Извлечение признаков и скрытых факторов

После чистки данных следует этап построения признаков и поиска скрытых структур. Здесь на помощь приходят методы без учителя. Кластеризация (K‑means, иерархические алгоритмы, DBSCAN) используется для сегментации рынка: данные группируются по объёму торгов, волатильности и другим атрибутам, что помогает выявить разные режимы и типы участников, иногда — натолкнуть на стратегию. Алгоритмы обнаружения аномалий (density‑based clustering, автоэнкодеры) нужны для выявления паттернов на рынке (Quantitative Finance and Machine Learning:
Transforming Investment Strategies, Risk Modeling, and
Market Forecasting in Global Markets
).

Кластеризация, кстати, применяется не только на рыночных данных, но и в кредитном скоринге, но об этом можно почитать почти в любом ML-канале или изучить на практике, если поработать в банке.

🧠 3. Алгоритмическая торговля и управление ордерами

ML помогает не только анализировать данные, но и выполнять действия. В алгоритмической торговле модели управляют исполнением ордеров: supervised‑алгоритмы предсказывают краткосрочные движения, риски и факторы, unsupervised‑модели ищут необычные паттерны, а reinforcement learning обучает агента выбирать время выхода на рынок, максимизируя, например, дифференциальный коэффициент Шарпа. Такие системы анализируют ликвидность, волатильность и косты, чтобы оптимизировать execution.

⚖️ 4. Прозрачность

Мощные ML‑модели дают преимущество, но несут риски: переобучение, «чёрный ящик» и зависимость от качественных данных. Поэтому прозрачность и explainable AI — не пустые слова. Важно понимать, какие признаки определяют решения модели, и в идеале уметь объяснить их инвестору или хотя бы себе. Использование машинного обучения — это прежде всего развитие аналитики: мы усиливаем классические финансовые подходы, а не подменяем их.

Вместо итогов

Машинное обучение в работе кванта — это не про «угадывать цены», а строить инструменты:
• чистить и структурировать данные,
• извлекать информативные факторы,
• находить скрытые паттерны,
• измерять и контролировать риски,
• использовать новые источники информации.

Это ценный набор в арсенале кванта, дополняющий опционную геометрию и понимание рисков. Как и в примере с гаммой, вегой и jump‑риском, главное — понимать, какие риски вы покупаете, где вы зарабатываете премию и как ваша модель взаимодействует с рынком.

Что думаете? Какие ML‑инструменты уже использовали в своих стратегиях?

Quant Researcher
Forwarded from Data Blog
"Gotta Catch 'Em All"

С 1997 года существовала медиафраншиза —  Pokemon. Покемоны были чем-то вроде животных, которые могли обретать в течении своей жизни разные стадии — эволюционировать. Я смотрела все серии аниме, поэтому на слово "эволюция" у меня не нормальная реакция. Но мы здесь собрались за другим контентом, поэтому это интро связано со статьей EVOLUTION OF CONCEPTS IN LANGUAGE MODEL PRE-TRAINING.

Предыстория.

С относительно недавнего времени мы можем разбивать всё пространство активаций LLM на атомарные сущности — признаки (features). Представьте: берем активационные векторы размерности n и проектируем их в пространство размерности N >> n, добиваясь разреженности.

Методы.

Этот трюк обычно делается с помощью Sparse Autoencoders — сетей, которые в латенте дают разреженный вектор, обещающий понятные человеку концепты. Отдельные единицы такого вектора активируются только на схожих признаках, например: один компонент может реагировать на упоминания городов, другой — на математические формулы.

Позже появились Transcoders — продвинутая версия SAE, которая учится разлагать не активации, а вычисления внутри MLP слоя. Так как трансофрмер аддитивен, трансокдеры на разных слоях позволяют строить цепочки — эволюцию прохождений фичей от слоя к слою.

А потом к ним пришли Crosscoders — модели, с архитектурой транскодера, но адаптированные к учету информации из нескольких слоёв.

Каждый "кодер" состоит из трех частей:

1) Энкодер — делает разреженное представление.
2) Латент — само разреженное представление.
3) Декодер — восстанавливает input из разреженного представления.

К исследованию.

В классике кодеры применялись, чтобы изучить признаки в уже обученных моделей. А тут статья предлагает изучить процесс обучения, используя разреженность.

Для этого используют используют crosscoders и теоретическую предпосылку — если признак не существует, штраф за разреженность подавит веса декодеров в "неактивных" моментах до нуля (признака нет — восстанавливать мы его тоже не будем).

Из этой теории рассматривают норму весов декодера||W_dec|| для фичи i (из теории построения также мы знаем, что столбец декодера всегда кодирует какую-то фичу).

Для нормы авторы ввели Peak Snapshot Index — число k [1, 32], показывающее, на каком моменте времени в обучении фича достигла максимальной силы. В частности 143 000 шага обучения побили на 32 снэпшота и на них смотрели активации признака (при этом норму декодера снимали на каждом шаге).

В такой постановке нашли следующее:

1. Двухфазная структура:

Статистическая фаза (ранние шаги): модель изучает частоты токенов, потери падают до теоретического минимума
Фаза фич (поздние шаги): формируются сложные концепты в суперпозиции

2.Иерархия:

Простые фичи (предыдущий токен) ~1000-5000 шагов
Индукционные фичи ~10000-100000 шагов
Контекстно-зависимые — на финальных стадиях

3. Точку поворота: Около шага 1000 большинство фич кардинально меняют направление в пространстве активаций

Красивые картинки нашли тоже.