Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Топ-9 паттернов для обмена данными и взаимодействия между компонентами/сервисами в распределенных системах

🔹 Peer-to-Peer
🔹 API Gateway
🔹 Pub-Sub
🔹 Request-Response
🔹 Event Sourcing
🔹 ETL
🔹 Batching
🔹 Streaming Processing
🔹 Orchestration

👉 Источник

#инфографика
Forwarded from Start Career in DS
🤖 Собрали для вас несколько роадмэпов по разным областям: Data Analyst, AI and Data Scientist, A/B Testing RoadMap, SQL, Python

Каждый из них содерджит последовательность областей, которые стоит изучить, что начать разбираться в соответствующей профессии

Python Developer - Step by step guide to becoming a Python developer in 2024
SQL Roadmap - Step by step guide to learning SQL in 2024
AI and Data Scientist - Step by step guide to becoming an AI and Data Scientist in 2024
Data Analyst Roadmap - Step by step guide to becoming an Data Analyst in 2024
A/B Testing RoadMap - Пошаговое руководство по проведению А/Б-тестов

Ставьте 🔥 если хотите общий roadmap по Data Science от нашего канала!
Forwarded from Quant Researcher
🐩 Как принимать умные решения в условиях неопределенности?

📘 "Algorithms for Decision Making" — гид по алгоритмам, которые помогают находить ответы, когда данных мало, времени в обрез, а решение принять необходимо.

🗿 Что внутри?

Вероятностное мышление
: как строить и учить модели для анализа рисков и прогнозов.

Планирование: решения для последовательных задач с использованием методов онлайн и оффлайн планирования.

Работа с неопределённостью: исследование безмодельных подходов, управления состоянием и обучением на ходу.

Мультиагентные системы: взаимодействие агентов, работа в команде и коллективные стратегии.

🤲🏻 Для кого?

Для тех, кто увлекается машинным обучением, оптимизацией или инженерными системами.

Особенно полезно, если работаете с системами, где требуется мгновенная реакция и адаптация (квантам соболезнуем).

📂 Скачать книгу

Отличный сборник, чтобы что-то повторить, что-то осознать с другой стороны, и вообще подумать, как мы принимаем решения.

🧖‍♂️ С формулами, кодом и даже отсылками к обучению с подкреплением.

Quant Researcher
Forwarded from Quant Valerian
Уважаемый Арслан пригласил меня вчера прочитать на Физтехе лекцию про карьерный рост в бигтехе. Я нихрена на эту тему не знаю, но рассказать, конечно же, могу! Я и рассказал. Как раз в этом году делал матрицу компетенций в нашем отделе.

Говорили мы, как водится, долго — больше полутора часов. И мне понравилось, встреча была живая, с интересными вопросами и даже небольшими дискуссиями.

Executive summary
0️⃣ Матрица нужна не для справедливости или меряния размером грейда, а для возможности упрощенной ротации между командами внутри компании. Отсюда понимание, что матрицы и грейды имеют понятный смысл только в крупных компаниях 🫶. В банках и трейдинге 💸 на мой взгляд грейдирование устроено не так, как в бигтехе, но мне об этом есть мало чего сказать

1️⃣ Смотри на лесенку грейдов в компании. Бывает много мелких ступенечек 📱, а бывает мало огромных 📱. От этого зависит ожидаемая частота повышений

2️⃣ Ищи матрицу компетенций в компании. Ты можешь знать много всего крутого и сложного, но всё, что не нужно на твоей позиции, никак не зачтется тебе в грейд

3️⃣ Оцени себя по матрице, приди с этой оценкой к руководителю и сверь часы. Спроси, чего тебе не хватает до следующего грейда. Желательно прямо спросить, что нужно сделать, чтобы получить грейдап и зафиксировать это где-то

4️⃣ Разные уровни это чаще всего не про объем и скорость деливери, а про решение разного типа задач. Intern — показать, что обучаем, Junior/Middle- — дорасти до Middle 🤡, Middle — основная рабочая сила, решать задачи, где написано что и как, Senior 🤠 — достигать результатов, решать проблемы, в задаче есть что, но отсутствует как, Lead/Staff — решать, каких результатов надо достигнуть, ставить задачи Senior'ам и т.д.
Кроме того, там важен масштаб влияния (сам, команда, компания и т.п.), вклад в развитие людей (менторинг и т.п.) и еще куча всего

4️⃣🔣1️⃣ Если ты очень крутой программист, гораздо лучше Васи, но у Васи грейд выше твоего, то почти наверное, тебе не хватает какого-то другого навыка, не программирования. В таком случае не надо еще сильнее качать программирование, это может и не помочь (а может и помочь), лучше выясни, что не так: на тебя нельзя положится (не хватает ответственности), или ты не умеешь коммуницировать с коллегами (высокомерно унижаешь "слабых" сеньоров) и т.д.

4️⃣🔣2️⃣ Всё это обычно прописано в матрицах компетенций. Не надо пропускать секции про коммуникации и ориентацию на бизнес.

О чем я тупо забыл рассказать, так это об архетипах, которые встречаются в матрицах компетенций некоторых компаний. Это классный, яркий образ, на который можно ориентироваться. Например, Specialist 🧠, Coding Machine 👨‍💻 и Fixer 👩‍💻 говорят сами за себя. Мне нравится.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ML Boost Camp
Рады поделиться с вами новой лекцией про Computer Vision!

Обсудили основные типы задач, особенности архитектур, а так же популярные трюки которые помогут улучшить ваши результаты.

Скоро выложим интересное интервью, где обсудили популярные библиотеки для задач компьютерного зрения и не только, следите за анонсами.
Forwarded from Information Retriever
Топ статей про нейросети для web-scale рексистем.

Недавно Олег Лашинин опубликовал отличный пост про топ рекомендательных моделей, использующих данные в формате (user id, item id, timestamp). Захотелось сделать что-то подобное, но с акцентом на нейросети, индустрию, продакшн и web-scale. Топ отсортирован хронологически:

Wide & Deep Learning for Recommender Systems (2016) — предложили вместе с популярными на то время в рексистемах линейными моделями использовать полносвязные нейросети. Еще в статье довольно хорошие определения меморизации и генерализации :)

Deep Neural Networks for YouTube Recommendations (2016) — на мой взгляд, САМАЯ influential статья про нейросети в рекомендациях, заложившая основы нейросетевого ранжирования и ретривала. Подробно описали переход от линейных моделей к нейросетям в Ютубе.

Graph Convolutional Neural Networks for Web-Scale Recommender Systems (2018) — одна из первых работ про графовые нейросети для web-scale рекомендаций (наряду с Алибабой). Стоит читать вместе с GraphSage, MultiSage, MultiBiSage. В свое время ведущий GNN-ресерчер Jure Lescovec основал ресерч лабу Пинтереста; видимо это была одна из первых статей лабы.

Deep Interest Network for Click-Through Rate Prediction (2018) — в YoutubeDNN вектор пользователя формировался average пулингом над историей просмотров, а в Алибабе его заменили target-aware пулингом (однослойным pointwise аттеншном). Первый шаг в сторону более умной обработки истории пользователя в индустрии.

Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations (2019) — важное улучшение нейросетевых ретривал моделей, про которое был отдельный пост.

Behavior Sequence Transformer for E-commerce Recommendation in Alibaba (2019) — в этот раз в Алибабе сделали полноценный трансформер для ранжирования; очередной шаг вперед после target-aware пулинга.

Top-K Off-Policy Correction for a REINFORCE Recommender System
(2020) — первый успех внебандитного обучения с подкреплением в рекомендациях. Утверждается, что это было самое большое улучшение качества рекомендаций в Ютубе за годы. Авторы, как и у статей про logQ-correction и DCN-v2, из того самого рекомендательного дипмайнда под руководством Ed Chi.

DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems (2020) — sota (до сих пор!) в моделировании взаимодействия признаков в рекомендательных нейросетках. Очень изящный и простой с точки зрения реализации подход, который повсеместно используется для нейросетевого ранжирования (и мы тоже используем). Ждём DCN-v3 и DCN-v4 :)

PinnerFormer: Sequence Modeling for User Representation at Pinterest
(2022) — все еще одна из лучших статей про нейросетевой кандген. И систем дизайн аспекты обсудили, и про внедрение рассказали. Позже от Пинтереста была еще одна хорошая статья про анализ истории пользователя, для ранжирования — TransAct (2024).

TwHIN: Embedding the Twitter Heterogeneous Information Network for Personalized Recommendation
(2022) — одна из главных моделей, используемых для рекомендаций в X (Твиттере). Хоть это и графовая нейросеть, подход очень сильно отличается от PinSage’а. Трансдуктивность, гетерогенность — если интересно узнать о чем это, призываю почитать статью :)

Monolith: Real Time Recommendation System With Collisionless Embedding Table
(2023) — статья про то, как в ТикТоке учат модели в онлайне с минимальной задержкой. Произвела глубокое впечатление на индустрию, все побежали делать онлайн-обучение =)

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations
(2024) — глоток свежего воздуха в мире трансформеров для персонализации, постепенно приближающий нас к миру больших моделей. Ключевое — переход к генеративной постановке. Я чуть-чуть рассказывал про статью на дружественном канале Рекомендательной.

Предвосхищая вопрос “а как же SASRec / BERT4Rec?” — они не про индустрию, продакшн и web-scale; но знать их конечно же тоже стоит. Если бы топ выходил за рамки рексистем, я бы однозначно добавил сюда статью про DSSM.
Forwarded from ChillHouse (Alexey Moiseenkov)
Что ищут большие фонды и YC. Небольшие саммари.
Forwarded from Хитрый Питон
Django часто выбирают для быстрого старта в небольших стартапах — как средство накодить прототип бекенда за минимальное время. Но с ростом проекта неизбежно возникают вопросы производительности и надежности.

Такой рост может вызывать у не очень опытных разработчиков панику и непонимание - все тормозит, бизнес жалуется, что делать? В сегодняшней статье просто и по делу описаны ключевые аспекты масштабирования Django: оптимизация запросов, кэш, CDN и т.д. Отличное вводное чтиво для тех, кто впервые столкнулся с ростом нагрузи или просто хочет подготовить проект к будущему росту: https://slimsaas.com/blog/django-scaling-performance
Forwarded from КПД
На днях наткнулся на канал в Youtube некоего Simon Oz.

Парень доступно, с красивыми визуализациями в стиле 3Blue1Brown рассказывает про всякие темы из теории информации и особенности программирования на CUDA.

В частности, особого внимания заслуживает видос про то, как написать эффективный kernel для softmax, который быстрее реализаций в торче и на тритоне. Он пошагово анализирует узкие места, нюансы железа и алгоритма, и постепенно добивается улучшения производительности:

1️⃣ Эффективный алгоритм редукции для нахождения максимума
2️⃣ Оптимизации доступов к памяти (coalescing)
3️⃣ Перенос части операций из shared memory в регистры GPU (которые еще быстрее)
4️⃣ Векторизация операций через float4
5️⃣ Однократная подгрузка данных для подсчета максимума и экспоненты вместо двухкратной

Красивое...