Forwarded from Тагир Анализирует
Еще 10 лет назад аналитики как полноценного направления практически не существовало – не было каких-либо стандартов индустрии. В последние годы рынок аналитики (помимо того, что он сформировался) становится более прозрачным – компании открыто говорят о том, как и кого они нанимают
Как я уже писал в своем посте про найм аналитиков в СНГ и заграницей: у Яндекса есть целая страница, посвященная найму аналитиков, где описаны этапы отбора и ссылки на подготовку. У Авито тоже есть страница, где лежат видео, статьи и сами вакансии. У Тинька тоже есть сайт с курсами, книгами и вопросами
Яндекс и Авито пошли дальше и опубликовали свое понимание грейдов аналитиков. Яндекс сделал это через статью от Жени Козлова, который много лет руководил аналитикой Такси и Маркета. Авито опубликовали свою матрицу компетенций на Гитхаб, где лежат статьи и по другим профессиям
Картинка в этом посте – часть таблички из статьи Жени. Это саммари, которое лучше смотреть после прочтения статьи – там подробно расписаны скиллы и ожидания от каждого грейда. Академическая база, постановка задач, контекст, проактивность, рефелксия, глубина решений – все в статье
Подобные документы позволяют еще на этапе интервью самому оценить себя. Внутри корпорации иногда сложно унифицировать понимания грейдов: в одном бизнес юните аналитик 1 (миддл) – бывший стажер или просто начинающий миддл, в другом – опытный аналитик, который точно не начинающий миддл. А платят всем одинаково
Что думаете про подобные матрицы компетенций и грейдирование в корпорациях в целом? Как работает оценка кандидатов в знакомых вам компаниях без подобной систематизации?
@tagir_analyzes
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kogut Ivan Tutoring
Practical ML Digest
2️⃣
#MLПост #PMD
ℹ️ В этот раз дайджест будет полностью (почти) про LLMки. В сегодняшних докладах: может ли модель общаться вместо нас с друзьями и коллегами, RAG системы и нужны ли все еще люди разметчики данных. Погнали!
"Притворяемся собой и друзьями, обучая LLM на сообщениях из Telegram"
Год: 2024
Спикер: Александр Смирнов, Household Robots@Entrepreneur First
Посмотреть: Ютуб
Кто смотрел сериал Клон?)
Спикер взял и по приколу обучил Mistral 7B уже зафайнтюненную на чат и дообучил 2 способами: Full Finetune и LORA. Ресурсы на обучение (GPU) взял на сервисе vast.ai, я сам про такой не слышал (так как не узнавал, где гпухи в аренду брать можно)
Доклад технически ничего нового не привносит, самое интересное - это результат.
Получилось хорошо копировать стиль, модель имеет такой же бэкграунд, понимает с кем и как общаться. И мнение модели по каким-то развернутым вопросам совпадает с человеком, на чьих данных она была обучена
Плохо с текущими событиями, их надо как-то до модели доносить, естественно. Также, чем длиннее переписка (>10 сообщений), тем хуже модель становится - начинает что-то переспрашивать и так далее (думаю пользователи Алисы что-то такое ловили). И что самое плохое - проблема с безопасностью ваших данных, то есть узнать у нее какие-то ваши реквизиты или какой-то секрет очень просто.
Также, Александр оставил гитхаб, если кто-то хочет тоже самое повторить со своими переписками)
"ML Александр Алерон Миленькин. Надо ли строить бизнес вокруг ML (Про LLM, RAG-системы, насмотренность и виртуальных помощников)"
Год: 2024
Спикер: Александр (Алерон) Миленькин - ML лидер в Dodo Brands
Послушать подкаст: Яндекс Музыка
Не только же видео смотреть, подкасты в дорогу на тренировку тоже хороши!
Что такое RAG (Retrieval Augmented Generation) система, на задаче голосового заказчика из Dodo рассказано из каких этапов состоит. Упоминание популярного фреймворка для RAG (и в принципе работы с LLM) - LangChain. Обсуждается почему нельзя ограничиться просто промптингом (все в промпт пихать)
Зачем нужна насмотренность, особенно сейчас. То есть знание просто идеи (best practice), даже если никогда это не делал, уже ускоряет путь от продуктовой идеи до готового продукта. Сейчас, когда появляются все новые и более крутые, простые в использовании инструменты, это чуть ли не самое нужное качество по моему мнению)
Еще под конец ушли в обсуждение VR и прикольную идею для него выдвинули: помещать человека в ситуацию из учебников по английскому (в аэропорту, заселение в отель и прочие) и чтобы он в этой ситуации отрабатывал разговорный английский. Звучит очень бодро, тогда английский в разы быстрее можно будет выучить. Ждем такую штуку
"Использование LLM в разметке данных: можно ли убрать людей?"
Год: 2024
Спикер: Дмитрий Антипов, тимлид разработки в Сбере, АБТ
Посмотреть: ВК
Думаю не для кого не секрет, что уже очень часто LLM используют для разметки данных, что б обучить модель поменьше и для других целей.
Докладчик же выделил несколько ролей LLM в качестве помощников в разметке:
🔄 Чернорабочий. С помощью него сложные/монотонные задания для человека превратить в легкие. Например, генерация названий заменить на выбор лучшего названия и т.д.
🔄 Разметчик. Тут все понятно, просто даем задание модели и она его размечает. Да, она может ошибаться, но и люди разметчики много ошибаются. Лучше в начале самим проверить, насколько хорошо LLM справляется конкретно с вашей разметкой
🔄 Модератор. Выбирает лучший ответ среди нескольких моделей или людей, тем самым минимизирует вероятность плохой разметки. При этом, можно еще попросить модель объяснять выбор, что б потом человеку удобнее было проверять
🔄 Эксперт. Тут было очень кратко про то, что можно использовать для каких-то вопросов "А сколько это займет, а сгенерируй инструкцию..." и бла-бла-бла, как будто не оч полезно
И вывод ко всему этому такой, что модели очень сильно помогают уже сейчас в разметке, но от людей пока избавиться все же нельзя (ура!)
#MLПост #PMD
"Притворяемся собой и друзьями, обучая LLM на сообщениях из Telegram"
Год: 2024
Спикер: Александр Смирнов, Household Robots@Entrepreneur First
Посмотреть: Ютуб
Кто смотрел сериал Клон?)
Спикер взял и по приколу обучил Mistral 7B уже зафайнтюненную на чат и дообучил 2 способами: Full Finetune и LORA. Ресурсы на обучение (GPU) взял на сервисе vast.ai, я сам про такой не слышал (так как не узнавал, где гпухи в аренду брать можно)
Доклад технически ничего нового не привносит, самое интересное - это результат.
Получилось хорошо копировать стиль, модель имеет такой же бэкграунд, понимает с кем и как общаться. И мнение модели по каким-то развернутым вопросам совпадает с человеком, на чьих данных она была обучена
Плохо с текущими событиями, их надо как-то до модели доносить, естественно. Также, чем длиннее переписка (>10 сообщений), тем хуже модель становится - начинает что-то переспрашивать и так далее (думаю пользователи Алисы что-то такое ловили). И что самое плохое - проблема с безопасностью ваших данных, то есть узнать у нее какие-то ваши реквизиты или какой-то секрет очень просто.
Также, Александр оставил гитхаб, если кто-то хочет тоже самое повторить со своими переписками)
"ML Александр Алерон Миленькин. Надо ли строить бизнес вокруг ML (Про LLM, RAG-системы, насмотренность и виртуальных помощников)"
Год: 2024
Спикер: Александр (Алерон) Миленькин - ML лидер в Dodo Brands
Послушать подкаст: Яндекс Музыка
Не только же видео смотреть, подкасты в дорогу на тренировку тоже хороши!
Нет смысла делать бизнес ради ML, имеет смысл делать ML, чтобы бустануть бизнес
Что такое RAG (Retrieval Augmented Generation) система, на задаче голосового заказчика из Dodo рассказано из каких этапов состоит. Упоминание популярного фреймворка для RAG (и в принципе работы с LLM) - LangChain. Обсуждается почему нельзя ограничиться просто промптингом (все в промпт пихать)
Зачем нужна насмотренность, особенно сейчас. То есть знание просто идеи (best practice), даже если никогда это не делал, уже ускоряет путь от продуктовой идеи до готового продукта. Сейчас, когда появляются все новые и более крутые, простые в использовании инструменты, это чуть ли не самое нужное качество по моему мнению)
Еще под конец ушли в обсуждение VR и прикольную идею для него выдвинули: помещать человека в ситуацию из учебников по английскому (в аэропорту, заселение в отель и прочие) и чтобы он в этой ситуации отрабатывал разговорный английский. Звучит очень бодро, тогда английский в разы быстрее можно будет выучить. Ждем такую штуку
"Использование LLM в разметке данных: можно ли убрать людей?"
Год: 2024
Спикер: Дмитрий Антипов, тимлид разработки в Сбере, АБТ
Посмотреть: ВК
Думаю не для кого не секрет, что уже очень часто LLM используют для разметки данных, что б обучить модель поменьше и для других целей.
Докладчик же выделил несколько ролей LLM в качестве помощников в разметке:
И вывод ко всему этому такой, что модели очень сильно помогают уже сейчас в разметке, но от людей пока избавиться все же нельзя (ура!)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kogut Ivan Tutoring
Рабочие будни. Парсинг товаров
#ЖизаПост
После вопроса на семинаре ШАДа о нашей команде в Яндексе я понял, что особо не рассказывал в канале, чем занимаюсь/занимался на работе😅
Пора это исправить! Дисклеймер: все-все-все рассказать не удастся - NDA, сами понимаете)
Напомню, что я работаю в команде Товарного Поиска (это не Маркет, а часть Поиска). Как и у любого поиска у нас есть база, а именно - база товаров. И в этом посте хочу рассказать кратко о процессе, который привносит больший вклад в базу. Речь пойдет о парсинге.
Представьте перед собой страницу с товаром какого-нибудь онлайн магазина. Из нее нужно достать такие важные поля как цена, название, картинка и так далее. Как это сделать (подумайте сами, а затем открывайте спойлер)❓
Сразу расскажу наше итоговое решение. HTML страницу можно представить как дерево, а нужная нам информация лежит в каких-то вершинах этого дерева. Давайте тогда классифицировать каждую вершину на то, содержит ли она нужные данные или нет. Придумаем кучу признаков для вершины: про ее положение в дереве, про информацию в соседних вершинах и про контент в самой вершине. Большинство факторов считаются алгоритмически, вот вам и ДП по дереву. Конечно, еще по тексту в вершине считается нейросеть, выход которой мы назвали текстовым признаком. В итоге на этом многообразии признаков учим Catboost и классификатор готов
Этот проект начался еще до моего попадания в штат и конкретно я парсил данные для fashion категорий и улучшал precision и recall для базовых полей. Удалось поделать следующее: создание толокерских заданий, обучение Catboost, обучение BERT и дистилляция в DSSM, запуск, оптимизация этого дела на C++ и придумывание с реализацией эвристик на дереве на тех же плюсах👨💻
Конечно, я не рассказал еще интересности этой задачи: более простые способы парсинга с их + и -, как обходить нужные страницы и так далее. Про это можно послушать в докладе одного из моих руклей на Highload 2022 (как давно это было) - ссылка▶️
#ЖизаПост
После вопроса на семинаре ШАДа о нашей команде в Яндексе я понял, что особо не рассказывал в канале, чем занимаюсь/занимался на работе
Пора это исправить! Дисклеймер: все-все-все рассказать не удастся - NDA, сами понимаете)
Напомню, что я работаю в команде Товарного Поиска (это не Маркет, а часть Поиска). Как и у любого поиска у нас есть база, а именно - база товаров. И в этом посте хочу рассказать кратко о процессе, который привносит больший вклад в базу. Речь пойдет о парсинге.
Представьте перед собой страницу с товаром какого-нибудь онлайн магазина. Из нее нужно достать такие важные поля как цена, название, картинка и так далее. Как это сделать (подумайте сами, а затем открывайте спойлер)
Этот проект начался еще до моего попадания в штат и конкретно я парсил данные для fashion категорий и улучшал precision и recall для базовых полей. Удалось поделать следующее: создание толокерских заданий, обучение Catboost, обучение BERT и дистилляция в DSSM, запуск, оптимизация этого дела на C++ и придумывание с реализацией эвристик на дереве на тех же плюсах
Конечно, я не рассказал еще интересности этой задачи: более простые способы парсинга с их + и -, как обходить нужные страницы и так далее. Про это можно послушать в докладе одного из моих руклей на Highload 2022 (как давно это было) - ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Knowledge Accumulator
Efficiently Modeling Long Sequences with Structured State Spaces [2021] - как дотер стал нейросетью
Для тех, кто не знает - я не особый любитель длинных математических статей. В целом, я не умею с адекватной скоростью читать и воспринимать много линала. Наверняка в телеграме существует большое количество умных постов про S4 с кратким пересказом его математики, и если вы из тех, кто способен такое воспринимать, поздравляю - данный пост не для вас.
Я постарался, вооружившись гайдом, уловить основной смысл данной архитектуры, где она находится по отношению с известными широким кругам. Итак, поехали.
Представим, что существует "ячейка памяти" - хранилище-вектор, который обновляется с учётом предыдущего состояния ячейки, последнего входа и каких-то обучаемых параметров. Помимо памяти есть функция выхода, которая берёт новое состояние памяти, последний вход и выдаёт выход наружу.
Мы уже знаем реализации подобных абстракций. Простейшая RNN, GRU/LSTM - все мы их любим, но у них есть жирная проблема - их нужно считать шаг за шагом, а значит, нельзя применить много компьюта и обработать кучу информации за раз, так, как это умеют трансформеры, но сами трансформеры фэйлятся на огромных контекстах.
Итак, помимо RNN и GRU существует State Space Model - ещё один формат ячейки памяти (в его основе всего лишь парочка матричных умножений), но у него есть крутая особенность. Вычисление рода "прогнать SSM на последовательности", оказывается, можно переформулировать в другую функцию - свёртку, для которой можно предпосчитать веса. При добавлении ещё одного фокуса (FFT) эту свёртку можно считать быстрее, чем втупую, что в итоге позволяет по сути быстро применять SSM на всей последовательности.
Далее, у SSM есть 2 проблемы - они херово работают, и хвалёное "быстро посчитать" на самом деле не такое уж и быстрое.
Чтобы решить первое, был придуман магический гиппопотам - инициализация одной из матриц внутри SSM таким образом, чтобы она была изначально ближе к пространству чего-то разумного.
Вкратце, вторая проблема заключается в том, что для подсчёта весов свёртки нужно умножать много матриц, а нам вообще-то лень - бумага нынче дорогая. Для этого придумывают магический костыль - Diagonal Plus Low-Rank. Я не стал разбираться в деталях, если вам интересно, отсылаю к разбору, но одну из матриц просто (нихера не просто в реальности) представляют не как обучаемую матрицу весов, а как результат операций над другими обучаемыми сущностями.
В результате, объединив описанные хаки, и получается S4 - хитрая и быстрая вариация "RNN"-ки, которую успешно применяют на сверхдлинных последовательностях.
Замечу, что это не первая статья, которую я обозреваю, в которой засчёт убирания нелинейностей удаётся всё очень сильно ускорить и упростить - напомню про RetNet. Нет никаких гарантий, что "мощность" архитектуры достигается как раз засчёт этих нелинейностей.
Кроме того, скажу честно - я банально не верю, что прорывные архитектуры будут основаны на какой-то сложной математике. Через пару лет окажется, что есть какая-нибудь суперпростая штука, которая делает всё то же самое даже лучше. Это не исключает, что математика будет вдохновлять на прогресс и в какой-то момент натолкнёт ресёрчеров на нечто крутое, но само это крутое будет очень простым.
@knowledge_accumulator
Для тех, кто не знает - я не особый любитель длинных математических статей. В целом, я не умею с адекватной скоростью читать и воспринимать много линала. Наверняка в телеграме существует большое количество умных постов про S4 с кратким пересказом его математики, и если вы из тех, кто способен такое воспринимать, поздравляю - данный пост не для вас.
Я постарался, вооружившись гайдом, уловить основной смысл данной архитектуры, где она находится по отношению с известными широким кругам. Итак, поехали.
Представим, что существует "ячейка памяти" - хранилище-вектор, который обновляется с учётом предыдущего состояния ячейки, последнего входа и каких-то обучаемых параметров. Помимо памяти есть функция выхода, которая берёт новое состояние памяти, последний вход и выдаёт выход наружу.
Мы уже знаем реализации подобных абстракций. Простейшая RNN, GRU/LSTM - все мы их любим, но у них есть жирная проблема - их нужно считать шаг за шагом, а значит, нельзя применить много компьюта и обработать кучу информации за раз, так, как это умеют трансформеры, но сами трансформеры фэйлятся на огромных контекстах.
Итак, помимо RNN и GRU существует State Space Model - ещё один формат ячейки памяти (в его основе всего лишь парочка матричных умножений), но у него есть крутая особенность. Вычисление рода "прогнать SSM на последовательности", оказывается, можно переформулировать в другую функцию - свёртку, для которой можно предпосчитать веса. При добавлении ещё одного фокуса (FFT) эту свёртку можно считать быстрее, чем втупую, что в итоге позволяет по сути быстро применять SSM на всей последовательности.
Далее, у SSM есть 2 проблемы - они херово работают, и хвалёное "быстро посчитать" на самом деле не такое уж и быстрое.
Чтобы решить первое, был придуман магический гиппопотам - инициализация одной из матриц внутри SSM таким образом, чтобы она была изначально ближе к пространству чего-то разумного.
Вкратце, вторая проблема заключается в том, что для подсчёта весов свёртки нужно умножать много матриц, а нам вообще-то лень - бумага нынче дорогая. Для этого придумывают магический костыль - Diagonal Plus Low-Rank. Я не стал разбираться в деталях, если вам интересно, отсылаю к разбору, но одну из матриц просто (нихера не просто в реальности) представляют не как обучаемую матрицу весов, а как результат операций над другими обучаемыми сущностями.
В результате, объединив описанные хаки, и получается S4 - хитрая и быстрая вариация "RNN"-ки, которую успешно применяют на сверхдлинных последовательностях.
Замечу, что это не первая статья, которую я обозреваю, в которой засчёт убирания нелинейностей удаётся всё очень сильно ускорить и упростить - напомню про RetNet. Нет никаких гарантий, что "мощность" архитектуры достигается как раз засчёт этих нелинейностей.
Кроме того, скажу честно - я банально не верю, что прорывные архитектуры будут основаны на какой-то сложной математике. Через пару лет окажется, что есть какая-нибудь суперпростая штука, которая делает всё то же самое даже лучше. Это не исключает, что математика будет вдохновлять на прогресс и в какой-то момент натолкнёт ресёрчеров на нечто крутое, но само это крутое будет очень простым.
@knowledge_accumulator
Forwarded from IT analysis • Системный и бизнес анализ
Обзор типов баз данных: какие типы БД существуют, в каких задачах используются ?
Сегодня поговорим про базы данных и рассмотрим типы БД, преимущества и недостатки каждого типа. Знание специфики применения различных типов баз данных позволяет аналитику лучше ориентироваться в архитектуре системы, а также принимать участие в проработке архитектуры решения.
Поэтому собрал в карточках краткую теорию по основным типам БД. Изучайте, делитесь с друзьями и сохраняйте в избранное, чтобы не потерять полезную информацию 😉
#study_analysis
Сегодня поговорим про базы данных и рассмотрим типы БД, преимущества и недостатки каждого типа. Знание специфики применения различных типов баз данных позволяет аналитику лучше ориентироваться в архитектуре системы, а также принимать участие в проработке архитектуры решения.
Поэтому собрал в карточках краткую теорию по основным типам БД. Изучайте, делитесь с друзьями и сохраняйте в избранное, чтобы не потерять полезную информацию 😉
#study_analysis
Forwarded from Тимлид Очевидность | Евгений Антонов
Я принес. Черная книга менеджера
Впервые я прочитал эту книгу лет 10-11 назад, когда только начинал получать тимлидские и прочие ответственные роли. Возможно поэтому у меня от них не было возвышенных иллюзий 🙂
Не пугайтесь, что эта книга называется книгой и якобы долго её придется читать. По сути это большой лонгрид на 25 страниц контента. Но контент очень емкий, сжатый, сконцентрированный. После каждой главы надо хорошо подумать.
А еще сразу уточню, что книга написана в жестком стиле. С обсценной лексикой и без какого-то заигрывания с «мы – семья», «позволь максимально уважить твои личные границы» и «доброго времени суток, многоуважаемые коллеги».
При этом, на мой взгляд, книга снимает розовые очки, к которым мы иной раз в айтишечке привыкли и показывает неприкрытую правду жизни и настоящих требований бизнеса от менеджеров. Жестко, но по-деловому справедливо.
Книгу я бы посоветовал почитать тимлидам, проджектам, продактам и прочим менеджерам точно. А еще неплохо бы тем, кто только подумывает пойти в разный менеджмент.
Ссылка на сайте Стратоплана потому, что её написал Слава Панкратов https://stratoplan-school.com/Storage/books/pdf/stratoplan_black_book.pdf
Кстати это тоже отдельный прикол был для меня, что одно время я воспринимал Стратоплан и Черную книгу менеджера как совсем разные сущности и был удивлен, когда узнал кто же автор 🙂
Пишите в комментариях свои отзывы, если читали. Обычно я встречаю отзывы противоположного спектра: или «супер-жиза», или «ну это че-то перебор». Равнодушных после прочтения обычно мало на моей практике.
Впервые я прочитал эту книгу лет 10-11 назад, когда только начинал получать тимлидские и прочие ответственные роли. Возможно поэтому у меня от них не было возвышенных иллюзий 🙂
Не пугайтесь, что эта книга называется книгой и якобы долго её придется читать. По сути это большой лонгрид на 25 страниц контента. Но контент очень емкий, сжатый, сконцентрированный. После каждой главы надо хорошо подумать.
А еще сразу уточню, что книга написана в жестком стиле. С обсценной лексикой и без какого-то заигрывания с «мы – семья», «позволь максимально уважить твои личные границы» и «доброго времени суток, многоуважаемые коллеги».
При этом, на мой взгляд, книга снимает розовые очки, к которым мы иной раз в айтишечке привыкли и показывает неприкрытую правду жизни и настоящих требований бизнеса от менеджеров. Жестко, но по-деловому справедливо.
Книгу я бы посоветовал почитать тимлидам, проджектам, продактам и прочим менеджерам точно. А еще неплохо бы тем, кто только подумывает пойти в разный менеджмент.
Ссылка на сайте Стратоплана потому, что её написал Слава Панкратов https://stratoplan-school.com/Storage/books/pdf/stratoplan_black_book.pdf
Кстати это тоже отдельный прикол был для меня, что одно время я воспринимал Стратоплан и Черную книгу менеджера как совсем разные сущности и был удивлен, когда узнал кто же автор 🙂
Пишите в комментариях свои отзывы, если читали. Обычно я встречаю отзывы противоположного спектра: или «супер-жиза», или «ну это че-то перебор». Равнодушных после прочтения обычно мало на моей практике.