Интересное что-то

59 views15:13

Forwarded from Anton Eryomin

Всем привет! Попалась интересная статья про рекомендашки, может быть очень даже интересно:

https://habr.com/ru/companies/yandex/articles/862148/?m-message-key-id=4311070750757191680&m-message-click-id=6783c058-61b7-40de-9d4e-a59f4c5d5d08

(саму статью еще не читал, но в ней есть ссылки на трендовые вещи в индустрии).

Хабр

ACM RecSys — 2024: тренды и доклады с крупнейшей конференции по ML в рекомендательных системах

Привет! Меня зовут Пётр Зайдель и я старший разработчик в Музыке. Вместе с другими ребятами из Яндекса, которые развивают рекомендательные системы в разных сервисах, я...

76 views15:13

Интересное что-то

#rag #petproject

72 views15:13

Интересное что-то

Forwarded from Ed Bateiko

89 views15:13

Интересное что-то

#ml #courses #novice

75 views15:14

Интересное что-то

Forwarded from Artyom Matveev

Если человек вообще никогда не занимался ML, то наверное всё-таки стоит пройти какой-нибудь один курс по основам, нет? Иначе есть вероятность ограничиться пониманием на уровне fit-predict при решении подобной задачи на случайном датасете. Мне кажется наиболее актуальный и оптимальный путь рассказан в этом видео. Парень сам работает рисечером в Sakana AI.

YouTube

How I'd learn ML in 2025 (if I could start over)

If you want to learn AI/ ML in 2025 but don't know how to start, this video will help. In it, I share the 6 key steps I would take to learn ML if I could start over.
Enjoy 💛

=== Links to resources ===
Math
- Why Machines Learn (affiliate link): https://amzn.to/41T18ME…

83 views15:14

Интересное что-то

#interview

76 views15:17

Интересное что-то

Forwarded from Sergey

Я сейчас в Болте работаю, поэтому не могу вопросы пошарить =)

Но про заландо расскажу (я там до болта работал и сам тоже интервью проводил):
- мы пытались спрашивать то, что нужно было под позицию, если надо было человека под обучение сеток взять на последовательностях кликов, то про tfidf, word2vec, LSTM, трансформеры, как их обучать, приёмы по обучению (от простых бейзлайнов до соты)
- когда надо было заниматься бустингом во фроде, то там классика про метрики бинарной классификации, как выбирать порог отсечения в проде, про финансовый оценки FP, FN, как решать проблемы с sensored data (когда мы не знаем перформанс модели на забаненых юзерах, так как им не дали кредит и не наблюдаем их ground truth), по бустингу спрашивали про апроксимацию и препроцессинг для данных

128 views15:17

Интересное что-то

#ml #dl #papers

71 views09:18

Интересное что-то

Forwarded from DziS Science | Data Science

Привет всем!👋

Представьте, вы на работе перепробовали все SOTA решения, но ожидаемый эффект от построенных моделей так и не был получен. Или вы работаете в RnD подразделении в конкретной области и хотите оставаться "в теме". Тогда сегодняшний пост для вас.

Сегодня я покажу два интересных инструмента для упрощения работы с научными статьями, опубликованными на arXiv.

▪️Papers With Code
Сайт, на котором можно убедиться что вы попробовали все SOTA решения и увидеть сравнение на benchmark датасетах. Разделен на различные постановки задач. Кроме того, можно найти датасет по душе для проверки подходов.

▪️arXiv compressor
Достаточно прикольный сайт, на котором выкладываются все статьи по CV/ML/AI с arXiv, сгруппированные по датам выхода.
В качестве бонуса - небольшая суммаризация статьи с использованием LLM (для более детального поиска).
Удобно, если, вы, например занимаетесь, наукой и боитесь "проспать" исследования.

▪️Connected papers
Сайт, который строит граф связности для статей arXiv.
Берете конкретную статью, забиваете на сайт и получаете граф, в котором в вершинах авторы статьи и год выпуска, связи учитывают кто ссылался/на что ссылался.
Отличный пример использования: Вы увидели новый подход, но статья, мягко говоря посредственная, куча ссылок на предыдущие работы и тд. Вбиваете на сайт, наливаете чай и получаете граф. И тут, буквально, все смежные работы перед глазами.

▪️Zeta Alpha
Еще один сильный ресурс. Тут более глубокий функционал, включающий в себя все фишки из предыдущих источников. Тут тебе и суммаризация, и граф построят и поиск статей с кодом, и фильтр по конкретному источнику (конференции, dev блоги компаний, Toward Data Science)

Сохраняйте, пригодится!
По традиции, 🔥, если понравилось!

#ds_лайфхаки@dzis_science

Please open Telegram to view this post

VIEW IN TELEGRAM

75 views09:18

Интересное что-то

#mlops

72 views09:39

Интересное что-то

Forwarded from 5 minutes of data

Apache Airflow® Best Practices: ETL & ELT Pipelines

44 страницы исчерпывающего руководства по одному из самых распространенных сценариев использования в data engineering на ведущем open-source оркестраторе!

Что вы узнаете из руководства:

📊 Сравнение ETL vs. ELT для вашей архитектурной стратегии - какой подход выбрать и почему.

💡 Лучшие практики написания DAG в Airflow - как создавать эффективные и поддерживаемые пайплайны.

⚡️ Ключевые функции для улучшения ваших ETL & ELT пайплайнов - поднимите свои процессы обработки данных на новый уровень.

Станьте экспертом в оркестрации данных с этим подробным руководством!

Скачать можно по ссылке

@data_whisperer

82 views09:39

Интересное что-то

#llm #metrics

73 views17:46

Интересное что-то

Forwarded from Start Career in DS

📊 Как оценивать LLM: бенчмарки [Ч.2]

В прошлой части данной темы мы подробно разобрали метрики, с помощью которых можно оценивать LLM. Сегодня поговорим про оценку через бенчмарки.

❗️Бенчмарк - это набор тестовых вопросов для оценки конкретного навыка модели.

Как правило, он работает следующим образом:
1. Берут некоторый стандартный набор запросов к LLM
2. Собирают ответы модели
3. С помощью асессоров/либо автоматической метрикой получают некоторую оценку качества модели

🗑Виды бенчмарков:

1️⃣ Открытые: создаются, как эталоны, для оценки конкретного навыка модели, что позволяет сравнить производительность любой LLM. Зачастую под данными бенчмарками понимаются: MMLU, GSM8K, HumanEval и т.д.
Проблема таких бенчмарков в том, что вся тестовая выборка хранится в открытом доступе (где-нибудь на GitHub), что зачастую приводит к утечке данных в train-датасеты.
ℹ️GSM8K - содержит математические задачи уровня начальной школы; MMLU - создан для проверки уровня фактических знаний LLM по гуманитарным наукам, социальным наукам, истории и даже право; HumanEval - содержит задачи по программированию

2️⃣ Закрытые: имеют аналогичную цель, однако, их особенность в закрытом тестовом наборе данных, которые LLM в процессе обучения не видели. Сюда могут входить: MT-Bench, SQuAD, RE-Bench и т.д.

3️⃣ Собственные (доменные): не всегда доступные бенчмарки пригодны для вашей задачи, поэтому зачастую приходится формировать свои тестовые примеры и способы оценки.

📚Дополнительная литература:
- Простая и очень полезная статья по бенчмаркам от команды Яндекса. Здесь же можно почитать про недостатки различных бенчмарков и этого подхода в целом
- Материалы из прошлой статьи
- Большой набор описаний наиболее популярных бенчмарков
- Статья про самые популярные LLM-бенчмарки
- Статья "Полный гид по бенчмаркам LLM"

Обязательно ставьте ❤️ и 🔥 под постом!
Пишите свои комментарии 🙂

77 views17:46

Интересное что-то

#interesting

64 views08:52

Интересное что-то

Forwarded from DevFM

Справляемся с рисками

Две совсем несложные статьи (раз, два), посвящённые риску и управлению рисками.

В первой даётся определение риска – это сочетание возможности получить выгоду и вероятности потерь. Мы принимаем риск не ради него самого, а ради целей, которые хотим достичь.

Для анализа риска автор разделяет его на два компонента:
– Вероятность: насколько возможно, что негативное событие произойдёт?
– Последствия: какие убытки или проблемы оно принесёт?

Для оценки риска предлагается использовать матрицы риска, которые делят вероятность и последствия на категории: низкие, средние, высокие. Таким образом можно наглядно увидеть, какие стечения обстоятельств действительно рисковые.

На самом деле важно понимать структуру риска и инструменты для его анализа. Вместо расплывчатого "это слишком рискованно" можно попробовать выдать что-то осмысленное: "Вероятность низкая, но последствия критические, значит, это требует дополнительной подготовки".

Вторая статья посвящена управлению рисками – действиям, направленным на снижение риска.

По сути мы возвращаемся к составляющим риска:
– Снижение вероятности. Мы пытаемся сделать так, чтобы рискованное событие с меньшей вероятностью происходило.
– Снижение последствий. Мы уменьшаем ущерб, если событие всё же произойдёт.

Автор приводит не айтишный пример, но, в целом, неплохо демонстрирующий суть.
Нужно переправиться через реку:

Для снижения вероятности падения в воду мы можем:
– Использовать командные техники переправы
– Искать более мелкий участок реки для перехода

Для снижения последствий попадания в воду мы можем:
– Запаковать вещи в водонепроницаемые мешки, чтобы предотвратить их повреждение
– Разместить спасателей ниже по течению, чтобы минимизировать риск травм или утопления

#teamwork

jacobian.org

Mitigation - Jacob Kaplan-Moss

So you’ve identified a risk — now what do you do about it? Here’s a simple framework to help frame discussions about risk mitigation. It’s intentionally very simple, a basic starting point. I’ll present a more complex framework later in this series, but I…

71 views08:52

Интересное что-то

#softskills

54 views10:40

Интересное что-то

Forwarded from Тимлид Очевидность | Евгений Антонов

Пятый месяц. Развитие ключевых людей

Прошел пятый месяц курса Стратоплана «Руководитель отдела». Перевалил за серединку уже 🙂

Контент первого, второго, третьего и четвертого месяцев я описывал ранее.

В отличие от прошлого месяца в этот раз удалось присоединиться к групповым практикам, и я в очередной раз убедился, что это ОГРОМНАЯ разница, конечно.

В этот раз часть контента была мне знакома не только потому, что я где-то что-то читал и изучал, а еще и потому, что похожие упражнения по работе с ключевыми людьми мы делали на работе. Тем не менее для меня традиционно нашлось и что-то новенькое.

Старенькое
- Ситуационное руководство. Как с кем работать при разных уровнях мотивации и компетентности. Это классика, и это надо уметь, если хочешь взращивать самостоятельные и профессиональные команды.
- Как с человеком поговорить о его желании и потенциальных направлениях к дальнейшему развитию. Тут, как всегда, я сторонник того, что не надо на каждого наседать, что развиваться – это ОБЯЗАТЕЛЬНО. Тем не менее это важная часть нашей работы. Где-то сами люди хотят профессионально и карьерно расти, но не знают как, и им надо помочь. А где-то некоторым людям надо расти, чтобы продолжать быть на хорошем уровне в команде, перед которой встают новые вызовы, и надо правильно это донести.
- HiPo и HiPro анализ своей команды (именно такое упражнение я как-то и делал на работе). С одной стороны, мне кажется, у опытного руководителя, погруженного в команду, это должно уже быть где-то в подсознании всегда сгенерено, а с другой стороны, для менее опытных ребят это хороший подход к рефлексии на тему своих соколиков.
- SWOT-анализ и модель GROW. Коротко говоря, это фреймворки на подумать о себе, о своих целях и о том, как и за счет чего ты их будешь достигать.

Новенькое
Тут растекусь мыслью только про одну тему. Но это мне прям ярко впечаталось, и хочется с вами поделиться.
У нас была тема про менторинг vs коучинг. Где менторинг — это про то, что очень опытный и компетентный в конкретном вопросе человек учит другого (ну, например, кузнец учит подмастерье ковать какие-нибудь загогулины), а коучинг — грубо говоря, не обязательно столько компетентный в этом деле человек задает тебе вопросы, и ты сам во всём разбираешься.

Вот мне всегда менторинг был ближе и понятнее. Как будто это профессионально, а коучинг — странное инфоцыганство из серии: «Так, ты пришел ко мне с проблемой. А сам что думаешь? А как будешь решать? Разобрался? С вас пятьтыщ».
Послушал я теоретическую часть и немного скептически двинулся к групповой практике, где мы реальные рабочие вопросы разбирали, чередуя то менторинговый подход, то коучинговый.

И оказалось, что коучинговый подход в некоторых вопросах отработал внезапно очень круто. Человек, ранее зафреймировавший себя на определенные мысли и поведение, столкнулся с проясняющими вопросами и, пока на них отвечал, сам всё понял и пришел к решению, которое ему подходит и нравится.

Короче говоря, если применять менторинг туда, где человек мало компетентен, то можно его научить. А если коучинг добавить туда, где он уже понимает, а просто застрял в силу разных обстоятельств, то есть шанс, что он сам разберется и примет подходящие для себя решения.

65 views10:40

Интересное что-то

#analytics

59 views10:46

Интересное что-то

Forwarded from Аналитика данных / Data Study

Analysis.pdf

2 MB

Нашёл у себя в сундуке полезных материалов презентацию с 39 видами различных видов бизнес/системного/дата/продуктового анализа, а также инструменты проектного управления, которые полезно применять в разных задачах.
В файле описаны ключевые аспекты каждой методологии, если захотите применять что-то на практике, то лучше изучить дополнительные материалы.

Хотите описать сильные и слабые стороны продукта, берите SWOT (слайд 2).

Есть потребность оценки рисков и проектных зависимостей, рассмотрите RAID Log (слайд 20).

Хотите зафиксировать список стейкхолдеров проекта и понять кому и по каким вопросам обращаться, с кем согласовывать, а кому просто прийти с готовым результатом - посмотрите на Stakeholder Analysis (слайд 17)

Только запускаете проект и думаете какую информацию для старта важно собрать - воспользуйтесь Project Charter (слайд 26)

Когда-то много из этих видов анализа использовал в работе, потом настал период когда зарылся в данные и технику. Сейчас похоже начинается цикл, когда часть этих инструментов опять войдут в мою повседневную работу

71 views10:46

Интересное что-то

#interview

Собесы на SE 2 в мелкомягких

59 viewsedited 11:57

About

Blog

Apps

Platform