Big Ledovsky | AI изнутри – Telegram

Big Ledovsky | AI изнутри

1.84K subscribers

228 photos

18 videos

4 files

189 links

Александр Ледовский
Head of AI | stealth ecom стартап, ex: Avito, Сбер, ШАД
ML в проде и что реально происходит в AI
DS карьера и менеджмент

@aledovsky

Download Telegram

About

Blog

Apps

Platform

Big Ledovsky | AI изнутри

1.84K subscribers

Big Ledovsky | AI изнутри

Всем привет!

Я подумал, что начну новый цикл постов, про data science. Когда зимой я проводил опрос, многим это было интересно.

Но дело в том, что мне не хочется писать про "5 способов отбора признаков". Во-первых, это не мой формат (блог должен быть интересен всем, не только инженерам). Во-вторых, мне самому это не очень интересно. В третьих, такого контента уже много и без меня.

Новые посты будут про верхнеуровневые точки зрения по ряду вопросов, связанных с data science и аналитикой. То, что я пропустил через себя, сочетая внутри две очень разные стороны: инженера, которому хочется делать интересные задачи и разработать что-нибудь значимое, и менеджера, который хочет принести бизнес-результат.

Надеюсь, темы вас зацепят и может быть побудят пообщаться в комментариях.

👍12

1.03K views09:46

Big Ledovsky | AI изнутри

Почему у статистики не лучшие времена

Мое наблюдение: машинное обучение и нейронные сети стремительно развиваются, а статистика как будто движется по спирали и падает в состояние хаоса 📉🔥. Конечно, известные теоретические результаты не потеряли актуальности. Однако с точки зрения применения все очень и очень запутано.

Во-первых, мы перешли в эпоху больших данных. Во-вторых, сильно расширилась область применения статистики.

В старых областях, например в медицине и биологии 💊, есть устоявшиеся дизайны экспериментов и наборы методов. У научных журналов из этих областей есть гайдлайны по статистическому анализу (пример из Clinical Neurophysiology, в котором я публиковался, когда занимался ML в Neuroscience).

В случае бизнеса все не так. На мой взгляд стабилизировался только подход к проведению базовых интерфейсных АВ-тестов в интернет компаниях с достаточно большим количеством трафика. Дальше начинаются сложности 🛒. Методы повышения чувствительности тестов и различные дизайны описываются в научных статьях и обсуждаются на конференциях. Тут каждая компания ведет свою разработку, единственного правильного решения нет. Кстати, Антон недавно рассказывал про нашу систему сплит-тестов на Датафесте. Очень горжусь, что мы ее разработали 💪, рекомендую посмотреть, если вам интересна область экспериментов.

В связи с появлением новых методов возникает другая проблема статистики - отсутствие объективного контроля. Нельзя явно проверить ошибся ли статистический тест или нет. Поэтому статистические методы нужно муторно валидировать на тестовых датасетах, а это тоже сложный процесс.

В итоге аналитики и ds-ы мечутся между большим наборов методов 🥳 которым не понятно, можно ли доверять?

Поэтому я думаю, что статистика находится не в лучшей форме 😳. Она ждет появления новых стандартов и стабилизации.

Что думаете?

#tech

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔6👍3🥰2❤1

1.32K viewsedited 09:47

Big Ledovsky | AI изнутри

Разбор доступным языком конкурса по решению олимпиадных задач по математике с помощью нейросетей

Хочу объяснить доступным языком победное решение с прошедшего недавно завершившегося соревнования на Kaggle AI Mathematical Olympiad. Andrej Karpathy говорил, что если проводить параллели с работой мозга, то текущие LLM - это скорее быстрое интуитивное мышление, а вот медленное логическое мышление AI пока не умеет. И как раз решение математических задач - путь к медленному мышлению.

Победное решение смогло решить 29 задач из 50. Результат очень крутой. Сейчас расскажу как это решение устроено.

💎 Решение - это не одна нейросеть, а достаточно сложная система, построенная вокруг нейросети. Опять сошлюсь на Karpathy - LLM это как процессор в компьютере. В качестве нейросети-процессора взяли некую LLM DeepSeekMath-7B, созданную для решения математических задач. Нейросеть дообучили, чтобы она генерила решения в виде текстового ответа плюс код на питон (основано на работах 1 и 2).

💎 Как используется базовая модель. Над моделью реализуется подход Chain of Thoughts. Сеть прогоняют на своих же ответах несколько раз. Т.е. подали на вход задачу, сеть сгенерировала текст ответа и код. Код запускается и его вывод добавляется к ответу (если выполнение выдало ошибку добавляется код ошибки). Ответ добавляется ко входу и все вместе опять подается в нейросеть.

💎 Как решение доводится до стабильного результата. Ответы LLM на один и тот же вопрос отличаются от раза к разу. Поэтому стабильный результат получается за счет того, что Chain of Thought запускается 48 раз и после этого выбирается самый частый ответ.

Решение очень круто описано, выложены модели и код. У меня родилась идея, что можно устроить ML тренировку - реализовать часть с Chain of Thoughts с нуля.

#tech

Please open Telegram to view this post

VIEW IN TELEGRAM

Numina 1st Place Solution | Kaggle

Discover what actually works in AI. Join millions of builders, researchers, and labs evaluating agents, models, and frontier technology through crowdsourced benchmarks, competitions, and hackathons.

🔥7👍3🤔1

1.46K viewsedited 14:04

Big Ledovsky | AI изнутри

Возвращаю рубрику мемов) 💎

#memes

Please open Telegram to view this post

VIEW IN TELEGRAM

1.24K views13:52

Big Ledovsky | AI изнутри

This media is not supported in your browser

VIEW IN TELEGRAM

🤣14😢7

1.33K views13:52

Big Ledovsky | AI изнутри

Пока авторы других каналов хайпуют очередными новостями из мира LLM, у меня опять контент из походов) Кому интересно, заглядывайте в истории 🙂

#lifestyle

👍14❤3🔥2

1.27K views18:30

Big Ledovsky | AI изнутри

Мой хобби-проект - Fast Food Memes bot

Пришло время рассказать про мой хобби проект. Может быть вы слышали про Fast Food Memes бота 😄, который делает Даня. Бот рекомендует мемы в формате тиктока: вы получаете мем и ставите лайк или дальше. Я присоединился к проекту улучшать систему рекомендаций. Мне хотелось пощупать новую задачу и получить опыт с рекомендациями, отличающимися от моей работы в Авито.

Первые неудачи

На момент старта в боте работало несколько алгоритмов, которые основывались на ранжировании по лайк рейту мемов (средний процент лайков). Первоначальной идеей было обучение коллаборативной фильтрации на лайк рейт. Это когда вам рекомендуют мемы, которые понравились пользователям, похожим на вас. Однако этот и другие подходы по оптимизации лайк рейта не дали результата на тестах 😕

Причина

Оказалось, пользователи лайкают по-разному и лайк не значит "нравится". Кроме того, в боте есть супер-юзеры, которые смотрят мемы сотнями в день, когда большинство пользователей набирают всего 20-30 мемов. Относительным успехом было небольшое улучшение холодного старта за счет удаления из датасета супер-юзеров.

Как получилось совершить прорыв

В какой-то момент я придумал алгоритм сглаживания лайк рейта. Это позволило увеличить DAU бота на 12% 🔝.

Сглаженный лайк рейт делает поправки на средний лайк рейт юзера. Если юзер постоянно лайкает, его лайк учитывается с маленьким весом. А если лайкает редко, то наоборот с большим. Выглядит несложно (ссылки на код раз два), но нужно было понять куда ударить молоточком👷 и на это у меня ушло достаточно много времени.

💎

Выводы

ML могуч, но просто так не дает эффекта. Нужно глубоко понимать природу данных, поведение пользователей и конечно много смотреть выдачи. Теперь уже можно добавлять в рекомендации коллаборативный движок

Бонус для аналитиков. Я считал статзначимость теста бустрепом. Делюсь ноутбуком, где вы можете посмотреть пример, как это делается. Если будут вопросы, спрашивайте!

#tech

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥25👍8❤3🤣1

10.9K views14:33

Big Ledovsky | AI изнутри

Обратите внимание на НЕмитап, на котором Юля и Женя будут рассказывать про то, как мы запускали продвижение за бюджет. Я тоже приложил руку к этому продукту и могу сказать, что с точки зрения аналитики там очень много инсайтов 🔥

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9

1.15K views15:35

Big Ledovsky | AI изнутри

Forwarded from Malex | Алексей Малинский

Анонс НЕмитапа по аналитике

В четверг на канале Avito Tech выйдет выпуск НЕмитапа по аналитике , в котором 2 senior data-аналитика из Авито, Юля и Женя, поделятся историей запуска нового продукта продвижения.

Почему стоит посмотреть (лучше онлайн, чтобы задать вопросы, но можно будет и в записи):

👉 Это реальный кейс с большим влиянием на бизнес
👉 Кейс будет про монетизацию, а там частенько непросто с точки зрения аналитики
👉 Юля и Женя - крутые спецы, вы могли слушать их мастер-класс на Aha’24 про traction-модели в продуктах

Подключайтесь - будет интересно!🔥

НЕмитап Analytics#1 Юлия Голубева и Евгения Мурзаева – Запуск нового продвижения в Авито

Всем привет! Это новый выпуск НЕмитапа. Здесь аналитики Авито рассказывают про инструменты и подходы, которые используют в работе, и отвечают на ваши вопросы.

В этом видео старшие аналитики продукта Женя Мурзаева и Юля Голубева аналитики Монетизации расскажут…

🔥6👍1

1.3K views15:35

Big Ledovsky | AI изнутри

Инфляция грейдов

В одной статье я прочитал, что на рынке США 2-3 года опыта соответствует junior специалисту, 3-8 middle и только ближе к 10 годам senior. У нас же синьором становятся за 3-4 года.

Сложно сказать в чем главная причина: наличие большого количества локальных компаний и более острая нехватка кадров или сочетание менталитета и быстрорастущей отрасли. Так или иначе то, что мы наблюдаем у нас - это инфляция грейдов.

С точки зрения приносимой пользы есть ли разница между синьором с 4-х и 10-летним опытом?

Зависит от человека. В какой-то момент люди могут упереться потолок своих навыков и календарный опыт не изменит их продуктивность.

Однако в среднем мне кажется, что дополнительный опыт пошел бы 4-х летним синьорам на пользу. На примере DS очень полезен опыт доведения ML не просто до прода, а до значимого влияния на метрики или процессы. Уж больно много сейчас DS-ов хайпует знанием последних моделей, но это не соотносится с реальными задачами на проде. И такой продовый опыт копится по крупицам, потому что большую часть времени ты штурмуешь оффлайн метрики.

Как такой быстрый рост влияет на дальнейший карьерный путь?

Человек становится синьором, а его карьера только началась. Вроде как расти дальше куда-то надо. Поэтому часть компаний вводят дополнительные синьорные грейды: staff и principal. Однако есть две проблемы. Во-первых, такие грейды существуют преимущественно в крупных зрелых компаниях. Во-вторых, если брать DS и аналитику, люди гораздо чаще конвертируются в тимлидов, чем в стаффов. В тимлидах потребность обычно выше. Они тащат орг работу, которой всегда больше, чем людей, способных ее выполнять.

Сохранится ли инфляция грейдов?

Я уверен, что инфляция грейдов это временное явление горизонтом на 5-10 лет вперед, которое связано с быстрым ростом отрасли. Те новые специалисты, которые сейчас выходят на рынок никуда не исчезнут и конкуренция за синьорные позиции будет выше.

С другой стороны есть области, где всегда исторически был быстрый рост, например, консалтинг. Когда я работал в EY, нормальный путь до менеджера считался 4 года, а до партнера 10 лет (хотя именно партнером было стать очень непросто - нужно хорошо продавать).

Но мне все-таки кажется, что инженерные специальности так не работают. Инженерные навыки объективно подтверждаются и быстро расти смогут только самые талантливые.

Что думаете? Есть ли инфляция грейдов? В чем ее причина?

#management

👍21🤝1

1.48K viewsedited 15:03

Big Ledovsky | AI изнутри

Про новый поход

Прошлую неделю был в отпуске. Мы ходили в поход в районе Красной Поляны (маршрут 8).

Маршрут пересекал горный хребет, поэтому чтобы стартовать пришлось делать огромный крюк: целый день ехать из Сочи на электричках до Майкопа, а потом еще на машине до Псебая. Но это стоило того. Природа просто фантастическая, а маршрут отлично оборудован. Даже туалеты-домики были. Правда еще на маршруте были медведи. Считается, что они безопасные, мы не встретили, но обоснованно переживали (расскажу в комментариях подробнее)

Сегодня-завтра выложу видео в историях, кому интересно, заглядывайте 🙂

Сейчас вернулись в Красную Поляну, неделю поработаю отсюда, а потом может быть еще сходим куда-нибудь на выходных.

#lifestyle

🔥25👍5👏1

1.25K views14:40

Big Ledovsky | AI изнутри

А тем временем на прошлой неделе вышел новый выпуск подкаста Озона Рандомные Дрова, где мы с Егором пришли в гости к Вану Хачатряну и обсуждали ML в наших системах продвижения.

#tech #worklife

1.04K views14:33

Big Ledovsky | AI изнутри

Forwarded from Ozon Tech

Обсуждаем рекламу в новом выпуске подкаста о ML и DS «Рандомные дрова»🪵

Реклама на маркетплейсе — это в первую очередь внутреннее продвижение, когда продавцы покупают бусты в ранжировании, чтобы показываться на первых местах и получать продажи быстрее.

Но всем ли это нужно? Как ML-модели учитывают конверсию? Какие UX-«махинации» помогают её поднять? И в чём измеряется качество рекламы?

Об этом, а ещё об автоматизации и роли ML в улучшении рекламных продуктов Ван Хачатрян поговорил с гостями из Авито — Егором Самосватом и Александром Ледовским.

🎧 Слушайте на любимой подкаст-платформе

P. S. Кстати, на соревнование E-CUP по ML и DS, о котором говорит Ван, регистрация ещё идёт. Будут реальные задачи нашего бигтеха и призы тоже ощутимые. Успейте зарегистрироваться!

#ozontech_podcast

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤5👏1

1.18K views14:33

Big Ledovsky | AI изнутри

Кофейни - культура стресса

Я люблю заходить в кофейни ☕️. Мне хочется сменить обстановку, почитать, сделать заметки или пообщаться. Но мои поиски причин стресса привели меня к тому, что кофешопы чаще работают в минус, чем в плюс. Сейчас расскажу, что имею в виду.

В модных кофешопах часто играет быстрая музыка. Поверх звенят биперы или кричат «холодный пряничный латте на кокосовом для Светланы». Люди приходят в кофейню за дофамином, т.е. уже не в равновесии. Затем напиваются кофе и становятся перевозбужденными, пряча это за натянутой вежливостью. А те, кто сидит с ноутбуком 🧑‍💻, приумножают свою тревогу работой.

Вот такой сумасшедший дом получается 🚑. В такой атмосфере вы разгоняетесь и скорее устаете, чем отдыхаете. Я сам давно не работаю в кофейнях, и недавно, когда я посидел несколько часов утром с ноутбуком в хипстерской кофейне в Красной поляне, обнаружил себя в состоянии стресса уже к 11 (хотя по работе вообще не было причин).

Выбивается из нервной тусовки серф кофе, которое построено вокруг расслабленного вайба, но только людей не так просто расслабить.

Понаблюдайте за собой, может быть заметите похожий эффект. Что могу порекомендовать: обращайте внимание на атмосферу, музыку, не садитесь у точки выдачи напитков, не приходите в час пик, будьте готовы взять напиток с собой и посидеть на лавочке на улице в конце концов. Ваша продуктивность и общее состояние в ваших руках 🤝

#productivity

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29❤9🔥1

1.3K views09:56

Big Ledovsky | AI изнутри

Почему российские видео площадки не дают трафик

На этой неделе я готовил научную статью 🧑‍🔬 на крупную конференцию про баланс справедливости и эффективности рекламных систем. Про статью еще рано писать, впереди процесс ревью. Но тема навела меня на мысли о ситуации с замедлением ютуба.

Я неоднократно видел, что крупные ютуберы жалуются, что российские видео площадки, такие как рутуб и вк видео, не дают трафика.

Сперва у меня возникла гениальная идея 💡, что ютуб большую часть трафика отдает крупным каналам. Я иной раз удивляюсь как сложно выйти из замкнутого круга небольшого количества каналов и найти контент небольших блогеров.

А теперь представим себя на месте абстрактных инженеров видео площадки. Вы стараетесь сделать рекомендации разнообразными и справедливыми, боретесь с кликбейтами. И получается, что крупному каналу уже не так просто получать дешевый трафик. Крупные блогеры расстраиваться и начинают жаловаться. Но реальность оказалось другой 🙂

Я решил немного попользоваться рутубом и вк видео. Я искал контент в поиске по интересующим меня областям: машинное обучение, инструменты продуктивности, ufc, разные виды спорта, походы, компьютерные игры и ряд других тем.

Низкое качество выдач меня конечно 🤯 удивило

⁃ Часто выдачу заполоняет один и тот же канал
⁃ В топе много несвежих низкокачественных видео
⁃ Каналы с хорошим контентом, которые успешны на ютубе, действительно не выходят в поиске
⁃ Прямой поиск каналов с ютуба работает, хоть и плохо, но и тут выдача очень странная. Возможно из-за нехватки статистики

В общем, дело не в справедливости и у площадок есть серьезная проблема с контентом и его поиском. До рекомендаций я пока не дошел, т.к. моих моральных сил 😕 пока не хватило, чтобы накопить историю просмотров на площадках.

💎 Как вы думаете, что нужно сделать в алгоритмах, чтобы улучшить качество? Довольны ли вы поиском и рекомендациям ютуба?

PS. Но в текущей ситуации есть однозначный плюс. Дата сайнтисты без работы не останутся!

#tech

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14😁10👎1🤔1😐1🤝1

1.44K viewsedited 14:54

Big Ledovsky | AI изнутри

Флэшбеки из прошлой жизни 😁

😁4

1.07K views13:29

Big Ledovsky | AI изнутри

Forwarded from Malex | Алексей Малинский

This media is not supported in your browser

VIEW IN TELEGRAM

У меня нет инстаграма, а потому вот такие рилсы мне подгоняет Катя)

но это очень смешно😀

😁28

1.13K views13:29