AI для чайников | Александр Троицкий
1.63K subscribers
37 photos
6 videos
6 files
40 links
Ex- ING (IB), Big4, Lamoda, Oliver Wyman. Занимаюсь разработкой AI-моделей и продуктов. Сюда пишу мысли вечного новичка в AI since 2018.

Автор канала: @troitskii

#machinelearning #datascience #python
Download Telegram
Data Science for dummies.xlsx
29.7 KB
Я вас слышу и слушаю. Дальше будем больше про метрики и то, как они применяются. Перед этим предлагаю закрепить предыдущий материал (а вновь прибывшим его изучить с начала) и пробежаться по эксельке с моими объяснениям по самым базовым метрикам.

Классификация:
Precision, Recall.
F-score
ROC-AUC.
Мультиклассовые recall, precision, F1

Регрессия:
MSE, RMSE, MAR, R-квадрат
MAPE, SMAPE

NLP:
Расстояние Левенштейна

Продуктовые метрики:
Sharpe ratio - метрика инвест портфелей
Моя лекция в Podlodka на тему «почему важно глубоко разбираться в природе целевых переменных».

https://youtu.be/DLWixqwQSoY?si=NjrQ25j0zxvwlAvN
👍4
Векторизация в NLP. Последние пару месяцев один из проектов, который я курирую, очень плотно связан с NLP. К своему стыду, раньше я очень поверхностно погружался в тему того, что там происходит на самом деле и чем один метод векторизации отличается от другого.

На выходе все задачи NLP всё равно сводятся к классическим задачам обучения с учителем, без учителя или с подкреплением. И я вроде как разбираюсь в метриках этих задач. Ну и хрен с этой векторизацией - не погружался глубоко.

Но в новом проекте ребята из моей команды много спорят и обсуждают разные способы векторизации текстов. Собственно с лозунгом "hold my beer" я провел выходные за изучением разных способов векторизации: что это такое, какие они бывают, чем отличаются и как работают.

Всю эту кладезнь знаний я излил на VC с примерами, табличками и смешными картинками. Если хотите вникнуть в какую-то часть работы того же ChatGPT и как к этому пришли - эта статья будет очень полезна.
🔥6🆒2
Что нужно, чтобы разработать крутой ИИ.

Чтобы сделать свой искусственный интеллект, нужны 4 вещи:

1. Источники данных
2. Обработка данных в фичи
3. Алгоритм, что-то предсказывающий или генерящий (сама модель)
4. Таргеты или разметка (если обучение с учителем)

Давайте пройдемся по ним и подумаем на что мы правда можем повлиять:

1. Источники данных. Очень важно. Если у вас есть уникальный источник данных, вы можете получить конкурентное преимущество перед остальными. Как получить источник данных, если вы не ВК и не Яндекс? Варианты довольно понятные:
1.1. Договориться с кем-то, у кого уже есть данные.
1.2. Научиться парсить данные из открытых источников и делать на этом бизнес (яркие примеры таких компаний: tgstat.ru, mpstats.ru).

2. Обработка данных в фичи. Лично мне этот пункт кажется довольно простым и понятным. Существуют специальные библиотеки для того, чтобы собирать фичи из данных, в итоге этот процесс становится очень механическим. Наверное, полезно уметь векторизовывать данные, если это можно назваться фичами. Что такое векторизация и почему она оч важна в NLP читать тут.

3. Сама модель. Самая простая штука. 99% дата саентистов не создает новые библиотеки моделей, а просто переобучает готовые алгоритмы. Поэтому здесь вы мало на что влияете. Важно просто подобрать правильную модель к вашей задаче. Иногда выгода может быть там, где вы соедините несколько моделей. Но с точки зрения практики и регулярных поисков продуктов в ИИ, тут лежит мало дополнительной пользы.

4. Таргеты и разметка. Так же важно, как источники данных (очень).
4.1. Таргеты. Если вы знаете, как найти нужные бизнесу таргеты - вы уже можете делать своё дело. Знаете как точно найти дефолты заемщиков? Добро пожаловать в банковский риск менеджмент. В курсе как сделать классную разметку удачных стартапов? Можете подавать резюме в современный инвест фонд.
4.2. Разметка. Просто помните, что для того чтобы из прокачанного Т9 стать тем ChatGPT, который мы знаем и уже привыкли, OpenAI просто добавило в трансформер beam search и применило дешевую рабочую силу из Кении для разметки получаемых текстов. Не стесняйтесь вкладывать деньги в разметку. Именно её качество и количество будет отличать ваши бизнес метрики от метрик ваших соперников.
🔥9👍4🍌21
Я составил рейтинг 20 крупнейших IT компаний России по итогам 2023 года. 1 апреля закончился срок сдачи бухгалтерской отчетности для российских компаний, а это значит, что мы можем посмотреть на рынок "целиком", а не только на публичные компании, которые обязаны раскрывать отчетность раньше непубличных.

Мне нравятся такие helicopter view, они дают представление о том, где мы находимся и в какую сторону идем.

Основные наблюдения из рейтинга:

1. Суммарная выручка крупнейших 20 компаний рунета выросла на 54% с 1740 млрд руб в 2022 до 2690 млрд руб в 2023
2. Суммарная чистая прибыль увеличилась в два раза с 51 млрд рубл в 2022 до 103 млрд руб в 2023
3. Для меня было неожиданностью, что самый прибыльный российский IT - это Avito с 39 млрд чистой прибыли по итогам 2023
4. В рейтинге всего 2 компании с отрицательной чистой прибылью - ВК и Ozon, их суммарные убытки за 2023 составили почти 100 млрд рублей
5. Многие известные компании оказались ниже радара этого рейтинга, хотя я думал, что они сюда войдут - это, например, Циан, Carprice, Aviasales, Flocktory, Whoosh.

При составлении этого рейтинга я использовал следующую методологию:

1. Для публичных компаний использовались данные из их публичной отчетности, для непубличных - из отчетов ФНС.
2. Производственные компании или участники реестра IT компаний не участвуют в рейтинге, поскольку их основная деятельность зачастую не связана с IT.
3. Банки также не участвуют в рейтинге, поскольку все-таки получают большую часть дохода от кредитных продуктов.
4. Технологические дочки крупных компаний попадают в рейтинг, если у них есть доступный сайт, на котором показаны продукты их компании, используемые не только их материнской компанией.
5. В рейтинг не вошли некоторые известные IT компании, у которых нету отчетности за 2023 или 2022 год. Один из примеров - 1С.

@dsproduct
👍91
Audio
Text-to-song. Шокирован новой версией сервиса Suno AI. Нейронка создает песни из текста в стиле, который вы можете указать сами (без выбора в меню). То есть вы можете указать стиль просто "pop", а можете указать что-то более специфическое, например "aggresive anime openning".

Youtube уже заполоняют видео со смешными песнями оттуда. Интересен успех этого сервиса с нескольких точек зрения:

1. AI. В техническом плане ребята из Suno сделали очередную мини-революцию в генеративном ИИ. И это в очередной раз подталкивает нас с созданию AGI.
2. CJM. Пользователи уже не боятся слова "промпт". Промпты и свобода своего запроса к сервису становятся новой нормой. И правда, зачем ограничивать пользователя выбором из выпадающего списка, если он сам может написать в свободной форме, чего он хочет получить.
3. Рынок музыкантов. Конечно, музыканты никуда не исчезнут. В конце концов, музыканты будут придумывать новые стили и подстили музыки, чтобы на них можно было обучить следующее поколение Suno.

P.S. Запихнул этот текст в Suno, чтобы он сделал песню из этого поста.
🔥15😱21👍1
Написал статейку о том как работает градиентный бустинг простыми словами и с живым примером.

Если брать определение из словарика, то градиентный бустинг - модель машинного обучения, решающая задачи классификации и регрессии. Она состоит из ансамбля более слабых моделей (чаще всего дерево решений) и учится последовательно на ошибках предыдущей модели.

Но здесь я попытался упростить все сложные статьи с кучей математических терминов, коих в интернете немало.

В качестве скриншотов прикладываю пример, где градиентный бустинг обучается предсказывать стоимость 4 квартир по шагам (смотреть с первого скриншота).
🔥10👍3
Во время золотой лихорадки надо продавать лопаты. Доказано Nvidia.

Nvidia сместила Apple со второго места по капитализации публичных компаний. За май компания увеличила стоимость почти на 600 млн долларов! Рост в первую очередь вызван повсеместным использованием ИИ со всеми вытекающими - ростом необходимых вычислительных мощностей. Некоторые американские СМИ уже пророчат, что к 2030 году ИИ будет потреблять 10% всей электроэнергии в США - чем не призыв к покупке соответствующих акций? Тем более, что количество долларов в мире увеличилось почти в два раза за последние несколько лет, а ФРС постоянно грозится дропнуть ставку рефинансирования с текущих рекордных значений.
👍11🔥2
Все бегут за ИИ, чтобы накачать свой пузырек.

Эрик Юань, генеральный директор Zoom, поделился планами по внедрению ИИ в продукты компании. Ну как, "поделился" - он дал огромное интервью, где только и говорил про искусственный интеллект. Но он хочет не просто делать расшифровки и резюме встреч (а было бы классно), а сразу замахивается на "ваш двойник будет ходить за вас на встречи и делать работу" - браво, Юань! Но все-таки сначала хотелось бы простую LLM, которая делает саммари встречи хотя бы для платных подписчиков. Пока что это больше похоже на смешную попытка заскочить в поезд, чьим локомотивом остаются Nvidia и Microsoft.

Вообще, все эти заигрывания с ИИ со стороны компаний, которым бы для начала сделать нормальные дешики и самые базовые алгоритмы машинного обучения, похожи на цирк с клоунами. Это лишь жалкие попытки поднять капитализацию словесными интервенциями, чтобы топ-менеджмент получил годовой бонус побольше.

И это многое говорит о долгосрочности намерений и способности выживать. График акций Zoom прилагается.
👏10👍4🤡3🗿1🤷1
OpenAI идет на войну. На прошлой неделе в совет директоров OpenAI вошел Пол Накасоне. Что про него известно:

1. Много лет служил в армии США в кибер войсках и был главой Агентства Национальной Безопасности, то есть занимался формированием мнения людей по земному шару (привет цветным революциям) и следил за людьми.
2. Был начальником разведки в Афганистане (тут должна быть популярная история про то, что в Афганистане во времена нахождения войск штатов производство героина выросло до рекордных объемов).

Особенно мне нравится объяснение этому назначению.

Экс‑генерал Накасоне позаботится о том, чтобы общий искусственный интеллект послужил на благо всего человечества


Ну что ж, ждем счастливое демократическое будущее для всех. Чувствую, что скоро всем известная фабрика троллей покажется нам невинной игрушкой.
👍10😢8🤔42
ML system design.

При отборе почти во все компании на позицию data scientist от кандидатов просят решить так называемый ML system design. Особенно тщательно к этому надо готовиться ребятам, которые претендуют на позицию middle и выше.

Что это такое? Это кейс, в рамках которого тебе надо представить, что завтра тебя попросят обучить какую-то модель для какой-то проблемы. Тебе надо представить, как бы ты подошел к обучению и развертыванию модели в продакшене. Обычно хорошие кандидаты идут по определенной структуре:

1. Problem Navigation
В начале надо разобраться с тем, зачем вообще нужна модель. Надо поспрашивать интервьюера о том, какие есть требования у бизнеса или бизнес метрики.

2. Training Data
Стоит разобраться с тем, на какой таргете ты будешь обучать модель и откуда брать данные для обучения. Особенно сильные кандидаты знают внешние источники для насыщения алгоритма или откуда спарсить данные.

3. Feature Engineering
Ну тут все понятно. Просто надо пофантазировать, какие фичи ты сделаешь из данных и на что обратишь внимание в первую очередь.

4. Modeling
Дальше стоит выбрать алгоритм. Обычно неплохо взять базовый алгоритм, обучить на нем, и потом переходить к более сложным.

5. Model Evaluation
На какие метрики ты будешь опираться при выборе алгоритма? Тут надо посмотреть на пункт 1, вспомнить, зачем оно вообще надо, и подобрать метрики, которые наиболее важны для бизнеса, но с уклоном в метрики качества моделей.

6. Deployment
Как модель будет крутиться в проде? Это API или предварительно рассчитанная таблица? Как часто надо обновлять таблицу? А вычислительных мощностей хватит?

7. Monitoring and Observability
Как ты поймешь, что модель нормально работает в проде и не поехала по своим параметрам через месяц после начала использования?
👍25
Не так давно читал большое интервью СЕО Zoom о том, что компания планирует заменить людей на встречах AI-двойниками. Мол, твой двойник может метнуться за тебя кабанчиком, обкашлять вопросики и порешать за бизнесочек. И вот сегодня после обзора спринта факторинговой компании мой товарищ прислал расшифровку Zoom ассистента:

"Иван вёл дискуссию об управлении лимитами и внес несколько изменений, в том числе переименование лимитов клея в группу из климатов, удаление секции по работе с клиентами во время наводнений, а также введение поезда для заблуждения."

Будущее и правда всё ближе и ближе!

Ну и, конечно, это ни разу не было словесной интервенцией для получения бонусов топ-менеджментом за рост акций. Никто никогда этим занимался и вот опять.
😁20👍2
О стоимости данных для обучения. Прочитал интервью Николас Томпсон, СЕО "The Atlantic" (одно из старейших изданий в США). Недавно The Atlantic заключило договор с OpenAI, что в течение 2 лет ИИ-гигант может пользоваться данными газеты и обучать на них свои модели. За это The Atlantic получает:
- Возможность пользоваться новыми продуктами OpenAI (фантики на счет)
- Появление в поисковой выдаче OpenAI

То есть по факту OpenAI расплачивается за данные воздухом. Кто-то может поспорить, что у продуктов OpenAI есть себестоимость, но давайте вспомним как цена на GPT-4o упала в 10 раз по сравнению с GPT-4 чисто за счет оптимизации алгоритмов. Это значит, что ИИ-гигант может просто удешевлять стоимость данных за счет уменьшения себестоимости вычислительных операций. Добавьте к этому вычислительные мощности Azure от Microsoft, инвестиции Билла Гейтса в ядерную электроэнергию и вы получите мегакорпорацию, владеющую самой низкой себестоимостью ИИ в мире.
👏8🔥7👍2🥰1
OpenAI выпустила упрощённую и дешевую модель GPT-4o Mini.

GPT-4o Mini вышла 18 июля 2024 года. Она стоит значительно меньше полноразмерных моделей и более производительна, чем GPT-3.5. Таким образом, модель стала доступнее для разработчиков, которые хотят с ней повозиться.

Зачем это OpenAI? Выгода проста: низкая цена позволит снизить входной барьер во многие сервисы и приложения, где экономика может не складываться с классической GPT-3.5. Цены на GPT-4o Mini составляют 15 центов за миллион входных токенов (это примерно 2500 страниц текста) и 60 центов за миллион выходных токенов, что делает его более чем на 60% дешевле, чем GPT-3.5 Turbo.

Раньше многие разработчики обращались к Claude 3 Haiku или Gemini 1.5 Flash, прежде чем платить за полноценную версию GPT-3.5. Так что запуск GPT-4o Mini позволит OpenAI не терять деньги и сразу “приручать” пользователей.

GPT-4o Mini набрал 82% на тесте MMLU, который измеряет навыки рассуждения, по сравнению с 77.9% у Gemini Flash и 73.8% у Claude Haiku.
👍105
Media is too big
VIEW IN TELEGRAM
SearchGPT от OpenAI. Наш любимый ИИ-гигант представил пресс-релиз своей поисковой системы на основе ИИ. Что следует из пресс-релиза?
Во-первых, теперь ChatGPT может ходить в интернет и предоставлять актуальную информацию.
Во-вторых, OpenAI будет взаимодействовать с издателями и вставлять ссылки на них в своем поиске. При этом SearchGPT отделен от процесса обучения генеративных моделей ИИ OpenAI, и сайты могут появляться в результатах поиска, даже если они отказались от использования их данных для обучения моделей (скорее всего те, кто дадут инфу для дообучения модели будут повыше в поиске).
В-третьих, с этим поиском можно будет общаться так же, как с ИИ внутри ChatGPT.
Видео прилагается. Будущее рядом. И в нем все меньше места для Google.
🔥14👍52