AI для чайников | Александр Троицкий
1.63K subscribers
37 photos
6 videos
6 files
40 links
Ex- ING (IB), Big4, Lamoda, Oliver Wyman. Занимаюсь разработкой AI-моделей и продуктов. Сюда пишу мысли вечного новичка в AI since 2018.

Автор канала: @troitskii

#machinelearning #datascience #python
Download Telegram
Тестирую библиотеки и и сервисы text-to-speech (TTS).

Библиотеки и сервисы, которые переводят текст в человеческую, не новшество. Они уже 5-6-7 лет довольно популярны, а многие блогеры на ютьюбе используют смешной машинный голос как озвучку для своих роликов. Однако с последним хайпом на ИИ, все больше и больше стартапов получает инвестиции на развитие, соответственно новые сервисы вырастают как грибы после дождя.

Для своего пет-проекта по генерации контента я решил попробовать запустить автоматические релизы подкастов в Apple, Amazon, Spotify, Google Podcasts. Для этого мне пришлось повозиться с разными библиотеками озвучки. Поскольку это не реклама, я буду писать реальные отзывы о них:

1. gTTS - библиотека от Google оказалась среднячком среди всех, что я рассматривал. Потыкав примеры, понял, что все-таки отличить ее от реального голоса вполне легко.

2. Amazon Polly - продукт от AWS. Полный шлак. Именно эту озвучку используют чаще всего, чтобы сделать мемные видео про тупых роботов. Кажется, что последние 5-6 лет компания Джеффа Безоса просто забросила продукт.

3. Conqui-AI неплохо выделяется среди остальных. У них есть открытая библиотека (если хочешь - раскатывай на своем железе), есть своя платформа с API (решают вопросы с железом). Примеры их озвучки - классные.

А еще у этой же группы разработчиков есть проект Bark, который классно озвучивает. Ну и идея у Bark сама по себе классная.

4. Еще классными показались ребята из PlayHT - они дают готовый максимально ванильный API, который может внедрить в свой сервис даже ребенок. Качество генерируемого аудио хорошее. Большой минус - стоит это удовольствие недешево (примерно $40 за 50.000 слов).

В целом, кажется, что IT гиганты забили на этот рынок и не развивают его, поэтому небольшие коллективы и стартапы начали выбиваться вперед. Думаю, что все закончится M&A сделками и поглощениями, а фаундеры AI стартапов смогут хорошо выйти в кеш.
👍3
Зачем Нужно и Как Проводить A/B Тестирование в Data Science

A/B тестирование - это мощный инструмент в арсенале любого специалиста по данным. Это методика, которая позволяет сравнивать две или более версии чего-либо, чтобы определить, какая из них работает лучше. Этот подход используется во многих отраслях, но наиболее активно - в цифровом маркетинге, UX-дизайне и, конечно же, Data Science.

По сути это подход, где вы одновременно выкатываете какой-то процесс или модель на две одинаковые по размеру и разным параметрам группы пользователей (параметры вы выбираете сами).

Зачем Нужно A/B Тестирование?

1. Улучшение Продукта: A/B тестирование позволяет определить, какие функции или изменения приносят наибольшую пользу для пользователей или бизнеса. Веб-сайты, приложения и другие цифровые продукты часто подвергаются A/B тестированию, чтобы определить наилучший дизайн, расположение элементов интерфейса и другие аспекты.

2. Понимание поведения пользователей: A/B тестирование также позволяет получить ценные данные о предпочтениях и поведении пользователей.

3. Увеличение производительности бизнеса: Компании могут использовать A/B тестирование для улучшения ключевых бизнес-показателей, таких как конверсия, отток клиентов или уровень вовлеченности пользователей.

Как Проводить A/B Тестирование?

1. Определение целей: Первым шагом в A/B тестировании является определение цели. Что вы хотите улучшить? Это может быть увеличение конверсии, снижение оттока клиентов, улучшение уровня вовлеченности пользователей и так далее.

2. Формирование гипотез: После того, как цель определена, следующим шагом является формирование гипотезы. Например, если вашей целью является увеличение конверсии, гипотеза может быть такой: "Изменение дизайна кнопки 'Купить' приведет к увеличению конверсии".

3. Создание вариантов для тестирования: Затем вы создаете две или более версии того, что вы хотите протестировать - это и есть ваш A/B тест. Один вариант (A) обычно является текущим или "контрольным" вариантом, в то время как другой (B) - это "тестовый" вариант, в котором внесены изменения.

4. Тестирование и сбор данных: После этого вы проводите тест, предоставляя разные варианты случайным группам пользователей и собирая данные о их поведении.

5. Анализ результатов: Наконец, вы анализируете полученные данные, чтобы увидеть, какой вариант показал себя лучше. Выполняются статистические тесты, чтобы определить, являются ли различия статистически значимыми.

6. Реализация результатов: Если тестовый вариант показал себя лучше и результаты статистически значимы, то изменения могут быть внедрены в продукт.

Важно помнить, что A/B тестирование - это итеративный процесс. Результаты одного теста могут привести к новым гипотезам и новым тестам. Также необходимо учитывать, что успешное проведение A/B тестирования требует достаточного количества пользователей для получения достоверных результатов.
Важно помнить, что A/B тестирование - это итеративный процесс. Результаты одного теста могут привести к новым гипотезам и новым тестам. Также необходимо учитывать, что успешное проведение A/B тестирования требует достаточного количества пользователей для получения достоверных результатов.
👍5
gRPC - это современная, высокоэффективная, открытая и универсальная технология удаленного вызова процедур (RPC), разработанная компанией Google.

Простыми словами, gRPC позволяет одному приложению "звонить" и использовать функции другого приложения, даже если эти приложения находятся на разных машинах или написаны на разных языках программирования.

Вот несколько ключевых особенностей gRPC:

1. Протокол Buffers (ProtoBuf): gRPC использует ProtoBuf в качестве языка определения интерфейса (IDL). Это бинарный формат сериализации данных, который обеспечивает компактные и эффективные сообщения.

2. Поддержка множества языков: gRPC поддерживает множество языков программирования, включая, но не ограничиваясь, C++, Java, Python, Go, Ruby и другими.

3. Поддержка потоков: gRPC поддерживает одновременную передачу нескольких потоков данных.

4. Поддержка множества платформ: gRPC можно использовать на разных платформах, включая мобильные устройства, облачные серверы и многое другое.

5. Современные стандарты безопасности: gRPC включает в себя современные методы аутентификации, авторизации и шифрования.

Коротко говоря, gRPC - это инструмент для создания масштабируемых, высокопроизводительных API, особенно полезный в микросервисных архитектурах или когда вы хотите, чтобы разные части вашего приложения взаимодействовали между собой на разных языках или платформах.
3👍2
Недавно я запустил новый проект telegpt.tech. Это платформа для автоматического создания контента для владельцев телеграм каналов на базе ChatGPT. Вы просто создаете медиа план (о чем надо написать), и нейросеть пишет пост в вашем канале в указанный день на указанную тему.

Сервис абсолютно бесплатный. Сейчас я приглашаю первых пользователей его опробовать. Окажитесь в числе этих людей и расскажите мне как вам этот сервис.
🔥6👍4👌1
Hugging Face: Искусственный интеллект для всех

Hugging Face – это платформа и сообщество для глубокого обучения, занимающаяся исследованием и разработкой в области искусственного интеллекта. Она была основана в 2016 году и с тех пор приобрела огромную популярность среди исследователей, инженеров и энтузиастов ИИ.

1. Модели и датасеты: Hugging Face предоставляет библиотеки, которые содержат модели на базе трансформеров, такие как BERT, GPT-2, T5 и многие другие. С помощью этих библиотек пользователи могут легко и быстро интегрировать современные ИИ-модели в свои приложения.

2. Обучение и настройка: Помимо доступа к предобученным моделям, пользователи могут дообучать их на своих датасетах или использовать доступные в репозитории датасеты для настройки моделей под свои задачи.

3. Сообщество: Одним из ключевых преимуществ Hugging Face является активное и растущее сообщество. Многие исследователи и разработчики делятся своими моделями и достижениями, что способствует коллективному прогрессу в области NLP.

4. Доступность: Hugging Face активно работает над тем, чтобы сделать ИИ доступным для всех. Благодаря интуитивно понятным инструментам и ресурсам, даже новички могут начать работу с передовыми технологиями.

5. Платформа предоставляет встроенные GPU мощности, чтобы пользователи могли быстро импортировать модели и пользоваться ими. Кроме того, есть возможность копировать готовый код в свой Google Collab - это очень удобно.

Hugging Face играет ключевую роль в демократизации искусственного интеллекта. Их платформа и инструменты облегчают процесс интеграции передовых NLP-технологий в разнообразные приложения и услуги. С постоянно растущим сообществом и богатым набором ресурсов, Hugging Face продолжает вдохновлять исследователей и разработчиков по всему миру.
👍41
OpenAI провел конференцию в стиле Apple времен Стива Джобса. На конференции представили новые продукты. Подсвечу самые основные моменты:

1. GPT-4 Turbo обладает контекстом в 128к токенов,
до этого она могла написать только 8к, увеличение в 16 раз за полгода-год. При этом снизили цену в 3 раза за входящие ($0.01/1к) в модель токены и в 2 раза за полученные ($0.01/1к).
2. Модели знают все события до апреля 2023 года, раньше пользователи жаловались, что ChatGPT "не поспевает за миром" и ему были доступны данные до 2021 года. Не сомневаюсь, что скоро чатбот будет обновляться каждый день и будет знать все актуальные новости.
3. GPT-3.5 Turbo стал стоить копейки: $0.001/1K за входящие в него данные и $0.002/1K за исходящие.
4. ИИ-ассистент: API бета-версия искусственного интеллекта, который будет делать разные вещи исходя из ваших просьба. В тексте сообщения от OpenAI приведены примеры планирования отпуска, контроля музыки, дизайна коротких презентаций.
5. В API GPT-4 теперь можно отправлять фотографии, что позволяет по-новому играться с контекстом разговора.
6. Теперь можно проводить быстрый файнтюн всех моделей, делать их кастомизированными без написания кода на данных, доступных внутри песочницы OpenAI. Это значит, что теперь каждый человек может создать свою версию ИИ и быстро ее запустить в интернет.

В целом, размах и скорость движения стартапа под покровительством Microsoft действительно впечатляет. Еще год назад модели с контекстом 128к казались чем-то безумным, но вот они уже с нами.

Вишенкой на торте идет выручка OpenAI, которая составит $1.2 млрд по оценкам ее топ-менеджмента. Ранее из-за падения активности аудитории, аналитики прогнозировали выручку за 2023 на уровне в $200 млн, то есть в 6 раз меньше. Напомню, что за весь прошлый год OpenAI заработала всего $28 млн.

Кажется, Билл Гейтс выигрывает одну из самых больших игр в современной истории предпринимательства.
👍5🔥3
ИИ маркетплейсы - будущее?

Сейчас рынок ИИ-маркетплейсов выглядит самодельно и колхозно. Самая большая платформа сейчас, отдаленно напоминающая МП для ИИ - народная hugging face, которая просто продает чужую инфру с небольшой комиссией, а люди свободно выкладывают свои модели без модерации на Google Colab. Модели комиссии тут нету, получается эдакий народный рейтинг моделей.

OpenAI еще в начале года озвучивал планы о создании маркетплейса для моделей искусственного интеллекта. Эта идея всем очень нравится. Вы предоставляете вычислительные мощности для создателей ИИ и инфраструктуру, а умельцы из небольших команд тренируют модели на своих уникальных данных и потом получают деньги за их использование через единую платформу. То есть OpenAI больше не надо будет гоняться за данными - надо будет гоняться за командами с идеями и данными и предоставлять им рынок сбыта.

Именно поэтому Сэм Альтман хотел открыть собственное производство чипов для ИИ и даже продал сам себе чипов на 51 млн баксов, чем и разозлил совет директоров.

В России такого пока что нету, да и мало кто может себе позволить сделать свой маркетплейс - для этого нужно много железа и инженеров.
👍53😁2
Довольно занятная табличка из исследования McKinsey о развитии ИИ. Вроде ничего особенного, но наводит на правильные мысли.
4🔥3🥰1
GPT Store.

Около месяца назад OpenAI представил свой маркеплейс искусственного интеллекта. Я потестил его и могу немного рассказать что там происходит.

1. Каждый юзер может создать свою версию ИИ от OpenAI и опубликовать ее на маркетплейсе. Для этого вы пишете инструкцию своими словами что должен делать ИИ. Получается реально круто. Какие кейсы я уже попробовал сделать и получилось:

- Загрузил резюме 20 кандидатов и попросил ИИ найти самого лучшего из них на позицию Х в компании У
- Загрузил туда книги кулинарных рецептов и на их основе просил дать мне рецепты по готовке
- Загрузил большие таблицы Excel (200к строк) с данными о телеграмм каналах и просил найти самый релевантный канал для рекламы

2. Другие пользователи могут использовать вашу версию ИИ. Пока что за использование не платят, но обещают, что в 1 квартале 2024 такой функционал появится.
3. Есть рейтинг ИИ по использованию. Если твой ИИ часто используют, то он показывается в топе на маркетплейсе.

В целом, это разъёб. Кейсов применения такого - миллион. Уже сейчас все айти продукты должны начинать думать в разрезе того, как и на чем обучить ИИ и как его встроить в себя.

Это просто. Это быстро. Это потрясающе.
👍74🤡1💘1
Выше делился тем, как выглядит создание своего GPT. Вот как выглядит сам магазин.
5🔥5❤‍🔥1
Давно удивляюсь блоку Careers на сайте OpenAI. Там практически нету классических менеджерских вакансий - только очень много подвидов инженеров и разработчиков. Вот короткий список команд внутри крупнейшего разработчика ИИ в мире:

Algorithms, Alignment, Applied AI, Applied AI Engineering, Applied AI Product, Engineering, Human Data, Language, Platform, Post Training, Preparedness, Reinforcement Learning, Research Acceleration, Research, Engineering, Product

Совсем не выглядит как структура типичной IT компании. Также забавно, что за некоторыми более понятными названиями вроде "Applied AI product" или "Security" все равно стоят вакансии инженеров и дата саентистов.

Это очередной раз подтверждает мою идею, что в будущее пустят только людей, способных работать с большими данными и делать что-то руками. Зачастую отдать принятие решения аналитику или инженеру, разбирающему в сути вещей, гораздо лучше, чем менеджеру или продакту, чей максимум - это сводная таблица в экселе. #мысливслух
👾42🔥2🤔1🖕1💘1
Какое-то время назад писал про разные tts сервисы (text-to-speech). Тогда (в июле 2023 года) я остановил свое внимание на сервисе PlayHT (не реклама): качество было на порядок лучше всех остальных, а цена хоть и кусалась, но была более-менее приемлемой.

Недавно я решил масштабировать свой проект генерации подкастов - метрики подписчиков и прослушиваний показывали хорошие результаты. Посмотрел PlayHT - а там цены при масштабировании кусаются. По факту озвучка одной серии подкаста на 3-5 минут стоит около 2$. Я решил посмотрел произошли ли какие-то изменения за эти полгода среди других сервисов.

К моему удивлению, OpenAI выкатили новую версию своего tts, которая стоит в десятки раз дешевле PlayHT со сравнимым качеством!

Как же получается, что OpenAI настолько дешевле? Секрет кроется в инфраструктуре. Оказывается, PlayHT хоть и создает инновационные продукты, но делает это на дорогущей инфраструктуре AWS, а OpenAI всё делают на своей инфре. Более того, в эффективность инфраструкры вычислений для ИИ компания хочет потратить баснословные 7 триллионов долларов (2 капитализации Apple).

Кажется, что в алгоритмы все наигрались и всем всё доказали. Львиная часть расходов в будущем ИИ лежит в железе и данных, а не магических питоновских билиотеках.
🔥52
OpenAI пару часов назад анонсировал новую модель Sora, которая переводит текст в видео (text-to-video).

Что известно из пресс-релиза:
1. Sora может генерировать видео продолжительностью до минуты.
2. Пока что модель доступна только избранным пользователям OpenAI, которые как-то связаны с видео продакшеном.
3. У модели есть огрехи: она не понимает как должна двигаться камера, даже если написать это в промпте, а также ей сложно создавать сцены со сложной физикой (много предметов летят в разные стороны с какой-то логикой).
4. Внутри сидит модель diffusion transformer.

Ну и конечно примеры прилагаются.
👍83
Новая нейросетка Stable Carcade. Быстро набирающий популятность репозиторий на гитхабе новой нейросетки от Stability AI (одна из трех самых заметных компаний-разработчиков text-to-image сервисов) дает понять, что не одним Midjourney единым.

Пока разработчики Midjourney так и не удосужились сделать API и только пытаются переехать из Discord на собственный сайт, ребята из Stability AI выкатили нейросетку, которая, кажется, превосходит их коллег по цеху.

Новая нейронка Stable Cascade выглядит многообещающе:

1. Stable Cascade использует архитектуру Würstchen, которая работает в значительно меньшем латентном пространстве по сравнению с предыдущими моделями, такими как Stable Diffusion. Это означает в первую очередь сниженные затраты на обучение. Благодаря компрессии изображений до размера 24x24 (с фактором сжатия 42), модель достигает 16-кратного снижения стоимости обучения по сравнению с Stable Diffusion 1.5.

2. Нейронка поддерживает все известные расширения, такие как LoRA (предназначена для тонкой настройки предобученных моделей нейронных сетей без необходимости обучать все параметры модели заново), ControlNet (позволяет ИИ понимать характеристики картинки, такие как стиль, композиция или даже идентичность лица).

3. Модульная структура: Модель состоит из трех этапов (A, B и C), что позволяет добиться высокой степени компрессии и эффективности генерации изображений.

4. Доступные варианты: Предоставляются две версии для этапа C (с 1 миллиардом и 3.6 миллиардами параметров) и две версии для этапа B (с 700 миллионами и 1.5 миллиардами параметров), а также одна версия для этапа A с 20 миллионами параметров.
4🔥2
Data Science for dummies.xlsx
29.7 KB
Я вас слышу и слушаю. Дальше будем больше про метрики и то, как они применяются. Перед этим предлагаю закрепить предыдущий материал (а вновь прибывшим его изучить с начала) и пробежаться по эксельке с моими объяснениям по самым базовым метрикам.

Классификация:
Precision, Recall.
F-score
ROC-AUC.
Мультиклассовые recall, precision, F1

Регрессия:
MSE, RMSE, MAR, R-квадрат
MAPE, SMAPE

NLP:
Расстояние Левенштейна

Продуктовые метрики:
Sharpe ratio - метрика инвест портфелей