AI Happens
14.4K subscribers
80 photos
9 videos
192 links
Привет! Я Леша Хахунов, основатель Dbrain.io, и это мой канал про искусственный интеллект. По всем вопросам @Ahahun (рекламы нет)
Download Telegram
Хочется попробовать предсказать будущее; Чтобы понять, что будет с ИИ в ближайшие годы, давайте взглянем на ожидаемые тенденции:

- От GPT-3 к GPT-4, а потом к GPT-5. Это как переход от лошадиной тяги к автомобилю, а затем к беспилотникам (которые, к слову, ещё не стали повседневной реальностью). То есть должны быть действительно качественный переход, а не просто быстрее разгон или меньше расход;
- Вот как выглядят модели в цифрах (весах): GPT-3 имеет 0,18 триллиона параметров, GPT-4 — около 1,7 триллиона, а у GPT-5, скорее всего ждем, будет порядок 15 триллионов.
- Интересный момент: последние чипы от NVIDIA рассчитаны на модели с 27 триллионами параметров, что в точку соответствует нашим прогнозам.

Соответственно, я не верю в слухи о том, что модели следующего поколения выйдут в 2024 году, новые "патчи" - да, кардинально переходы - нет. Но готов поспорить, что увидим их в 2025. Еще раз - с качественным переходов пользовательского опыта.

А ещё вот вам интересный факт: крутое интервью с Сэмом Альтманом, которого я считаю ключевой фигурой в мире технологий, за два дня посмотрели всего миллион человек. И это при том, что интервью на английском. Странно, правда?
(линк интервью)
@aihappens
Media is too big
VIEW IN TELEGRAM
Классный блог-пост про модель Sora.
https://openai.com/blog/sora-first-impressions

Лучшим (по мнению компании OpenAI) художникам предоставили ранний доступ к модели, чтобы получить обратную связь о ее работе, и знаете, какой основной был фидбек?

"ААААА, ОНА УБЬЕТ НАШУ РАБОТУ!!!"... Нет.

Working with Sora is the first time I’ve felt unchained as a filmmaker,” he states. “Not restricted by time, money, other people’s permission, I can ideate and experiment in bold and exciting ways.”

Генеративные модели расширяют возможности профессий, снимают ресурсные ограничения и бесконечно усиливают тех, кто проявляет к ним любопытство.

@aihappens
миджорни перестанет быть доступным только через дискорд (с которым у всех было кууууууча проблем). Ну и наконец мне куда-то прислали early access!

Еще чуть-чуть и дадут промпты писать на человеческом языке, а не по их сложным шаблонам.
Почти год лидером среди открытых решений для распознавания речи был Whisper от OpenAI. Но теперь пальму первенства среди API сервисов перехватила новая модель Universal-1 от AssemblyAI.

(я постестил на длинном звонке - работает правда хорошо. Можно 100 часов бесплатно потестить)

Universal-1 превосходит Whisper и другие коммерческие решения по нескольким ключевым параметрам:

Качество: на 10% и более точнее распознает речь на английском, испанском и немецком языках в сравнении с лучшими протестированными аналогами. При этом генерирует на 30% меньше некорректных вставок слов (так называемых "галлюцинаций") на обычной речи и на 90% - на фоновых шумах.

Скорость: в 5 раз быстрее благодаря оптимизации архитектуры и распараллеливанию инференса. Теперь 1 час аудио обрабатывается всего за 38 секунд на одном GPU.

Многоязычность: умеет распознавать речь сразу на нескольких языках в рамках одного аудиофайла (code switching).

В 71% случаев пользователи предпочитают транскрипции Universal-1 по сравнению с предыдущей моделью Conformer-2.

Новая версия Universal-1 уже доступна клиентам AssemblyAI через API. Похоже, лидерство в гонке решений для speech-to-text переходит от открытого Whisper к проприетарному Universal-1.

Учитывая такой технологический рывок, теперь AssemblyAI может составить серьезную конкуренцию гигантам вроде OpenAo, Google, Amazon и Microsoft на быстрорастущем рынке Speech AI.

@aihappens
Год я исследую вопрос - как научить людей пользоваться GPT моделями (тут остались те, кто считает это бесполезным навыком?). Главный вывод такой:
Нужно не давать сложные промпты, замороченные примеры дообучения опенсорс моделей или информацию о том, как работает векторный поиск, а нужно закрыть для человека базовые проблемы: доступы, простые бытовые примеры, азы того, как это устроено, и познакомить со всеми функциями внутри (со всеми не знаком, мне кажется, никто). Казалось бы - если это дать, то точно все получится! Но ни-хре-на. Часто, чтобы учиться и меняться нам еще нужны другие люди :)

Из этого концепта появился gconf.io - интенсив, где ты изучаешь все про GPT вместе с хорошими людьми (еще есть много инфы тут @gptlovers). Мы его придумали с Олей Маркес и Димой Мацкевичем, где они помогают сдерживать мою гиковость, за что я им очень благодарен.
Мы провели этот формат в прошлом году, и отзывы были супер. В этом году мы часть вещей поменяли - контент записан сразу, и на звонках только обсуждаете и решаете задачи. Появились мини-клубы:

·помогающие профессии
·контент
·автоматизация личных дел
·про детей, семья
·как найти партнера

Которые проводим даже не мы, а приглашенные фасилитаторы и участники с прошлой конференции.
В общем, сообщество и формат меняются, и туда еще можно запрыгнуть. Ближайший интенсив начинается 15 апреля, будем тебя ждать на нем.

@aihappens
ну и еще (не пропустите пост выше) - дядюшка Сэм был на втором месте лучших моделей меньше недели. Новая модель OpenAI снова в топ "человеческого" лидерборда. Смотреть тут. Я думаю у них в загашнике есть модели и покруче текущей. И кстати - теперь дата обновления знаний конец 2023 (был апрель).

@aihappens
Audio
Тестируем разные форматы с @Matskevich. Подкасты сложно делать, долго монтировать. Новый формат! Записали два видео про разборы кейсов с GPТ, держите первое. В нем мы обсуждаем и смотрим кейсы из инсты + рассказываю как работает suno и мы генерим бомбический трек (он будет ниже, послушайте!).

@aihappens
В чём проблема с добавлением новых данных в GPT-модели?
Возможно, вы заметили, что с каждым обновлением продвигается дата "knowledge cutoff" — момента, до которого модели знают, что происходило в мире.

Какова же проблема? На самом деле, существует два этапа при обучении моделей:

1) Создатели собирают всевозможные данные из интернета, тратя сотни миллионов на обучение модели.
2) Создатели собирают основные новости по разным направлениям и делают дообучение модели.

ChatGPT Knowledge Cutoff — 12/23, Opus — 8/23.

Какие последние версии библиотеки python-telegram-bot знают сети:
GPT-4 — 13.12 (выпущено 2022-05-26), Opus — 20.3 (выпущено 2023-05-07).

Версии библиотек — это самый простой пример, хотя OpenAI и GitHub, находясь в одной компании, могли бы постараться сделать больше! Если вы погрузитесь глубже в любые вещи за пределами новостей, ситуация будет такой же. Статьи, мемы в интернете и т.д.

Проблема здесь в том, что собирать массу новой информации и делать incremental learning на текущий момент почти нереально, насколько я знаю - технически эта задача не решена, а это на самом деле достаточно сильно ограничивает области применения моделей, особенно в написании кода и в индустриях, где все меняется очень быстро (условный маркетинг в интернете, где хуки, работающие год назад, становятся совершенно не актуальны). Такие дела.

@aihappens
Смешная история!

GPT очень любит слово "delve" (англ. "копаться") в текстах. Это слово стало встречаться в десять раз чаще во многих публикациях, включая медицинские. (см твиты)

Причиной этого стало его большое распространение в англоязычных странах Африки, где работает большинство разметчиков моделей GPT.

Вот так культурный контекст переносится через океаны и континенты.
@aihappens
Как я историю чата обрабатывал с помощью GPT моделей с шокирующим результатом! (детям не смотреть).

Дано:
Чат, где сейлз команда задает вопросы тех команды.
Total Messages: 3848
Total Characters: 417353
Русский язык.
Хотим получить FAQ - самые частые вопросы и ответы, чтобы добавить их в документацию.

Число токенов в начальном запросе около 450к, в общедоступные модели нормально не впихуивается. Что делаем?

шаг 1 - вычищаем json выгрузку из тг от всего кроме Отправитель:Сообщение и конвертим данные в txt формат с помощью GPT4.
шаг 2 - открываем google translate и пихаем туда файл для автоперевода

на этом этапе вместо 450к токенов получаем около 100к токенов, значит уже влезают в большинство моделей.

шаг 3 - берем в Poe Claude 200k и пихаем туда файл с задачей собрать FAQ на основе переписки.
шаг 4 - радуемся!

ни-хе-ра....Opus обрабатывает данный супер криво. Очевидно, что проблема неравномерного внимания к началу\концу относительно середины встала во весь рост. Ну ладно, у нас же Poe в руках, давай пихнем этот же запрос в Gpt4-128k. ВУАЛЯ!


СНОВА ВСЕ ПЛОХО!
шаг 5 - удаляем все GPT модели, нанимаем аналитика, пусть руками разбирает все.

ладно, случайно по рекомендации Poe жмем кнопку повторить запрос в Gemini-1.5-Pro-128k, модель от Google в которую веры 0. И бинго! Она делает классную структуру, читает явно все, и сама даже делает красивую разметку ответа на FAQ. А мы в них не верили.

@aihappens
💜 шанс повидаться и поговорить про GPT

запланировали сделать лекцию вместе с бизнес-медиа Справочной. Пройдёт 14 мая ака завтра в 17:00мск (16:00 CET), зарегистрироваться можно в боте. На лекции посмотрим на практические кейсы из моей жизни. Приходите, буду рад вас видеть.
Сегодня была весенняя презентация OpenAI.

Я поначалу думал стримить сюда все, что там происходит, но решил, что это все же слишком для гиков и лучше соберу для вас главное. А рассказать есть о чем:

Первое и самое главное для многих - новая модель GPT4o будет доступна без регистрации и бесплатно.

Второе - новая модель по сути очень близка к привычному нам человеку. Видит, слышит, реагирует быстро, отвечает голосом и даже с эмоциями! (Пока не очень понятно, как на языках, отличных от английского, посмотрим).

Третье - приложение для вашего ПК, куда вы можете стримить части своего экрана и говорить с ассистентом о своих вопросах прямо в реальном времени, как с человеком.

Последнее - все это доступно через API, дешевле, быстрее, ну и вот это вот. Вы поняли.

Когда все это ждать у себя? Да хер его знает. Обещают через 2 недели, но я думаю, что снова будет постепенно и не для всех.


фул видео
фул статья

@aihappens
Forwarded from Denis Sexy IT 🤖
Примеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность
Вчера прошла презентация Apple, на которой рассказывали о том, как большинство людей будут использовать AI (любая другая аудитория любых GPT моделей меньше количества активных iPhone). На 2024 год в мире насчитывается около 1,334 миллиарда активных пользователей iPhone.

Обзор всех "фич" можно почитать, например, тут: [vc.ru]. По моему субъективному мнению, ключевых две:
1. Siri теперь стучится в ChatGPT для решения вопросов. Отправлять туда будет не только текст, но и картинки, и, предполагаю, видео. Вроде будет уточнять, ок ли тебе это.
2. Запили свою модель, которая будет работать на девайсе с данными без интернета.

Теперь мысли:

1. Вообще не ясно, как неконкуренция относительно Apple - OpenAI будет работать. Если даже 100 миллионов человек начнет пользоваться моделью GPT-4о и Apple видит вход-выход, то обучить свою станет очень просто.
2. Мне с этими моделями, видимо, павербанк лучше сразу не вынимать? Новый iPhone 15 Pro умирает у меня ровно за сутки. Если даже на М процессорах сетки, например, в камерах убивают аккумулятор, то что будет с кучей фоновой работы, я боюсь представить.
3. Что будет с Siri, которая распознает голос? Их старые модели? Если да, то с английским будет все ок, а с другими может быть не очень.

Отдельно хочу сказать про "вой", что Apple украдет ваши данные. Мне кажется это а) глупо, б) популистски. Почему я так считаю:
1. А кто вообще лучше Apple защищает ваши данные из крупных игроков? Вы давно пробовали покупать таргет рекламу? Там Apple отдает наружу ровно ни-ху-я, как говорит Тиньков. Все действительно у вас на устройстве и зашифровано.
2. Также там был интересный блок про Private Cloud Compute. О чем это вообще? Это говорит, что с вашего устройства в облако (не в OpenAI) Apple будет уходить кусок данных, обрабатываться и сразу после удаляться. Давно ждал, когда такие вещи начнут использовать крупные игроки.

@aihappens
Я смотрел интервью Лекса у команды Neuralink. Оно короткое — всем советую, я успел, правда, пока только 4,5 часа посмотреть. Пока слушал их рассказ, вспомнил, что давно хотел написать пост на тему “ думания из первых принципов”.

Думать из "первых принципов" (first principles) означает:

1) Разбивать сложные проблемы на базовые, фундаментальные элементы.
2) Отбрасывать предположения и общепринятые идеи.
3) Анализировать ситуацию с нуля, опираясь только на неоспоримые факты.
4) Создавать новые решения на основе этого фундаментального понимания.
Давайте на примере — вы проект-менеджер в компании. У вас есть процесс — ежедневные звонки с командой. Догматичный подход: всем командам надо созваниваться каждый день, иначе всё сломается, и телега никуда не поедет.

В варианте думать и понимать, зачем вообще это было нужно. Какую проблему для нас решает синк? Это может быть про эмоциональный контакт с командой? Может, мы не умеем писать документацию, и поэтому говорить нам проще? Или, может быть, наш проект-менеджер хочет маниакально контролировать всё, и когда есть звонки, он спит лучше? Разобравшись с этим, можно понять, как мы можем поменять синк или создать что-то вообще заместо него. Но чаще я вижу, как люди строят процессы из состояния — ну, так правильно, я видел, так делали (или в книжке так писали).

Раз наш канал про ИИ, то вот как можно использовать GPT, чтобы думать из первых принципов. Рассуждая на тему того, куда поставить в комнате батарею — на полу или на потолке, вы можете начать думать, не ради ли дизайна её ставят снизу. Тут вас и спасет GPT — задайте вопрос: “А почему это было сделано так?”. Маск где-то точно говорит, что “только физика — это ограничение (точнее даже закон)”. Батарея снизу — потому что холод в комнате снизу, а тепло сверху.

И мне кажется, что на этом подходе стартапы выигрывают у корпораций, переизобретая из первых принципов привычные вещи вокруг. Будь то телефон, заказ такси или нейроимпланты в мозг. Надеюсь когда-то переизобретут и государство.

А что вам кажется, что пора перепридумать и как?
@aihappens