AI Happens
14.4K subscribers
80 photos
9 videos
192 links
Привет! Я Леша Хахунов, основатель Dbrain.io, и это мой канал про искусственный интеллект. По всем вопросам @Ahahun (рекламы нет)
Download Telegram
Ян Лекун шарит:

Язык имеет низкую пропускную способность: менее 12 байт/сек. Человек может прочитать 270 слов/минут или 4,5 слова/секунду, что составляет 12 байт/с (предполагая 2 байта за токен и 0,75 слов за токен). Современный LLM обычно тренируется с двухбайтовыми токенами 1x10 ^13, что составляет 2x10 ^13 байт. Это займет около 100 000 лет для чтения (по 12 часов в день).

Зрение гораздо выше пропускная способность: около 20 МБ/с. Каждый из двух оптических нервов имеет 1 миллион нервных волокон, каждый несет около 10 байт в секунду. 4-летний ребенок не спит в общей сложности 16 000 часов, что означает 1х10 ^15 байт.

Другими словами:
- Пропускная способность данных визуального восприятия примерно в 16 млн раз превышает пропускную способность данных письменного (или разговорного) языка.
- Всего за 4 года ребенок увидел в 50 раз больше данных, чем самые крупные LLM, обучаемые по всему тексту, доступному в интернете.

Это говорит нам о трех вещах:
1. Да, текст излишен, а визуальные сигналы в оптических нервах еще лишнее (не смотря на 100-кратные сжатые версии выходов фоторецептора в сетчатке). Но избыточность данных — это *точно* то, что нам нужно для Самоконтрольного Обучения для улавливания структуры данных. Чем больше избыточности, тем лучше для SSL.
2. Большая часть знаний человека (и почти все знания животных) исходит из нашего сенсорного опыта физического мира. Язык - это вишенка на торте. Нам нужен торт для поддержки глазури.
3. Нет *абсолютно ни за что* мы никогда не достигнем ИИ на человеческом уровне без того, чтобы машины обучались на сенсорных входов с высокой пропускной способностью, таких как зрение.

Да, люди могут умнее без зрения, даже довольно умнее без видения и прослушивания. Но не без прикосновения. Прикосновение тоже довольно высокая пропускная способность.


@aihappens
Хочется попробовать предсказать будущее; Чтобы понять, что будет с ИИ в ближайшие годы, давайте взглянем на ожидаемые тенденции:

- От GPT-3 к GPT-4, а потом к GPT-5. Это как переход от лошадиной тяги к автомобилю, а затем к беспилотникам (которые, к слову, ещё не стали повседневной реальностью). То есть должны быть действительно качественный переход, а не просто быстрее разгон или меньше расход;
- Вот как выглядят модели в цифрах (весах): GPT-3 имеет 0,18 триллиона параметров, GPT-4 — около 1,7 триллиона, а у GPT-5, скорее всего ждем, будет порядок 15 триллионов.
- Интересный момент: последние чипы от NVIDIA рассчитаны на модели с 27 триллионами параметров, что в точку соответствует нашим прогнозам.

Соответственно, я не верю в слухи о том, что модели следующего поколения выйдут в 2024 году, новые "патчи" - да, кардинально переходы - нет. Но готов поспорить, что увидим их в 2025. Еще раз - с качественным переходов пользовательского опыта.

А ещё вот вам интересный факт: крутое интервью с Сэмом Альтманом, которого я считаю ключевой фигурой в мире технологий, за два дня посмотрели всего миллион человек. И это при том, что интервью на английском. Странно, правда?
(линк интервью)
@aihappens
Media is too big
VIEW IN TELEGRAM
Классный блог-пост про модель Sora.
https://openai.com/blog/sora-first-impressions

Лучшим (по мнению компании OpenAI) художникам предоставили ранний доступ к модели, чтобы получить обратную связь о ее работе, и знаете, какой основной был фидбек?

"ААААА, ОНА УБЬЕТ НАШУ РАБОТУ!!!"... Нет.

Working with Sora is the first time I’ve felt unchained as a filmmaker,” he states. “Not restricted by time, money, other people’s permission, I can ideate and experiment in bold and exciting ways.”

Генеративные модели расширяют возможности профессий, снимают ресурсные ограничения и бесконечно усиливают тех, кто проявляет к ним любопытство.

@aihappens
миджорни перестанет быть доступным только через дискорд (с которым у всех было кууууууча проблем). Ну и наконец мне куда-то прислали early access!

Еще чуть-чуть и дадут промпты писать на человеческом языке, а не по их сложным шаблонам.
Почти год лидером среди открытых решений для распознавания речи был Whisper от OpenAI. Но теперь пальму первенства среди API сервисов перехватила новая модель Universal-1 от AssemblyAI.

(я постестил на длинном звонке - работает правда хорошо. Можно 100 часов бесплатно потестить)

Universal-1 превосходит Whisper и другие коммерческие решения по нескольким ключевым параметрам:

Качество: на 10% и более точнее распознает речь на английском, испанском и немецком языках в сравнении с лучшими протестированными аналогами. При этом генерирует на 30% меньше некорректных вставок слов (так называемых "галлюцинаций") на обычной речи и на 90% - на фоновых шумах.

Скорость: в 5 раз быстрее благодаря оптимизации архитектуры и распараллеливанию инференса. Теперь 1 час аудио обрабатывается всего за 38 секунд на одном GPU.

Многоязычность: умеет распознавать речь сразу на нескольких языках в рамках одного аудиофайла (code switching).

В 71% случаев пользователи предпочитают транскрипции Universal-1 по сравнению с предыдущей моделью Conformer-2.

Новая версия Universal-1 уже доступна клиентам AssemblyAI через API. Похоже, лидерство в гонке решений для speech-to-text переходит от открытого Whisper к проприетарному Universal-1.

Учитывая такой технологический рывок, теперь AssemblyAI может составить серьезную конкуренцию гигантам вроде OpenAo, Google, Amazon и Microsoft на быстрорастущем рынке Speech AI.

@aihappens
Год я исследую вопрос - как научить людей пользоваться GPT моделями (тут остались те, кто считает это бесполезным навыком?). Главный вывод такой:
Нужно не давать сложные промпты, замороченные примеры дообучения опенсорс моделей или информацию о том, как работает векторный поиск, а нужно закрыть для человека базовые проблемы: доступы, простые бытовые примеры, азы того, как это устроено, и познакомить со всеми функциями внутри (со всеми не знаком, мне кажется, никто). Казалось бы - если это дать, то точно все получится! Но ни-хре-на. Часто, чтобы учиться и меняться нам еще нужны другие люди :)

Из этого концепта появился gconf.io - интенсив, где ты изучаешь все про GPT вместе с хорошими людьми (еще есть много инфы тут @gptlovers). Мы его придумали с Олей Маркес и Димой Мацкевичем, где они помогают сдерживать мою гиковость, за что я им очень благодарен.
Мы провели этот формат в прошлом году, и отзывы были супер. В этом году мы часть вещей поменяли - контент записан сразу, и на звонках только обсуждаете и решаете задачи. Появились мини-клубы:

·помогающие профессии
·контент
·автоматизация личных дел
·про детей, семья
·как найти партнера

Которые проводим даже не мы, а приглашенные фасилитаторы и участники с прошлой конференции.
В общем, сообщество и формат меняются, и туда еще можно запрыгнуть. Ближайший интенсив начинается 15 апреля, будем тебя ждать на нем.

@aihappens
ну и еще (не пропустите пост выше) - дядюшка Сэм был на втором месте лучших моделей меньше недели. Новая модель OpenAI снова в топ "человеческого" лидерборда. Смотреть тут. Я думаю у них в загашнике есть модели и покруче текущей. И кстати - теперь дата обновления знаний конец 2023 (был апрель).

@aihappens
Audio
Тестируем разные форматы с @Matskevich. Подкасты сложно делать, долго монтировать. Новый формат! Записали два видео про разборы кейсов с GPТ, держите первое. В нем мы обсуждаем и смотрим кейсы из инсты + рассказываю как работает suno и мы генерим бомбический трек (он будет ниже, послушайте!).

@aihappens
В чём проблема с добавлением новых данных в GPT-модели?
Возможно, вы заметили, что с каждым обновлением продвигается дата "knowledge cutoff" — момента, до которого модели знают, что происходило в мире.

Какова же проблема? На самом деле, существует два этапа при обучении моделей:

1) Создатели собирают всевозможные данные из интернета, тратя сотни миллионов на обучение модели.
2) Создатели собирают основные новости по разным направлениям и делают дообучение модели.

ChatGPT Knowledge Cutoff — 12/23, Opus — 8/23.

Какие последние версии библиотеки python-telegram-bot знают сети:
GPT-4 — 13.12 (выпущено 2022-05-26), Opus — 20.3 (выпущено 2023-05-07).

Версии библиотек — это самый простой пример, хотя OpenAI и GitHub, находясь в одной компании, могли бы постараться сделать больше! Если вы погрузитесь глубже в любые вещи за пределами новостей, ситуация будет такой же. Статьи, мемы в интернете и т.д.

Проблема здесь в том, что собирать массу новой информации и делать incremental learning на текущий момент почти нереально, насколько я знаю - технически эта задача не решена, а это на самом деле достаточно сильно ограничивает области применения моделей, особенно в написании кода и в индустриях, где все меняется очень быстро (условный маркетинг в интернете, где хуки, работающие год назад, становятся совершенно не актуальны). Такие дела.

@aihappens
Смешная история!

GPT очень любит слово "delve" (англ. "копаться") в текстах. Это слово стало встречаться в десять раз чаще во многих публикациях, включая медицинские. (см твиты)

Причиной этого стало его большое распространение в англоязычных странах Африки, где работает большинство разметчиков моделей GPT.

Вот так культурный контекст переносится через океаны и континенты.
@aihappens
Как я историю чата обрабатывал с помощью GPT моделей с шокирующим результатом! (детям не смотреть).

Дано:
Чат, где сейлз команда задает вопросы тех команды.
Total Messages: 3848
Total Characters: 417353
Русский язык.
Хотим получить FAQ - самые частые вопросы и ответы, чтобы добавить их в документацию.

Число токенов в начальном запросе около 450к, в общедоступные модели нормально не впихуивается. Что делаем?

шаг 1 - вычищаем json выгрузку из тг от всего кроме Отправитель:Сообщение и конвертим данные в txt формат с помощью GPT4.
шаг 2 - открываем google translate и пихаем туда файл для автоперевода

на этом этапе вместо 450к токенов получаем около 100к токенов, значит уже влезают в большинство моделей.

шаг 3 - берем в Poe Claude 200k и пихаем туда файл с задачей собрать FAQ на основе переписки.
шаг 4 - радуемся!

ни-хе-ра....Opus обрабатывает данный супер криво. Очевидно, что проблема неравномерного внимания к началу\концу относительно середины встала во весь рост. Ну ладно, у нас же Poe в руках, давай пихнем этот же запрос в Gpt4-128k. ВУАЛЯ!


СНОВА ВСЕ ПЛОХО!
шаг 5 - удаляем все GPT модели, нанимаем аналитика, пусть руками разбирает все.

ладно, случайно по рекомендации Poe жмем кнопку повторить запрос в Gemini-1.5-Pro-128k, модель от Google в которую веры 0. И бинго! Она делает классную структуру, читает явно все, и сама даже делает красивую разметку ответа на FAQ. А мы в них не верили.

@aihappens
💜 шанс повидаться и поговорить про GPT

запланировали сделать лекцию вместе с бизнес-медиа Справочной. Пройдёт 14 мая ака завтра в 17:00мск (16:00 CET), зарегистрироваться можно в боте. На лекции посмотрим на практические кейсы из моей жизни. Приходите, буду рад вас видеть.
Сегодня была весенняя презентация OpenAI.

Я поначалу думал стримить сюда все, что там происходит, но решил, что это все же слишком для гиков и лучше соберу для вас главное. А рассказать есть о чем:

Первое и самое главное для многих - новая модель GPT4o будет доступна без регистрации и бесплатно.

Второе - новая модель по сути очень близка к привычному нам человеку. Видит, слышит, реагирует быстро, отвечает голосом и даже с эмоциями! (Пока не очень понятно, как на языках, отличных от английского, посмотрим).

Третье - приложение для вашего ПК, куда вы можете стримить части своего экрана и говорить с ассистентом о своих вопросах прямо в реальном времени, как с человеком.

Последнее - все это доступно через API, дешевле, быстрее, ну и вот это вот. Вы поняли.

Когда все это ждать у себя? Да хер его знает. Обещают через 2 недели, но я думаю, что снова будет постепенно и не для всех.


фул видео
фул статья

@aihappens
Forwarded from Denis Sexy IT 🤖
Примеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность
Вчера прошла презентация Apple, на которой рассказывали о том, как большинство людей будут использовать AI (любая другая аудитория любых GPT моделей меньше количества активных iPhone). На 2024 год в мире насчитывается около 1,334 миллиарда активных пользователей iPhone.

Обзор всех "фич" можно почитать, например, тут: [vc.ru]. По моему субъективному мнению, ключевых две:
1. Siri теперь стучится в ChatGPT для решения вопросов. Отправлять туда будет не только текст, но и картинки, и, предполагаю, видео. Вроде будет уточнять, ок ли тебе это.
2. Запили свою модель, которая будет работать на девайсе с данными без интернета.

Теперь мысли:

1. Вообще не ясно, как неконкуренция относительно Apple - OpenAI будет работать. Если даже 100 миллионов человек начнет пользоваться моделью GPT-4о и Apple видит вход-выход, то обучить свою станет очень просто.
2. Мне с этими моделями, видимо, павербанк лучше сразу не вынимать? Новый iPhone 15 Pro умирает у меня ровно за сутки. Если даже на М процессорах сетки, например, в камерах убивают аккумулятор, то что будет с кучей фоновой работы, я боюсь представить.
3. Что будет с Siri, которая распознает голос? Их старые модели? Если да, то с английским будет все ок, а с другими может быть не очень.

Отдельно хочу сказать про "вой", что Apple украдет ваши данные. Мне кажется это а) глупо, б) популистски. Почему я так считаю:
1. А кто вообще лучше Apple защищает ваши данные из крупных игроков? Вы давно пробовали покупать таргет рекламу? Там Apple отдает наружу ровно ни-ху-я, как говорит Тиньков. Все действительно у вас на устройстве и зашифровано.
2. Также там был интересный блок про Private Cloud Compute. О чем это вообще? Это говорит, что с вашего устройства в облако (не в OpenAI) Apple будет уходить кусок данных, обрабатываться и сразу после удаляться. Давно ждал, когда такие вещи начнут использовать крупные игроки.

@aihappens