Сиолошная
50.8K subscribers
941 photos
171 videos
1 file
1.12K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Плохие новости для OpenAI и Microsoft Bing

Я обычно не люблю писать такие заголовки, однако повод серьёзный. Google внедрили в своего ассистента Bard интеграцию с большим количеством своих продуктов: Gmail, YouTube (судя по демо — модели доступны транскрипты видео), Google Docs, Drive, Maps, Hotels, Flights и другими менее известными.

Называется это Bard Extensions

Интереснее всего взглянуть на предлагаемые в анонсирующем ролике способы применения:
— суммаризуй все недавние письма от X
— дай мне шаблон для речи шафера и покажи примеры видео для вдохновления
— (добавляет картинку) вот детское кресло, которое я недавно купил, покажи видео с инструкцией по установке в машину
— напомни, когда X предлагал мне Y? (ответ в виде извлекаемых из писем дат. Правда...кто ведет личные переписки в почте?)
— и фоллоу-ап вопрос к прошлому: покажи мне билеты на эти даты и близлежащие отели (подразумевается ответ с учётом предыдущего контекста)
— и ещё составь план на каждый день и расскажи, что собрать с собой

В целом, кажется ничего сильно продвинутого относительно GPT-4 с доступом к плагину поиска в интернете. Вопрос в том, насколько много данных у Google, чтобы дообучить модель очень хорошо работать с персональными данными, а также делать вызовы нескольких разных сервисов за раз.

А ещё прокачали опцию перепроверки каких-то фактов в Google — надо нажать на кнопочку снизу от ответа, после чего бот сам погуглит, и какие-то куски выделит желтым или зелёным, в зависимости от того, находит ли информация подтверждение!

Анонс

Попробовать можно на bard.google.com (доступно российским аккаунтам).
Anthropic опубликовали Политику ответственного масштабирования (Responsible Scaling Policy, RSP) — серию технических и организационных протоколов, которые они принимают для того, чтобы помочь управлять рисками, связанными с разработкой все более эффективных систем искусственного интеллекта.

"Мы считаем, что по мере того, как модели ИИ становятся более функциональными, они создадут большую экономическую и социальную ценность, но также будут представлять все более серьезные риски."

RSP определяет «Уровни безопасности искусственного интеллекта» (AI Safety Levels, ASL) для работы с потенциальными катастрофическиим рисками, которые по формату аналогичны стандартам уровней биобезопасности (BSL) правительства США для обращения с опасными биологическими материалами.

Потенциально выделяется 5 уровней систем, ниже дам очень сокращенное описание:
— ASL-1 относится к системам, которые не представляют значимого катастрофического риска, например, LLM 2018 года или система искусственного интеллекта, которая играет только в шахматы; — ASL-2 относится к системам, которые проявляют ранние признаки опасных возможностей – например, способность давать инструкции о том, как создавать биологическое оружие – но где информация еще не является полезной из-за недостаточной надежности или отсутствия информации, которая, например, поисковая система не смогла обнаружить в силу своей несовершенности. Нынешние LLM, включая Claude-2 и GPT-4, скорее всего, имеют этот уровень;
— ASL-3 относится к системам, которые существенно увеличивают риск катастрофического или неправильного использования по сравнению с базовыми системами, не связанными с ИИ (например, поисковыми системами или учебниками), ИЛИ которые демонстрируют автономные возможности низкого уровня. Потенциально это GPT-5 в обёртке AI-агента с неконтролируемым доступом в интернет;
— Уровни ASL-4 и выше (ASL-5+) еще не определены, поскольку они слишком далеки от нынешних систем, но, вероятно, их разработка повлечет за собой качественное увеличение потенциала катастрофического злоупотребления подобными системами.

Весь RSP следует рассматривать как аналог предварительных испытаний и разработки систем безопасности, проводимых в автомобильной или авиационной промышленности, где цель состоит в том, чтобы точно продемонстрировать безопасность продукта до его выпуска на рынок, что в конечном итоге приносит пользу потребителям (ну, кроме случая с Boeing 737 MAX, да?).

Анонс тут
22-страничная policy доступна здесь

Жду подобного от OpenAI 👁
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
🚨🚨🚨 Компания Neuralink Илона Маска получила одобрение на запуск первого клинического испытания на людях. Уже пройденные этапы — это внедрение чипов в голову обезьянам и считывание импульсов для управления компьютером. Осенью прошлого года показывали огромный…
Кто жаловался на то, что сейчас проблемы с рекрутментом? Принёс вам новость: Neuralink набирает кандидатов...для операции по имплантации чипов в голову (звучит как киберпанк конечно).

Как я писал ранее в канале, они уже получили одобрение в США, ведь там просто так нельзя взять и что-то начать делать.

Целью исследования является оценка безопасности их имплантата (N1) и хирургического робота, который и будет осуществлять оперцию (R1), а также первоначальная функциональность brain-computer interface (BCI), позволяющая людям с параличом управлять внешними устройствами силой мысли.

Узнать больше можно тут.
Here's to 25 more 🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Here's to 25 more 🫡
В честь праздника на канале OpenAI решили выпустить DALL-E 3

https://openai.com/dall-e-3

Теперь модель понимает значительно больше нюансов и деталей, чем предыдущие системы, что позволяет вам легко воплощать ваши идеи в исключительно точные изображения.

На фото результат генерации по запросу
> An illustration of a human heart made of translucent glass, standing on a pedestal amidst a stormy sea. Rays of sunlight pierce the clouds, illuminating the heart, revealing a tiny universe within. The quote 'Find the universe within you' is etched in bold letters across the horizon.

Статьи нет, так что другим исследователям придётся крутиться самостоятельно!

Обещают плотную интеграцию с ChatGPT. Как минимум в виде плагина (в октябре). Но ещё есть интересная заметка:
> Будучи запромпченной, ChatGPT автоматически создаст индивидуальные и более детальные промпты для DALL·E 3, которые воплотят вашу идею в жизнь. Если вам нравится определенное изображение, но оно не совсем подходящее, вы можете попросить ChatGPT внести изменения всего несколькими словами.
> DALL·E 3 is built natively on ChatGPT


Пошёл генерить новую аватарку для канала 🙂

DALL·E 3 сейчас находится на стадии предварительной версии (доступно для исследователей), а всем будет доступен в октябре через API и подписку на ChatGPT.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
В честь праздника на канале OpenAI решили выпустить DALL-E 3 https://openai.com/dall-e-3 Теперь модель понимает значительно больше нюансов и деталей, чем предыдущие системы, что позволяет вам легко воплощать ваши идеи в исключительно точные изображения.…
OpenAI: модель теперь лучше рисует лица и руки
Лица и руки:


P.S.: интересное замечание, ни на одном примере генрации нет фотореалистичного изображения, и почти нет людей (все - нарисованные). Хмм...
Сегодня Microsoft провели презентацию, на которой представили крупное обновление для Windows 11 и ряда своих продуктов.

Нас больше всего интересует тесная интеграция чатбота ("Copilot") в саму операционную систему и сопутствующие приложения. Сразу остужу ваш интерес — никаких киллер-фичей представлено не было. Ничего такого, что не появлялось в виде стартапов или пет-проектов с момента релиза ChatGPT. Ключевая фишка в том, что суммарно тут и там, по сусекам поскребя, кумулятивно набирается "вау".

Да, не каждый день приходится лезть в настройки винды, чтобы поменять пару параметров. Но когда приходится — для неопытного пользователя это может на полчаса превратиться в пешее эротическое с гуглом в обнимку.

Да, не каждый день делаем презентацию или пишем текст, но многим по работе, по учёбе или просто так бывает нужно. То табличку из текста сверстать (в смысле извлечь необходимые сущности автоматом), то сделать сложную агрегацию в Excel. Всё это где-то на фоне и не меняет общего восприятия...пока ты не увидишь это у соседа/коллеги или не ощутишь магию сам.

Да, не каждый день приходится читать цепочку писем и давать на неё быстрый ответ а нет, погодите, это как раз мой юзкейс, кек.

Да, не каждый день надо в фотошопе что-то быстро закрасить или пририсовать, но ведь иногда нужно и мем склепать? А теперь это можно делать текстом (и интеграция DALL-E 3 уже заявлена, прямо с релиза!)

В общем, глубина интеграции технологии генеративного AI пока не настолько велика, чтобы перевернуть мир, но это послужит хорошим началом. Microsoft начнёт собирать тьмищу данных, позволяющих получить условную GPT-5, которая потенциально потянет на революцию. Apple может начать проигрывать гонку, и как-то придётся объяснять юзерам, почему они не могут сказать Siri найти вооон то письмо с билетами годовой давности и проверить возврат на карту.

Но если откинуть внутреннего критика, вернуться мысленно на года 3 назад и посмотреть на новые фичи - можно подумать, что показывают компьютер Тони Старка с мегакрутым AI.

Анонс 1
Анонс 2
С одной стороны возможности для Edtech'a, с другой — сделать мир лучше!

OpenAI в партнерстве с Tools Competition запускают долгосрочный конкурс "Learning Impact Prize" с призовым фондом более $5m. Его цель — стимулировать развитие технологий, чтобы удовлетворить растущие потребности учащихся во всем мире.

Всего есть 5 направлений, и каждое разбито на 3 подтрека:
— Catalyst Awards ($50k приз): для идей или продуктов на ранней стадии (если вы решили изменить мир вот только что, читая этот пост 👍);
— Growth Awards ($150k): для продуктов с небольшим количеством пользователей, на дальшейшее масштабирование;
— Transform Awards ($300k): для платформ с 10 000 или более пользователей.

Сами треки:
— Accelerating & Assessing Learning
 Preparing for the 21st Century World
— Instructional Coaching for Early Childhood Education
— Facilitating Learning Science Research
— Engaging Adult Learners in Higher Education

При клике на ссылку каждого трека вас ждёт подробное описание, а также примеры компаний/стартапов, которые уже решают схожие проблемы. Там же указаны предъявляемые к продукту требования.

Но самое интересное — то, что среди победителей каждого трека OpenAI дополнительно выберут до трёх участников, выделят им отдельно еще по $100k, $10k кредитов на API, а также возможность общения и поддержки командой OpenAI. Последнее, пожалуй, самое главное.

Можно возмутиться, мол, 100-200 тысяч долларов это не такие большие деньги, чтобы развивать компанию и прорывную идею. Но тут важнее признание и партнерство с OpenAI. Если к инвестору придёт фаундер и скажет "ну мы там выиграли конкурс от OpenAI и у нас теперь есть ещё и доступ к их инженерам" — почти наверняка денег отсыпят.

Податься со своей заявкой можно до 10го ноября 2023го года, дальше будет два этапа, и победителей определят в июне 2024го.

⬇️ Пишите в комментарии если у вас есть идея, или может даже целый продукт!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Пока вы (мы (я)) спали, Tesla выкатили полутораминутное демо-видео с своим роботом Optimus.

В нём показывается, как робот раскладывает детальки конструктора по цвету в 2 разные коробки, сортируя по цвету. Команда Tesla утверждает, что:
1) робот работает полностью на нейросети, без вручную запрограммированных эвристик;
2) то есть нейросеть получает на вход изображение с камер и положение конечностей, а предсказывает действия, которые необходимо осуществить (то есть подать ток на моторчики);
3) модель тренируется end-2-end, то есть на всей задаче целиком. Не нужно разбивать одну задачу на маленькие ("определи цвет", "возьми кубик", "поверни кубик", итд);
4) нейросеть работает внутри бота, а не в облаке. То есть вычислительные мощности зашиты внутрь, и робот получается автономным — главное чтобы батарейки хватило;
5) Senior Staff Engineer говорит, что "соберите больше данных, и мы сможем выучить новую сложную задачу, не меняя ни одной строчки кода!". В целом звучит круто, осталось понять, что это за данные. Симуляции? Или действия в реальном мире?
6) Также он пишет, что "его можно запромптить (как LLM?), в этом видео используется та же нейросеть для сортировки и перемешивания блоков, вы просто говорите ей, что хотите.". Если там есть текстовый интерфейс - это 🔥 (моя ставка что там не LLM, а цели задаются иначе);
7) у робота работают пальцы, он спокойно берет и переворачивает объекты. Мелкая моторика - сложная для программирования вещь, а тут её и делать не нужно, всё само;
8) в конце видео показывается, как хорошо робот балансирует - он встаёт в две йога-стойки и не падает.

Почему это круто? В чём отличие от нашумевших Boston Dynamics?
1) у BD всё программировалось вручную (по крайней мере последний раз когда я проверял, может за пару лет изменилось в корне), и поэтому сложно масштабировалось. Если ваш пёс умеет бегать и прыгать, то научить его ползать это очень сложная задача на год+ целой команде (цифра условная);
2) Тренировка end-2-end позволяет свести любую задачу к проблеме данных. Если у вас много качественных данных — проблема решена. И, как отметил инженер, перепрограммировать ничего не надо. Вероятно, тут он лукавит — Tesla показывали, что они используют виртуальные симуляторы, соответственно надо в них задать новую задачу, а потом просто запустить — и тогда бот разберется, что к чему;
3) прогресс ГОРАЗДО быстрее, чем у BD. Робот был анонсирован всего пару лет назад, а год назад еле ходил. BD были основаны в 1992 году (!), а гуманоидного Atlas показали в 2013м году. И за следующие 10 лет лишь немного улучшили его с точки зрения сложности поведения/действий — потому что всё это плохо масштбируется;
4) Tesla'ой рулит Elon Musk, человек, ориентированный на бизнес. Основная фишка - удешевление, ускорение и масштабирование производства. Это было с Tesla, это происходит в SpaceX. Если поставить производство ботов на поток, они будут очень дешевы, что позволит им конкурировать с рабочими на складах и в McDonalds. И на заводах Tesla, и на фабрике SpaceX на Марсе — тоже!
5) Правда не ясно зачем McDonalds, если такой же робот сможет готовить блюда как шеф с тремя звёздами Мишлен...
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Пока вы (мы (я)) спали, Tesla выкатили полутораминутное демо-видео с своим роботом Optimus. В нём показывается, как робот раскладывает детальки конструктора по цвету в 2 разные коробки, сортируя по цвету. Команда Tesla утверждает, что: 1) робот работает…
This media is not supported in your browser
VIEW IN TELEGRAM
Вот само видео. Источник

Через год ждём повторение всех демок Boston Dynamics с прыжками и сальто, через два — выход первых роботов на заводы Tesla.

На самом деле скорее всего до сальто и прочего не дойдет: потому что это не нужно, а значит можно игнорировать и тем самым удешевлять процесс разработки.
Forwarded from e/acc
В тему ИИ как Великого Уравнителя. Я каждый день вижу примеры когда люди благодаря генеративным нейронкам могут делать вещи, к которым раньше они даже не знали с какой стороны подступаться.

У меня есть знакомый, который ни разу в жизни не программировал, а тут, на пенсии, с помощью GPT сделал рабочее приложение для телефона. Или любой кто пишет пост, книгу, презентацию и теперь может бесплатно сгенерировать графику на уровне топ-10% лучших иллюстраторов мира. Или, подписывая контракт, получить анализ договора от Claude на уровне не хуже среднего юрист (но бесплатно, а не за $200). И школьник, которому ИИ объясняет сложную тему (делая её не только сложной, но интересной) с персональным подходом, эмпатией, чистотой объяснения и кастомно сгенерированными графиками и схемами на уровне топ-10% педагогов мира. А заскучавшие школьники генерируют action сцены на уровне средненького боевика с десятимиллионным бюджетом.

В каждом моём дне таких примеров десятки: саммари звонков, редактура текстов, анализ юридических документов, изучение фармакокинетики (для одного проекта), написание и анализ кода на почти незнакомом языке.

Это сегодня. А ведь еще ничего толком не началось. Да, формально, у ИИ-продуктов уже под миллиард пользователей (Bing, GPT, Opera, etc). Но реальных power users, которые почувствовали на себе эту силу Великого Уравнения, по моим скромным оценкам, все ещё только десятки тысяч.

Нас ждут великие приключения и великие потрясения.
OpenAI: ChatGPT теперь слушает, говорит и видит

Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем вы говорите.

Голос и изображение дают вам больше возможностей использовать LLM в вашей жизни. Сфотографируйте достопримечательность во время путешествия и поговорите с ChatGPT о том, что в ней интересного. Когда вы дома, сфотографируйте свой холодильник, чтобы выяснить, что можно приготовить на ужин (и получите пошаговый рецепт). После ужина помогите ребенку решить математическую задачу, сфотографировав учебник и попросив поделиться подсказками.

В течение следующих двух недель мы добавим эту функциональность в ChatGPT для пользователей Plus и Enterprise. Функицональность необходимо будет включить в настройках.

Прим.: из описания не ясно, но добавляется и генерация голоса. Модель сможет отвечать вам не текстом.

OpenAI говорят, что используют "new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech". Статей и анонсов пока не было. Качество можно оценить по ссылке.

Подача изображений на вход будет доступна и для 3.5-модели, не только 4ки.
Сиолошная
OpenAI: ChatGPT теперь слушает, говорит и видит Мы начинаем внедрять новые возможности в ChatGPT: распознавание голоса и изображений. Они предлагают новый, интуитивно понятный интерфейс, позволяющий вам вести голосовой разговор или показывать модели, о чем…
Вместе с релизом, OpenAI публикуют GPT-4V(ision) System Card

Ссылка: https://cdn.openai.com/papers/GPTV_System_Card.pdf

Это не полноценная статья с объяснением, здесь, как и в случае с GPT-4, делается акцент на Safety и Evaluation. Пример того, на какие вопросы модель не отвечает, перед вами.
Сиолошная
В издании The Information часто публикуются инсайды о планах на будущее и внутренней кухне OpenAI и Google. В последнее время было много слухов про Gemini — модель следующего поколения от Google, которая отличается, как минимум, тем, что является мультимодальной.…
Всего неделю назад писал про лик информации о будущих планах OpenAI — там говорилось про модель Gobi.

Но оказывается в Твиттере есть человек, который предсказал это ещё 28го Апреля. Твит удалён, однако сохранилась архивная ссылка: тык. Этот же аккаунт за полторы недели до релиза GPT-4 (14го марта) писал 5го марта, что GPT-4 уже используется в Bing, а анонс будет через неделю или около того. И в тот же день назвал точную дату вместе с указанием на тот факт, что GPT-4 будет обрабатывать картинки.

В общем, пускаемся на территорию слухов и догадок. Этот же аккаунт написал 18го сентября, что — готовы? вдохните поглубже 😆 — "AGI has been achieved internally." Якобы в одной из лабораторий (Видимо, OpenAI?) достигли уровня технологии, который можно назвать AGI (хотя бы каким-то определением). Лично я в это не верю, скорее какая-то из компонент на каком-то бенчмарке показала себя сильно лучше, чем ожидалось — такое может быть.

Также этот аккаунт утверждает, что у OpenAI с весны идёт разработка модели под кодовым названием Arrakis (как планета со спайсом во вселенной Dune). Целевая дата релиза — 2025й год, но может быть из-за ускорения рисерча она будет релизнута где-то в 2024м.
——————
Помимо этого на Reddit есть аккаунт, который пишет в целом схожие вещи в похожем стиле, и как будто бы даже из той же страны (не понял, как узнали). Увидел вот тут, оригинал поста на LessWrong здесь. Что говорят:
— Arrakis уже существенно превосходит GPT-4 с точки зрения reasoning (рассуждение и логический вывод);
— это мультимодальная модель, которая умеет не только принимать, но и выдавать разные типы данных. В том числе умеет генерировать видео (лучше, чем Gen-2);
— Модель имеет около-экспертный уровень в большом наборе топиков, но пока не превосходит людей;
— Галлюцинации встречаются куда реже, чем у GPT-4, но всё еще не побеждены;
— Половина тренировочных данных — синтетические (то есть сгенерированные другими моделями);
— модель является очень хорошим автономным агентом, то есть ей можно поставить задачу, дать инструменты и ждать, пока задача выполнится.

В общем, такие вот слухи. Сам я не верю даже в 30% того, что описано, но чёрт его знает что там в этом вашем Deep Learning происходит. Поживём - увидим!

UPD: забыл добавить, что в истории с предсказаниями по GPT-4 много пробелов, много твитов удалено, странные вещи, так что этот пост скорее просто даёт помечтать. Ну и через годик вернуться-посмотреть :)
Please open Telegram to view this post
VIEW IN TELEGRAM
Метрики для сравнения, больше - лучше. Сверху более длинный контекст (95 тысяч токенов), снизу покороче (70k).

Scratchpad — это как раз выписывание цитат перед ответом.
Nongov examples — нерелевантные примеры ответов на общие вопросы.
Anthropic решили следовать примеру OpenAI и сделали свой cookbook, в котором собирают примеры работы со своими моделями. И даже текстовый гайд написали, в котором тестируют одно из ключевых отличий от конкурентов — ширину контекстного окна (у Claude это 100'000 токенов).

А как такое тестировать? Ну, например, давать очень длинный кусок текста и задавать вопрос с вариантами ответа, а затем проверять, что модель выбирает правильный. Для этого делается следующее:
1) берётся ежедневно выпускаемый правительственный документ, который содержит стенограммы заседаний множества различных департаментов;
2) весь текст нарезается на маленькие кусочки;
3) к каждому куску Claude генерит вопросы с помощью специального промпта. Он содержит пару примеров (порядка 1500 токенов каждый) того, что ожидается, а затем инструкцию, которая адрессует некоторые из проблем генерации синтетических данных (более детализированный правильный ответ; не очень простые вопросы о мета-данных, вроде даты документа; вопросы, не связанные с контекстом). Все промпты выложены отдельным pdf-файлом;
4) затем куски склеиваются обратно случайным образом в контексты длины 70k и 95k токенов. Для каждого контекста мы знаем, ответы на какие вопросы он содержит
5) испытываем модель! Метрика — доля правильных ответов.
Всего собрали чуть меньше 400 вопросов, почти уверен, что их отсмотрели глазами и пофильтровали.

Замеряется две модели: Claude 2 и Claude Instant 1.2 (мелкая, дешёвая и быстрая). Для того, чтобы облегчить работу, используется два трюка в промпте перед генерацией ответа:
1) Извлечение 2-3 цитат, относящихся к вопросу, перед написанием ответа;
2) Дополнение промпта примерами правильно отвеченных вопросов по другим кускам контекста. Примеров дают 2 или 5.

Выводы следующие:
1) Claude Instant гораздо хуже отвечает на вопросы, ответы для которых содержатся в начале или середине контекстного окна (67%-79% против 87-92% для тех, что содержатся "в хвосте"). Двойка почти не страдает этим;
2) Claude 2 существенно лучше работает, даже без примеров и выписывания цитат показывает метрики выше, чем Instant — со всеми приседаниями;
3) Самый лучший результат 96-97%. Жаль не делается анализ ошибок, но в целом это указывает на то, что даже суперкрутые модели не делают работу на 100%. Нельзя от них ожидать абсолютной надёжности (хотя я уверен, что средний человек на задаче ответа на вопрос по 100+ страницам текста покажет себя хуже, лол!);
4) Выписывание полезных цитат перед ответом улучшает все модели во всех сравнениях. Запоминаем этот приём!
5) Добавление нерелевантных примеров в промпт не даёт улучшения качества;
6) Нет разницы, 2 или 5 примеров добавляется в промпт.

Отдельно отмечу, что поскольку модели лучше работают с тем, что написано в конце, то инструкция "прочитай и ответь на вопрос" вставляется не в начало, а в конец промпта! Вот это, думаю, многие упускают. Более подробно можно прочитать в документации (с примером).
Вчера прошло незаметно на фоне анонса голосовых функций для ChatGPT, но шведская компания Spotify объявила, что запартнерилась с несколькими подкастерами для перевода их англоязычных выпусков на испанский с помощью нейросетей, а в ближайшие недели планирует выпустить переводы на французский и немецкий. Первая партия эпизодов уже доступна — можно слушать последние выпуски Dax Shepard, Monica Padman, Bill Simmons, Steven Bartlett и нашего любимого Lex Fridman.

Причём делается не только перевод и озвучка, но и полноценное копирование голоса и стиля (интонации) говорящего. Казалось бы, запартнерились со стартапом Heygen, про который я недавно писал, ан нет! Провайдер технологии — OpenAI 🤔! До этого не было известно, что у них есть инструмент для подобного. Возможно, используется та же модель, что и для ChatGPT (просто там голоса строго заданы, а не склонированы с подкастеров). А для перевода речи в текст используется старый добрый Whisper, выпущенный OpenAI весной 2022го года. Статей и каких-либо деталей по синтезу и клонированию голоса нет 🤕 ну и ладно.

А ещё из вот этого твита стало известно, что над моделью работал Alec Radford — один из самых первых и талантливых исследователей в OpenAI. Он был соавтором GPT (1-2-3-4, причём для первых двух — первым автором), но после 2021го как-то пропал с радаров. По его LinkedIn я даже подумал, что он покинул OpenAI, но нет, ещё трудится на благо AGI 🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Всего неделю назад писал про лик информации о будущих планах OpenAI — там говорилось про модель Gobi. Но оказывается в Твиттере есть человек, который предсказал это ещё 28го Апреля. Твит удалён, однако сохранилась архивная ссылка: тык. Этот же аккаунт за…
Апдейт

1) Аккаунт Jimmy Apples в Twitter был удалён или забанен
2) в комментарии на Reddit к этой новости пришёл Sam Altman (по крайней мере комментарий с его аккаунта. Возможно, взломали, возможно, AGI ВЫБРАЛСЯ НАРУЖУ, И ИГРА НАЧИНАЕТСЯ)
3) Sam зарофлил:
agi has been achieved internally (EDIT obviously this is just memeing, y’all have no chill! when agi is achieved it will not be announced with a reddit comment…)


🤡

в то же время про ускорение таймлайнов и сливы касательно Arrakis/Gobi — если посмотреть тех. репорт по модели GPT-4v (с картинками), то там в ссылках на литературу можно заметить плейсхолдеры, которые забыли заменить...писали впопыхах? куда торопятся? релизнуть модель в 2024м?????)

Впервые увидел у Влада тут: https://t.me/dlinnlp/1678
Please open Telegram to view this post
VIEW IN TELEGRAM
По слухам из WSJ, OpenAI поднимает ещё один раунд инвестиций при оценке $80B-$90B (ранее в этом году было $29b).

По этому поводу принёс два мема.

OpenAI raising money at a $90B valuation:

UPD: блин сколько же это вычислительных мощностей..........