{AI} love you | Нейросет
277 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
Более подробно про слухи вокруг модели Q*, которая нацелена на создание "среднего" ученого.
Forwarded from Сиолошная
Так вот, к чему была эта прелюдия. В Reuters пишут, что якобы катализатором увольнения Альтмана стало письмо сотрудников OpenAI совету директоров. В нём говорится о прорыве в исследовании ИИ, которое, «может угрожать человечеству».

Правда, Reuters не смогло ознакомиться с копией письма. А автор(ы) не ответили на запросы о комментариях. Так что особо почвы у теории под ногами нет.

Масла в огонь подливает тот факт, что за сутки до увольнения Sam Altman на оффлайн-саммите сказал следующее:
— Четыре раза за всю историю OpenAI, и последний раз был вот несколько недель назад, я присутствовал в комнате, когда мы как бы отодвигаем завесу невежества и подталкиваем границу открытий вперед. Сделать это — профессиональная честь на всю жизнь.

Что он там такого увидел?

Согласно новости, модель (система?) Q* смогла решить некоторые математические задачи, сообщил источник на условиях анонимности. Это само по себе выглядит странно — ведь даже в примере выше пример куда сложнее, это конец средней школы. И как будто никакого прорыва и нет. Возможно, журналисты всё перепутали — ну или история выдумка.

Теперь о том, как на это смотреть и чего ждать:
1) OpenAI точно занимается разработкой модели, которая будет осуществлять научные исследования. Они про это пишут открыто.
2) Для того, чтобы это произошло, нужно, чтобы модель-учёный умела решать сложные задачи и планировать исследования. Часть этой работы уже сделана — см. статью из поста выше.
3) Вся концепция заключается в том, что модель будет генерировать тысячи неправильных кусочков решений, иногда выдавая верные — главное, чтобы их можно было отранжировать в списке гипотез выше, чем мусорные (вспоминайте модель-оценщика из поста выше).
4) Для этого нужно огромное количество мощностей. Поэтому деньги тут решают. OpenAI пока привлекли больше всех инвестиций, и моё видение такое, что через 2 года это станет большим препятствием для входа. Останется 5-10 игроков, кто готов столько денег сжигать.
5) Вопрос в том, насколько большим будет следующий скачок. Сможет ли модель писать решения на уровне магистра? PhD? Постдока? Доктора наук? Будет ли она ограничена 2-3 доменами, или же обобщится на любую научную область, где есть вычисления?
6) Однажды вы проснётесь, и слух из новости станет правдой: появится модель, которая будет хотя бы частично (>50%) заменять одного учёного в лаборатории. С этих пор прогресс начнёт двигаться гораздо быстрее — потому что нанять 100 учёных за день нельзя, а запустить 100500 моделей на кластере за день — можно.

Более подробно с моим видением дальнейшей стратегии OpenAI и направлениями, в которых они будут копать, вы можете ознакомитсья в моей недавней лекции «What's next for OpenAI?». Там я, конечно, не предсказал шумиху с увольнением CEO, но много говорю про агентов-исследователей и подход OpenAI.

А почитать больше спекуляций по поводу Gemini и Q* можно на LessWrong.
This media is not supported in your browser
VIEW IN TELEGRAM
Нейросеть для генерации песен недавно пробила предыдущий порог качества, и теперь на свет появляются виртуальные Youtube-музыканты. Комбо из ChatGPT + Midjourney + D-ID + Suno.

Еще летом появились AI-инфлюенсеры с миллионами подписчиков в запрещенной соцсети. Сейчас продолжается интеграция виртуального персонажа.

#music #metaverse
На неделе зарелизили новую open-source языковую нейросеть. Это происходит почти каждую неделю, и обычно я не пишу об этом. В этот раз случилось нечто особенное.

Учёные из Беркли до-обучили языковую модель на синтетическом датасете, сгенерирован в GPT-4 - теперь такое делают повсеместно. Но они пошли на шаг дальше и попросили GPT-4 также оценить пары ответов своей модели (выбрать лучший ответ из двух), после чего ещё до-обучили ее.

На выходе получилась лёгкая (7В) open-source модель Starling, которая по некоторым бенчмаркам обыгрывает gpt-3.5 (20B параметров). По идее настолько лёгкую модель можно установить на локальном компьютере со скромной видеокартой и иметь бесплатный ChatGPT без VPN и блэкджека.

И речь даже не про конкретную модель, а про подход, что платная GPT-4 порождает бесконечное множество бесплатных и лёгких GPT-3.5. GPT-5 соответственно сделает то же самое с GPT-4.

#text #open_source #llm
Подписываюсь под каждым словом. В нескольких проектах, которые реализую, у GPT возникает пробел именно в отсутствии инициативы. Он работает исключительно по вашему триггеру (триггером является любое ваше сообщение), в этом смысле его поведение импульсивно и рефлекторно. Хотя каждому бы иметь такие рефлексы 😆

#text #gpt #opinion
Forwarded from AI Happens (Alexey Hahunov)
👨‍🎨В чем проблема GPT или какая разница бытовых и бизнес разговоров.

GPT отлично отвечает на вопросы и следует инструкциям. Он действительно хорош в этом, потому что он обучен большому количеству разговоров. Но, как говорится, есть нюанс: он на самом деле не «общается»🌝. Он не задает вопросы, чтобы убедиться, что понимает, чего вы хотите. И на это у него есть весовая причина - модель обучалась на диалогах людей, где обычно на любой наш вопрос следует ответа, а не идет встречный вопрос - точно ли мы имели ввиду вот это?

Вы можете подумать, что я считаю GPT тупым. Нет-нет, мы лишь сами его так научили.

Большая часть обучения GPT проходит в режиме вопросов и ответов. Он не привык задавать уточняющие вопросы или брать на себя инициативу в разговоре. Но именно этой инициативы не хватает рядовому пользователю, которому сложно описывать каждый раз инструкции, по которой модель понимает, что нужна помощь в тексте или создании презентации. И связано это с тем, что чаще всего мы сами не до конца понимаем, а что вообще мы хотели сделать и с этим нам нужна такая же помощь как и с решением самой задачи.

Чтобы сделать GPT более подходящим для бизнеса, а не обычных чатов, ему необходимо учить, когда просто отвечать, а когда задавать больше вопросов. И я думаю в 2024 году модели будут обучаться делать именно это. Сначала слушать и понимать, а потом уже давать решение.

@aihappens
Среди LLM новый царь горы — Gemini от Google. По ключевой метрике MMLU эта языковая нейросеть обгоняет среднего человека. Сегодня и в ближайшие дни будет много-много-много слов о Gemini в СМИ.

#text #gemini #benchmark
GenAI-сервисы часто используют метафору магии в пользовательском интерфейсе, типа Magic Tool c иконкой волшебной палочки. Это наивно и отражает живой восторг пользователей в первый раз, но мне кажется, что эта метафора вполне уместна и даже точна. Вот почему.

Самый близкий аналог магии в реальной жизни — это сновидение. В принципе, во сне возможно всё. Всё то, чему мешают законы физики наяву. Метафора сновидения применительно к языковым нейросетям расхожа. Andrej Karpathy (не-последний человек из OpenAI) активно апеллирует к ней, даже споря о том, галлюцинирует ли языковая нейросеть? Он считает, что нет, потому что каждый ответ LLM — это продукт сновидения умной машины, не только те ответы, которые люди маркируют как "галлюцинации".

Кто-то прочитает в этом, что языковые нейросети оторваны от реальности и поэтому бесполезны. Но это оторванное от реальности суждение 😀. Так можно договориться, что и сновидения бесполезны. Нет, скорее нейросети существуют в магической реальности нулей и единиц, где нет привычного трения и бесконечного притяжения малых тел большими. В нашем мире всё состоит из материи с жесткими (по энергии) законами ее преобразования, в их мире всё состоит из данных с мягкими (по энергии) законами их преобразования. Тут и начинается магия, когда становятся возможны преобразования, которые нарушают наши ощущения логики и здравого смысла. А такие преобразования возможны уже сейчас. Например, по одной картинке вы можете получить 3д-модель объекта (в нашем мире нельзя увидеть обратную сторону объекта, не обойдя его вокруг).

Еще одна "большая" мысль (last). Революцию ГенИИ часто сравнивают с промышленной революцией XIX века. Переложу это на метафору магии. В эпоху классической промышленной революции тоже создавались чудеса — изобретались физические машины, кратно превосходящие человеческую силу в преобразовании материи (например, создание изделий из сырья или добыча сырья из недр). Эпоха ГенИИ (именно генеративного) создает программные машины, способные кратко превосходить человека в преобразовании данных (например, суммировать текст или воплотить идею в рисунке). Способность найти наиболее магический путь преобразования одних данных в другие (например, сочинить песню одной силой мысли) — это в-общем квинтэссенция процесса. И пока нейросети не заземлены в физических роботов (которые подчиняются законам физики), то всё возможно.

#opinion
Midjourney почти успели уступить лидерство в визуальных нейросетях, но еще поборятся.

#image #release
Forwarded from Ai molodca 🤖 (Dobrokotov)
Please open Telegram to view this post
VIEW IN TELEGRAM
Возвращаюсь.

В конце прошлого года почувствовал кризис жанра, случился разрыв между повесткой гиков и новичков, слишком многое произошло за 2023 год. Первоначально я собирался ориентировать канал для GenAI-новичков, но со временем сдвинулся в сторону cutting-edge. В 2024-м невозможно быть GenAI-новичком, точнее придется пересказывать массу фактов, которые уже стали общим местом. Отсюда выработал новый срединный фокус — prompt-gramming, или программирование на естественном языке. Со временем я осознал, что GenAI нынешнего поколения не прямо для всех и каждого, а скорее для тех, кто по жизни структурирует реальность вокруг и "программирует" процессы (пусть даже без использования формальных языков). Для prompt-gramming не нужно быть технарем (с пониманием, как устроена компьютерная инфраструктура), но и без стремления управлять энтропией не обойтись.

Программирование на естественном языке стало возможно благодаря высокой надежности в имитации формальных, программных языков в GenAI (особенно Python / Javascript / Markdown / HTML / CSV). Имитация тегирования как формального языка описания изображений тоже доведена до совершенства, поэтому визуальные нейросети уже отвоевали себе место под солнцем. Мне кажется, люди ценят их даже выше, чем языковые нейросети. Ловите тест от The New York Times, где вы не сможете отличить настоящее лицо человека от сгенерированного нейросетью (причем не новейшей).

#promptgramming #image
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Стабильные юзкейсы

После праздников будет год как случился релиз GPT-4, который до сих пор остается лидером в восприятии людей (хотя Gemini формально побил его по ключевым бенчмаркам). В прошлом марте было много других громких релизов, и сейчас блогеры тоже в предвкушении. Пока ничего такого не произошло, интересно взглянуть на юзкейсы, которые за год докрутили до стабильного использования ⚓️

Есть один с любопытнейшей судьбой. Это генерация SEO-контента.

Весь год десятки людей озвучивали эту идею, потому что очень и очень многие вовлечены в производство текстов. И напрашивается само собой. После месячного тестирования я скорее скептически относился к этой идее, и кажется новички, озвучивавшие идею написания статей, тоже быстро разочаровывались 😕. Все серьезные русскоязычные игроки сконцентрировались на ИИ-помощниках (copilot) для написания текстов. Прикрутили ключевые фичи: переписать, сократить, расширить, заменить на синоним и т.д.

Всё так, но недавно в англоязычном подкасте услышал мысль, что AGI в задаче блогинга уже достигнут, то есть ИИ способен справляться с задачей не хуже профессионала. Автор мысли пояснял, что мы пропустили этот момент из-за размытости формулировки AGI. Это меня удивило 😮. Ощущение из России, что до этого далеко. Мы бы сразу увидели, как ИИ-тексты заполонили бы интернет. Этого нет 🚫

При более внимательном изучении вопроса оказалось, что да, англоязычный Youtube полон рассказов про генерацию 623 статей за 6 минут . Публикуются статьи не сразу, а например, раз в час. И да — это работает на SEO-продвижение в определенных пределах 📈. Одна большая статья с нуля (на 3000 слов с 4-5 хорошими картинками) стоит около 1$, и некоторые реализуют сразу тематические веб-сайты с сотнями страниц за 200$.

Естественная реакция на это, что текст в интернете скоро просто перестанут читать 🤮. Эта точная реакция приводит, на самом деле, к двум противоположным выводам:
1. Нет, не перестанут. Далеко не обо всем уже создан текст в интернете, и грамотные веб-мастера создают именно нишевые тематические веб-сайты, которым всё еще есть место / спрос. А ведь есть области сознательной цензуры 🤐
2. Да, перестанут. Многие американские маркетологи сознательно уходят от текста в сторону мультимедиа, особенно на ютуб, где человеки легко выигрывают конкуренцию у ИИ 🏆

Накидайте в комментариях другие юзкейсы, которые плотно вошли в жизнь. Поищу среди них неочевидные факты и последствия 🕵️‍♂️

#usecase #text #seo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Лидерборд LMSYS Chatbot Arena обновился второй раз за неделю!

Добавили модели Claude 3, и ещё во вторник появились модели Mistral Large / Mistral Next.

Для тех, кто не в курсе, Chatbot Arena — это место, где модели вслепую сраниваются реальными людьми. Вы заходите на платформу, пишете запрос, видите два ответа и выбираете лучший. Чем чаще выбираются результаты одной модели, тем выше она в рейтинге. Финальная оценка — рейтинг Эло (как в шахматах). Тут собраны десятки тысяч голосов, поэтому рейтинг достаточно честный и хорошо отражает некоторое абстрактное реальное качество модели.

Долгое время GPT-4-Turbo была в самом топе и в недосягаемости, со значимым отрывом.
1) Claude 3 Opus почти догнала: 1233+-8 очков против 1251+-5 у свежих GPT-4-Turbo
2) Claude 3 Sonet, версия поменьше и подешевле, обгоняет майскую GPT-4, а также Mistral Large
3) свежие Mistral Large / Mistral Medium сидят на 8-9 строчках рейтинга
4) самой лучшей опенсурсной моделью является Qwen1.5-72B-Chat, китайская модель, умеющая в разные языки

В целом, Claude 3 Sonet вышла неплохой — стоит сильно дешевле GPT-4/Turbo, но по ответам не так плоха ($3/$15 за миллион токенов Sonnet против $10/$30 у Trubo, а GPT-4 вообще $60/$120, если брать контекст 32k) . Осталось посмотреть более внимательно на даунстрим задачи, чтобы составить полную картинку.

За наводку спасибо автору @epsiloncorrect
Forwarded from Сиолошная
Вернёмся на минутку ко вчерашнему посту про лидерборд Chatbot Arena

Вот написано, что рейтинг GPT-4-Turbo 1251, Claude 3 Opus 1233, а Mistral Large 1155. Такая разница — это много или мало? Как её интерпретировать?

Вообще система Эло рейтинга построена так, что сам рейтинг позволяет оценить вероятность победы одного игрока (или модели) над другим. Если рейтинг одинаковый, то шансы 50/50. Если разница 500 очков, то игрок с более низким рейтингом будет проигрывать 99.9%+ игр.

К сожалению, в расчёте есть маленькая техническая особенность — рейтинг оценивается относительно слабой модели LLAMA-2 (нужна ведь точка отсчёта), а не для каждой-с-каждой LLM. Однако мы можем посмотреть на попарные сравнения конкретных моделей, посчитать долю побед одной и второй, и в целом это должно биться с рейтингом. Так что ниже я оперирую именно процентами побед в «очных встречах», а не рейтингом, но они сильно связаны, и при большом количестве голосов должны быть идентичны.

Итак, давайте сравнивать:
1) GPT-4-Turbo VS Claude 3 Opus. Разница в рейтинге минорная. Но если задать моделям 100 вопросов, то в 54 более предпочтительным будем ответ модели OpenAI, а в 46 — Anthropic. 54/46, достаточно близко!
2) GPT-4-Turbo VS Google Bard: 57/43, уже грустнее
3) GPT-4-Turbo VS Mistral Large: 75/25 (!!! огромнейший разрыв). То есть если вы зададите моделям 100 вопросов, то в 75 из них вы прям заметите, что ответ GPT лучше — это существенная разница.

Ну а дальше всё еще грустнее:
4) GPT-4-Turbo VS ChatGPT (GPT 3.5): 77/23 (поэтому не нужно оценивать качество моделей по бесплатной версии)
5) Claude 3 Sonet (бесплатная в веб-версии) VS ChatGPT: 68/32 (-> не нужно использовать бесплатную модель от OpenAI)

То есть разница в 40-50+ рейтинга — это уже существенное и заметное на практике отличие одной модели от другой.

Остальные цифры можете найти тут или в первом комментарии.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM