Вроде все мы уже наигрались с кучей генераторов картинок по текстам разной степени качества, управляемости и вменяемости. Но есть что-то такое в коротеньких динамичных гифках, что завораживает сильнее статических картинок, пусть даже качественных как у Midjourney.
Picsart запустил у себя генератор гифок, и там лишние пальцы, конечности и прочие артефакты выглядят неожиданно уместно в своей отвязности :) Не думал, что могу на полчаса залипнуть в очередной генеративной игрушке, но в итоге залип:))
https://www.diyphotography.net/picsart-releases-ai-gif-generator-and-the-results-are-unhinged/
Picsart запустил у себя генератор гифок, и там лишние пальцы, конечности и прочие артефакты выглядят неожиданно уместно в своей отвязности :) Не думал, что могу на полчаса залипнуть в очередной генеративной игрушке, но в итоге залип:))
https://www.diyphotography.net/picsart-releases-ai-gif-generator-and-the-results-are-unhinged/
DIY Photography
Picsart releases AI GIF generator, and the results are unhinged
We have text-to-image and text-to-video generators, but what about text-to-GIF? Picsart has just introduced its AI GIF generator, and I’m telling you, this is the...
Выпустили отчет Всемирного экономического форума о десятке перспективных технологий 2023. Что там есть генеративный ИИ — очевидно; интересней, что там есть еще, ибо технологии там оцениваются комплексно по степени влияния на жизнь и планету, а не только по объемам рынков.
Некоторые — интересны уже тем, что особо не на слуху, то есть этот список — отнюдь не подборка хайповых тем.
1. Гибкие аккумуляторы
2. Генеративный ИИ
3. Устойчивое (в экологическом смысле) авиационное топливо
4. Дизайн и инженерия искусственных вирусов
5. Метаверс для психического здоровья
6. Носимые датчики для растений (как раз иллюстрация для поста :))
7. Мэппинг биологических процессов на молекулярном уровне
8. Гибкая нейроэлектроника
9. Устойчивые вычисления (оно же - нейтральные с точки зрения углеродного следа датацентры)
10. ИИ в здравоохранении
Прикольно, что про примерно половину тем читать надо в специализированной прессе; в поле зрения традиционного технологического научпопа они не попадают. Что немало говорит про уровень этого самого научпопа.
https://www3.weforum.org/docs/WEF_Top_10_Emerging_Technologies_of_2023.pdf
Некоторые — интересны уже тем, что особо не на слуху, то есть этот список — отнюдь не подборка хайповых тем.
1. Гибкие аккумуляторы
2. Генеративный ИИ
3. Устойчивое (в экологическом смысле) авиационное топливо
4. Дизайн и инженерия искусственных вирусов
5. Метаверс для психического здоровья
6. Носимые датчики для растений (как раз иллюстрация для поста :))
7. Мэппинг биологических процессов на молекулярном уровне
8. Гибкая нейроэлектроника
9. Устойчивые вычисления (оно же - нейтральные с точки зрения углеродного следа датацентры)
10. ИИ в здравоохранении
Прикольно, что про примерно половину тем читать надо в специализированной прессе; в поле зрения традиционного технологического научпопа они не попадают. Что немало говорит про уровень этого самого научпопа.
https://www3.weforum.org/docs/WEF_Top_10_Emerging_Technologies_of_2023.pdf
Это не первая работа на тему генерации изображений на основе электроэнцефалограмм, но, как отмечает команда авторов из Китая, у их метода DreamDiffusion результирующие картинки куда выше качеством чем у Brain2Image.
Результаты и правда красиво выглядят, хотя людям мнительным и тревожным на тему ИИ и всеобщей слежки лучше не читать:) Или сразу прочитать успокаивающий вывод — несмотря на красоту картинок, Currently, EEG data only provide coarse- grained information at the category level in experimental results.
https://arxiv.org/pdf/2306.16934.pdf
Результаты и правда красиво выглядят, хотя людям мнительным и тревожным на тему ИИ и всеобщей слежки лучше не читать:) Или сразу прочитать успокаивающий вывод — несмотря на красоту картинок, Currently, EEG data only provide coarse- grained information at the category level in experimental results.
https://arxiv.org/pdf/2306.16934.pdf
Можно долго концептуально спорить о способности нейросетей к творчеству, созданию нового, об их креативности или отсутствии таковой. А можно просто применить те же тесты, которые используются для оценки креативности людей — тесты нынче есть для всего:)
Исследователи из университета Монтаны так и поступили, использовав Torrance Tests of Creative Thinking, a well-known tool used for decades to assess human creativity. Исследователи отправили в Scholastic Testing Service результаты, сгенерированный GPT-4 вперемешку с результатами 24 студентов (не информируя об участии GPT) и сравнили полученные баллы с результатами массового тестирования 2700 студентов в 2016.
Результат ожидаем: по разным критериям ChatGPT попал либо в 1% лучших (изобилие идей, оригинальность), либо в 3% (разнообразие идей. Среди студентов тоже нашлись персонажи со сравнимыми успехами:)
Показательно, что авторы попросили ChatGPT проинтерпретировать результат и получили разумное предупреждение
“ChatGPT told us we may not fully understand human creativity, which I believe is correct. It also suggested we may need more sophisticated assessment tools that can differentiate between human and AI-generated ideas.”
Все в точности как с самим интеллектом — не умея толком определять и измерять свой, мы почему-то рвемся сравниваться с машинным:)
Исследователи из университета Монтаны так и поступили, использовав Torrance Tests of Creative Thinking, a well-known tool used for decades to assess human creativity. Исследователи отправили в Scholastic Testing Service результаты, сгенерированный GPT-4 вперемешку с результатами 24 студентов (не информируя об участии GPT) и сравнили полученные баллы с результатами массового тестирования 2700 студентов в 2016.
Результат ожидаем: по разным критериям ChatGPT попал либо в 1% лучших (изобилие идей, оригинальность), либо в 3% (разнообразие идей. Среди студентов тоже нашлись персонажи со сравнимыми успехами:)
Показательно, что авторы попросили ChatGPT проинтерпретировать результат и получили разумное предупреждение
“ChatGPT told us we may not fully understand human creativity, which I believe is correct. It also suggested we may need more sophisticated assessment tools that can differentiate between human and AI-generated ideas.”
Все в точности как с самим интеллектом — не умея толком определять и измерять свой, мы почему-то рвемся сравниваться с машинным:)
Neuroscience News
AI Outperforms Humans in Creativity Test
Artificial Intelligence (AI), specifically GPT-4, was found to match the top 1% of human thinkers on a standard creativity test.
В общем-то именно название статьи привлекло внимание, слова Fiber optic smart pants звучат завлекательно :) И суть передают правильно: если в ткань для одежды вплести наряду с обычными волокнами оптические, то можно получить носимый сенсор, встроенный прямо в одежду: при изгибали волокна меняются его характеристики и дальше дело техники их правильно интерпретировать.
С одной стороны, по мере цифровизации медицины необходимость в массовых носимых датчиках и правда растет. С другой — пока что всякая встраиваемая в одежду гибкая электроника не очень оказывалась способна выдерживать реальную эксплуатацию, включая стирку и взаимодействие с окружающими предметами.
Ну вдруг оптике повезет больше:)
С одной стороны, по мере цифровизации медицины необходимость в массовых носимых датчиках и правда растет. С другой — пока что всякая встраиваемая в одежду гибкая электроника не очень оказывалась способна выдерживать реальную эксплуатацию, включая стирку и взаимодействие с окружающими предметами.
Ну вдруг оптике повезет больше:)
Хороший пример использования нескольких ИИ-инструментов для видеохостинга. И это не про рекомендации или рекламу:)
Когда на платформе есть масса обучающих видео из самых разных областей, можно натравить на эти ролики сначала алгоритмы распознания и реферирования, которые для каждого ролика выделят основные пункты, которые было бы важно усвоить учащемуся. А потом современные генеративные системы прекрасно могут придумать любое количество контрольных вопросов, позволяющих обручающемуся человеку самостоятельно проверить, насколько он хорошо усвоил материал — и где именно проблемы (если они есть).
Учитывая колоссальный объем когда-то записанных видеокурсов, это крутой способ придать им дополнительную ценность с точки зрения пользователя, и сделать все это автоматически. И попутно пример того, как генеративные системы могут менять устоявшийся ландшафт всякого цифрового образования.
https://wccftech.com/youtube-is-apparently-testing-ai-generated-quizzes-to-check-whether-you-have-learned-something-from-the-videos-you-have-watched/
Когда на платформе есть масса обучающих видео из самых разных областей, можно натравить на эти ролики сначала алгоритмы распознания и реферирования, которые для каждого ролика выделят основные пункты, которые было бы важно усвоить учащемуся. А потом современные генеративные системы прекрасно могут придумать любое количество контрольных вопросов, позволяющих обручающемуся человеку самостоятельно проверить, насколько он хорошо усвоил материал — и где именно проблемы (если они есть).
Учитывая колоссальный объем когда-то записанных видеокурсов, это крутой способ придать им дополнительную ценность с точки зрения пользователя, и сделать все это автоматически. И попутно пример того, как генеративные системы могут менять устоявшийся ландшафт всякого цифрового образования.
https://wccftech.com/youtube-is-apparently-testing-ai-generated-quizzes-to-check-whether-you-have-learned-something-from-the-videos-you-have-watched/
Wccftech
YouTube Is Apparently Testing AI-Generated Quizzes To Check Whether You Have Learned Something From The Videos You Have Watched
It turns out that YouTube is currently working on a new feature that will add AI-generated quizzes so you can answer questions about the videos you've watched.
Марк Луковски, отвечавший в Google за разработку софта для устройств смешанной реальности, не просто объявил о своем решении покинуть компанию, но и сопроводил это решение нечастым для топов комментарием
The recent changes in AR leadership and Google’s unstable commitment and vision have weighed heavily on my decision.
Ссылка на недостаток приверженности и стратегии со стороны Гугла — слова человека огорченного и обиженного; нечастый случай отхода от корпоративной гладкой политкорректности — видимо, что-то действительно неладно там с планами на будущее и нет согласия в руководстве. А ведь Гугл как никто знает важность и мощь создания своей операционной системы для нового класса устройств, опыт Android бесценен.
Интересно было б тамошние споры послушать:)
The recent changes in AR leadership and Google’s unstable commitment and vision have weighed heavily on my decision.
Ссылка на недостаток приверженности и стратегии со стороны Гугла — слова человека огорченного и обиженного; нечастый случай отхода от корпоративной гладкой политкорректности — видимо, что-то действительно неладно там с планами на будущее и нет согласия в руководстве. А ведь Гугл как никто знает важность и мощь создания своей операционной системы для нового класса устройств, опыт Android бесценен.
Интересно было б тамошние споры послушать:)
Slash Gear
Google's Latest Exec Loss Has Dire Implications For A Vision Pro Competitor
Days after it was reported that Google's "Project Iris" AR glasses were shelved, a senior executive has publicly announced their departure.
Сегодня отмечается созданный по инициативе ООН День народонаселения. Не то, чтоб напрямую связанная с технологиями тема, но вообще-то для развития массовых технологий довольно важно, кого и где обслуживать.
Публикуемая картинка прогноза на 2050 год, как любые прогнозы, не слишком надежна: за большее чем четверть века много чего может случиться, что подвинет прогнозные цифры. Например, природные катастрофы.
Но у меня вопрос попроще и не к деталям: все ли флаги на этой картинке вы можете опознать и сказать, каким государствам они принадлежат? А как будет выглядеть технологический ландшафт в них? 🙂
И да, смотреть интересно именно в динамике, а не просто срез на какой-то год.
https://www.aljazeera.com/news/2023/7/11/world-population-day-what-will-the-world-look-like-in-2050
Публикуемая картинка прогноза на 2050 год, как любые прогнозы, не слишком надежна: за большее чем четверть века много чего может случиться, что подвинет прогнозные цифры. Например, природные катастрофы.
Но у меня вопрос попроще и не к деталям: все ли флаги на этой картинке вы можете опознать и сказать, каким государствам они принадлежат? А как будет выглядеть технологический ландшафт в них? 🙂
И да, смотреть интересно именно в динамике, а не просто срез на какой-то год.
https://www.aljazeera.com/news/2023/7/11/world-population-day-what-will-the-world-look-like-in-2050
Al Jazeera
World Population Day: What will the world look like in 2050?
By 2050, after India and China, Nigeria is expected to become the world’s third most populous nation.
И еще один любопытный окологеграфический факт :) Очередной страной, где начнет работать космический интернет от Маска Starlink, станет Монголия.
Логично для страны, где много районов с низкой плотностью населения, но все равно звучит чуть неожиданно :)
https://eandt.theiet.org/content/articles/2023/07/spacex-to-launch-satellite-internet-service-in-mongolia/
Логично для страны, где много районов с низкой плотностью населения, но все равно звучит чуть неожиданно :)
https://eandt.theiet.org/content/articles/2023/07/spacex-to-launch-satellite-internet-service-in-mongolia/
E&T
SpaceX to launch satellite internet service in Mongolia
Mongolia has granted two licences for Elon Musk's SpaceX to operate as an internet service provider using low-orbit satellites.
Про новых ИИ-чатботов уже скучно и читать, и писать, но сообщение про Claude-2 от Anthropic попало и в телевизионные новости в США, и вся околотехнологическая пресса отписалась. Собственная LLM от Anthropic создана людьми уважаемыми (выходцами из OpenAI), сам стартап образован еще в 2021 и имеет на сегодня оценку свыше 4 млрд долларов — так что проходит по категории грандов-тяжеловесов, а не бодрых выскочек. Ну, и его фокус на безопасности и дружелюбности своего продукта, естественно, многим импонирует.
Из важных отличий нового чат-бота (и API) — бОльший размер контекстного окна. На практике это означает, например, что для реферирования можно в него загрузить не только статью, но и целую книгу (около 75 000 слов).
Из важных отличий нового чат-бота (и API) — бОльший размер контекстного окна. На практике это означает, например, что для реферирования можно в него загрузить не только статью, но и целую книгу (около 75 000 слов).
The Verge
Anthropic’s “friendly” AI chatbot, Claude, is now available for more people to try
Claude has entered the chat.
Еврокомиссия решила на бюрократическом уровне заняться футурологией, объявив, что будущее за web 4.0, где предполагается an integration between digital and real objects and environments, and enhanced interactions between humans and machines. Эта очередная итерация интернета принесет нам a seamlessly interconnected, intelligent and immersive world — что подозрительно напоминает популярные описания метавселенной, но сам термин почему-то не светится в описании, вместо него используется CitiVerse и European Virtual Human Twin.
Ставится задача установить мировые стандарты виртуальных миров и web 4.0 так, чтобы не допустить в них доминирования больших технологических компаний. Интересный подход проактивного госрегулирования будущих технологий в отсутствие самих этих технологий на регулируемой территории:)
Цель заявлена амбициозная Today, Europe throws its hat in the ring to become a world leader in Web 4.0 and virtual worlds. Интересно будет наблюдать за реализацией
https://ec.europa.eu/commission/presscorner/detail/en/ip_23_3718
Ставится задача установить мировые стандарты виртуальных миров и web 4.0 так, чтобы не допустить в них доминирования больших технологических компаний. Интересный подход проактивного госрегулирования будущих технологий в отсутствие самих этих технологий на регулируемой территории:)
Цель заявлена амбициозная Today, Europe throws its hat in the ring to become a world leader in Web 4.0 and virtual worlds. Интересно будет наблюдать за реализацией
https://ec.europa.eu/commission/presscorner/detail/en/ip_23_3718
European Commission - European Commission
Towards the next technological transition: Commission presents EU strategy to lead on Web 4.0 and virtual worlds
Today, the Commission has adopted a new strategy on Web 4.0 and virtual worlds.
Forwarded from AbstractDL
Kandinsky 2.2
Благодаря более крупному картиночному энкодеру (CLIP-ViT-G) у нас получилось сильно забустить как качество генерации изображений, так и понимание текста. Веса и код уже в открытом доступе!
Хабр, colab, бот, сайт
Благодаря более крупному картиночному энкодеру (CLIP-ViT-G) у нас получилось сильно забустить как качество генерации изображений, так и понимание текста. Веса и код уже в открытом доступе!
Хабр, colab, бот, сайт
Неугомонный Маск объявил об официальном открытии компании https://x.ai Он довольно давно собирался зайти в ИИ — с тех примерно пор как его инициатива приостановить все другие разработки в этой области не получила поддержки. Скупал десятками тысяч видеокарты и десятками — крутых специалистов.
И вот компания со скромным слоганом «Понять вселенную» предъявлена публике. Подробностей мало, но объявлена дата большого живого разговора в Twitter Spaces — пятница 14 июля. Будет о чем посудачить на выходных :)
И вот компания со скромным слоганом «Понять вселенную» предъявлена публике. Подробностей мало, но объявлена дата большого живого разговора в Twitter Spaces — пятница 14 июля. Будет о чем посудачить на выходных :)
x.ai
xAI
xAI is an AI company with the mission of advancing scientific discovery and gaining a deeper understanding of our universe. Our first product is Grok - a conversational AI.
Adobe в своем пресс-релизе не только объявил, что генеративнывй сервис Firefly стал доступен для более чем 100 языков (и еще 20 в работе), но и привел познавательную цифру. За три с небольшим месяца, прошедших после запуска, пользователи сгенерировали более миллиарда изображений. Использование этих изображений не влечет юридических рисков: Adobe ручается, что в обучении использовался только тот контент, на который у компании есть права (а у этой компании такого контента действительно хватает).
Таким образом, налицо результаты голосования: пользующаяся продуктами Adobe креативная публика массово приняла новые возможности и стала их использовать.
https://news.adobe.com/news/news-details/2023/Adobe-Firefly-Expands-Globally-Supports-Prompts-in-Over-100-Languages/default.aspx
Таким образом, налицо результаты голосования: пользующаяся продуктами Adobe креативная публика массово приняла новые возможности и стала их использовать.
https://news.adobe.com/news/news-details/2023/Adobe-Firefly-Expands-Globally-Supports-Prompts-in-Over-100-Languages/default.aspx
Adobe
Adobe Firefly Expands Globally, Supports Prompts in Over 100 Languages
Standalone Firefly web service now supports text prompts in over 100 languages, empowering users to generate high-quality images, create stunning text effects, streamline workflows and improve productivity in their language of choice Firefly will expand user…
Forwarded from Проветримся!
https://youtu.be/AwWP_VttNR8
Закрываем сезон разговором про длинные технологические тренды с Андреем Себрантом. Андрей — директор Яндекса по стратегическому маркетингу, автор и ведущий подкаста "Трёп Себранта", автор телеграм канала TechSparks.
Не забудьте поделиться этим эпизодом (и любыми другими, которые вам понравятся).
ApplePodcasts: https://apple.co/2Psx8yd
GooglePodcasts: https://shorturl.at/finK1
Я.Музыка: https://clck.ru/JJB8y
Закрываем сезон разговором про длинные технологические тренды с Андреем Себрантом. Андрей — директор Яндекса по стратегическому маркетингу, автор и ведущий подкаста "Трёп Себранта", автор телеграм канала TechSparks.
Не забудьте поделиться этим эпизодом (и любыми другими, которые вам понравятся).
ApplePodcasts: https://apple.co/2Psx8yd
GooglePodcasts: https://shorturl.at/finK1
Я.Музыка: https://clck.ru/JJB8y
YouTube
Андрей Себрант: длинные технологические тренды
Андрей Себрант — директор Яндекса по стратегическому маркетингу, автор и ведущий подкаста "Трёп Себранта", автор телеграм канала TechSparks.
Подкаст: https://sebrant.chat/
Канал: https://t.me/techsparks
Подкаст: https://sebrant.chat/
Канал: https://t.me/techsparks
Очень красивая и наглядная история про роль «человеческого фактора» в эпоху ИИ, метавселенных, изощреннейших систем безопасности и поголовной цифровой грамотности :)
Просто опечатка в домене почтового адреса — и служебные письма военным (.mil) уходят куда-то в Мали (.ml). Годами уходят:) Человеческие ошибки непобедимы! :))
https://www.theverge.com/2023/7/17/23797379/mali-ml-typo-us-military-emails-leak
Просто опечатка в домене почтового адреса — и служебные письма военным (.mil) уходят куда-то в Мали (.ml). Годами уходят:) Человеческие ошибки непобедимы! :))
https://www.theverge.com/2023/7/17/23797379/mali-ml-typo-us-military-emails-leak
The Verge
“Millions” of sensitive US military emails were reportedly sent to Mali due to a typo
Emails have been mistakenly routed to Mali for over a decade.
Три дня этой недели я тут был пассивен:) Это время я провел в Сочи, точнее — в Сириусе, где уже не первый раз работал со школьниками, собравшимися на “Большие вызовы” — формально это традиционное мероприятие определяется как «Научно-технологическая проектная образовательная программа». На практике это почти месяц проектной работы десятков сборных команд талантливейших старшеклассников, съехавшихся со всей страны. Каждый раз, как работаю с ними, просто искренне наслаждаюсь — насколько же они крутые.
Одним из вечеров я читал для них развлекательно-духоподъемную открытую лекцию, в которой долго объяснял, почему я им искренне (и по-белому) очень завидую. Кажется, это единственная внешне доступная активность, хотя б на ВК выложена запись. Поделюсь ей и здесь:)
https://vk.com/wall-71991592_46674
Одним из вечеров я читал для них развлекательно-духоподъемную открытую лекцию, в которой долго объяснял, почему я им искренне (и по-белому) очень завидую. Кажется, это единственная внешне доступная активность, хотя б на ВК выложена запись. Поделюсь ей и здесь:)
https://vk.com/wall-71991592_46674
VK
Образовательный центр «Сириус». Запись со стены.
ПОДКЛЮЧАЙТЕСЬ К ВСТРЕЧЕ С ДИРЕКТОРОМ ПО СТРАТЕГИЧЕСКОМУ МАРКЕТИНГУ В ЯНДЕКСЕ
Встреча с Андрее... Смотрите полностью ВКонтакте.
Встреча с Андрее... Смотрите полностью ВКонтакте.
Прекрасный пример того, как в умелых руках генеративные ИИ-инструменты резко ускоряют процесс создания видео — если не делать из них культа, а творчески их добавить в типичный рабочий процесс создаиня и монтажа цифрового видео.
Тему авторы выбрали знатную: под выходные, на которых стартует показ «Барби» и «Оппенгеймера», они создали трейлер «Барбенгеймера» :)) Дальше спойлерить не буду, сами взгляните, ролик короткий, а в статье есть некоторые детали его создания: впечатляет, что на весь процесс ушло четыре (!) дня.
https://petapixel.com/2023/07/20/viral-ai-generated-barbenheimer-trailer-took-four-days-to-make/
Тему авторы выбрали знатную: под выходные, на которых стартует показ «Барби» и «Оппенгеймера», они создали трейлер «Барбенгеймера» :)) Дальше спойлерить не буду, сами взгляните, ролик короткий, а в статье есть некоторые детали его создания: впечатляет, что на весь процесс ушло четыре (!) дня.
https://petapixel.com/2023/07/20/viral-ai-generated-barbenheimer-trailer-took-four-days-to-make/
Peta Pixel
Viral AI-Generated ‘Barbenheimer’ Trailer Took Four Days to Make
Now she has become death, destroyer of worlds.
Журналисты и блогеры всё никак не пресытятся скандалами вокруг ChatGPT и иже с ним. Популярнейшая тема пары последних дней “GPT-4 внезапно резко отупела, и это неспроста”. Пересказы соответствующих популярных статей уже начал встречать во вроде бы вменяемых каналах, например.
Прежде чем начать это обсуждать, очень советую внимательно ознакомиться с первоисточником (на уровне методик, а не выводов) и прочитать вот этот разбор:
Is GPT-4 getting worse over time?
Два важнейших тезиса:
1. возможности модели (обусловленные самой трудоемкой частью, претренингом и архитектурой) и ее наблюдаемое поведение (в котором сильно влияние тонкой донастройки) — вещи разные. В продуктах мы видим не саму модель, а именно донастроенный динамичный продукт. И его поведение не говорит о возможностях и качестве самой модели (или ее изменениях). Более того, в силу стохастического принципа генерации ответов, даже на один и тот же суперудачный промпт ответы могут очень сильно отличаться от раза к разу. Это, кстати, полезно бы помнить всем, кто считает, что оптимизированные промпты — это навсегда 🙂
А с самой моделью GPT-4 ничего не происходило и пока не происходит. Тут нас OpenAI не обманывает, какую бы конспирологию не пытались построить “эксперты”.
2. Способы тестирования и интерпретация результатов в исходной статье, мягко скажем, вызывают вопросы 🙂 Какие — почитайте сами, тут важен как раз детальный разбор.
И еще раз — не ведитесь на сенсационные “разоблачения” с простыми ответами:) Жизнь всегда сложнее и интересней.
Прежде чем начать это обсуждать, очень советую внимательно ознакомиться с первоисточником (на уровне методик, а не выводов) и прочитать вот этот разбор:
Is GPT-4 getting worse over time?
Два важнейших тезиса:
1. возможности модели (обусловленные самой трудоемкой частью, претренингом и архитектурой) и ее наблюдаемое поведение (в котором сильно влияние тонкой донастройки) — вещи разные. В продуктах мы видим не саму модель, а именно донастроенный динамичный продукт. И его поведение не говорит о возможностях и качестве самой модели (или ее изменениях). Более того, в силу стохастического принципа генерации ответов, даже на один и тот же суперудачный промпт ответы могут очень сильно отличаться от раза к разу. Это, кстати, полезно бы помнить всем, кто считает, что оптимизированные промпты — это навсегда 🙂
А с самой моделью GPT-4 ничего не происходило и пока не происходит. Тут нас OpenAI не обманывает, какую бы конспирологию не пытались построить “эксперты”.
2. Способы тестирования и интерпретация результатов в исходной статье, мягко скажем, вызывают вопросы 🙂 Какие — почитайте сами, тут важен как раз детальный разбор.
И еще раз — не ведитесь на сенсационные “разоблачения” с простыми ответами:) Жизнь всегда сложнее и интересней.
Aisnakeoil
Is GPT-4 getting worse over time?
A new paper going viral has been widely misinterpreted