Андрей Карпаты выложил 4-часовое видео о том, как воспроизвести GPT-2 с нуля на Python
4 часа??? Да, видео начинается с пустого файла, и вы своими глазами видите, как из него рождается LLM, при этом Андрей подробно объясняет каждый шаг (вот у кого точно выходные прошли продуктивно ).
В комплекте не только написание самой архитектуры, но и оптимизация кода, и настройка гиперпараметров, и оценка метрик. Ну вы поняли, маствотч.
Кстати, Карпаты – вообще большой любитель образовательного контента. Вот другие лекции и имплементации от ученого:
➡️ Лекция «Введение в большие языковые модели»
➡️ Код GPT-2 на чистом C
➡️ Большая лекция про токенизацию в LLM и реализация BPE с нуля
➡️ Лекция про обучение ChatGPT
➡️ Лекция-интервью про будущее ИИ
4 часа??? Да, видео начинается с пустого файла, и вы своими глазами видите, как из него рождается LLM, при этом Андрей подробно объясняет каждый шаг (
В комплекте не только написание самой архитектуры, но и оптимизация кода, и настройка гиперпараметров, и оценка метрик. Ну вы поняли, маствотч.
Кстати, Карпаты – вообще большой любитель образовательного контента. Вот другие лекции и имплементации от ученого:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥171👍24❤17 11⚡5🤯2🦄1
Современные LLM не могут решить простейшую детскую загадку
Об этом рассказали немецкие ученые из Юлиха в статье "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models".
Alice in Wonderland – это название той самой загадки. Она звучит так: "У Алисы есть N братьев, а также M сестер. Сколько сестер у брата Алисы?". Правильный ответ прост, но большинство протестированных в статье LLM (включая GPT-3.5/4, Claude, Gemini, LLaMA, Mistral) с загадкой не справляются.
Исследователи даже попробали давать моделям подсказки, задавать вопрос в другой вариации, просили их "подумать еще раз" и применяли прочие промпт-фокусы, но ничего не улучшило ситуацию. Даже когда модель случайно давала правильный ответ, она не могла нормально его объяснить.
Основной вывод статьи: нам нужны новые бенчмарки. Существующие ризонинг тесты (MMLU, ARC, Hellaswag и др) не отражают реальных способностей модели к рассуждению и, более того, завышают их.
Ян Лекун прокомментировал исследование так: "Это лишь еще одно доказательство, что здравый смысл и интеллект не следует путать со способностью хранить и приблизительно восстанавливать информацию."
Об этом рассказали немецкие ученые из Юлиха в статье "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models".
Alice in Wonderland – это название той самой загадки. Она звучит так: "У Алисы есть N братьев, а также M сестер. Сколько сестер у брата Алисы?". Правильный ответ прост, но большинство протестированных в статье LLM (включая GPT-3.5/4, Claude, Gemini, LLaMA, Mistral) с загадкой не справляются.
Исследователи даже попробали давать моделям подсказки, задавать вопрос в другой вариации, просили их "подумать еще раз" и применяли прочие промпт-фокусы, но ничего не улучшило ситуацию. Даже когда модель случайно давала правильный ответ, она не могла нормально его объяснить.
Основной вывод статьи: нам нужны новые бенчмарки. Существующие ризонинг тесты (MMLU, ARC, Hellaswag и др) не отражают реальных способностей модели к рассуждению и, более того, завышают их.
Ян Лекун прокомментировал исследование так: "Это лишь еще одно доказательство, что здравый смысл и интеллект не следует путать со способностью хранить и приблизительно восстанавливать информацию."
🔥103👍39❤15😁5🤝2
Напоминаем, что через 20 минут стартует WWDC 2024 от Apple. Конференция будет транслироваться на YouTube.
Возможно, в этот раз обновления IOS будут не такими скучными, как обычно. Посмотрим, что там кроется за этим вашим Apple Intelligence.
Возможно, в этот раз обновления IOS будут не такими скучными, как обычно. Посмотрим, что там кроется за этим вашим Apple Intelligence.
👍20🔥10❤4
Data Secrets
Сэм Альтман пришёл посмотреть, что там анонсирует Тим Кук. Но за 50 минут никакого AI не завезли…
AI все-таки случился, Apple представила Apple Intelligence. Основные фишки:
➡️ Генерация текста (переписать, поправить, суммаризировать) внутри заметок и приложения Почта.
➡️ Генерация картинок. В «Заметках» можно сгенерировать скетч. В iMessage фотографию на основе аватарки.
➡️ ИИ может отсортировать ваши уведомления по важности.
➡️ Создание кастомизированных эмодзи с названием Genmoji (самое важное из обновлений).
➡️ Siri теперь с LLM под капотом, и может в RAG. А главное, ей теперь можно писать.
➡️ Apple делает большой акцент на безопасности и том, что не собирает ваши данные и все обрабатывается на устройстве (да-да, верим).
➡️ Новая функция Clean Up удаляет ненужные объекты с фотографии.
➡️ ChatGPT-4o будет работать вместе с Siri.
➡️ «Заметки» транскрибируют аудио. После этого будет создана некая сводка с главными мыслями.
Apple Intelligence будет доступен на iPhone 15, а также на чипах M1-M4. На начальном этапе только на английском языке.
Apple Intelligence будет доступен на iPhone 15, а также на чипах M1-M4. На начальном этапе только на английском языке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥18😁13🗿7😐4❤3
Data Secrets
AI все-таки случился, Apple представила Apple Intelligence. Основные фишки: ➡️ Генерация текста (переписать, поправить, суммаризировать) внутри заметок и приложения Почта. ➡️ Генерация картинок. В «Заметках» можно сгенерировать скетч. В iMessage фотографию…
ChatGPT-4o будет работать вместе с Siri! Добавят позже в этом году. Всё будет работать бесплатно (для платных пользователей будет расширенная версия)! Аккаунт создавать не нужно.
❤60🔥20👍12🗿4😐2 1
У Маска подгорело на вчерашнюю презентацию Apple
Он угрожает, что в случае внедрения Apple Intelligence запретит все устройства Apple в своих компаниях. Даже гостям в офисах придется сдавать свои айфоны в клетку Фарадея.
Миллиардер считает, что внедрение моделей OpenAI направлено на сбор данных пользователей и назвал его “неприемлемым нарушением безопасности”.
Он угрожает, что в случае внедрения Apple Intelligence запретит все устройства Apple в своих компаниях. Даже гостям в офисах придется сдавать свои айфоны в клетку Фарадея.
Миллиардер считает, что внедрение моделей OpenAI направлено на сбор данных пользователей и назвал его “неприемлемым нарушением безопасности”.
🔥119😁59 41👍11💯4🦄4🐳2🎅2❤1🤪1
Вышла новая интересная моделька для генерации 3D-моделей по фотографии
Называется Unique3D, ее представили ученые из Китая. Ей требуется всего одно изображение или рисунок и 30 секунд, чтобы построить 3D-модель. Визуально работает гораздо лучше, чем InstantMesh, CRM и OpenLRM.
Под капотом несколько этапов диффузии и алгоритм Isomer, который воссоздаёт полигональную сетку объекта по картинке.
Доступны веса, код и есть подобная статья.
Называется Unique3D, ее представили ученые из Китая. Ей требуется всего одно изображение или рисунок и 30 секунд, чтобы построить 3D-модель. Визуально работает гораздо лучше, чем InstantMesh, CRM и OpenLRM.
Под капотом несколько этапов диффузии и алгоритм Isomer, который воссоздаёт полигональную сетку объекта по картинке.
Доступны веса, код и есть подобная статья.
❤35👍10 10🔥8😎1 1 1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI: у нас на презентации будет крутое демо
Google: а у нас диджей
Тем временем Apple:
Google: а у нас диджей
Тем временем Apple:
😁206👍11❤10🤯4😎3
Когда спросили, будут ли айфоны собирать данные о пользователях
🔥70😁42🤪5👍4❤1🤔1🤨1
Подробный гайд от Meta* AI по self-supervised learning
Это даже не просто гайд, а целый cookbook. В ней можно найти и определения, и историю SSL, и обзоры основных подходов, и всякие инсайдерские трюки по обучению.
Сами Meta в своем анонсе книги назвали SSL "темной материей интеллекта", и "ключевых ингридиентом недавних прорывов".
Книга: The self-supervised learning cookbook
Это даже не просто гайд, а целый cookbook. В ней можно найти и определения, и историю SSL, и обзоры основных подходов, и всякие инсайдерские трюки по обучению.
Сами Meta в своем анонсе книги назвали SSL "темной материей интеллекта", и "ключевых ингридиентом недавних прорывов".
Книга: The self-supervised learning cookbook
👍66❤19🔥13😁3⚡2
У OpenAI, помимо денег и мощей Microsoft, теперь будет компьют Oracle
Компании заключили сделку, в рамках которой Oracle предоставит свои мощности под облако Azure, которое OpenAI будет использовать для инференса и размещения моделей.
По словам OpenAI, Microsoft не в обиде: весь пре-трейн все также будет происходить на их суперкомпьютерах.
Забавно, что одновременно Oracle заключил сделку с Google. Также одним из основных клиентов облачного гиганта является xAI Маска.
Компании заключили сделку, в рамках которой Oracle предоставит свои мощности под облако Azure, которое OpenAI будет использовать для инференса и размещения моделей.
По словам OpenAI, Microsoft не в обиде: весь пре-трейн все также будет происходить на их суперкомпьютерах.
Забавно, что одновременно Oracle заключил сделку с Google. Также одним из основных клиентов облачного гиганта является xAI Маска.
👍47🤔13🔥7❤6😁4🤨2🎉1😐1
RLHF – убийца кретивности LLM
Алгоритм, который призван делать модели человечнее и воспитаннее, на самом деле понижает их способность к творческому и разнообразному мышлению.
Это показали ученые в новой статье с прикольным названием "Creativity Has Left the Chat: The Price of Debiasing Language Models".
Что такое RLHF? Что происходит с внутрянкой модели во время этого процесса? Почему феномен из статьи – настоящая преграда на пути к AGI? Читайте в нашем мини-разборе👆
Алгоритм, который призван делать модели человечнее и воспитаннее, на самом деле понижает их способность к творческому и разнообразному мышлению.
Это показали ученые в новой статье с прикольным названием "Creativity Has Left the Chat: The Price of Debiasing Language Models".
Что такое RLHF? Что происходит с внутрянкой модели во время этого процесса? Почему феномен из статьи – настоящая преграда на пути к AGI? Читайте в нашем мини-разборе
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤71👍19🔥7😁3