Data Secrets

Vision-LSTM – новая фундаментальная CV-модель на основе xLSTM

Да, надстройки над xLSTM не заставили себя долго ждать. Vision-LSTM (ViL), в первую очередь, удивила всех скоростью. Модель быстрее, чем Vision-Mamba (тоже sequential модель) даже без ядр CUDA.

Под капотом: двунаправленные mLSTM блоки, которые обрабывают patch-токены изображения. При этом, в отличие от Vision-Mamba, где каждый блок обрабатывает последовательность сразу в двух направлениях, здесь направления чередуются между четными и нечетными блоками. За счет этого и скорость.

По метрикам на ImageNet1K тоже лучше, чем Vision-Mamba. Однако, как говорят сами авторы, так как оптимизированной реализации для xLSTM пока нет, для больших моделей все еще лучше подходит ViT (трансформер).

Выглядит многообещающе. Советуем прочитать статью полностью здесь. А еще авторы выложили код.

👍27❤10🔥10

9.08K views13:30

Data Secrets

Вау! Событие из красной книги: у OpenAI вышла статья с открытым кодом

В числе авторов Илья Суцкевер, и, как вы возможно уже поняли, статья про интерпретируемость. Подход идейно повторяет недавнюю работу Anthropic. Ресерчеры OpenAI также используют разреженный автоэнкодер и с помощью него выделяют в поведении модели "фичи" - интерпретируемые паттерны активаций (о них можно думать, как о темах).

Утверждается, однако, что заявленный подход масштабируется лучше, чем остальные существующие. Из GPT-4 удалось достать 16 миллионов фичей. Есть клевая визуализация. В опенсорсе показали подход на примере GPT-2.

Про управление фичами (в отличие от Anthropic) пока ничего особенного, оставляют на дальнейшие исследования.

❤26👍18🔥13

9.55K viewsedited 16:37

Data Secrets

А что, просто пихать везде нейросети нельзя?

😁17636👍14❤4

8.89K views08:22

Data Secrets

Apple решили, что теперь AI – это не Artificial Intelligence, а Apple Intelligence.

Да, именно так они назвали свою новую SIRI. Общество на такой гениальный ребрендинг отреагировало незамедлительно, и Интернет уже полон шуток – мы отобрали лучшие.

Новую систему AI в iOS 18 компания представит на конференции WWDC 2024, то есть через несколько дней.

😁8321🔥9❤2👍2🤪1

8.9K views11:48

Data Secrets

А что мы, хуже Apple? Давайте тоже придумаем свою расшифровку AI.

Пиши идеи в комментарии 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🔥10❤3🗿2

8.56K views13:39

Data Secrets

Раньше ученые предсказывали, на сколько нам хватит нефти. Теперь просчитывают, на сколько хватит данных

Спойлер: данные кончатся быстрее, чем нефть. По крайней мере, так говорит новый отчет Epoch AI. Данные из интернета, как они сообщили, истощатся уже к 2028.

Какие у нас есть выходы:

⚪️Мультимодальные данные, например видео или музыка.

⚪️Синтетические данные. Однако тут есть очевидная проблема с качеством.

⚪️ Соцсети. Тут непонятно, что делать с конфиденциальностью.

Вообще, там целая статья на arXiv с обсуждениями и выводами. Отличное чтиво на выходные.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍46❤7🔥6😁3

9.49K views15:36

Data Secrets

Amazon, возможно, тайно предоставляла российским силовым структурам доступ к технологии распознавания лиц

Об этом сообщает бывший сотрудник компании Чарльз Форрест, которого уволили якобы из-за невыполнения трудовых обязанностей. Сам же Чарльз утверждает, что был уволен из-за того, что пытался повлиять на политику компании в отношении России.

В своем иске он заявил, что после начала конфликта на Украине Amazon, вопреки санкциям Великобритании, продолжал предоставлять России доступ к Amazon Rekognition через подставную компанию в Нидерландах.

Amazon отвергает обвинения, утверждая, что они необоснованы и будут оспорены в суде.

😁61🤪22🔥7🤯6😎5🤔3❤2👍2

10.3K views17:57

Data Secrets

Любое обновление ОС и железа последний год:

😁15415🔥10❤7⚡1

10.3K views07:24

Data Secrets

Audio

Мы тут нагенерировали для вас треков про ML в новом Suno

Для тех, кто сегодня отдыхает – бодрая версия.

Audio

Для тех, кто работает – не расстраивайтесь, для вас ~~плаксивая~~ лирическая.

Новая версия действительно приятно удивила. Послушайте и оцените сами. Тексты оставим в комментариях.

Кстати, вы тоже можете погенерить: в Suno доступно достаточное количество фри кредитов

🔥25👍8❤6

10.2K views10:36

Data Secrets

А вы читали "Понедельник начинается в субботу"?

Это повесть братьев Стругацких 1965 года – о программисте, который попал в сказочную реальность. Вообще, книга считается фантастической. Хотя, в 2024 так кажется все меньше...

Как думаете, они что-то знали?

😁91🔥43👍24🤯9❤6❤‍🔥1🤪1

11.1K views13:25

Data Secrets

Андрей Карпаты выложил 4-часовое видео о том, как воспроизвести GPT-2 с нуля на Python

4 часа??? Да, видео начинается с пустого файла, и вы своими глазами видите, как из него рождается LLM, при этом Андрей подробно объясняет каждый шаг (вот у кого точно выходные прошли продуктивно).

В комплекте не только написание самой архитектуры, но и оптимизация кода, и настройка гиперпараметров, и оценка метрик. Ну вы поняли, маствотч.

Кстати, Карпаты – вообще большой любитель образовательного контента. Вот другие лекции и имплементации от ученого:

➡️

Лекция «Введение в большие языковые модели»

➡️

Код GPT-2 на чистом C

➡️

Большая лекция про токенизацию в LLM и реализация BPE с нуля

➡️

Лекция про обучение ChatGPT

➡️

Лекция-интервью про будущее ИИ

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥171👍24❤1711⚡5🤯2🦄1

19.5K views06:48

Data Secrets

Современные LLM не могут решить простейшую детскую загадку

Об этом рассказали немецкие ученые из Юлиха в статье "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models".

Alice in Wonderland – это название той самой загадки. Она звучит так: "У Алисы есть N братьев, а также M сестер. Сколько сестер у брата Алисы?". Правильный ответ прост, но большинство протестированных в статье LLM (включая GPT-3.5/4, Claude, Gemini, LLaMA, Mistral) с загадкой не справляются.

Исследователи даже попробали давать моделям подсказки, задавать вопрос в другой вариации, просили их "подумать еще раз" и применяли прочие промпт-фокусы, но ничего не улучшило ситуацию. Даже когда модель случайно давала правильный ответ, она не могла нормально его объяснить.

Основной вывод статьи: нам нужны новые бенчмарки. Существующие ризонинг тесты (MMLU, ARC, Hellaswag и др) не отражают реальных способностей модели к рассуждению и, более того, завышают их.

Ян Лекун прокомментировал исследование так: "Это лишь еще одно доказательство, что здравый смысл и интеллект не следует путать со способностью хранить и приблизительно восстанавливать информацию."

🔥103👍39❤15😁5🤝2

12.9K views10:15

Data Secrets

Коллеги, мы?

😁374💯6834❤17🙈5👍3🤯3🍌3✍2🔥2👀1

11.3K views12:48

Data Secrets

Напоминаем, что через 20 минут стартует WWDC 2024 от Apple. Конференция будет транслироваться на YouTube.

Возможно, в этот раз обновления IOS будут не такими скучными, как обычно. Посмотрим, что там кроется за этим вашим Apple Intelligence.

👍20🔥10❤4

10K viewsedited 16:41

Data Secrets

Сэм Альтман пришёл посмотреть, что там анонсирует Тим Кук.

Но за 50 минут никакого AI не завезли…

👍59😁15🔥12❤2🤔1🤪1🦄1

10K views17:48

About

Blog

Apps

Platform