AI Для Всех
12.3K subscribers
1.06K photos
138 videos
10 files
1.35K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Forwarded from Earth&Climate Tech
This media is not supported in your browser
VIEW IN TELEGRAM
AI модель от Мета, которая может стать chatGPT3 в мире компьютерного зрения

Возможно это "chatGPT3-moment" для ИИ в области компьютерного зрения, посмотрим. Только что мета выкатила проект SAM - Segment Anything - модель обученная на самом большом датасете по выделению объектов на изображении. И модель и датасет выложены в открытый доступ.

🔥 SAM позволяет пользователям сегментировать объекты одним щелчком мыши.
🔥 SAM может автоматически находить и маскировать ВСЕ объекты на изображении.
🔥 SAM может генерировать маску сегментации для любой подсказки в режиме реального времени, что позволяет взаимодействовать с моделью в реальном времени.
🔥 Согласно статье работает замечательно для Zero-Shot Learning задач. То есть, когда надо настроить модель для своего датасете и очень быстро без трудоемкого обучения.

Они сделали даже демо, но оно, видимо, перегружено запросами, у меня пока не открылось.

В наших делах по интерпретации и выделению объектов - это может быть прорывна штука. Посмотрим.
Нейросеть для анализа землетрясений

Привет сообщество! Я тут выложил в открытую альфу свою новую нейронку, которая анализирует землетрясения. И мне нужна ваша помощь в тестировании и оптимизации.

Даже если вы ничего не знаете о землетрясениях вы можете почитать код и оптимизировать глупости всякие. Пишите коменты что непонятно (в коде, в тексте), какие вопросы и как улучшить.

Оставляйте пул реквесты (spaces можно клонировать, как обычный гит)

Буду супер рад!
🤗 Демка

@crimeacs
Вот такие вот у нас билборды в Сан Франциско
Офигенный канал про Америку

В своем канале я довольно мало пишу про то где и как я живу (а живу я в Сан Франциско), больше сосредотачиваясь на новостях из мира машинного обучения. Но, весь этот путь со мной проходит прекрасная авторка канала Многоэтажная Америка (отсылка к книге Ильфа и Петрова Одноэтажная Америка). И у этого канала и фотки хороши, и тексты супер.

🌁 Подписаться на Многоэтажную Америку

#этоточнополюбви
❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
Введение в языковую модель LLaMA 🦙 и новое руководство по ее приручению

LLaMA - базовая большая языковая модель от Meta AI, доступная в 4 размерах: 7B, 13B, 33B и 65B параметров. Меньшие модели обучены на большом количестве токенов для экономии ресурсов и вычислительной мощности.

На днях команда Lightning ⚡️ выпустила руководство по обучению и тюну LLaMA (Large Language Model Meta AI). Основное внимание уделено Файн-тюнингу и инференсу, так как обучение с нуля требует значительных вычислительных мощностей, недоступных большинству.

Open-source сообщество уже успело одомашнить LLaMA и расширить ее возможности, например, они уже ее оптимизировали и добавили тюнс помощью LoRA, а также обучение чат-бота с Stanford Alpaca.

Lightning AI также представила Lit-LLaMA - собственную реализацию LLaMA с открытым исходным кодом, выпущенную под лицензией Apache 2.0. Эта лицензия упрощает интеграцию с другими проектами глубокого обучения и позволяет использовать 🦙 в коммерческих целях.

В новом руководстве вы узнаете, как обучать и настраивать LLaMA, использовать скрипты для оптимизированного обучения и тюнинга с LoRA, а также использовать Lit-LLaMA для вывода на 8 ГБ видеокартах.

🦙 руководство
Нейроморфные чипы NeuRRAM: энергоэффективные нейросети теперь реальность

Когда Лекун говорит о NeuralAI и создании цифровых органоидов, имитирующих биологические органы, это звучит как научная фантастика.

А когда в Nature выходит статья о новых нейроморфных чипах и решение МЛ задач на приборе размером с ноготок (1 кв см), дух захватывает, как в детстве на качелях.

NeuRRAM - это один из самых передовых чипов для нейроморфных вычислений, потому что:
- Использует аналоговую память для хранения и обработки больших данных;
- Поддерживает разнообразные и сложные задачи ИИ с довольно высокой точностью (например, классификация изображений 99% на MNIST; 85,7% на CIFAR-10, распознавание голосовых команд 84.7% на датасете от Google);
- Экономит до 1000 раз больше энергии, чем традиционные компьютеры (сейчас ИИ - серьезная нагрузка на окружающую среду);
- Спроектирован с учетом потребностей на всех уровнях от алгоритмов до устройств;

Секрет энергоэффективности в отсутвии энергозатратного перемещения данных: он хранит веса моделей в аналоговой энергонезависимой RRAM и выполняет вычисления непосредственно на чипе. Микросхема также поддерживает параллелизм данных, отображая слой в модели нейронной сети на несколько ядер для параллельного вывода.

Прорыв в том, что NeuRRAM может работать на маленьких устройствах: часы, VR-шлемы, наушники и прочие edge девайсы.
В общем, может изменить будущее вычислений и ИИ. И где-то подвинуть NVIDIA🥇🤔🥈

@GingerSpacetail
📖Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Generative Agents: Interactive Simulacra of Human Behavior

Исследователи из Стэнфорда и Гугл создали "генеративных агентов" на базе gpt3.5-turbo для имитации поведения человека в песочнице, вдохновленной The Sims.

У них получился симулятор социальных взаимодействий, где каждый агент определяется текстовым описанием его профессии, интересами и связей с другими, а ChatGPT играет роль движка. Для обеспечения долгосрочной согласованности действий, авторы расширили ChatGPT тремя компонентами, что позволило агентам создавать распорядок дня, реагировать на новые события и менять планы, если это необходимо.

Первый компонент - модуль долговременной памяти и система извлечения информации. Долгосрочная память сохраняет прошлый опыт агента и состояние окружающей среды с датой и временем события. Для извлечения релевантной информацию авторы просят ChatGPT присвоить оценку важности (от 0 до 10) для каждой записи в долгосрочной памяти, учитывая текущую ситуацию. Далее авторы присваивают вес каждой записи таким образом, что старые записи менее релевантные. На каждом шагу в цикле действий авторы собирают промт комбинируя эти веса и просят ChatGPT решить, что агент должен сделать.

Второй компонент - рефлексия, которая является вторым типом памяти. Подобно тому, как мы во время сна обрабатываем и сохраняем важную информацию в долгосрочную память, приобретенную за день, несколько раз за игровой день ChatGPT просят выделить самые важные события для каждого агента, что позволяет агенту делать выводы о себе и других. Эти выводы также сохраняется в долгосрочную память.

Третий компонент - планирование, которое переводит эти выводы и текущую обстановку в высокоуровневые план действий. Сначала ChatGPT просят создать грубый план на день используя в промте предыдущий опыт и текущее состояние окружения, а затем рекурсивно просят добавить детали для более реального поведения. Эти планы тоже записываются в долгосрочную память.

📜 Статья
👩‍💻 Демо
@karray
День Рождения @crimeacs

Всем привет! У меня (создателя этого канала) сегодня день рождения и вот как вы можете помочь мне отпраздновать:

1. Сделать форк моего инструмента по анализу землетрясений

2. Поискать что можно улучшить/оптимизировать/добавить/починить/прокомментировать. Основные функции прописаны в папке phasehunter и app.py

3. Прислать Pull Request с вашими добавлениями

Если вы не умеете программировать на питоне, но например дружите с UX - присылайте лучшие макеты интерфейса в комментарии.

Если умеете что-то еще - пишите!

Спасибо за такое чудесное поздравление!
Артемий, 29 лет 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Futuris (Anton)
⚡️Amazon мощно заявил о себе в гонке генеративных ИИ ⚡️ предоставив бесплатный доступ к своему AI-ассистенту по программированию CodeWhisperer🤖 (бесплатный аналог Copilot X от Microsoft) - поддерживает множество языков программирования, интегрируется с различными средами разработки (IDE) и фильтрует предложения кода.

Кроме того, Amazon представил Bedrock - инновационный инструмент для создания и масштабирования генеративных ИИ-приложений. Он включает базовые модели от стартапов, таких как AI21 Labs, Anthropic и Stability AI, что позволит разработчикам строить свои приложения на основе передовых ИИ-технологий.

Эти новости подчеркивают амбиции Amazon на рынке искусственного интеллекта, где компания стремится конкурировать с гигантами, такими как Microsoft, Google, OpenAI. Разработчики теперь могут расчитывать на более доступные и продвинутые инструменты, которые помогут ускорить и упростить процесс разработки программного обеспечения🤓
Школа анализа данных Яндекса вновь открыла приём заявок — он продлится до 7 мая. Успейте зарегистрироваться, чтобы получить возможность учиться у топовых учёных и IT-специалистов.

Программа длится 2 года, обучение бесплатное. Можно выбрать одно из направлений: data science, инфраструктура больших данных, разработка машинного обучения или анализ данных в прикладных науках.

Чтобы учиться в ШАДе, важно интересоваться машинным обучением, обладать хорошей математической подготовкой и владеть одним из языков программирования. Заполните анкету уже сейчас: https://clck.ru/344mAx

#промо
This media is not supported in your browser
VIEW IN TELEGRAM
DINOv2: Learning Robust Visual Features without Supervision

Авторы из Meta AI решили провести ревизию и масштабировать существующие подходы self-supervised learning (#SSL) для извлечения скрытых признаков из изображений (pre-text task).

DINOv2 - комбинация идей из DINO, iBOT и SwAV. Авторы показали, что увеличивая количество параметров растёт и производительность. Их модель на 1.1B параметров обошла weakly-supervised методы в 8 из 10 бенчмарках на downstream задачах сегментации и построении карт глубины (код и веса уже доступны).

Для увеличения количества параметров моделей требуется больше данных, и SSL идеален в этом смысле, поскольку не требует наличия ручной разметки. Но эффективность обучения напрямую зависит от качества данных. Для решения этой проблемы авторы предложили новый подход сбора изображений из непроверенных источников используя курируемые наборы данных (такие, как ImageNet).

Они предложили пайплайн состоящий из нескольких техник фильтрации изображений из непроверенных источников. Например, они используют существующие SSL модели для извлечения эмбеддингов из изображений для последующей кластеризации. Используя эмбеддинги из курируемых наборов данных, они размечают кластеры и сортируют похожие изображения. Таким образом им удалось создать большой и сбалансированный набор данных высокого качества.

Статья | Код | Демо

@karray
Тут сразу несколько новостей про альтернативы ChatGPT, которые я опробовал и собрал для вас в одном месте.

OpenAssistant - альтернатива ChatGPT с открытым исходным кодом и набором данных от сообщества LAION. Подробней в видео от Янника.
Демо

LLaVA - новая мультимодальная модель от Microsoft, которая понимает картинки. Модель объяденяет преобученные CLIP ViT-L/14 и LLaMA. Авторы собрали данные для файнтюна давая ChatGPT только описание изображения и координаты баундинг боксов объектов без фактического изображения. Первые эксперименты показывают, что модель достигает 85% по сравнению с GPT-4 в синтетическом мультимодальном наборе данных. Код и веса доступны.
Демо

Vicuna - чат-бота на основе LLaMA дообученный на диалогах, полученных из ShareGPT, и протестированный с помощью GPT-4. Авторы говорят, что Vicuna-13B достигает 90% качества ChatGPT и превосходя при этом LLaMA и Alpaca в большинстве случаев. Стоимость обучения составила около 300 долларов. Код и веса доступны.
Демо

MiniGPT-4 - еще одна мультимодальная модель, основанная на предобученных Vicuna и ViT. Авторы заморозили эти модели и добавили один линейной слой проекции, который был дообучен. Их результаты показывают, что MiniGPT-4 обладает многими возможностями GPT-4, такими как создание веб-сайта из наброска от руки. Код и веса также доступны. Авторы отдельно обещают оптимизацию под 3090
Демо

@karray
Forwarded from Earth&Climate Tech
Media is too big
VIEW IN TELEGRAM
DINOv2 для оценки высоты кроны деревьев в масштабе меньше метра

Вслед за моделью SAM, которая выделяет (сегментирует) любые объекты на изображении, компания Мета выпустила модели компьютерного зрения с самообучением DINOv2. По сути это метод обучения моделей компьютерного зрения, использующий самообучение для достижения результатов, которые превосходят стандартные подходы (судя по релизу).

ИИ сейчас развивается с безумной скоростью конечно. Но мое внимание привлек не сам DINOv2, хотя я очень впечатлен, просто для себя юз кейса не нашел пока, а видео из официального релиза, где Мета показывает как можно применять эту модель для оценки высоты кроны деревьев по всему миру. Картирование растительности имеет большое значение для понимания углеродного цикла. Структура леса может быть пространственно неоднородной, и оценка высоты и площади кроны позволяют наблюдать деградацию существующих лесов, естественное лесовосстановление, или внедрение устойчивых методов ведения сельского хозяйства.

Оказывается Мета работала в сотрудничестве с The Global Restoration Initiative и применяла наработки DINOv2 для картирование лесных массивов и оценки высоты крон деревьев в МАСШТАБЕ КОНТИНЕНТОВ и разрешении меньше метра! Меня впечатлило. Кроме того они выпустили совместную научную статью по этому поводу, где описывают процесс обучения модели на спутниковых данных и данных лидаров.

Мета что-то задумала в области компьютерного зрения. Иначе объяснить такое количество масштабных ИИ работ в такой короткий срок не объяснить.

📖 Статья
Рассматриваю предложения

Друзья, в августе у меня заканчивается контракт в Стенфорде и дальше передо мной встает выбор:
* еще год исследований в Стенфорде
* своя компания
* чей-то невероятно крутой и интересный проект

Если вы хотите пригласить меня в свой проект или хотите прореферить меня своим работодателям - пишите в личку @crimeacs, рассматриваю предложения от $150k.

💻LinkedIn

Keywords: ML/DL/AI, time-series, sensor data, waveforms, audio, speech, music, anomaly detection, signal processing
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Мы все ближе к генеративной сингулярности:
Nvidia показала работу алгоритма text2video, и он работает сильно лучше чем все предыдущие примеры.

Смонтировал примеры в одно видео, тут по ссылке технические детали про архитектуру и больше примеров.

Модель, поиграться, кажется, нам не дадут 🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышел новый подкаст с @crimeacs про землетрясения

Землетрясения, которые произошли в начале года в Турции и Сирии, привели к гибели более 50 тысяч человек и разрушили множество зданий. В связи с этим возник вопрос о причинах такой катастрофы и о возможных мерах предотвращения.

Меня (а еще Кирилла и Александра) пригласили в последний выпуск научно-популярного подкаста "Юра, мы всё узнали!" , чтобы мы пролили свет на причины землетрясений и способы минимизации их последствий.

Яндекс.Музыка
Spotify
Apple Podcasts
Castbox
Новость: Stability AI запускает первый набор языковых моделей StableLM

StableLM предназначена для генерации текста и кода и будет использоваться в различных приложениях. Она демонстрирует, как маленькие и эффективные модели могут достигать высокой производительности при соответствующем обучении.

Модель StableLM обучена на новом экспериментальном наборе данных, созданном на основе набора данных The Pile, который в три раза больше с 1,5 триллионом токенов контента.

StableLM демонстрирует удивительную производительность в разговорных и кодовых задачах, несмотря на ее небольшой размер от 3 до 7 миллиардов параметров (в сравнении, у GPT-3 175 миллиардов параметров).

Модели от 15 до 65 миллиардами параметров находятся в разработке.

И 🍒на торте: StableLM с открытым исходным кодом! Бежим тестить!

Пресс-релиз

GitHub

HuggingFace
Forwarded from Сиолошная
Посмотрел TED Talk от Президента OpenAI, Greg Brockman.

В нём Greg рассказывает про то, насколько языковая модель становится более способной, если к ней прикрутить плагины (внешние модели и/или скрипты, с которыми GPT может "переписываться"). Это частично отсылает нас к основной причине, которую я упоминал на стриме с Валерой (появилась запись, кстати), почему языковые модели это умнО. Потому что они могут коммуницировать между собой также, как это делают люди, и выполнять разные роли, при этом программировать их на каком-то конкретном языке, отличном от английского, не нужно.

В общем, если хочется посмотреть демку - приглашаю к ознакомлению. Но упомянул я видео не поэтому, что хотел приплести видос с Валерой - а потому что среди прочего у Greg спросили, какие возможности модели его поразили.

Если вы помните, в статье про ChatGPT я писал, что GPT-3 научилась в математику, но только на уровне сложения-умножения 2-3 значных чисел. Там можно спекулировать, мол, все такие пары встречались в трейне, модель просто их выучила!

Ну так вот, Greg рассказал - а я проверил - что модель может складывать спокойно даже 40-значные числа, потому что она поняла процесс познакового сложения. При этом если дать одно 40 и одно 35 значное число - магии не произойдет. Числа, которые вводил я - полностью случайные, просто руками по клаве повозил. Уверен на 100%, что комбинация уникальная. Пример решён верно, перепроверил в Python. Оговорюсь, что перенос строки в промпте я не делал, это из-за ширины текстового окна так кажется, то есть даже форматирования простейшего нет.

P.S.: а ещё Greg поделился, что при запуске GPT-3 они боялись, что люди начнут генерировать дезинформацию, а те...начали генерировать спам про виагру (таблетки) ахаххахаха люди такие люди...
CLAP 👏 - как CLIP, но для звуков

Во-первых: контрастное обучение продемонстрировало значительный успех в области изучения мультимодальных представлений. В данной работе предлагается "язык-аудио" для создания аудиопредставлений путем объединения аудиоданных с описаниями на естественном языке. Для достижения этой цели авторы сначала выпустили LAION-Audio-630K, большую коллекцию из 633 526 аудио-текстовых пар из различных источников данных.

Во-вторых, они построили контрастную модель предварительного обучения "язык-аудио", рассматривая различные аудиокодеры и текстовые кодеры. Они включили в модель механизм слияния признаков и дополнения ключевых слов к подписям, что позволило модели обрабатывать аудиоданные различной длины и повысить производительность.

В-третьих, авторы оценивают модель в трех задачах: поиск текста по аудиозаписям, классификация аудиозаписей zero-shot и контролируемая классификация аудиозаписей.

Результаты показывают, что модель достигает превосходной производительности в задаче поиска текста по аудиозаписям. В задачах классификации аудио модель достигает передовой производительности в условиях zero-shot.

📕 Статья
🦑 Модель
Forwarded from Сиолошная
Наш любимый HuggingFace 🤗 запускает свой ответ ChatGPT: HuggingChat 💬

В основе лежит затюненнаяя OpenAssistant фейсбучная LLAMA на 30B параметров, про которую я писал раньше. Она, кстати, уже доступна 3 дня как - прям самая большая и мощная, ага!

Доступно тут в привычном интерфейсе https://huggingface.co/chat/

На скриншоте - пример ответа модели на запрос создать игру "Змейка".

UPD: веб-приложение легло под натиском запросов, подождём (ну или можно запускать локально, хе-хе)
Please open Telegram to view this post
VIEW IN TELEGRAM
Прорыв в области аугментации мультимодальных данных: LeMDA

Интеллектуальные системы предназначены для обучения на основе различных типов данных, таких как текст, аудио и изображения. Несмотря на то, что нейронные сети достигли больших успехов в использовании мультимодальных данных, методы аугментации данных (получение дополнительных данных из существующих) в основном ограничиваются одной модальностью за раз.

Аугментация данных для мультимодального обучения - задача сложная, поскольку трудно сохранить общий смысл при дополнении каждой модальности. Например, если каким-то случайным образом изменить изображение, подпись к нему может перестать его точно описывать. Кроме того, сложно придумать подходящие преобразования, которые работают для всех модальностей.

Авторы представляют LeMDA (Learning Multimodal Data Augmentation)! Этот простой в использовании метод автоматически учится дополнять мультимодальные данные в пространстве признаков (закодированное представление данных), без необходимости знать точные модальности или их взаимосвязи. LeMDA имеет три основных преимущества:

* Она значительно повышает производительность мультимодальных архитектур глубокого обучения.
* Она может применяться к комбинациям модальностей, которые ранее не рассматривались.
* Она достигает самых современных результатов в различных приложениях с изображениями, текстом и табличными данными.

LeMDA - это революционное решение для мультимодального дополнения данных, прокладывающее путь к созданию более надежных и универсальных интеллектуальных систем.

📕 Статья
🦑 Код