AI Для Всех
12.1K subscribers
1.03K photos
127 videos
10 files
1.31K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
Forwarded from Earth&Climate Tech
​​Простая нейронная сеть для классификации зерен цикрона

Британские ученые (это еще мем?) соорудили нейронную сеть, основанную на древней, по меркам развития ИИ, нейронной сети VGG для автоматического определения типа магмы 🌋 по форме кристаллов циркона.

Для чего это нужно вообще? Циркон 💎 — распространенный минерал, встречающийся в горных породах, связанных с магматизмом. Цирконы могут иметь различные формы, размеры и внутреннюю структуру, которые отражают магматические условия, где кристаллизовался циркон. Вероятно цирконы, полученные из магм, связанных с медно-порфировыми месторождениями, экономически ценными источниками меди, могут иметь специфическую морфологию и текстуру. Авторы обучили модель глубокого обучения для классификации цирконов из медно-порфировых пород, которая способна распознавать края, зоны и включения в кристаллах циркона. Теперь их нейронную сеть можно использовать для идентификации цирконов, связанных с медно-порфировыми отложениями в тысячи раз эффективнее, чем сейчас.

Такой незамысловатый, но полезный пример автоматизации с помощью ИИ, который в принципе может сделать любой желающий.

Статья 📖
Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers

Авторы предлагают новый класс линейных трансформеров, называемых Фурье-трансформерами (FLTs), которые используют преобразования Фурье для работы с относительным позиционным энкодингом (RPEs).

FLT строят оптимальный механизм RPE неявно, изучая его спектральное представление. FLT практичны с точки зрения использования памяти и не требуют дополнительных предположений о структуре RPE-маски. FLT позволяют также применять определенные методы структурного индуктивного смещения для определения стратегий маскирования, например, они обеспечивают способ обучения так называемым локальным RPE, представленным в данной работе, и обеспечивают прирост точности по сравнению с некоторыми другими линейныни трансфорерами для моделирования языка.

Авторы также тщательно протестировали FLT на других модальностях данных. Для 3D-данных FLT являются первыми архитектурами трансформеров, обеспечивающими линейное внимание с усилением RPE.

Ссылка
ControlNet, или как научить одну модельку генерить картинки на основе разных входных данных.

Ребята из Стенфорда придумали способ "обобщить" text-to-image модельки на генерацию на основе других видов входов (не только текста). То есть, научили одну модельку генерить картинки на основе:
- скетча;
- human pose;
- маски сегментации;
- карты глубины
- ...

Примеры генераций см. на первой картинке к посту. А вот какая идея у ControlNet:

Современные нейросети обычно имеют блочную структуру. Давайте возьмем предобученную нейросеть (например, Stable Diffusion — SD), и сделаем копию каждого блока этой сети. На вход сети-копии будет подаваться входная информация, на основе которой модель в итоге должна сгенерить картинку (т.е. скетч, human pose и т.п.).

Каждую блок-копию соединим с соответствующим ему блоком исходной сети (вторая картинка к посту). Соединим так: на вход блок-копия будет принимать сумму выхода предыдущего блока-копии и выхода предыдущего блока исходной сети. И далее выход блока-копии будет складываться с выходом соответствующего блока исходной сети и дальше течь по исходной сети.

На третьей картинке к посту показано, как будет выглядеть итоговое устройство модели (исходная сеть + сеть-копия) на примере U-Net из Stable Diffusion. Здесь авторы соединили соответствующие блоки двух копий сетей только в декодере U-Net. Это логично, потому что именно в декодере и происходит генерация картинки (точнее, в случае SD, ее латентного представления).

Ну и дальше, собственно, обучаем сеть-копию end-t-end. Подаем на вход сети-копии скетч/human pose/карту глубины/... и на выходе ожидаем картинку, сгенерированную в соответствии с этим скетчем/human pose/...

Вспомним еще, что Stable Diffusion — это text-to-image model. Поэтому на вход ContolNet можно подавать еще и текст, и тем самым чуть изменять вид получаемой картинки. Например, попросить "картинку на основе скетча в стиле Пикассо" или не просто черепашку, а "черепашку у реки" (см. первую картинку к посту)

Заметим, что исходная сеть (левая часть монстрика с третьей картинки) не обучается. Получается, задача сети-копии в такой модели — переработать информацию из входного скетча/карты глубины так, чтобы исходная предобученная сеть с помощью этой инфы смогла сгенерировать нужную картинку. То, что каждая блок-копия имеет доступ к выходу предыдущего блока исходной сети, помогает блоку-копии лучше переработать информацию для дальнейшего внедрения ее в исходную сеть.

Конечно, для обучения ControlNet понадобятся датасеты вида (скетч, картинка), (карта глубина, картинка) и т.д. Авторы статьи собрали несколько таких датасетов автоматическим способом. Т.е. использовали общедоступные инструмены для получения human pose/карт глубины по картинкам. Полученные датасеты получились небольшими, но ControlNet при этом не переобчается. Авторы утверждают, что это и есть одно из главных преимуществ ControlNet перед обычным дообучением исходной Stable Diffusion на каждую из задач в отдельности.

В завершение еще заметим, что идею ControlNet можно применить для совершенно разных моделей, а не только для Stable Diffusion .

Cсылки:
📄 Статья
🛠Код на GitHub
Forwarded from TechSparks
Вот и запрещенная в России Мета включилась в соревнование техногигантов “кто что крутого проанонсирует в области языковых моделей”: там дали исследователям доступ к трем версиям своей модели LLaMA, в 7, 13, 33 и 65 млрд. параметров.
Доступ дается только с исследовательскими целями; ни своих продуктов не анонсировано, ни другим делать нельзя.
Так оно намного спокойнее, но можно честно сказать, что доступ к относительно большим моделям они демократизировали ради науки и прогресса.

https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
Snap добавил ИИ друга на основе chatGPT для платных подписчиков

После увольнения 20% сотрудников и закрытия ряда проектов в рамках реструктуризации бизнеса Snap, кажется, нашел способ поправить дела. Пока Microsoft пытается справиться со сложностями применения ChatGPT для поиска и в качестве серьезного исследовательского инструмента, Snapchat решил дать пользователям возможность использовать LLM как это сейчас делает большинство - для поболтать. Snap-воплощение ChatGPT называется My AI, имеет аватарку, не нагружен дисклеймерами о своих ограничениях и просто ждёт сообщения от пользователя, чтобы начать общение.
Реализован My AI через новую dev платформу Foundry, которую OpenAI недавно анонсировала для коммерческого доступа с высокой нагрузкой и тонкой настройкой GPT-3.5.
Насчёт тонкой настройки факт - My AI жёстко зафайнтьюнена на соблюдение всех возможных кодексов чести: от не говорить о политике до не помогать школьникам с домашкой.

Ок, а общение с ИИ конфиденциально?

💭Источник
@GingerSpacetail
Гайд по промпт инжинирингу

Инженерия подсказок - это относительно новая дисциплина для разработки и оптимизации подсказок (они же промпты) с целью эффективного использования языковых моделей для широкого спектра приложений.

Навыки инженерии подсказок помогают лучше понять возможности и ограничения больших языковых моделей (LLM) и как следствие лучше понять генеративные нейросети, которые рисуют картинки.

Исследователи используют инженерию подсказок для улучшения возможностей LLM в широком спектре обычных и сложных задач, таких как ответы на вопросы и арифметические рассуждения. Разработчики используют инженерию подсказок для разработки надежных и эффективных методов подсказки, которые взаимодействуют с LLM и другими инструментами.

Мотивированные высоким интересом к разработке с использованием LLM, авторы создали новое руководство по разработке подсказок, которое содержит все последние статьи, учебные пособия, лекции, ссылки и инструменты, связанные с разработкой подсказок.

👀 Ссылка
Forwarded from TechSparks
“All you need is love,” пели прекрасные Beatles, но у Microsoft иная песня: Language is not all you need. В работе с именно таким названием команда тамошних исследователей представила MLLM — мультимодальную большую языковую модель. Называется она Kosmos-1, и выглядит на первый взгляд действительно как “просто космос!”
Ей на вход можно подавать не только текст, но и картинки и аудио. Пример диалога на картинке здесь; в статье есть еще впечатляющие скриншоты. Приятно, что теперь можно будет общаться с алгоритмом, который умеет не только читать, но и видеть и слышать. Вскорости и рисовать его научат — понятно же, с кем скрещивать:)
Меня, конечно, впечатляет: за годы существования канала еще не было случая, чтоб крутейшие новости таким плотным и пока не собирающимся иссякать потоком поступали бы от Майкрософта. К чему бы это:)
Летняя стажировка в Стенфорде

Вы старшеклассник или студент старших курсов, заинтересованный в изучении технических и клинических аспектов #AIinHealthcare?

Подайте заявку сегодня, чтобы получить возможность пройти стажировку в Стенфорде!

Ссылка
А вы когда нибудь видели рекламу Starlink? (Увидел в аэропорту в Новой Зеландии)
Траектория развития ИИ в 100 самых цитируемых статьях по ИИ в 2022 году

ИИ развивается с бешеной скоростью, поэтому, выражаясь словами Л.Кэррола, "нужно бежать со всех ног, чтобы только оставаться на месте, а чтобы куда-то попасть, надо бежать как минимум вдвое быстрее".
Так недолго заработать невроз, потому что ни у кого нет времени читать все подряд.
Мощной проверкой результативности научно-исследовательских групп является появление технологии в продуктах, и OpenAI, конечно, потрясла мир, выпустив ChatGPT в конце ноября 2022 после мартовской публикации статьи об обучении своей языковой модели. Такое быстрое внедрение продуктов - редкость, поэтому, чтобы увидеть немного больше, 100 статей отобраны по классической академической метрике: количеству цитирований.

Особенно любопытно выглядит график не по странам, а по аффилированным организациям. Полный список топ-100 за 2022 год в статье-источнике.

📰Статья
@GingerSpacetail
Grad-CAM

Grad-CAM — довольно старый, но эффективный метод для выделения областей изображения, которые наиболее важны для предсказания определенного класса.

Это полезно, когда нужно посмотреть, выучила ли модель то, что от неё ожидалось или найти причину низкой эффективности. Это также позволяет определить смещения в наборе данных (например когда нужно обнаруживать лодки, но вместо этого модель учиться определять воду). Это делает Grad-CAM полезным инструментом для понимания внутренней работы моделей и их отладки.

Grad-CAM легко реализовать и применить к любой CNN модели без изменения архитектуры. Для этого карты активации, полученные при прямом проходе, умножаются на градиент, полученный при обратном распространении ошибки. Результатом является усреднённое значение по канальному измерению (WxHxC -> WxHx1).

Кроме того, Grad-CAM можно использовать для различных приложений, таких как локализация объектов, visual question answering и image captioning.

📜 Статья
@karray
Forwarded from Earth&Climate Tech
Stanford AI Lab - ежегодный шабаш посвященный самым модным ИИ моделям

Для ИИ гиков пост-новость.

Пока не забыл. 12 Апреля (🚀🧑🏼‍🚀) Stanford AI Lab (это главные по ИИ в Стэнфорде) проводят очередной ежегодный отчетный сбор. На этот раз собрание будет посвящено...барабанная дробь...**Generative AI and Foundation Models**.

Доставайте шуточки про сhatGPT и про то как нейронная сеть неправильно вас нарисовала, ведь у вас, кажется, есть реальная возможность в этом поучаствовать. Зарегестрироваться для онлайн или офлайн участия можно тут. Я наверное прийду ногами, вдруг кто тоже - летц мит.
Guided Attention Inference Network

Статья не первой свежести, в которой авторы предлагают использовать Grad-CAM в качестве карт внимания.

Это работает так: сначала сеть классифицирует изображения как обычно. Далее применяется Grad-CAM для получения тепловой карты внимания. Затем область на изображении маскируется по этой карте и оно классифицируется еще раз. Таким образом, вероятность предсказания класса снизиться, что является дополнительным лоссом.

Идея в том, что карта внимания должна охватывать весь классифицируемый объект и при маскировки он будет полностью скрыт, что заставит сеть смотреть за пределы её текущего внимания. Это позволяет сети учить объекты целиком, а не только самые дискриминативные области.

Немного расширив лосс можно использовать маски сегментации для дополнительного привлечения внимания. Такой подход позволяет обучать сеть на датасетах со смещением, прямо указывая на объекты. Авторы показали, что имея всего 9 изображений с сегментацией можно значительно повысить точность.

📖 Статья
@karray
Язык разметки чата (ChatML)

ChatML (chat markup language) - это структурированный формат, который потребляют модели ChatGPT (инфа от самих OpenAI), что означает, что вместо обработки неструктурированного текста модели ChatGPT теперь ожидают структурированную последовательность сообщений.

Каждое сообщение содержит заголовок и содержание, что позволяет модели однозначно понимать источник каждого фрагмента текста и различать человеческий и искусственный ввод.

ChatML способен произвести революцию в том, как мы взаимодействуем с языковыми моделями ИИ, сделав их более эффективными и точными. С помощью ChatML разработчики теперь могут явно определять структуру разговоров и давать более точные инструкции модели ИИ, что в свою очередь ведет к повышению производительности и более человекоподобному взаимодействию.

Ссылка
This media is not supported in your browser
VIEW IN TELEGRAM
Phind me some code

Вы уже пробовали новую поисковую систему под названием Phind? Она очень впечатляет!

Phind специально разработан для вопросов по коду, что делает его отличным ресурсом для разработчиков и ученых.

Я пользуюсь Phind уже неделю и мне удобно. Поиск выдаёт четкий и лаконичный ответ, часто с соответствующим фрагментом кода прямо на странице. Это как иметь умного друга под рукой!

В целом, я рекомендую попробовать Phind, особенно если вам необходимо регулярно находить техническую информацию.

👾 Играть тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Релиз GPT-4 может состояться уже на следующей неделе

"Мы представим GPT-4 на следующей неделе. У нас есть мультимодальные модели, которые будут предлагать совершенно другие возможности — например, видео", — сообщил Андреас Браун, технический директор Microsoft в Германии и Lead Data & AI STU.

9 марта 2023 г. четыре сотрудника Microsoft в Германии представили большие языковые модели как революционную силу для своей компании. Мероприятие проходило на немецком языке.

Новость
@karray
Небольшое дополнение к посту выше про исследование восприятия людями и нейронками текстов.

Авторы статьи замечают, что многие части мозга устроены иерархически. На это указывают многие исследования (тык, тык). То есть, например, за восприятие текста отвечают несколько отделов — извилина Хешля, верхняя височная извилина и несколько других. При этом разные части мозга отвечают за разные процессы в восприятии текста. Так, извилина Хешля и другие области верхней височной коры отвечает за обработку низкоуровневой информации — акустики, фонем, синтаксиса и локальной семантики. А нижнелобные и теменные области преимущественно отвечают за высокоуровневую, семантическую информацию в тексте.

Как же это переносится на языковые модели? В целом, из того, как устроены нейросети, мы знаем, что начальные слои сети преимущественно обрабатывают низкоуровневую информацию входных данных, а дальние слои — высокоуровневую. Авторы статьи поставили эксперимент: обучали регрессию предсказывать fMRI активации разных частей мозга на основе разных слоев GPT-2. И действительно, оказалось, что fMRI извилины Хешля лучше приближается первыми слоями GPT-2, а fMRI нижнелобных и теменных областей — дальними слоями.

Но и это еще не все. Был еще такой эксперимент: ученые взяли активации слоев GPT-2 и разделили их на два вектора — вектор X, содержащий низкоуровневую информацию о тексте, и вектор Y, содержащий высокоуровневую информацию. Сделали они это так: сгенерировали 10 предложений с одинаковой синтаксической конструкцией (общей информацией), и разными словами (локальной информацией). Получили активации GPT-2 на 10 этих предложений и усреднили их, получив вектор X. А векторы Y — это векторы-активации слоев минус X.
И дальше обучали регрессию восстанавливать fMRI разных частей головы на основе этих векторов. Снова оказалось, что fMRI извилины Хешля лучше приближается векторами Y локальной информации, а fMRI нижнелобных и теменных областей — вектором общей информации X.

Насколько я понимаю, последний эксперимент показывает не столько связь в идее обработки текста между GPT-2 и мозгом, сколько служит еще одним признаком того, что разные части мозга отвечают за разный уровнень восприятия текста. Вот так с помощью нейронки можно что-то там хорошее понять про мозг)

Но это дополнение я писала не только из-за этих двух экспериментов, а еще потому, что тут снова возникает идея иерархии. Я об идеях иерархической структуры в нейронках писала летом 2022 года, когда Ян ЛеКун выпустил свою статью с мыслями о том, как должен быть устроен AGI. Одна из основных идей работы ЛеКуна — иерархия. Это тогда вдохновило меня подумать, собрать мысли насчет нейронок и структуры в них в кучу, и написать про это большой пост на Хабре.
Общая мысль такая: кажется, современные нейросети (даже самые большие и классные) в процессе обучения не особо выучивают понятие структуры объектов и сущностей. С другой стороны, кажется, что структурное иерархическое восприятие сильно помогает людям взаимодействовать с миром. Отсюда возникает идея, что внедрение в нейросети структурного восприятия могло бы помочь им лучше решать сложные задачи.
И в статье на Хабре я подробнее описала то, почему структура важна, почему нейросети структуру не понимают и как это можно пытаться исправить.

А при чем тут эта статья от Meta AI— да просто при том, что это еще один эвиденс, что структурное иерархическое восприятие в человеке есть, и даже на уровне устройства мозга =)
This media is not supported in your browser
VIEW IN TELEGRAM
Встречаем Visual ChatGPT

Visual ChatGPT позволяет генерировать изображения и редактировать их не покидая чат.

Инструмент использует ChatGPT и Visual Foundation Model (Swin Transformer).

Что нового даёт этот инструмент:
- Теперь пользователь может взаимодействовать с ChatGPT не только текстовыми сообщениями, но и изображениями
- Позволяет работать со сложными визуальными вопросами и задачами по редактированию изображений, которым необходимы множественные AI модели и длинные последовательности действий
- Предоставляет обратную связь

💾 статья
💻 код
😌 демо

@innovationitsme
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Earth&Climate Tech
Программирование, машинное обучение и облачные вычисления в геоинформационных системах

Много интересных лекций и материалов по использованию геоинформационных систем выкладывает Qiusheng Wu, профессор Университета в Тенесси на своем ютуб канале: лекции по дизайну софта, обучалки как пользоваться Google Earth Engine или как делать свои сайты с геоинформационными данными в streamlit.

Гитхабчик профессора, где можно найти много всего интересного - тут
В последнем выпуске Южного Парка катком (в своем стиле) прокатились по ИИ.

S26:E4 ChatGPT, Dude