AI Для Всех
12.8K subscribers
1.16K photos
151 videos
10 files
1.37K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Grad-CAM

Grad-CAM — довольно старый, но эффективный метод для выделения областей изображения, которые наиболее важны для предсказания определенного класса.

Это полезно, когда нужно посмотреть, выучила ли модель то, что от неё ожидалось или найти причину низкой эффективности. Это также позволяет определить смещения в наборе данных (например когда нужно обнаруживать лодки, но вместо этого модель учиться определять воду). Это делает Grad-CAM полезным инструментом для понимания внутренней работы моделей и их отладки.

Grad-CAM легко реализовать и применить к любой CNN модели без изменения архитектуры. Для этого карты активации, полученные при прямом проходе, умножаются на градиент, полученный при обратном распространении ошибки. Результатом является усреднённое значение по канальному измерению (WxHxC -> WxHx1).

Кроме того, Grad-CAM можно использовать для различных приложений, таких как локализация объектов, visual question answering и image captioning.

📜 Статья
@karray
Forwarded from Earth&Climate Tech
Stanford AI Lab - ежегодный шабаш посвященный самым модным ИИ моделям

Для ИИ гиков пост-новость.

Пока не забыл. 12 Апреля (🚀🧑🏼‍🚀) Stanford AI Lab (это главные по ИИ в Стэнфорде) проводят очередной ежегодный отчетный сбор. На этот раз собрание будет посвящено...барабанная дробь...**Generative AI and Foundation Models**.

Доставайте шуточки про сhatGPT и про то как нейронная сеть неправильно вас нарисовала, ведь у вас, кажется, есть реальная возможность в этом поучаствовать. Зарегестрироваться для онлайн или офлайн участия можно тут. Я наверное прийду ногами, вдруг кто тоже - летц мит.
Guided Attention Inference Network

Статья не первой свежести, в которой авторы предлагают использовать Grad-CAM в качестве карт внимания.

Это работает так: сначала сеть классифицирует изображения как обычно. Далее применяется Grad-CAM для получения тепловой карты внимания. Затем область на изображении маскируется по этой карте и оно классифицируется еще раз. Таким образом, вероятность предсказания класса снизиться, что является дополнительным лоссом.

Идея в том, что карта внимания должна охватывать весь классифицируемый объект и при маскировки он будет полностью скрыт, что заставит сеть смотреть за пределы её текущего внимания. Это позволяет сети учить объекты целиком, а не только самые дискриминативные области.

Немного расширив лосс можно использовать маски сегментации для дополнительного привлечения внимания. Такой подход позволяет обучать сеть на датасетах со смещением, прямо указывая на объекты. Авторы показали, что имея всего 9 изображений с сегментацией можно значительно повысить точность.

📖 Статья
@karray
Язык разметки чата (ChatML)

ChatML (chat markup language) - это структурированный формат, который потребляют модели ChatGPT (инфа от самих OpenAI), что означает, что вместо обработки неструктурированного текста модели ChatGPT теперь ожидают структурированную последовательность сообщений.

Каждое сообщение содержит заголовок и содержание, что позволяет модели однозначно понимать источник каждого фрагмента текста и различать человеческий и искусственный ввод.

ChatML способен произвести революцию в том, как мы взаимодействуем с языковыми моделями ИИ, сделав их более эффективными и точными. С помощью ChatML разработчики теперь могут явно определять структуру разговоров и давать более точные инструкции модели ИИ, что в свою очередь ведет к повышению производительности и более человекоподобному взаимодействию.

Ссылка
This media is not supported in your browser
VIEW IN TELEGRAM
Phind me some code

Вы уже пробовали новую поисковую систему под названием Phind? Она очень впечатляет!

Phind специально разработан для вопросов по коду, что делает его отличным ресурсом для разработчиков и ученых.

Я пользуюсь Phind уже неделю и мне удобно. Поиск выдаёт четкий и лаконичный ответ, часто с соответствующим фрагментом кода прямо на странице. Это как иметь умного друга под рукой!

В целом, я рекомендую попробовать Phind, особенно если вам необходимо регулярно находить техническую информацию.

👾 Играть тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Релиз GPT-4 может состояться уже на следующей неделе

"Мы представим GPT-4 на следующей неделе. У нас есть мультимодальные модели, которые будут предлагать совершенно другие возможности — например, видео", — сообщил Андреас Браун, технический директор Microsoft в Германии и Lead Data & AI STU.

9 марта 2023 г. четыре сотрудника Microsoft в Германии представили большие языковые модели как революционную силу для своей компании. Мероприятие проходило на немецком языке.

Новость
@karray
Forwarded from DLStories
Небольшое дополнение к посту выше про исследование восприятия людями и нейронками текстов.

Авторы статьи замечают, что многие части мозга устроены иерархически. На это указывают многие исследования (тык, тык). То есть, например, за восприятие текста отвечают несколько отделов — извилина Хешля, верхняя височная извилина и несколько других. При этом разные части мозга отвечают за разные процессы в восприятии текста. Так, извилина Хешля и другие области верхней височной коры отвечает за обработку низкоуровневой информации — акустики, фонем, синтаксиса и локальной семантики. А нижнелобные и теменные области преимущественно отвечают за высокоуровневую, семантическую информацию в тексте.

Как же это переносится на языковые модели? В целом, из того, как устроены нейросети, мы знаем, что начальные слои сети преимущественно обрабатывают низкоуровневую информацию входных данных, а дальние слои — высокоуровневую. Авторы статьи поставили эксперимент: обучали регрессию предсказывать fMRI активации разных частей мозга на основе разных слоев GPT-2. И действительно, оказалось, что fMRI извилины Хешля лучше приближается первыми слоями GPT-2, а fMRI нижнелобных и теменных областей — дальними слоями.

Но и это еще не все. Был еще такой эксперимент: ученые взяли активации слоев GPT-2 и разделили их на два вектора — вектор X, содержащий низкоуровневую информацию о тексте, и вектор Y, содержащий высокоуровневую информацию. Сделали они это так: сгенерировали 10 предложений с одинаковой синтаксической конструкцией (общей информацией), и разными словами (локальной информацией). Получили активации GPT-2 на 10 этих предложений и усреднили их, получив вектор X. А векторы Y — это векторы-активации слоев минус X.
И дальше обучали регрессию восстанавливать fMRI разных частей головы на основе этих векторов. Снова оказалось, что fMRI извилины Хешля лучше приближается векторами Y локальной информации, а fMRI нижнелобных и теменных областей — вектором общей информации X.

Насколько я понимаю, последний эксперимент показывает не столько связь в идее обработки текста между GPT-2 и мозгом, сколько служит еще одним признаком того, что разные части мозга отвечают за разный уровнень восприятия текста. Вот так с помощью нейронки можно что-то там хорошее понять про мозг)

Но это дополнение я писала не только из-за этих двух экспериментов, а еще потому, что тут снова возникает идея иерархии. Я об идеях иерархической структуры в нейронках писала летом 2022 года, когда Ян ЛеКун выпустил свою статью с мыслями о том, как должен быть устроен AGI. Одна из основных идей работы ЛеКуна — иерархия. Это тогда вдохновило меня подумать, собрать мысли насчет нейронок и структуры в них в кучу, и написать про это большой пост на Хабре.
Общая мысль такая: кажется, современные нейросети (даже самые большие и классные) в процессе обучения не особо выучивают понятие структуры объектов и сущностей. С другой стороны, кажется, что структурное иерархическое восприятие сильно помогает людям взаимодействовать с миром. Отсюда возникает идея, что внедрение в нейросети структурного восприятия могло бы помочь им лучше решать сложные задачи.
И в статье на Хабре я подробнее описала то, почему структура важна, почему нейросети структуру не понимают и как это можно пытаться исправить.

А при чем тут эта статья от Meta AI— да просто при том, что это еще один эвиденс, что структурное иерархическое восприятие в человеке есть, и даже на уровне устройства мозга =)
This media is not supported in your browser
VIEW IN TELEGRAM
Встречаем Visual ChatGPT

Visual ChatGPT позволяет генерировать изображения и редактировать их не покидая чат.

Инструмент использует ChatGPT и Visual Foundation Model (Swin Transformer).

Что нового даёт этот инструмент:
- Теперь пользователь может взаимодействовать с ChatGPT не только текстовыми сообщениями, но и изображениями
- Позволяет работать со сложными визуальными вопросами и задачами по редактированию изображений, которым необходимы множественные AI модели и длинные последовательности действий
- Предоставляет обратную связь

💾 статья
💻 код
😌 демо

@innovationitsme
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Earth&Climate Tech
Программирование, машинное обучение и облачные вычисления в геоинформационных системах

Много интересных лекций и материалов по использованию геоинформационных систем выкладывает Qiusheng Wu, профессор Университета в Тенесси на своем ютуб канале: лекции по дизайну софта, обучалки как пользоваться Google Earth Engine или как делать свои сайты с геоинформационными данными в streamlit.

Гитхабчик профессора, где можно найти много всего интересного - тут
В последнем выпуске Южного Парка катком (в своем стиле) прокатились по ИИ.

S26:E4 ChatGPT, Dude
Я так понимаю GPT-4 будет анонсирована сегодня, следим за новостями в твиттере Сэма
GPT-4

OpenAI выпустили GPT-4, последнюю веху в их усилиях по расширению возможностей глубокого обучения. GPT-4 - это большая мультимодальная модель (принимающая изображения и текст на входе, выдающая текст на выходе), которая, хотя и хуже человека во многих реальных сценариях, демонстрирует производительность на уровне человека в различных профессиональных и академических тестах.

Подробности тут
Есть еще статья на 98 страниц

В 13:00 PT будет live demo для разработчиков
Потенциал больших языковых моделей в образовании

Недавно некоторые школы запретил использование ChatGPT, но эксперты утверждают, что это ошибка. Они считают, что LLM смогут предложить возможности для обеспечения равенства в образовании, помочь людям с ограниченными возможностями и имеют потенциал для персонализированного обучения.

Мы уже писали о том, что ChatGPT смог успешно пройти медицинский тест. Но авторы статьи делают акцент на том, что ChatGPT может помочь лучше понять материал и подготовиться к экзаменам.

И вот, вместе с анонсом GPT-4, были представлены первые партнеры, которые работают над интеграцией GPT-4 в свои сервисы.

Khan Academy разработала помощника под названием Khanmigo, который будет выступать в качестве виртуального наставника для студентов и помощника в классе для учителей. Например, он может задавать студентам индивидуальные вопросы, чтобы стимулировать более глубокое изучение материала. Учителя смогут создавать индивидуальные программы для каждого студента, а также отслеживать их успеваемость (к сожалению, wait list пока открыт только для жителей США).

В Duolingo, приложение для изучения языков, наконец-то добавили что-то полезное. Используя GTP-4 был создан собеседник с искусственным интеллектом, и функция "Объясни мой ответ", которая объясняет правила, когда пользователь допускает ошибку. Эти нововведения будут доступны для испанского и французского языков, а позже планируя добавить и другие языки. Команда видит в GPT-4 потенциал для обеспечения более эффективного и увлекательного обучения.

@karray
Forwarded from TechSparks
Microsoft сегодня официально рассказал об интеграциях ИИ-решений от OpenAI в свои продукты. Компания продолжает использовать удачную и вполне прижившуюся метафору «второго пилота» — она как про то, чтоб сохранить за пользователем уверенность, что командир воздушного судна-то по-прежнему он. Итак, встречайте Microsoft 365 Copilot.
Местами, правда возникают вопросы. Очень круто и реалистично выглядит посыл «Люди в основном используют процентов 10 возможностей PowerPoint; Copilot даст им возможность использовать остальные 90». Чуть хуже выглядит капитан, знающий и умеющий в разы меньше помощника :)
Но сам по себе подход безусловно правилен, как ни назови, и перспективы улучшения работы многих миллионов пользователей офисного софта выглядят впечатляюще. Но куда сильнее может поменять жизнь, если приживется, Business Chat — универсальный личный помощник, работающий и с документами, и с сервисами (например, календарем), и с коммуникацией с другими людьми. Вот здесь пахнет не улучшением и ускорением, а большими изменениями рабочих процессов :)
https://www.microsoft.com/en-us/microsoft-365/blog/2023/03/16/introducing-microsoft-365-copilot-a-whole-new-way-to-work/
Ух, встретился сегодня с Эмадом из Stability AI. Следите за их анонсами 🤯
Рассылка про промптинг

Вот уж не знаю насколько это инфоциганство или нет, но на просторах твиттера мне попалась вот такая рассылка.

Если вдруг подпишитесь - дайте знать: дельная или такое себе.

Рассылка
Восстановите древнюю библиотеку из вулканического пепла и выиграйте $250000

Vesuvius Challenge — это соревнование по машинному обучению и компьютерному зрению для чтения и восстановления текстов из папирусов Геркуланума, которые были погребены извержением вулкана в 79 году н.э.

Ученые долго бились над задачей по распознаванию древних свитков. В начале 2023 года лаборатория доктора Силза из Университета Кентукки совершила прорыв: их модель машинного обучения успешно распознает чернила на рентгеновских снимках, демонстрируя возможность применения виртуальной развертки к свиткам Геркуланума.

Спустя 275 лет древняя загадка папирусов Геркуланума превратилась в программную проблему, которую вы можете помочь решить!

Больше информации и регистрация по ссылке

@innovationitsme
Forwarded from 30 дней в мае (Arip Asadulaev)
Наблюдая за реакцией мира на современные достижения искусственного интеллекта (AI), в частности на GPT-4 и ChatGPT, был замечен такой парадокс: людям нравится писать текст с помощью AI, но при этом, людям неинтересно читать текст написанный AI. Для меня это тоже так, поэтому мне стало интересно поставить такой вопрос: важно ли то кем был создан продукт, человеком или AI?

Ответить на вопрос проблематично, так как проводить сравнение AI и человека с практической точки зрения не имеет смысла. Такое сравнение, равносильно сравнению двух людей, или двух AI, один из которых выполняет работу лучше другого. Поэтому, чтобы выявить есть ли вообще разница, или все упирается в практическую значимость, попробуем создать равные условия для сравнения. https://telegra.ph/V-preddverii-toski-po-nastoyashchemu-03-14

@MayDays30