AI Для Всех
12.2K subscribers
1.05K photos
133 videos
10 files
1.33K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Сгенерированные стикеры в Messenger

Недавно компания Meta представила новую фишку с использованием AI в своих приложениях - сгенерированные стикеры. Теперь пользователи могут создавать на лету персонализированные стикеры, просто вводя текст (работает реально почти мгновенно).

Эта технология использует модель генерации изображений Emu и алгоритм Llama 2 для генерации уникальных высококачественных стикеров на основе текстовых подсказок. Пользователю достаточно ввести текст, и за считанные секунды (даже меньше) будет сгенерировано несколько стикеров на заданную тему.

Новая функция уже доступна для части пользователей на английском языке в приложениях WhatsApp, Messenger, Instagram и Facebook Stories. Она дает практически безграничные возможности для самовыражения и общения в мессенджерах.

Получается очень мило и интересно! В соцсетях уже пишут разгромные статьи по поводу отсутствия цензуры, но я думаю что за пару дней все поправят
This media is not supported in your browser
VIEW IN TELEGRAM
Ученые научили компьютер понимать нашу речь без имплантов в мозг

Представьте, что вы надели шлем, который записывает активность вашего мозга, пока вы слушаете чью-то речь. Оказывается, по этим данным можно понять, что именно вы слышите, и расшифровать сказанные слова и фразы!

Такой метод разработали исследователи из компании Meta. Их нейросеть проанализировала записи мозговой активности добровольцев и научилась угадывать, какие отрывки речи они слушали. Причем это возможно даже для незнакомых фраз, которых не было в обучающих данных! Самое крутое что и датасет и код выложены в открытый доступ.

Это открытие важно, потому что раньше расшифровать речь по мозговым сигналам получалось только с помощью имплантов непосредственно в мозг. А неинвазивные методы вроде ЭЭГ-шлемов давали очень приблизительный результат.

Новый подход сделает технологии распознавания речи по активности мозга безопаснее и доступнее для пациентов. А в Метаверсе он поможет устройствам точнее понимать команды и желания пользователей, "читая" сигналы их мозга. Так что скоро с умными очками или шлемами виртуальной реальности мы сможем общаться, просто "думая вслух"!

📎 Статья
🧠 Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Как в Microsoft видят будущее AI: итоги встречи с их Chief Scientist

Немножко гонзо журналистики Вам в ленту. Только что вышел с доклада Джейми Тиван, Chief Scientist в Microsoft, отвечающей за исследования в области AI. Вот основные тезисы из того что она рассказала:

- Microsoft в целом считает себя "документной компанией" и стремится облегчить людям работу с документами. В частности, они проанализировали огромное количество диалогов сотрудников компаний в период пандемии (которые стали общаться больше из-за удаленки), чтобы понять реальные потребности пользователей.

- По мнению Джейми, хотя модели вроде GPT пока не могут полноценно заменить человека, они отлично справляются с генерацией идей и взглядов с новых ракурсов. Джейми видит потенциал ИИ в автоматизации рутинных задач, чтобы люди могли заниматься более ценной деятельностью.

- Также было отмечено, что в отличие от физических систем вроде автопилотов, развитие ИИ в сфере программного обеспечения для совместной работы практически ничем не ограничено. По мнению Джейми, ИИ - это инструмент повышения производительности, а не угроза замены людей.

- Кроме того, ИИ активно применяется в медицинской сфере, которая составляет 18% ВВП США - например, для автоматизированного анализа снимков или ведения историй болезни. Джейми убеждена в неизбежности и пользе масштабирования возможностей ИИ.

- Microsoft также активно работает над ответственным управлением данными в ИИ - они хотят применить свой успешный опыт облаков в этой сфере (а в облака они реально умеют, у них хостятся правительства стран и даже армия).

В целом, встреча еще раз убедила меня в серьезности намерений Microsoft внедрять ИИ в самых разных областях для повышения эффективности и создания новой потребительской ценности.
OpenAI рассматривает возможность производства собственных чипов для ИИ

Генеральный директор Сэм Альтман сделал приобретение необходимого количества чипов ИИ главным приоритетом для развития компании. Он уже публично сетовал на нехватку графических процессоров, на рынке которых доминирует Nvidia.

Использование ChatGPT обходится компании очень дорого. Согласно анализу аналитика Bernstein Стейси Расгон, каждый запрос стоит примерно 4 цента. Если запросы ChatGPT вырастут в десятую часть масштаба поиска Google, для поддержания работоспособности потребуется изначально графических процессоров примерно на 48,1 миллиарда долларов и чипов на сумму около 16 миллиардов долларов в год 💸

Пока неясно, будет ли OpenAI реализовывать план по созданию собственного чипа или купит технологии на рынке, как это произошло с Amazon.com и приобретением Annapurna Labs в 2015 году 👀

🌐 Статья
This media is not supported in your browser
VIEW IN TELEGRAM
Одна из лучших визуализаций работы нейросетей для генерации текста

Наткнулся на классную статью из Financial Times, которая наглядно и доступно объясняет принцип работы нейросетей, генерирующих текст и изображения (трансформеры).

Это, пожалуй, одна из лучших визуализаций, которые я видел на эту тему. С помощью инфографики и примеров статья доходчиво объясняет ключевые концепции: как нейросеть кодирует слова, использует внимание для улавливания контекста, генерирует текст.

Всё изложено максимально просто и наглядно. Теперь даже новичок сможет за 5 минут понять, как устроены трансформеры, большие языковые модели и прочие нейросети нового поколения.

Конечно, визуализация не заменит глубокого погружения в тему. Но эта интерактивная статья - отличная стартовая точка, чтобы получить базовое представление об устройстве нейронных сетей для обработки естественного языка. Рекомендую к прочтению!

Ссылка
Unlearning in AI and EMDR: Conceptual Parallels and Distinctions

The technique described by Microsoft researchers to make AI "forget" copyrighted material, conceptually intriguing. The method bears a resemblance to the therapeutic approach of EMDR, a recognized treatment for trauma.

Conceptual Similarities:

Targeted Erasure: Just as the researchers aim to erase specific knowledge (e.g., Harry Potter content) from the AI model, EMDR targets specific traumatic memories in patients, aiming to desensitize their emotional charge.

Fine-tuning: The AI technique involves fine-tuning the model to effectively erase specific content. Similarly, EMDR involves a structured eight-phase approach, where the therapist fine-tunes the process based on the patient's responses.

Adaptability: The AI's ability to adapt and "unlearn" mirrors the brain's plasticity, where neural pathways can be restructured, especially when traumatic memories are reprocessed in EMDR.

Differences:

Mechanism: While the AI technique employs a three-part method involving training on target data, replacing unique expressions, and fine-tuning on alternative predictions, EMDR uses bilateral stimulation (often in the form of guided eye movements) to help patients process traumatic memories.

Objective: The primary goal for AI is to ensure copyright compliance and adaptability. In contrast, EMDR aims to alleviate distress from traumatic memories and promote psychological healing.

Complexity: Human emotions and memories are multifaceted, with deep-rooted connections to various life experiences. AI models, although complex, operate on data and algorithms without the emotional depth inherent in human cognition.

In conclusion, while the conceptual framework of "unlearning" or "forgetting" is present in both the AI technique and EMDR, the underlying mechanisms, objectives, and complexities differ. It's fascinating to observe how principles of neuroscience and psychology can find echoes in the realm of artificial intelligence.

https://venturebeat.com/ai/researchers-turn-to-harry-potter-to-make-ai-forget-about-copyright-material/
Как "стереть" из ИИ знания о Гарри Поттере

Для тех кто ничего не понял в предыдущем посте.

Исследователи из Microsoft предложили способ "стирать" конкретную информацию из обученных языковых моделей, не переобучая их заново.

Они протестировали свой метод на модели Llama 2-7B от Meta, "стерев" из неё все знания о книгах и персонажах Гарри Поттера. Для этого потребовалось всего около 1 часа дополнительной тренировки модели.

Авторы разработали трёхэтапную технику:

1. Обучили вспомогательную модель выделять токены, связанные с Гарри Поттером.

2. Заменили уникальные выражения обобщёнными, имитируя модель без этих знаний.

3. Дотренировали основную модель на этих заменённых данных.

В итоге модель разучилась обсуждать детали сюжета и персонажей Гарри Поттера, но сохранила общие способности.

Это важный шаг к созданию гибких языковых моделей, которые можно адаптировать под меняющиеся требования. В будущем такие методы помогут делать ИИ более ответственным и соответствующим законам об авторских правах.

Ссылка
This media is not supported in your browser
VIEW IN TELEGRAM
Не трансформером единым: масштабируемые сферические CNN для научных приложений

Друзья, разбавлю ваш (и свой) думскроллинг образовательным контентом. 💔

Мир не плоский. Есть много данных, которые лучше описываются сферической топологией. Например, данные о климате, космосе, панорамные съемки, что уж скрывать, в медицине только рентген и SPECT - планарные снимки, а МРТ, КТ И PET в виде сырого сигнала - вообще-то нет.

Оказывается, обрабатывать такие данные с помощью нейронных сетей не так просто. Проекция сферы на плоскость даёт сильные искажения в районе полюсов и потерю информации. Применение обычных сверточных нейросетей (CNN) или трансформеров (ViT) наталкивается на проблему выборки: как определить равномерную сетку на сфере. Да ещё и теряется важное свойство инвариантности вращения. При повороте входных данных на любой угол выходные данные тоже должны повернутся на тот же угол. Это важно для объектов с разной 3D ориентацией, напр, молекул или человека в томографе.

Сферические CNN решают эти проблемы, используя операции сферической свертки и кросс-корреляции, которые сохраняют инвариантность вращения. Главное ограничение в вычислительной нагрузке, т.к. обощенных преобразований Фурье уже не избежать. Поэтому сферические CNN имели меньше слоев и параметров, чем плоские CNN, и работали с данными низкого разрешения.

В статье для ICML 2023 Google AI преодолели эти ограничения и опубликовали оперсорс библиотеку на JAX, где реализовали:
- сферические свертки с дополниной степенью свободы, связанной с поляризацией;
- ввели новый слой активации, уменьшающий фазовые сдвиги между слоями;
- ввели спектральную batch нормализацию;
- ввели новый остаточный блок (который для предотвращения затухания градиентов), распараллелив передачу высокочастотных и низкочастотных признаков.

Точность и эффективность проверили на задачах прогнозирования погоды до 28 дней и регрессии молекулярных свойств, получили красивые результаты, выдали нам порцию вдохновения и новую блестящую лопату копать МЛ дальше.

🗞 Статья
🔣 Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Первые за два тысячелетия люди, увидевшие слова на нераскрытых свитках, безнадежно повреждённых после извержения Везувия

Захватывающе развивается история соревнования, в котором люди удивительным образом сотрудничают, чтобы восстановить знания из римской библиотеки, чуть было не утраченной в 79 году н.э.

О Кейси мы писали, он был первым человеком, предложившим доказательство наличия чернил в неоткрытых свитках и объект поиска (паттерн, похожий на потрескавшуюся грязь). Его подход получил официальное признание и приз в $10 000 за решение задачи детекции чернил.

Первым человеком, обнаружившим целое слово на фрагменте папируса был Люк Фарритор, 21-летний студент и стажер SpaceX. Он увидел в Discord обсуждение идеи Кейси, и начал проводить вечера, тренируя модель на паттернах потрескавшихся чернил (которые сам вручную разметил). Группа учёных единогласно аннотировала слово ΠΟΡΦΥΡΑϹ (пурпурный), на изображении которое засабмитил Люк. Он получил за свою модель First Letters Prize в размере $40 000, успешно выполнив критерий найти не менее 10 букв на площади 4 см² свитка.

Тем временем другой участник, Юсеф Надер, PhD студент по биоробототехнике из Берлина, просмотрел работы-победители премии Ink Detection на Kaggle, использовал domain transfer, чтобы адаптировать решение к свиткам, а несколько недель спустя подал заявку на участие в Vesuvius Challenge, т.к ему удалось найти несколько букв, причем не полагаясь на метод Кейси. Читая о первых результатах Люка в Twitter и Discord, он решил сосредоточиться на той же области свитка.

Его подход позволил учёным не только более уверенно прочитать слово "пурпурный", но и начать размышлять о возможных словах выше (ανυοντα / ANYONTA, «достижение») и ниже (ομοιων /ΟΜΟΙΩΝ, «похожий»). Юсеф получил приз $10 000 за второе место в той же категории.

Сейчас главный приз как никогда достижим, и совсем не поздно принять участие. Если вы в безопасности, это может помочь не провалиться в бездну. Давайте продолжать беречь друг друга и учиться друг у друга

🌐Discord
🖥Luke
🖥Yousseff
🌐Сайт
Please open Telegram to view this post
VIEW IN TELEGRAM
Друзья, у нас хорошие новости - наш канал @nn_for_science перевалил за отметку в 10000 подписчиков! Это по-настоящему знаменательное событие для нашего сообщества.

Когда я запускал этот проект, я и не мечтал о такой огромной аудитории. И вот теперь нас уже десять тысяч! Это заслуга каждого из вас - тех, кто подписался, лайкал, комментировал и делился наши постами.

Отдельное спасибо нашим замечательным авторам, без уникального контента от которых нам бы не удалось достичь таких высот. И конечно, всем гостям канала - вы задавали интересные вопросы, делились мнениями, вдохновляли нас на новые темы.

Я горжусь нашим дружным сообществом! Давайте и дальше вместе покорять новые вершины. Уверен, что у нашего канала еще много потрясающих идей и проектов, которыми мы обязательно с вами поделимся.

Еще раз спасибо за то, что вы с нами. Эти 10000 - только начало нашего большого пути!
Большие языковые модели умеют предсказывать будущее (ну почти)

Исследователи выяснили, что языковые модели типа GPT-3 отлично предсказывают тренды временных рядов без обучения на таких данных.

Оказывается, если записать числа как текст и считать прогноз следующим словом, эти модели выдают хорошие результаты.

Более того, в некоторых случаях, они превосходят специализированные методы прогнозирования, которые годами обучались на этих данных.

Ещё языковые модели хорошо работают даже с малым объёмом данных и естественным образом описывают неопределённость прогноза.

Чем мощнее модель, тем точнее прогноз. Но модели с подстройкой под людей (RLHF) выдают худший результат (интересно, а если сделать файн-тюн на временные ряды?)

Языковые модели также умеют работать с пропусками в данных и отвечать на вопросы о прогнозах.

Исследователи опубликовали код, чтобы можно было применить их подход к любым моделям.

В целом, это открытие показывает огромные возможности языковых моделей для анализа трендов!

🔖 Статья
🐥 X thread
🚜 Код
Манифест технооптимизма - за прогресс и изобилие через технологии

Тут Андреесен из a16z (крупный венчурный фонд) выложил любопытный документ под названием "Технооптимистический манифест". Его авторы призывают отказаться от технофобии и вновь поднять знамя прогресса и технологий.

Они утверждают, что технологии - это двигатель цивилизации, источник экономического роста и повышения уровня жизни. По их мнению, мы должны сознательно ускорять технологическое развитие, чтобы обеспечить изобилие для всех.

Авторы верят в силу свободных рынков и предпринимательства для создания новых товаров и услуг, удовлетворяющих безграничные человеческие потребности.

Они также убеждены в пользе искусственного интеллекта, который в симбиозе с человеком откроет немыслимые возможности. Доступная энергия, по их мнению, тоже критически важна для продвижения вперёд.

В целом, авторы призывают отказаться от страхов и чувства вины, вернуть веру в прогресс и снова начать амбициозно строить лучший технологический мир.

Как вы считаете, технооптимизм - это путь вперёд или ошибочная идеология? Буду рад обсудить в комментариях!

👏 Манифест
Превращаем фото в картину с помощью ChatGPT

Делаем фото -> в ChatGPT со зрением -> «Please write dalle prompt to recreate this image in details» -> "A nighttime scene overlooking San Francisco from Alamo Square. The city skyline glows ..." -> вставляем в Dall-E внутри ChatGPT -> получаем картинку справа.
Нейросеть Meta расшифровывает картинки прямо из мозга

Исследователи из Meta продолжают разрабатывать нейросеть, которая в режиме реального времени может восстанавливать изображения, которые человек видит перед глазами, анализируя активность его мозга.

Для записи активности мозга используется технология магнитоэнцефалографии (МЭГ). Она позволяет за секунду получить тысячи измерений работы мозга.

Нейросеть состоит из трёх частей:
1. Энкодер изображений, который создаёт их векторное представление.
2. Энкодер активности мозга, который выравнивает сигналы МЭГ с векторами изображений.
3. Декодер изображений, генерирующий картинку по мозговой активности.

Эта система показала хорошие результаты в тестах. Она может декодировать высокоуровневые черты изображений, такие как категории объектов. Правда пока не идеально воспроизводит низкоуровневые детали.

Тем не менее, это важный прогресс в понимании работы зрительной системы мозга и разработке интерфейсов "мозг-компьютер" (а заодно и VR/AR).

📽️ Блог-пост и видосы
🔖 Статья
AI завоюет наши компьютеры и смартфоны

Есть такой знаменитый дядька - Andrew Ng (основатель Coursera), его команда в AI Fund увидела потенциал модели GPT-3 за два года до выхода ChatGPT. Сейчас он рискнул сделать ещё одно предсказание: он думает, что мы увидим значительный рост приложений искусственного интеллекта, включая генеративный ИИ, работающих на периферийных устройствах - ПК, ноутбуках, смартфонах.

Я понимаю, что это идёт вразрез с общепринятой мудростью. Большинство ИИ сейчас работает в облачных дата-центрах, а не на периферийных устройствах. Для этого есть веские причины:
• Мощные языковые модели требуют огромных вычислительных ресурсов.
• Многие бизнесы предпочитают облачные SaaS-продукты, а не софт для периферийных устройств.
• Многие разработчики привыкли к созданию облачных приложений.

Но я думаю, эти факторы не остановят рост ИИ на периферии. Вот почему:
• Небольшие модели уже работают довольно неплохо на современных устройствах.
• Многим пользователям важна конфиденциальность данных.
• Производители чипов и ПК/ноутбуков крайне заинтересованы в том, чтобы стимулировать использование ИИ на периферии.

В AI Fund, Эндрю и компания изучают различные приложения ИИ для периферийных устройств и они считают, что здесь будут интересные возможности. Например, одновременный запуск нескольких моделей на одном чипе.

Я думаю, нам всем стоит изучить перспективы ИИ на устройствах пользователя.

Делитесь мыслями и идеями в комментах!
У ChatGPT + Dall-E 3 все нормально с географией, но виды Подмосковья генерировать запрещено 🚫

Еду из Сан-Франциско в Лос Анжелес, ехать долго и решил потестировать географическое понимание мира у ChatGPT. Довольно рандомно выбирал точки с карты:

1. (36.9952667, -110.9813534) рядом с Monument Valley
2. (77.8135165, -67.3879417) где то в Гренландии
3. (55.8617384, 37.0854734) Подмосковье отказалась генерировать
4. (30.5982019, 34.7314079) пустыня в Израиле
5. (40.5260673, 127.9315223) где то в Северной Корее

Почему то Северная Корея OpenAI не смущает 🫤