AI Для Всех
12.2K subscribers
1.05K photos
133 videos
10 files
1.33K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Скрейпинг веб страниц в эпоху GPT-Vision

Последние пару недель, я много эксперементировал с парсингом и скрейпингом веб страниц. В итоге я пришел к выводу, что сайты были сделаны для того что бы на них смотрели глазами, и соответственно парсить их эффкетивнее всего тоже будет глазами.

Собрал для вас старый добрый Colab, с помощью которого можно сделать summary любой страницы в интернете (в пределах того, на что не обидится OpenAI).

Как это работает:

- с помощью selenium я делаю скриншоты сайта

- объединяю их в одну картинку

- отправляю эту картинку в GPT-vision

- получаю summary

🚀 Google Colab

Приглашаю всех попробовать и присылать PR c новыми функциями, исправлением багов и прочими правками.

В качестве бонуса (для продвинутых пользователей), добавил в pipeline создание эмбедингов поверх полученных summary.

Если пойдет, может быть сделаем крутого open-source Web-scrapping Assistant или типа того
Достойный кандидат ищет работу в роли Strategic Marketing Lead

#этополюбви #нереклама

Знакомьтесь, это Катя. Мы с Катей жили в одной квартире в Израиле и я каждый день восхищался ее неиссякаемой энергией и способностью находить выход из любых ситуаций. Катя не просто ищет работу - она ищет миссию, где сможет применить свои навыки в стратегическом маркетинге и рыночной аналитике.

Если чему ее и научила долгая работа и в корпорациях и в стартапах, так это анализировать рынки и конкурентов, выявлять тренды , разбираться в регуляторике, убеждать стейкхолдеров (а остальное она расскажет вам на собеседовании).

Катя активно ищет позицию Strategic Marketing Lead и готова принести свой вклад в рост вашего бизнеса, будь то в Израиле или на любой удаленной работе.

Не упускайте возможность - наймите Катю!

👩‍💼LinkedIn
🏋️‍♀️@SteinbergK
This media is not supported in your browser
VIEW IN TELEGRAM
InstantID: Новый метод для персонализированного синтеза изображений!

На днях вышла новая нейросеть для стилизации изображений, и это просто пушка. Постараюсь однажды рассказать как она работает, а пока вот инструкция как использовать ее на своих фотках:

1. Загрузите изображение человека. Убедитесь, что лицо не слишком маленькое и не сильно заблокировано или размыто.

(По желанию) загрузите еще одно изображение человека в качестве эталонной позы. Если оно не загружено, система будет использовать изображение первого человека для извлечения ориентиров.

2. Введите текстовый промпт, так же, как это делается в обычных моделях text2img:


диснеевская принцесса в цветах и с птичкой на руке

3. Выберете стиль (на выбор есть такие стили как джунгли, Марс и много чего еще)

4. Нажмите кнопку "Отправить", чтобы запустить процесс.

5. Поделитесь своей фотографией с друзьями или в комментариях к этому посту, наслаждайтесь😊!

🤗 Сделать свою
🤓 Сайт проекта

С телефона тоже отлично работает
Приз $2024 за прикольные применения StableLM2

Помните старую шутку про то, что современные телефоны мощнее компьютеров, отправивших человека на Луну? Теперь это точно не шутка. StableLM2 - миниатюрная языковая модель умещается в кармане и запускается даже на картошке устаревших гаджетах.

StableLM 2 объемом всего 1,6 миллиарда параметров обладает способностью к “умеренному” рассуждению и знаниям, и это делает её неприхотливой, доступной и вполне эффективной.

А чтобы было интереснее, Emad (CEO Stability AI) предлагает по $2024 в качестве приза за самые интересные применения StableLM 2. Хм... Куда бы... Языковая модель в тапочках уже есть?

Для участия достаточно дропнуть свою демку в комьюнити или в комменты к посту Emada'а

StableLM2 на HuggingFace
Они среди нас

Давно не было про Vesuvius Chellenge. Мы нетерпением ждали поста от участника соревнования из русскоязычной МЛ тусовки - Антона. Дружище, мы тобой очень гордимся!
Почитайте его рассказ (следующие два поста), очень воодушевляюще.
Forwarded from Generative Anton (Anton Repushko)
Длинный текст про то, как я сходил с ума от отчаяния в последние 8 месяцев и начал учить древнегреческий.

Выше уже мелькали посты про непонятные белые буковки и шутки про ленивых древнегреческих писцов. Настало время собрать всё в цельную картинку и объясниться. Я не могу из-за правил публиковать и в деталях рассказать техническое решение (оно в процессе ревью), но порассказываю всякое другое.

Соревнование называется Vesuvius Challenge. Когда извергался Везувий и уничтожил Помпеи, он уничтожил еще и город Геркуланум, который находился тоже у его подножия. Нас интересует Геркуланум из-за того, что там откопали виллу, в которой была очень богатая библиотека. И в этой библиотеки уже нашли/ожидают найти около 4-5 тысяч свитков. Важное уточнение: до нас из Античности дошло очень небольшое количество текстов: Одиссея, Иллиада, вся философия — лишь небольшой процент от всех существовавших тогда текстов. Представьте, сколько знания и истории хранится в этих тысячах свитков. Но разумеется есть проблема: они выглядят как сгоревшая на углях картошка из-за консервации в лаве и пепле (но именно благодаря этому они и пролежали в земле 2000 лет).

На сцену выходит профессор из Кентуки Dr. Brent Seales, который всю карьеру потратил на пропихивание следующего метода: давайте мы сделаем этим свиткам МРТ, а потом как-то хитро попытаемся восстановить все и прочитать. План — надежный, как швейцарские часы, если бы не одно но: чернила, которые там были, не содержат металла (carbon-based) и на результатах МРТ не видны. Были еще попытки отсканировать один и тот же свиток с разной фазой пучка и вычтя результаты этого получить какие-то буковки. Буковок хватило на статью в Nature, но выглядит это довольно паршиво. Что же с этим делать дальше?

На сцену выходит ex-CEO Github’a Nat Freedman: меценат, организует всякие AI гранты и инвестриует в AI-стартапы. Очень приятный дядечка, который помог организовать это соревнование и завалил деньгами призовой фонд. Вот его частный фонд и вообще он мне пока кажется Илоном Маском здорового человека.

В феврале прошлого года стартует само соревнование с призовым фондом в 1M USD. Сначала на Kaggle, а потом это все продолжается в Дискорде. Есть МРТ-сканы свитков и нужно прочитать оттуда текст. Сам (предложенный организаторами) процесс виртуального разворачивания текста довольно сложный и хитрый, а данных сейчас уже примерно на 7-8Tb, что устанавливает довольно высокий технический барьер для входа.

После Kaggle’овского соревнования все немного затихло до момента, пока в августе два студента (один из штатов, второй из Берлина) независимо друг от друга глазками(!) нашли какие-то непонятные рельефы, которые подтвердили изначальную идею: не смотря на то, что чернилы не видны, бумага осталась деформированной в местах написанных букв. В итоге задачей стало пытаться программно научиться определять вот эти деформированные места (иногда глазу и незаметные) и читать буковки. Где-то в этот момент (начало августа) я и ушел в соревнование с головой.

Очень много бессонных ночей, переживаний и всего остального было на протяжении этих месяцев. Я приходил и надоедал к каждому, кто мог мне хоть как-то помочь советом/идеей (спасибо вам всем, друзья. Без вас я бы не справился). Когда обсуждал новости и произошедшее за день с девушкой, я десятки раз думал про то, что у меня не произошло вообще ничего: я решал свитки. Как и вчера. Как и продолжу завтра.

И не смотря на то, что я не смог выполнить официальные требования для главного приза (4 куска текста по 140 читаемых символов каждый), мне кажется, что никто не смог. Со слов организаторов, всего они получили около дюжины сабмишнов. И вот уже где-то месяц мы с другими участниками ждем результатов анализа папирологов. За эти полгода я познакомился с кучей интересных людей, выиграл промежуточный приз в 5200 USD, начал учить древнегреческий и сильно прокачался в решении таких вот непонятных проблем.
Forwarded from Generative Anton (Anton Repushko)
Интересно, что в процессе соревнования я чувствовал себя невероятно fullfilled и это очень хорошая альтернатива всяким гонкам с LLM-ресечем: у тебя есть сложная непонятная проблема, которую интуитивно кажется можно решить уже текущими средствами. И вся история этих свитков (которые многие десятилетия передавались из рук в руки до момента, когда их можно будет прочесть новыми техническими средствами) — отличный пример человеческой кооперации ради чего-то, что нельзя померить деньгами. Очень нравится.

Организаторы уже анонсировали новый этап соревнования где-то в феврале, так что тут будет еще больше постов про это. Ниже картинка с примерно финальными результатами, которых удалось добиться: читаются отдельные слова и предлоги, но без знания древнегреческого тяжело прочесть больше. Посмотрим, что будет дальше.
Forwarded from Generative Anton (Anton Repushko)
Hugging Face 🤗 х Google Cloud 🖥 объявили о Партнерстве.

Hugging Face и Google Cloud объединяют усилия, чтобы сделать ИИ и облачные технологии доступными для всех.

Сотрудничество заявляет своими целями укрепить открытую науку, открытый код, облачные решения и обеспечить OSS проекты передовым оборудованием.

Этот колаб (pun intended) — шаг к более открытому, безопасному и эффективному ИИ.

🔗 блог-пост
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DL in NLP (Vlad Lialin)
Наткнулся на сайт который кажется как толока но для профессионалов в программировании, математике, физике и других дисциплинах. Очень забавная ниша которой кажется не существовало ещё год назад.

Вообще очень интересно докуда это дойдёт через пару лет когда выйдет GPT6. Многие из тех вещей которые мы сейчас делаем каждый день в GPT4 я лично вообще не мог себе представить всего 2 года назад. Что если реально уже скоро будут какие-то нетривиальные результаты LLM в том чтобы автономно заниматься физикой или математикой?

Я хоть серьёзными науками и не занимаюсь (практический DL на науку не тянет), но впервые подумал что и нас можно будет со временем заменить. Надо поставить себе напоминалку сделать ретроспективу этого поста в январе 2026 😅

https://tryoutlier.com
Уменьшение размерности

Мы тут, с авторами этого канала, обсуждаем какие есть методы уменьшения размерности.

Пока вспомнили:
- TSNE
- UMAP
This media is not supported in your browser
VIEW IN TELEGRAM
Эмбединги произвольного размера

Мне кажется, самая интересная часть вчерашнего релиза OpenAI, это то, что эмбеддинги теперь можно делать произвольного размера.

Напомню, что эмбеддинг - это способ превратить любой текст в вектор (а дальше этот вектор использовать например для RAG).

Такая возможность открывает перед исследователями и разработчиками новые перспективы. Произвольный размер эмбеддингов позволяет более гибко настраивать модели под конкретные задачи, оптимизируя не только точность, но и скорость работы, а также требования к памяти. Возможно, мы увидим, как новые размеры эмбеддингов помогут в решении таких задач, как семантический поиск, кластеризация текстов или даже в задачах, связанных с генерацией текста. Также стоит ожидать значительного влияния на индустрию поисковых систем (trade-off между скоростью и точностью)
Translator Agent

Друзья, мне сегодня понадобилось переводить много документов и приделывать к ним Certificate of Translation.

Конечно же я решил эту задачу с помощью LLM, и что бы добру не пропадать даром - выложил свой скрипт в Open Source.

Что умеет Translator Agent?

Он умеет взять PDF (например сохраненку с веб-страницы) -> перевести ее без всякого лишнего (типа навигации по странице) и пришлепнуть сертификат перевода, который останется только подписать (ну и проверить тщательно конечно же).

Пожалуйста распространите, и не стесняйтесь контрибьютить и расширять функционал (например добавить сохранение веб-страницы в pdf)!

🖥Git-repo
Please open Telegram to view this post
VIEW IN TELEGRAM
AI Для Всех
Эмбединги произвольного размера Мне кажется, самая интересная часть вчерашнего релиза OpenAI, это то, что эмбеддинги теперь можно делать произвольного размера. Напомню, что эмбеддинг - это способ превратить любой текст в вектор (а дальше этот вектор использовать…
🪆Матрешка Representation Learning

Появились подробности о том, как устроено сокращение эмбеддингов в OpenAI. Статья вышла аж в 2022 году, и до вчерашнего дня авторов явно не баловали вниманием.

Обучаем модель для эмбеддинга (например на задаче генерации текста), но, вместо того, что бы обучать модель с фиксированным размером вектора-эмбеддинга, мы делаем вложеные под-векторы.

Например, размерность вектора-эмбеддинга для модели составляет 256. Традиционно, мы бы взяли вот этот вектор 256 и считали бы лосс на нем. В MRL мы возьмем сначала под-вектор размером 2 (x[:2]) и посчитаем лосс для него, еще возьмем под-вектор размера 4 (x[:4]), x[:8], ..., x[:128], x и для них всех тоже посчитаем лосс.

Таким образом, мы подталкиваем модель к тому, что бы в каждой матрешке было какое-то полезное представление (эмбеддинг).

Получается, что в эмбеддинге размером 2 - совсем мало информации, 16 уже побольше и так далее. Ввиду того, что эти саб-вектора отсортированы, мы можем спокойно откидывать хвост, так как он содержит самые нюансные нюансы.

🪆Статья
🖥 Код
Please open Telegram to view this post
VIEW IN TELEGRAM
🌐 VOYAGER: одна из первых действительно агентных систем.

В октябре прошлого года команда исследователей из NVIDIA, Калифорнийского технологического института, UT Austin, Стэнфорда и UW Madison представила VOYAGER, агента ИИ, который обучается и автономно исследует миры Майнкрафта. Давно хотел про него написать.

На картинке выше 👆 сравнение различных агентных систем. Как можно увидеть из графика, VOYAGER (оранжевый) открыл самое больше количество инструментов и быстрее всех адаптировался к игровому миру.

Появление VOYAGER плюс минус совпало с поворотным моментом в развитии ИИ (DevDay от OpenAI). Речь идет о потенциале и возможностях, которые он представляет для будущего (настоящего) агентных систем:

1. Надежное обучение: Благодаря автоматическому составлению учебных планов и библиотеке навыков, VOYAGER демонстрирует, как ИИ может вырабатывать сложные модели поведения с течением времени (и мы видим такое повеление в более прикладных системах)

2. Адаптивный интеллект: Способность агента учиться у своего окружения и итеративно совершенствоваться - это значительный шаг к более динамичным и персонализированным системам ИИ (как например сделали сами OpenAI).

3. Устойчивые инновации: Проведенное в безвредной 3D-среде, это исследование подчеркивает насколько невероятное будущее нас ждёт с приходом более менее работающих роботов.

Прошло несколько месяцев, и теперь VOYAGER служит образцом и вдохновлением для агентных систем, способных обучаться и адаптироваться в режиме реального времени без вмешательства человека (например WebVoyager).

📰 Проект
🧱 Minedojo
Please open Telegram to view this post
VIEW IN TELEGRAM
Может ли LLM помочь злоумышленникам создать биологическую угрозу человечеству

LLM и CV алгоритмы помогают в создании новых лекарств или диагностике заболеваний, но наивно полагать, в это самое время никто не пытается использовать ИИ для какой-нибудь пакости.

OpenAI взялись за нешуточную задачу — пытаются оценить риски возможности использования ИИ (точнее, больших языковых моделей) для создания биологических угроз. Например, для производства нового (или старого) вируса.

К счастью, все не так плохо. Исследование показало, что GPT-4, даже "исследовательская" версия, отвечающая на небезопасные вопросы без необходимости джейлбрейка, несмотря на свою осведомленность, лишь немного повышает эффективность создания биологических угроз. А точнее - нет статистически значимой разницы между использованием интернета и интернета+LLM.

Немного об эксперименте: пригласили экспертов и студентов биохимиков, разделили на группы, использующие только интернет или интернет+LLM. Разбили задание на шаги и оценивали следующие критерии:
🔬Точность (описаны ли этапы синтеза вещества и, напр, условия транспортировки)
🧫Полнота (все ли компоненты подобраны для воплощения плана)
🧪Инновационность (напр, разработал ли участник новую стратегию, позволяющую обойти ограничения синтеза ДНК).
Потраченное время
👩‍🔬Субъективная оценка сложности задачи

Неожиданное открытие, сделанное исследователями в ходе ресеча: информация о необходимых реагентах и оборудовании удивительно доступна, буквально в паре кликов от первого поискового запроса. Поэтому, видимо, узкое место в создании проблем человечеству - не доступ к информации, а наличие специалистов биохимиков и биомедиков, желающих создавать оружие вместо лекарств.

А мое неожиданное (и приятное) открытие - кто-то в кой-то веки использовал U-тест Манна-Уитни (это такая непараметрическая версия t-теста Стьюдента) для сравнения двух групп 🎉

В общем, исследователи предлагают не терять бдительность и продолжать изучать потенциальные риски. Но пока можо выдохнуть. А мне пойти уже спать

🧬Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Космическая Одиссея 2024 в Frontier Development Lab

Кажется, пора планировать лето. Если хочется чего-то научно-фантастического, то есть возможность податься на стажировку Frontier Development Lab (FDL) и провести короткий период с середины июня по середину августа, решая задачу, которая может изменить будущее космических исследований, здравоохранения или энергетики.

Предлагается в тесном сотрудничестве с NASA получить опыт применения ИИ к реальным космическим задачам в компании ведущих экспертов со всего мира.

Из приятного – стажировка не только оплачиваемая, но и предусматривает помощь в организации размещения.
Из минусов - визой предлагают заняться самостоятельно, и семью или партнера взять можно только за свой счет.

Подать заявку можно до 29 марта
“Не куклы”: уважение личных границ и права владеть собственной индивидуальностью в эпоху генеративного ИИ

Безобидное улучшение фото или посягательство на право распоряжаться собственным телом? Давайте разберемся, что не так с DignifAI. И почему это ещё одно доказательство, что свободу быть собой без оценок и навязанных стандартов девушкам ещё долго придется отстаивать и защищать.

Появившийся пару дней назад dignifAI заявлен как этический инструмент и средство защиты нравственности и достоинства. Но взглянем на это под другим углом: не является ли это очередной формой контроля и объективизации женского тела, скрытой под маской благих намерений? "Одевание" абсолютно не отличается от "раздевания" с точки зрения расчеловечивания. В истории слишком много примеров, когда "забота" о женщинах служила лишь предлогом для подавления и затыкания дыр в собственной самооценке. От охоты на ведьм до законов о "надлежащей" одежде – все это лишь разные главы одной и той же книги.

Как обычно, мужское тело остается в стороне от подобных "регулирований". Как же так, истинная забота о достоинстве не может быть односторонней. Напоминает ли это вам что-то? Именно, у этого есть название - лицемерие.

Больше всего в этом "движении" меня разозлил призыв "надеть немного одежды на Барби", вскрывающий отношение к человеку на фото, как к предмету. Это совсем не о технологии, это о взглядах и убеждениях. Стоит ли говорить о "нравственности", когда на кону право на себя? Нравственность - это уважать чужой выбор и индивидуальность.

Пока именно такой нравственности нет, каждая третья женщина по прежнему будет подвергаться насилию. Это не какие-то там марсианские женщины. Это может быть ваша мама, сестра или дочь.
Не поленитесь, спросите трёх своих знакомых девушек от 16(!) лет о пережитом абъюзе и контроле. Их ответы могут помочь вам понять, почему "you are blocked" единственная возможная реакция на попытки установить власть и игнорировать личный выбор.

Составить свое мнение о dignifAI здесь
Стенфордские шпаргалки по курсам CS и SME

Шервин Амиди со своим братом-близнецом Афшином, выложили материалы по ключевым темам DL курсов, в которых они ассистировали в Стэнфорде.
Цель - сделать легко усваиваемые конспекты и упростить изучение сложной теории.

Disclaimer: мало картинок, у кого формулофобия, открывайте с осторожностью

🧺VIP cheatsheets
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет чат, кто нибудь знает какая сейчас самая бодрая MLLM со звуком (мультимодальная языковая модель с аудио)? Но только не LLM+Whisper, а именно MLLM.

Связанный вопрос: какие то лидерборды может кто встречал по zero-shot audio classification? А по few-shot?

Ну и все остальное что кажется релевантным - пишите в комменты