AI Для Всех
12.8K subscribers
1.17K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
AI Для Всех
🌐 Break-Out Session Insights: Векторный поиск и передовые технологии поиска для приложений ИИ Потенциал и проблемы векторного поиска в приложениях генеративного ИИ. На второй сессии мы погрузились в запутанный мир векторного поиска и передовых методов извлечения…
Ценники на Azure

У Microsoft прям таки мега супер дорогой Semantic Reranking! Определенно возможность для маленького стартапчика (покидайте какие уже такое делают).

Semantic reranking - это процесс, используемый в области обработки естественного языка и информационного поиска, где первоначальные результаты запроса переупорядочиваются на основе их семантического содержания. Цель этого процесса - улучшить релевантность и точность результатов, предоставляемых поисковой системой или другим алгоритмом обработки языка.

В типичном сценарии использования, система сначала генерирует список потенциальных ответов или документов на основе некоторых начальных критериев (например, ключевых слов). Затем эти результаты анализируются более глубоко с точки зрения их семантического содержания - то есть понимания и интерпретации естественного языка, в контексте которого они были созданы. Этот анализ может включать в себя оценку релевантности текста к запросу, понимание намерений пользователя, учет контекста и смысловых связей между словами.

После семантического анализа результаты могут быть переупорядочены так, чтобы наиболее релевантные и полезные ответы были представлены первыми. Это повышает вероятность того, что пользователь найдет наиболее удовлетворительный ответ на свой запрос в начале списка результатов.

Semantic reranking широко используется в современных поисковых системах, системах рекомендаций, чат-ботах и других приложениях, где важно точно понимать и отвечать на запросы на естественном языке.
AI Для Всех
Ценники на Azure У Microsoft прям таки мега супер дорогой Semantic Reranking! Определенно возможность для маленького стартапчика (покидайте какие уже такое делают). Semantic reranking - это процесс, используемый в области обработки естественного языка и…
От самого Azure пока ощущение так себе. Пришел на воркшоп, там была пошаговая инструкция как запустить PromptFlow. Мы потратили 1.5 часа, никто из 40 человек и не справился с тем что бы дойти собственно до самого PromptFlow. Бесконечная настройка и подключение чего-то куда-то.

Так что если вы можете хостить AI приложения и предоставлять их как сервис - все у вас будет хорошо (давай я настрою облако за тебя)
This media is not supported in your browser
VIEW IN TELEGRAM
InseRF: Генеративная вставка объектов в нейронные 3D-сцены посредством текста

Google представила InseRF - метод добавление объектов в NeRF сцены. InseRF умеет органично встраивать новые объекты в существующие сцена, не требуя явной 3D-информации, которая была ограничением для существующих методов. Для добавления объекта всего лишь нужно выделить область в сцене рамкой и подать промпт.

Это достигается следующим образом:
- Генерируется 2D-изображение желаемого объекта с помощью диффузных моделей на основе текстового описания;
- Это изображения реконструируется в 3D с помощью NeRF в указанном рамкой месте;
- С помощью монокулярной оценки глубины определяется трехмерное размещение объекта в сцене;
- NeRF объекта и сцены объединяются в одну сцену так, чтобы объект был привязан к желаемым 3D координатам.

Конечно, этот метод не идеален. На примерах видно, что новые объекты никак не взаимодействуют с освещением: не отбрасывают тени и не имеют отражений. Подозреваю, что прозрачные объекты не будут таковыми.

📜 Пейпер | 🎦 Примеры
Что обсуждают самые активные стартапы (в Хакерской AI тусовке) в Долине?

Провел несколько дней в AGI House (наверное самый эпицентр e/acc на планете), и спешу поделиться инсайтами.

1. CEO Cresta:
- Важно решать существующие проблемы клиентов, а не придумывать новые.
- Очень важно найти правильно сооснователя.
- Строить продукты на базе ИИ очень легко
- Стратегию разработки продукта можно определить через сегментацию рынка

2. Том (Chai Research):
- Blending is all you need
- Chaiverse.com - маркетплейс для LLM
- Демография Chai App: 60% женщин 14-25 лет.
- Пользователи предпочитают вовлеченность фактичности.

3. Матан (Pika):
- Платформа "idea2video".
- Уникальные функции: расширение холста и модификация изображения.

4. Алекс Волков (Weights and Biases):
- WandB - видеоняня для вашего BabyAGI
- Указал, что лучшие специалисты по файнтюнингу используют W&B.
- Упомянул легкость интеграции W&B с Together Ai.

5. Три Дао (Together Ai):
- Разработчик FlashAttention.
- Представил модель Mamba для линейного временного моделирования с выборочными состояниями).
- Обсудил важность глубоких последовательных моделей в современном глубоком обучении.
- Рассмотрел архитектуру SSM - модель с выборочным состоянием.

6. Харрисон (LangChain):
- Работает над агентами.
- Описал 5 уровней агентов:
- Уровень 1: Сама LLM.
- Уровень 2: Цепочка RAG; запрос -> извлечение -> запрос -> LLM -> ответ.
- Уровень 3: Агент; выбор источников для поиска ответа.
- Уровень 4: Использование gpt-researcher для генерации задач и запросов.
- Уровень 5: Агент Рефлексии/Автоматизации.

Вот такие вот инсайты из Долины 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
Каналы по искусственному интеллекту переезжают в Сан-Франциско!

Рад видеть Влада из канала DL in NLP в рядах жителей Сан-Франциско. Влад (в красном) будет делать роботов в стартапчике на стадии Series A.

Предлагаю всем подписаться на его канал, что бы читать самый свежак про гуманоидных роботов и их мозги!

@dlinnlp
Ideas Landscape

В субботу участвовал в хакатоне по применениям RAG (способ заземления языковых моделей в данных). И вот что мы нахакатонили:

- На вход описание пользовательской идеи
- делаем эмбеддинг этой идеи в латентное пространство
- находим N соседних идей (в качестве базы используем краткое описание существующих компаний на chrunchbase)
- полученные N ближайших идей (их эмбединги) прогоняем через TSNE
- получаем 3D облако точек
- на этом облаке точек определяем кластеры с помощью DBScan
- из каждого кластера делаем сэмплинг описаний компаний
- отдаем описания в LLM, что бы она кластер как-то назвала
- на выходе возвращаем пользователю, где он находится в латентном пространстве идей и какие идея рядом

Хакатн мы не выиграли, но получили упоминание от одного из жюри.

Мне кажется будет прикольно сделать что-то такое для VR, что бы погружаться полностью в латентное пространство идей и двигать все туда-сюда руками.

Если вы умеете в VR и хотите попробовать со мной доделать эту штуку до настоящей демки - пишите :)
Please open Telegram to view this post
VIEW IN TELEGRAM
RAG на больших данных: экономически эффективные эмбединги от Anyscale & Pinecone

Anyscale и Pinecone представили ~дешевое решение для RAG-приложений, снижающее затраты на эмбеддинги на 90%.

Создание эмбеддингов - первый шаг в приложениях Retrieval-Augmented Generation (RAG). Если пользоваться OpenAI - то на эмбеддинг 1B токенов уйдём примерно $60к. Anyscale и Pinecone значительно снижают эти затраты (ну и не только они, есть еще together.ai embeddings)

Pinecone - это бессерверная векторная база данных (есть и другие, расскажите кто чем пользуется). А Anyscale собственно предлагают модель для эмбеддингов.

Скорость достигается путем параллелизации через Ray. Но все равно, даже при всей экономической выгоде от такого решения, 1B токенов обойдется в $6к. А хотелось бы $6.

Как думаете, через сколько месяцев будет $600?

Anyscale x Pinecone
AlphaGeometry от DeepMind - прекрасно, как свидание поэта с математикой, и триумфально, как олимпийское золото

DeepMind представил умопомрачительную AlphaGeometry - это сочетание языковой модели и символического двигателя дедукции. Один компонент быстро генерирует интуитивные идеи, а другой - принимает рациональные решения. В официальном пресс релизе такой подход сравнили с думай медленно... решай быстро”, где AI сочетает творчество и логику {кто читал Канемана, расскажите}

В чем прорыв:
🌌AlphaGeometry демонстрирует способность решать геометрические задачи на уровне золотых медалистов Международной математической олимпиады.
🌌Система успешно решила 25 из 30 задач олимпиады, используя комбинацию статистических предположений, типичных для языковых моделей, и символического рассуждения - буквально, рисуя окружности и отрезки.
🌌Вместо обычного естественного языка команда разработала собственный язык для геометрических доказательств со строгим синтаксисом, аналогичным языку программирования, что позволяет программно проверять ответы. По сути, он говорит на “геометрическом”, и удивительно, но его можно понять!
🌌AlphaGeometry обучалась на 100 миллионах сгенерированных и отфильтрованный доказательств, что обеспечило надежность результатов и позволило избежать потенциальных проблем, связанных с обучением на данных из интернета.

Самое интересное тут - нейросимволический подход. Языковая модель генерирует интуитивные идеи и предложения, а символический двигатель обрабатывает эти предложения, используя формальную логику и четкие правила для проверки выводов.

Take home message:
Эта система не просто даёт ответ на геометрические задачи - она переопределяет подход к решению задач с помощью AI далеко за пределами математики.
Т.е. AI может идти дальше распознавания образов и статистически выводов, а начать активно применять логическое мышление для открытия новых знаний. Ещё один шаг к AGI

Статья в Nature
📐 Github repo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Международная online конференция про AI от основателей Epic Growth

Лучшие практики для developer, researcher, data scientist, software engineer, team lead от ведущих мировых компаний, которые создают AI-based продукты и инфраструктуру.

Выступят спикеры 📣
— Meta (команда Llama-2)
— Github (команда Copilot)
— Databricks
— Hugging Face
— Anyscale
— Zilliz
— Writer
— Speechify
— Twelve Labs
И других классных компаний, которые прямо сейчас создают AI-будущее.

Будут затронуты самые актуальные темы:
— AI Agents development
— Fine-tuning & RLHF
— AI devtools & infrastructure
— Retrieval-Augmented Generation
— LLMops
— Open Source AI
— Multimodal APIs
— AI & Data analytics

Конференция пройдет в Online формате 3️⃣0️⃣3️⃣1️⃣ января на английском языке 🇬🇧

Участники получат доклады, воркшопы и записи, а также доступ в нетворкинг-чат.

Скидка 1️⃣0️⃣ % по промо-коду — SFCAND759

Регистрация через VPN

#реклама
Perplexity объявили, что они стали поиском по умолчанию для Rabbit 🐇

Rabbit - это AI-first устройство. По задумке создателей, людям больше не нужно нажимать на кнопки на телефоне. Мол зачем, если можно просто сказать ИИ чего ты хочешь, и он сделает все по красоте.

Perplexity - это такой умный поиск на стероидах. На любой запрос пользователя, он умеет давать ответ одним абзацем (и уже потом предлагает ссылки на источники).

Так вот, Perplexity теперь официальный поиск для Rabbit (enabling Rabbit Holes), более того, бесплатным, этот сыр будет только первый год (а переключаться потом будет сложновато, кнопок то нету 🤷‍♂️).

Мне кажется это отличный заход в потенциальные экосистемы будущего. Вне зависимости от того насколько rabbit выстрелит (а все предзаказы на него кончились в первый же день), они получат 10ки тысяч новых клиентов. А Rabbit зарекомендует себя как маркетплейс.

X
Meta работает над open source AGI

Новости от Meta:

- Компания работает над open source AGI
- Разместила заказ на GPUs на 10 миллиардов долларов
- LLAMA 3 на финальной стадии перед релизом🦙

📰 Новость
Сам себя не похвалишь - никто не похвалит

Языковые модели теперь могут генерировать собственные вознаграждения и использовать их для совершенствования своих способностей к следованию инструкциям и моделированию вознаграждений.

Команда из Meta + NYU испытали эту методику на практике, используя GPT-4.

Методология состоит из двух итеративных шагов:
1. Создание самоинструкции: Модель генерирует промпты, ответы и самооценки.
2. Обучение инструкциям: Используется прямая оптимизация предпочтений (DPO) на выбранных парах.

С каждой итерацией способность модели следовать инструкциям и моделировать вознаграждения улучшается!

Результаты показывают стабильное улучшение способности модели следовать инструкциям с первой по третью итерацию по сравнению с базовой моделью с фиксированным supervised fine-tuning. Более того, способность к моделированию вознаграждения, оцениваемая по соответствию человеческим суждениям, также улучшается с каждой итерацией обучения. Эта интересная разработка открывает путь к созданию моделей, которые будут постоянно развиваться как в плане следования инструкциям, так и в плане моделирования вознаграждения, что потенциально может создать цикл самосовершенствования!

Хотя первые результаты многообещающи, предстоит еще многое исследовать:
- Понимание "законов масштабирования" итераций и различных LM.
- Проведение дальнейших оценок и бенчмарков.
- Изучение безопасности постоянно совершенствующихся моделей вознаграждения.

📖 Статья
🇬🇧 Приходите в онлайн группу английского Talki B1

Если вы в общении на английском вдруг обнаружили себя 🐕 (“все понимаю, а сказать ничего не могу”), пришло время записаться в разговорную группу!

Вы будете систематизировать базу, учиться бегло говорить и интересно проводить время

Для тех, кто
📍 Учил английский в школе/институте, но так и не начал говорить.
📍 "Плавает" в базе языка.
📍 Понимает тексты, но еще плохо понимает речь.

Результат
Понимание основ языка и способность объясниться.

Формат
⚪️
Мини-группа 4-6 человек.
⚪️ Зум-встречи 2 раза в неделю.
⚪️ Пн, Чт 18:30-20:00 по Мск
💵 8.000 руб за 8 занятий по 90 минут
📺 как это выглядит?

🗣 Алина Никишина, красный диплом ин-яз, жила и работала в США, училась в Европе.

👉 Пишите @aliinanik
❗️старт группы
уже в понедельник (22 января)

#реклама
This media is not supported in your browser
VIEW IN TELEGRAM
Как начать пользоваться Apple MLX?

В 2023 году, Apple ворвались в гонку open-source библиотек для машинного обучения и выпустили  MLX. Давно хотел попробовать, никак руки не доходили и вот наконец дошли.

Установка:



pip install mlx


Что бы сразу ворваться в языковые модели, ставим MLX-LM от HuggingFace MLX Community

pip install mlx-lm


Запуск:

Для скорости, давайте возьмем TinyLlama - 1B модель обученая на 3T токенов.



python -m mlx_lm.generate --model mlx-community/TinyLlama-1.1B-intermediate-step-1431k-3T-mlx --prompt "The most important thing about petting capybaras"


Как можно увидеть на видео (1x скорость) - работает супер быстро!

P.S.: вообще никакой цензуры
Как пользоваться Cursor бесплатно?

Если вы пишете код, то скорее всего пользуетесь ChatGPT. Я пользуюсь им довольно много (70% моего кода пишет ChatGPT).

Как я это делал до вчерашнего дня? Заходил в свой CustomGPT, который я настроил помогать мне с Питончиком -> просил его писать какой-то код -> вставлял код в VSC и дальше по кругу.

Уже какое то время, я знал про существование приложения Cursor, которое значительно упрощает этот процесс (и предлагает прикольные плюшки, типа Chat with your Codebase и Add Library), но меня отпугивала цена.

Оказалось, им можно пользоваться бесплатно, если подключить свой OpenAI API key. Для этого открываем Cursor -> нажимаем на шестеренку в правом верхнем углу -> выбираем use OpenAI API key. И вуаля, вы сами контролируете сколько денег потратить и получаете супер удобный интерфейс для кода в придачу!

Скачать Cursor
⚡️ Помогают выставить счет в USD или EUR и получить оплату на карту или счет в России.

Ваш работодатель переводит средства на наш зарубежный счет, а они выплачивают вам рубли в РФ в нужной валюте (На карту, на счет, криптой)

Работают от 1500$

Их услуги подходят, как для частных специалистов - получать постоянную зарплату из-за рубежа, так и для компаний, получать средства за проектную деятельность

Отзывы и подробности в Telegram канале @moneyport

#реклама
Media is too big
VIEW IN TELEGRAM
ТикТок представляет Depth Anything

Исследование представляет модель Depth Anything, применяющую большие неразмеченные данные для улучшения monocular depth estimation (это когда у нас только одна камера - монокуляр, а мы все равно требуем от нейросети предсказать карту глубины). Эта задача очень актуальна например в робототехнике, или в беспилотном транспорте.

В области компьютерного зрения и обработки естественного языка, уже несколько лет, наблюдается переворот благодаря появлению «фундаментальных моделей», демонстрирующих сильные способности к zero-shot и few-shot обучению. Однако, вопреки этому прогрессу, задача оценки глубины (MDE) была недостаточно исследована из-за сложностей построения масштабных размеченых датасетов (хотя безусловно работы были).

Depth Anything предлагает практичное решение для надежной оценки глубины.

Основные особенности решения включают:

- Использование большого количества дешевых и разнообразных неразмеченных изображений для улучшения MDE.

- Применение более сложных оптимизационных метрик и сохранение богатых семантических предпосылок от предварительно обученных энкодеров для лучшего понимания сцены.

- Демонстрация сильной способности к zero-shot обобщению и значительное улучшение результатов по сравнению с существующими моделями, такими как MiDaS и ZoeDepth, в задачах метрической оценки глубины.

Исследование представляет значительный шаг вперед в монокулярной оценке глубины, демонстрируя потенциал масштабных неразмеченных данных в улучшении точности и робастности моделей глубины. Результаты подчеркивают важность интеграции больших неразмеченных наборов данных и семантических предпосылок, открывая новые возможности для улучшения систем машинного зрения и их применения в реальных сценариях.

📖 Статья
😍 Демо
This media is not supported in your browser
VIEW IN TELEGRAM
Скрейпинг веб страниц в эпоху GPT-Vision

Последние пару недель, я много эксперементировал с парсингом и скрейпингом веб страниц. В итоге я пришел к выводу, что сайты были сделаны для того что бы на них смотрели глазами, и соответственно парсить их эффкетивнее всего тоже будет глазами.

Собрал для вас старый добрый Colab, с помощью которого можно сделать summary любой страницы в интернете (в пределах того, на что не обидится OpenAI).

Как это работает:

- с помощью selenium я делаю скриншоты сайта

- объединяю их в одну картинку

- отправляю эту картинку в GPT-vision

- получаю summary

🚀 Google Colab

Приглашаю всех попробовать и присылать PR c новыми функциями, исправлением багов и прочими правками.

В качестве бонуса (для продвинутых пользователей), добавил в pipeline создание эмбедингов поверх полученных summary.

Если пойдет, может быть сделаем крутого open-source Web-scrapping Assistant или типа того