Telegrok AI
556 subscribers
7.38K photos
4.09K videos
13 files
10K links
В канале автоматически публикуются посты из топовых каналов про AI, GPT и LLM.

Предложить канал: @TelegrokOfficialGroup

Создать собственную ленту: @TelegrokOfficialBot
Download Telegram
эйай ньюз
Запускаем Voice Mode ChatGPT если вы не из США 😆

и устанавливаем официальную апку на андройд.

Недавно интернет заполонили тесты новой фичи OpenAI, которую (наконец-то!) раскатили для всех платных подписчиков аккурат перед презентацией Meta, ведь там тоже показали голосовой режим.

Но потестить новый функционал в OpenAI удалось далеко не всем, потому что большинство русскоговорящих пользователей используют чат в браузере, где Voice Mode не работает, а приложения в плейсторе нет.

#гайд ChatGPT из Play Market и как пользоваться им без VPN.

Шаг 1. Самый муторный.
Меняем страну аккаунта Google на США.

(Можно попытаться пропустить этот шаг и скачать apk с какого-нибудь зеркала, но, скорее всего, это не сработает)

1.1 Открываем payments.google.com > Настройки.

1.2 Создаём новый платёжный профиль в США. Жмём на карандаш рядом с пунктом «Страна», см. скрин.

1.3 Переходим на сайт bestrandoms.com и генерируем американский адрес.
(Желательно в Аляске — если вдруг что-то будете оплачивать с карты ⬇️
⬆️ US, не будет налога. Аналогично можно сгенерировать адрес для других стран и карт)

1.4 Для надёжности можно удалить старый non-US профиль.

1.5 Заходим в Google Play (Play Market) > Настройки > Общие > Настройки аккаунта и устройства. В разделе «Страна и профили» меняем страну на США.

Плеймаркет обновится не сразу, так что если не получилось с первого раза, подождите ещё суток, и приложение появится. (По крайней мере вышло именно, так когда мы тестировали)


Шаг 2. Кайфовый.
Включаем Private DNS.

2.1 Открываем настройки устройства, вводим в поиске «Private DNS» и вписываем туда адрес сервиса DoT от Comss (подробнее здесь).

2.2 Идём в Настройки > Подключение и общий доступ > Частный DNS сервер и вставляем туда адрес: comss.dns.controld.com.

2.3 Всё! Теперь ChatGPT (а также Bing, Bard и Claude) будет работать без VPN. К тому же, это избавит от большей части рекламы на сайтах и в приложениях, ещё и повысит безопасность сети.

Шаг 3. Финальный.
Устанавливаем приложение ChatGPT из Google Play.

3.1 Установили.

3.2 Вошли.

Готово! Если у вас есть подписка, то Voice Mode уже должен быть доступен. Делитесь своими экспериментами в комментах.

Warning: данные шаги нарушают гугловский EULA.

Источник 4PDA

@ai_newz
Ai molodca 🤖
Мой аишный чемоданчик.

Подумал, вдруг будет полезно собрать для вас инструменты и сервисы, которые я сейчас использую на ежедневной основе. Отсортированы в порядке частоты использования.

Графика:

Ideogram, Adobe Firefly (в Фотошопе), Midjourney, Dalle-3, Phygital+ (там кручу Flux), Krea (для реалтайм генерации), когда нужно что-то поделать в Поломатике1111 - RunDiffusion - позволяет поминутно арендовать любой UI на отличном железе, Magnific для апскейла.

Для работы с текстами:

Claude 3.5 (проекты - топ), ChatGPT (только из за выхода в интернет), Wispr Flow (отличная приблуда для мака, которая позволяет переводить речь в текст, сейчас практически не пишу, а диктую), Perplexity для поиска.

Видео:

Kling 1.5, Gen-3, Luma. Тут все понятно, пацаны вообще ребята.

Озвучка и звуки:

ElevenLabs, Replay (для аи-каверов).

Песни, музыка:

Suno.

Говорящие головы:

HeyGen, Hedra.

Монтаж:

Capcut, хоть базово и не совсем аи, но напичкан им.

Если есть какие-то классные сервисы, которыми вы ⬇️
GPT/ChatGPT/AI Central Александра Горного
Chery показала прототип летающего автомобиля

Транспортное средство Land and Air Vehicle состоит из трех частей: самолетного модуля, кабины пилота и шасси. Кабина присоединяется к наземному или воздушному модулю по мере необходимости.

Высота полета ограничена 1000 метров, максимальная скорость в воздухе — 120 км/ч, время полета — около 40 минут.

Прототип все еще находится в стадии разработки, но он уже успешно преодолел по воздуху тестовую дистанцию — около 80 км.

https://carnewschina.com/2024/10/18/cherys-unmanned-flying-car-had-flown-80-km-company-claimed/


GPT o1-preview и o1-mini уже доступны в c.aiacademy.me.
Нейронавт | Нейросети в творчестве
Janus

Мультимодальная модель от DeepSeek.
Текст и картинки.

Модель компактная, основана на DeepSeek-LLM-1.3b-base

Гитхаб
Веса на HF

#VLM #assistant #multimodal #text2image #image2text
GPT/ChatGPT/AI Central Александра Горного
Основатель Byju's признал что его стартап больше ничего не стоит

Байджу Равиндран заявил, что ошибся, неправильно оценил рынок и переоценил потенциал роста. Он признал, что основанный им Edtech-стартап Byju's, оценивавшийся на пике в 22 миллиарда долларов, теперь фактически стоит «ноль».

По мнению Равиндрана, фатальной ошибкой для Byju's стало агрессивное приобретение двух десятков стартапов для выхода на новые рынки. Основатель обвинил инвесторов в том, что именно они убеждали его делать это, а затем не поддержали компанию, когда в 2022 году у нее кончились деньги.

Сейчас в Byju's идет процедура банкротства, а Равиндран отстранен от управления.

https://techcrunch.com/2024/10/17/byjus-founder-says-his-edtech-startup-once-worth-22b-is-now-worth-zero/


GPT o1-preview и o1-mini уже доступны в c.aiacademy.me.
Machinelearning
🌟 Janus: унифицированная MMLM от DeepSeek

Janus - уникальная мультимодальная модель, которая способна выполнять как задачи понимания, так и генерации изображений. В отличие от других GenAI моделей, Janus использует раздельные пути кодирования визуальной информации, оптимизированные под каждую задачу, находясь в единой архитектуре на основе трансформера.

Это разделение позволяет Janus точно извлекать семантическую информацию из изображений для задач понимания, одновременно сохраняя детализацию и целостность для задач генерации.

Janus имеет 1.3 млрд. параметров с длиной последовательности в 4096.

▶️ Архитектура Janus состоит из 3 компонентов:

🟢Энкодер понимания: извлекает семантические характеристики из изображений, используя SigLIP;

🟢Энкодер генерации: преобразует изображения в последовательность дискретных идентификаторов с помощью VQ-токенизатора;

🟢Унифицированный авторегрессионный трансформер: обрабатывает текстовые и визуальные характеристики.

Процесс обучения Janus проходил ⬇️
⬆️ в несколько этапов: сначала тренировались адаптеры и Image Heads для связывания визуальных и лингвистических эмбедингов. Затем - предварительное обучение задачам понимания и генерации и, в конце - инструктивная специализация модели при помощи SFT.

▶️ Оценка производительности Janus выполнялась на бенчмарках:

🟠Понимание: MMBench, SEED-Bench, POPE, MME, VQAv2, GQA, MMMU, MM-Vet.

🟠Генерация: MSCOCO-30K, MJHQ-30K, GenEval

Результаты оценки показали, что Janus превосходит предыдущие унифицированные MMLM и демонстрирует конкурентоспособность с некоторыми моделями большего размера.

На MMBench, SEED-Bench и POPE, Janus (1.3B) превзошла LLaVA-v1.5 (7B)12 и Qwen-VL-Chat (7B)13.
На MSCOCO-30K и GenEval Janus превзошла DALL-E 214 и SDXL

Инференс модели пока поддерживается только в CLI на Transformers. Примеры запуска в режимах Multimodal Understanding и Text-to-Image Generation приведены в репозитории проекта.

Способ запуска в GradioUI в коммитах. По отзывам - модель запускается на T4 (16 Gb) в free-tier Google Collab.


📌Лицензирование кода : MIT License.

📌Лицензирование модели: DeepSeek Model License.


🟡Модель
🟡Arxiv
🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #MMLM #GenAI #Janus #DeepSeek
Сиолошная
DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads

В конце апреля разбирал статью про Retrieval Heads (пост является пререквизитом для понимания этого) — механизм в LLM, который позволяет модели находить и копировать нужные факты из части промпта. Если вы даёте на вход 10 страниц текста и задаёте вопрос — Retrieval Heads обратят внимание на потенциальные место ответа и «вытащат» его. Когда Retrieval Heads лажают, появляется контекстуальная галлюцинация.

Однако чем длиннее контекст, тем дольше работает модель — ведь нужно сделать больше вычислений, и, что не менее важно, хранить больше данных в памяти (обо всех прошлых страницах). Такое называется KV cache.

Фреймворк DuoAttention предлагает следующее:
1) генерируем набор синтетических данных, в которых точно требуется «вспоминать» контекст (в промпт вставляют части «запомни это: <длинное предложение>», а в коцне просят написать все такие части)
2) прогоняем его через модель и сохраняем выходные значения (последние эмбеддинги)
3) дальше тренируем модель-маску, которая описывает зануление/занижение оценок каждой головы (которая может быть Retrieval Heads). Тренировка производится с L1 регуляризацией, чтобы проредить маску. Идея такая, что если мы зануляем Retrieval Head, то это существенно ломает предсказания модели на задаче «вспоминания» частей промпта, а если что-то другое — то влияние минимально
4) после обучения на ~2000 шагов (несколько часов, в зависимости от модели и GPU) остаётся финальная маска влияния на возможность модели свпоминать. В ней значения бинаризуются (на 1 и 0) через сравнение с некоторой константой, подбираемой по перцентилю
5) этот процесс нужно повторять самому для каждой модели один раз перед запуском

Всё! Теперь маску можно применять: значения Retrieval Head сохраняются для всех слов, а остальная информация отбрасывается, если находится дальше, чем K токенов от текущего места. Например, если вы обрабатываете 50'000 токенов, то держите на готове последние, скажем, 1024 токена (и весь ⬇️
⬆️ KV cache для них), и значения Retrieval Head для всех остальных 49k. Если модели нужно обратиться к данным из начала промта — у нас для этого сохранена лишь часть данных, которая, как показывают эксперименты, достаточна для того, чтобы вспомнить их.

На экспериментах с длинным контекстом показывают, что если брать половину всех Heads (то есть подбирать такой порог, чтобы ровно половина отсекалась), то:
— на одну карту с 80GB для 8B модели теперь влазит 3.3M токенов контекста (если делать квантизацию кэша; без DuoAttention 1.8M, без квантизации всего 0.52M)
— потребление памяти меньше в 1.67-2.55 раз — потому что надо меньше хранить в памяти, мы часть выкидываем
— задержка генерации меньше в 1.5-2.18 раз — потому что нужно меньше считать

Очень хороший пример как методы интерпретации (обнаружение Retrieval Heads) позволяют улучшать практические кейсы с использованием моделей.
Сиолошная
Схема работы DuoAttention, слева процесс обнаружения Retrieval Heads, справа — процесс работы модели с использованием оптимизации

Пояснение: Streaming Attention — это части модели, которые обращают внимание лишь на совсем недавний контекст, последние сколько-то слов, и не участвуют во вспоминании частей промпта.

Интересно, что в некоторых бенчмарках с длинным контекстом модель с сохранением лишь части (иногда меньше половины) KV cache показывала себя лучше, чем полная модель — скорее всего потому, что ни на что не отвлекалась, и механизм вспоминания частей промпта работал на полную.
This media is not supported in your browser
VIEW IN TELEGRAM
Сиолошная
А вот и оно!

Starship выполнил маневр переворота и посадку на пятом летном испытании. Улучшения транспортного средства обеспечили защиту закрылков от сильного нагрева, что привело к контролируемому входу и высокоточному приводнению в целевой области в Индийском океане

«Манёвр переворота» — это потому что корабль летит пузом вниз (то есть по сути боком, длинной стороной), а потом включает двигатели и резко разворачивается на 90 градусов двигателями вниз, чтобы приводниться, имитируя посадку. Посмотреть на репетицию при дневном свете (от 2021го года) можно тут.

Источник
Machinelearning
✔️ Google запускает NotebookLM Business для корпоративных задач.

Google запускает платную версию NotebookLM, ориентированную на бизнес. Доступ к NotebookLM Business будет через пилотную программу раннего доступа.

Участники пилотной программы NotebookLM Business получат более высокие лимиты использования и новые функции: кастомизация и совместное использование записных книжек.

В NotebookLM Business также запланирована функция Audio Overview, которая позволяет пользователям создавать озвученное учебное пособие. Google объявит о всеобщей доступности и ценах на NotebookLM Business позднее в этом году.
venturebeat.com

✔️ Anthropic выпустила обновление Claude: новые функции и приложение для iPad.

Новые функции — возможность поиска по прошлым чатам и добавления контекста в проекты с помощью пользовательских инструкций.

Например, можно попросить Claude AI создать список дел для детей, а затем указать, что у 7-летнего ребенка СДВГ, чтобы ИИ скорректировал ответ с учетом этой информации. ⬇️
⬆️

Обновленный интерфейс мобильных приложений и дополнительная поддержка проектов упрощают переключение между устройствами, сохраняя при этом непрерывность рабочих процессов. Теперь и на нативном приложении для iPad.
tomsguide.com

✔️ Google реструктуризирует команду руководителей продуктов и два подразделения разработки ИИ.

Google назначил Прабакара Рагхавана, главу подразделения поиска и рекламы, на должность СTO. Ник Фокс, опытный руководитель Google, возглавит подразделение поиска и рекламы.

Команды, работающие над Google Assistant и чат-ботом Gemini, будут переведены в другие бизнес-подразделения. Команды, сосредоточенные на "устройствах и домашнем опыте", перейдут в подразделение Platforms & Devices, отвечающее за разработку устройств для умного дома и смартфонов Pixel.

Команда, ответственная за чат-бота Gemini, станет частью исследовательской лаборатории ИИ Google DeepMind под руководством Демиса Хассабиса, лауреата Нобелевской премии по химии за разработку системы прогнозирования структуры белка AlphaFold2.
siliconangle.com

✔️ Microsoft разрабатывает ИИ-инструменты для анализа рабочих процессов.

Microsoft подала заявки на два патента, описывающие ИИ-системы, способные анализировать деятельность пользователей и предлагать рекомендации по совместной работе.

Первая система отслеживает документы, с которыми взаимодействует пользователь, а также вклад каждого автора, создавая ранжированный "рекорд авторства". Эти данные анализируются с помощью машинного обучения для формирования рекомендаций по совместным проектам.

Вторая система использует нейронную сеть для обработки естественного языка, чтобы лучше понимать взаимосвязь между фразами в разных документах. Эта технология позволит ИИ выполнять анализ и отвечать на запросы, основываясь на более глубоком понимании контекста.
thedailyupside.com

✔️ Samsung разрабатывает GDDR7 для центров обработки данных и ИИ.

Samsung анонсировала разработку 24-гигабайтного чипа динамической памяти GDDR7 (DRAM) со скоростью 40 Гбит/с и выше.

Новая память предназн...
This media is not supported in your browser
VIEW IN TELEGRAM
Нейронавт | Нейросети в творчестве
DepthCrafter ComfyUI

Ноды генератора глубины DepthCrafter

Можете создавать видео с картой глубины на основе любого входного видео

Для рендеринга длинных видео в высоком разрешении (768p и выше) требуется довольно большой объем видеопамяти (>16 ГБ). При меньшем разрешении и более коротких видео будет использоваться меньше видеопамяти. Вы также можете сократить значение context_window для экономии видеопамяти.

Эта модель глубины хорошо сочетается с пакетом Depthflow для создания последовательной анимации глубины

#comfyUI #video2depth