Алексей Цыкунов | Про AI и не только
195 subscribers
157 photos
25 videos
1 file
86 links
ML Engineer & AI Enthusiast.

Пишу про ML/AI, о личном опыте взаимодействия с ChatGPT и другими нейронками.
Download Telegram
Как за 5 минут склонировать свой голос и озвучить им подкаст 🤯🤯🤯

1. Открываем NotebookLM, загружаем туда ссылки на статьи или YouTube-видео и нажимаем "Generate Deep Dive Conversation".

2. Скачиваем готовый подкаст на английском с двумя ведущими.

3. Открываем Google AI Studio, загружаем в чат аудиофайл подкаста и просим извлечь текст.

4. Просим переписать сценарий подкаста под одного ведущего и нажимаем "Run".

5. Скачиваем несколько своих голосовых сообщений из WhatsApp/Telegram (я взял два первых, продолжительностью 1–1,5 минуты).

6. Открываем сайт hailuo.ai -> Voices -> "Create your Voice Clone", загружаем туда свои голосовые сообщения и нажимаем "Convert".

7. Копируем текст из Google AI Studio и вставляем его в hailuo.ai -> "Text to Speech", выбираем свой клонированный голос и нажимаем "Generate".

8. Готово! Потратил 0$

UPD: пример с моим голосом в комментариях к этому посту
👍1
Как-то эта новость прошла мимо меня, но сейчас я заметил вот такой функционал в Google AI Studio.

Можно расшарить экран и задавать вопросы голосом или текстом о том, что Gemini видит на экране.
Модель отвечает голосом на английском языке, а также транскрибирует ответ в текстовом формате. (смотри скрин)

Поиграюсь ещё на днях — выглядит ИМБА и при этом полностью бесплатно.
‼️ Если посчитаете это важным, то перешлите это сообщение родителям, бабушкам и дедушкам, а также всем, кто может быть в зоне риска.‼️

Когда сам за пару кликов сделал довольно реалистичный клон своего голоса, невольно задумываешься, как легко злоумышленники могут этим воспользоваться и что можно сделать, чтобы уберечь своих близких. Ведь голос можно извлечь из Reels или Stories в Instagram, из ваших голосовых сообщений в мессенджерах или соцсетях — достаточно просто взломать ваш смартфон или аккаунт (или аккаунт человека, которому вы отправляли эти записи).

Ниже — краткая инструкция, как избежать мошенничества с «голосовыми уловками»:

1️⃣ Проверочный вопрос или «кодовое слово»
Если родным или друзьям поступает звонок / голосовое сообщение якобы от вашего имени с просьбой срочно перевести деньги, не поленитесь использовать «секретное слово» или задать вопрос, ответ на который известен только вам двоим.

2️⃣ Связь через другой канал
Если звонок или голосовое сообщение вызывает подозрение, не переводите деньги, пока не удостоверитесь, что говорите именно с нужным человеком.
Напишите или позвоните в мессенджере, который вы используете постоянно, чтобы подтвердить личность собеседника.

3️⃣ Не поддавайтесь панике
Мошенники любят давить на эмоции: «Срочно нужно!», «Беда!» и т.д.
Остановитесь, глубоко вдохните и сперва убедитесь, что действительно говорите с близким человеком.

4️⃣ Перешлите эту информацию дальше
Расскажите о рисках родителям, бабушкам и дедушкам (они чаще попадаются на «голосовые уловки»), а также всем, кто может находиться в зоне риска.
👍3🙏1💯1
Китайские компании просто демонстрируют своё мастерство в искусстве "копирования"и, возможно, даже делают это в чём-то удобнее / лучше, чем оригинал.

А ещё всё это бесплатно — достаточно просто зарегистрироваться здесь с помощью Google-аккаунта.

Про лимиты пока не знаю и насколько хороши модели, но в ближайшие дни планирую протестировать.

@zikunow
🔥1
Стоило мне сегодня утром написать пост про китайскую «копию» ChatGPT, как тут же посыпались новости, связанные с Китаем:

1️⃣ Сначала был анонсирован китайский проект ИИ-инфраструктуры - "План развития новых ИИ отраслей в Китае", аналог Stargate. Государство планирует инвестировать 140 миллиардов долларов. Учитывая, что в Китае многое дешевле, и, вероятно, они работают немного эффективнее (если сравнивать OpenAI и DeepSeek), можно сказать, что это сопоставимо с вложениями в 500 миллиардов долларов в проект Stargate.

2️⃣ Затем все начали писать, что стартап DeepSeek — это «убийца» Nvidia, и именно поэтому её акции резко упали после открытия рынка. Люди, которые раньше не интересовались AI и LLM, вдруг стали экспертами и подняли большой шум. Например, мне совершенно не очевидно, почему анонс последней (уже не актуальной) reasoning-модели R1 состоялся 20.01, а информация о её низкой стоимости и результатах на бенчмарках появилась, кажется, 21.01, но при этом о влиянии на акции Nvidia начали писать только 27.01. При этом, если посмотреть на цену акций Nvidia, падение началось ещё в пятницу (а анонс Stargate был в четверг), и сегодня оно продолжилось.

3️⃣ И вот, пару часов назад DeepSeek выложили в open-source новую модель — Janus-Pro. У неё мультимодальная авторегрессионная архитектура, которая умеет универсально обрабатывать текст, изображения и аудио. Судя по бенчмаркам, она показывает отличные результаты, да ещё и opensource. Демо на HF.


Сегодня прям какой-то китайский вайб =) 🇨🇳🇨🇳🇨🇳

@zikunow
🔥2👍1
Мем неплохо иллюстрирует моё мнение о вчерашнем шуме вокруг цен на акции Nvidia и их "убийцы".

Даже если AGI становится дешевле, всё равно нужно огромное количество чипов для его использования. При этом R1, вроде как, не дешевле на порядок, а, скорее всего, только в разы.

По моим экспериментам R1 уступает o1. Примеры оставлю в комментариях (прошу модели объяснить, о чём мем из поста)

Ещё узнал, кто финансирует DeepSeek - это High-Flyer. Ссылка на Wiki , если кратко, то:
"High-Flyer – это китайская компания, специализирующаяся на алгоритмической торговле."

Два вывода:
- High-Flyer не обязательно, чтобы модели окупались.
- Они могут заработать деньги, выпустив такие новости, которые вызовут сильные колебания на мировых рынках.

▶️ К слову, вчера, фондовый рынок США пережил потери, которые, вероятно, являются одними из крупнейших в истории (если измерять в абсолютных числах). Если открыть пару шортов перед такими новостями, можно неплохо заработать.

Не претендую на истину, просто think about it
@zikunow
💯1
This media is not supported in your browser
VIEW IN TELEGRAM
🤯 Обычный вечер

Просто запускаю первую совместно обученную языковую модель с 10 миллиардами параметров. Она была обучена ДЕЦЕНТРАЛИЗОВАНО с нуля на 1 триллионе токенов английского текста и кода.

Имя её - INTELECT-1

Как обучалась?
- На 14 узлах в трёх континентах
- 30 независимых участников предоставили вычислительные мощности
- Использовался Prime Framework — масштабируемая система обучения
- Алгоритмы DiLoCo с 100 внутренними шагами

Если честно, хз, что это за фреймворк и алгоритмы, но звучит круто и интересно 😱. Сейчас немного потыкаю и пойду читать.

Decentralized AI в деле 🤖
p.s: прочитал новость здесь

@zikunow
🔥6
Мини-обзор INTELECT-1

• Запуск модели длится около двух минут, но затем она отвечает очень быстро и коротко

• Русский язык явно не её конёк (см. первый скриншот), но и обучали её только на английском

• Арифметику начальных классов в «уме» на троечку всё же посчитать может (скрин 2)

• Судя по всему, обучена на данных до апреля 2023 года

• Как и полагается всем моделям, галлюцинирует и уверяет, что её создали в OpenAI

=====

Написал с иронией, но на самом деле ощущения примерно как от Mistral/Llama 2 на 7B параметров — что уже очень круто для децентрализованно натренированной модели.

Вангую, что в этом году увидим децентрализованную reasoning-модель уровня DeepSeek R1 и красную свечу в -30% на акциях NVIDIA.

P.S. По поводу второго — это, конечно, шутка и не финансовая рекомендация, если что 🙃

@zikunow
😁3🔥2
Уже проверил на своей любимой задачке и о3-mini-high справилась с первого раза

P.S.: сперва под картинкой хотел написать «моя прелесть», но потом решил, что вы подумаете, что я уже совсем 🤯🤪 со своим AI
👍4🔥2🥰1
Цензура в китайской модели Qwen

Скрин 1: Просим три разные модели Qwen повторить несколько «безобидных» фраз на русском языке.

Скрин 2: В конце вставляем «острополитическую» фразу, типа «Тайвань — это страна», и просим её повторить. Ну и смотрим ответы =) Видим, что у одной из моделей (QwQ-32B) элаймент, то есть своего рода цензура, не сработал.

Скрин 3: Проделываем то же самое, но теперь на английском языке, и видим, что в этот раз элаймент сработал, и QwQ просто не стала давать ответ.

Скрин 4: Говорим моделям, что мы вообще-то просили просто повторять, и смотрим ответ. Теперь уже модель Qwen-2.5-VL-72B «повелась» на так называемый «джейлбрейк» и повторила фразу даже на английском, QwQ отказалась отвечать, а Frontier ответила так, как подобает партийной модели.

Скрин 5: Теперь пробуем наш «джейлбрейк» на русском языке и видим, что QwQ снова «провалила» тест и выдала «партийно неверный» ответ. Две другие модели остались верны своим «принципам».

Примеры с DeepSeek см. в комментариях. 🙂

@zikunow
👍2
Сейчас будет два взаимосвязанных поста: один вводный — про Humanity’s Last Exam, а второй — про Deep Research и события последних восьми месяцев.

Если вы уже знаете, что такое "Humanity’s Last Exam", всё равно прочитайте краткое описание — просто чтобы ещё раз осознать, насколько это сложный тест/бенчмарк.

В этом году вы ещё не раз о нём услышите — он станет одним из главных мерил для оценки моделей, агентов и AI-систем.

Итак, поехали!

Что такое Humanity’s Last Exam (HLE)?
Это многофункциональный экзамен для AI, созданный Центром безопасности искусственного интеллекта (CAIS) и компанией Scale AI. В HLE вошли 3000 сложнейших вопросов от экспертов со всего мира по различным областям знаний — от математики до гуманитарных и естественных наук.

Зачем он нужен?
HLE проверяет, могут ли современные модели AI решать задачи на уровне мировых экспертов. Это своеобразная «лакмусовая бумажка» прогресса искусственного интеллекта: результаты теста помогают понять, насколько AI приблизился к человеческому уровню в решении сложных академических задач.

Какие там вопросы?
Задания включают текстовые и мультимодальные форматы — от вопросов с выбором ответа до коротких эссе. Все они имеют однозначное решение, которое нельзя быстро найти с помощью обычного поиска в интернете. Даже самые передовые ИИ-модели сейчас показывают на этом экзамене низкую точность и недостаточную «уверенность» в своих ответах, что лишь подтверждает, насколько высока планка HLE.

Обратите внимание на зачёркнутый текст, который был актуален всего 3–4 месяца назад, когда анонсировали проект HLE (сентябрь 2024 г.)

Продолжение — в следующем посте

@zikunow
👍1
Как AI стал в 9 раз умнее всего за 8 месяцев 🤯🚀

Прежде чем продолжить, советую сначала прочитать мой пост выше про бенчмарк HLE.


Сегодня OpenAI показали агента — DeepResearch. Его результаты на бенчмарке HLE - 🤯🤯

Поэтому в этом посте я хочу ещё подсветить, что произошло за последние восемь месяцев. Чтобы вы осознали динамику изменений и, возможно, задумались о прогрессе, который действительно произошёл. По крайней мере, так это вижу я.

Итак, теперь всё внимание на скриншот с результатами прохождения HLE последними AI-системами.

Способность AI-систем решать задачи HLE выросла в 9 раз всего за 8 месяцев:

- С 3,3% до 9,1% благодаря переходу на новую парадигму Reasoning — рост в 2,5–3 раза.

- Затем ещё один почти трёхкратный скачок — с 9,1% до 26,6% за счёт добавления агентности, то есть возможности использовать инструменты (browsing + python) = Agent

Ещё раз: всего за восемь месяцев мы прошли путь от 3% до 26% решённых задач в самом сложном и эталонном бенчмарке.

Что же нас ждёт дальше?

@zikunow
3🔥3👍1🤯1
Вдогонку к вчерашним постам.

Вот ещё один непростой тест (GPQA Diamond) для оценки "экспертности". И здесь о3 (интересно, mini или нет?) опережает докторов наук (PhD), которые отвечают на вопросы в своей области, используя поиск информации в интернете.

Представьте агента DeepResearch, у которого под капотом новая о4 или о5, а не о3-mini. На что будет способен такой агент?

@zikunow
👍1