STARTOBUS
2.75K subscribers
2.56K photos
774 videos
212 files
3.36K links
@startobus: AI — гайды, инструменты, кейсы для креатива, маркетинга и бизнеса
👋 @dchannov, Денис Чаннов, 35 лет опыта 🚀 2500+ проектов в 30+ странах.
Download Telegram
💡 8 мощнейших обновлений HeyGen за ноябрь 2024 года (+бонус)

HeyGen продолжает радовать пользователей новыми функциями, которые делают создание видео проще, быстрее и креативнее. Вот главные обновления:

1. Генерация видео по текстовому запросу (Prompt Videos)
Теперь можно создавать реалистичные видео, используя всего лишь фото и текстовое описание. Без камеры и сложного оборудования!

2. Динамическая анимация (Add Motion)
Аватары и фоны оживают благодаря добавлению движений: от волн на воде до падающих листьев.

3. Создание виртуальных аватаров (Virtual Avatars)
Пользователи могут проектировать уникальных персонажей в любой одежде, позе или локации за считанные секунды.

4. Улучшенный перевод видео (Enhanced Video Translation)
Новые функции позволяют улучшить качество звука, удалять ненужную фоновую музыку и автоматически усиливать голос, делая контент более профессиональным.

5. AI-рекордер экрана (Screen Recorder, Beta)
Записывайте экран без камеры и добавляйте аватары прямо в готовое видео. Это идеальный инструмент для создания презентаций и обучающих материалов.

6. API Suite
Новый API позволяет интегрировать аватары в приложения или сайты, локализовать контент для глобальной аудитории и автоматизировать создание видео на масштабном уровне.

7. Аватары с движением (Talking Photos)
Оживите свои фотографии с помощью искусственного интеллекта — создавайте говорящие изображения с высокой реалистичностью.

8. Удаление фоновой музыки
Функция позволяет сделать голос более четким и профессиональным, что особенно полезно для образовательного контента и презентаций.

🎁 Бонус: HeyGen теперь поддерживает создание аватаров с вашим лицом в любом количестве благодаря интеграции LORA на Flux!
Мысль, которая приносит деньги

— Как зацепить инвестора? — спросил стартапер
— Покажи возможность

За год я прослушал несколько сотен презентаций. Там было про рынок, проблемы, решения, экономику и остальные важные вещи. И почти нигде — одной простой мысли, которую мог бы запомнить.

Когда спрашивал: «Ты что хочешь, чтобы я понял?», почти всегда слышал: «То, что нам нужно дать деньги».

Такая фраза подходит всем — а значит, не работает.

Мысль всегда проста: «мы можем заработать ХХ денег к YYYY году с помощью возможности Y». Все остальное — аргументы, ее подтверждающие.

В этой формуле главное — возможность. Ответ на вопрос «почему сейчас?». Или еще точнее — «почему это не сделали другие раньше?»

Доводы типа «мы крутые», «конкуренты дебилы», «потребители не знают» не катят. Например, ставки по ипотеке выросла, платеж стал неподъемным, люди экономят на страховках. Пора запускать сервис с самыми дешевыми предложениями.

Вывод прост: хочешь зацепить инвестора — покажи ему изменение. Остальное — красивая рамка, не больше.
Статья в Nature: ИИ лучше людей в поэзии

Исследование на основе 2000 респондентов из США (бычных читателей поэзии) показало, что стихи, созданные искусственным интеллектом, становятся неотличимыми от произведений известных поэтов и даже получают более высокие оценки за качество и эмоциональное воздействие. Ваши любимые роботы теперь могут писать стихи лучше некоторых из нас.

Ключевые инсайты исследования:

1. Участники эксперимента часто ошибочно принимали AI-сгенерированные стихи за работы знаменитых поэтов.

2. ИИ стихи получили более высокие оценки по качеству, ритму и эмоциональной глубине.

3. Несмотря на предпочтение, зная, что стихотворение создано ИИ, участники оценивали его ниже, дискриминируя несчастных ботов.

Пришла беда откуда не ждали, но зато поздравительные картинки в воцапе от стареющего поколения станут менее кринжовыми.

По ссылке ниже куча деталей
Недавно Саша Доброкотов поднял тему об обесценении труда AI-креаторов.
Проблема в том, что многие до сих пор считают, что создание контента с помощью нейронок — это просто нажать пару кнопок. На деле за каждым качественным AI-проектом стоит огромный объем работы.

Посмотрите свежий кейс от Runway и режиссера Джереми Хиггинса по созданию фильма «Migration». Это яркий пример того, сколько усилий потребовалось креаторам.

Два месяца работы, сотни генераций, ручная анимация персонажей, постпродакшн — всё это остается за кадром. А потом во всяких пабликах мы видим: "нейросеть создала…".

Поэтому важно говорить о том, что за каждым крутым AI-проектом стоят люди, а не магия нейросетей. Талант, знания, сотни часов работы — вот что превращает технологии в искусство. Нейросеть сама ничего не создаёт, это всего лишь инструмент в руках креатора.

https://runwayml.com/customers/behind-the-scenes-of-migration-with-director-jeremy-higgins
👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic предложил новый стандарт подключения чат-ботов к источникам данных

Anthropic представил Model Context Protocol (MCP) — систему для связи любых моделей искусственного интеллекта с хранилищами данных. В компании считают, что единый открытый стандарт поможет решить проблему разобщенности, из-за которой каждый источник данных требует индивидуального подхода для подключения AI.

MCP должен помочь AI-моделям выдавать более качественные и релевантные ответы на запросы пользователей. Однако, у экспертов есть сомнения, что протокол получит большую поддержку, особенно у конкурентов Anthropic, таких как OpenAI.

На видео показан пример подключения Claude к GitHub через MCP.

https://techcrunch.com/2024/11/25/anthropic-proposes-a-way-to-connect-data-to-ai-chatbots/
А вот Nvidia продолжает демонстрировать, что компания не только про чипы, но и про собственные модели, иллюстрирующие красоту генеративного ИИ и крутость продуктов Nvidia — full version uses 2.5 billion parameters and was trained on a bank of Nviidia DGX systems packing 32 H100 Tensor Core GPUs 🙂
Модель по имени Fugatto (от Foundational Generative Audio Transformer Opus 1) описывается как a Swiss Army knife for sound, а сравнение ее с другими моделями звучит немножко токсично: some AI models can compose a song or modify a voice, none have the dexterity of the new offering 🙂
Музыкантам предлагается использовать новый инструмент на разных стадиях процесса — от прототипирования до улучшения качества имеющихся треков. Модель умеет создавать неожиданные эффекты: For instance, Fugatto can make a trumpet bark or a saxophone meow. Whatever users can describe, the model can create. Черрипики в приложенном треке звучат впечатляюще.
Осталось дождаться реакции и без того в последнее время нервных музыкантов:)

https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
«Я бегаю в 4 утра, потому что знаю, что мой соперник всё ещё спит. Это даёт мне преимущество», — так Майк Тайсон ответил на вопрос, действительно ли он тренируется каждый день на рассвете.

Тайсон добавил: «Если я узнаю, что один из моих соперников бегает в 4 утра, я начну бегать в 2. А если кто-то тренируется в 2 утра, я вообще перестану спать, чтобы продолжать тренироваться».

«Без дисциплины, какой бы талантливый ты ни был, ты — ничто», — Майк Тайсон.
Неаудированная финансовая отчетность Telegram за первое полугодие 2024 года: выручка в размере $525 млн, что на 190% больше, чем в предыдущем году, прибыль после уплаты налогов в размере $335 млн, цифровые активы стоимостью $1,3 млрд по сравнению с $400 млн на конец 2023 года.

И все это на команду в 50 человек. Мягко говоря, приятный результат. Да, расходы всё еще огромные, и компанию нельзя считать прибыльной на 10+ год своего существования. Но капитализация компании уже сумасшедшая.

https://t.co/clNprU0ZK5
Runway выкатили новый генератор изображений Frames

Сервис делает более атмосферные и кинематографичные изображения

Доступ будут открывать постепенно пользователям Gen-3 Alpha.

Креативный директор Николас Нойберт уточнил: картинки генерируются по текстовому запросу.

🔥 — Качество поражает

Нейросети
🔥1
Интересный ресеч вышел, который проверяет, насколько эффективно, что языковые модели общаются между собой человеческим языком (например, в агентских системах где ответ из LLM попадает снова в LLM)

Ожидаемо оказалось, что роботам использовать наш язык – не эффективно. Вместо текста языковым моделям проще обмениваться набором «координат» — данных, которые описывают смысл фраз и слов, их называют эмбеддингами. Например, вместо фразы «Привет, ну как там с деньгами?» одна модель передаёт другой что-то вроде [0.82, -0.45, 1.22,…]. Это ускоряет процесс почти в три раза (!), причём без потерь в качестве

Подход позволяет моделям быстрее решать задачи и взаимодействовать друг с другом, например, в сложных сценариях вроде совместного написания кода или генерации текста

Тут технические детали, а тут статья в NewScientist

Короче, скоро не почитать будет без спец тулзов, что там модели друг другу пишут в процессе общения
👍3
💻 Amazon хочет конкурировать с Nvidia на рынке чипов искусственного интеллекта: выйдет ли?

Инженеры Amazon в Остине трудятся не покладая рук над одним из самых амбициозных проектов в технологической отрасли. В атмосфере, больше напоминающей стартап, высокооплачиваемые инженеры не прочь сбегать в Home Depot за сверлильным станком, лишь бы помочь Amazon ослабить контроль Nvidia над рынком чипов ИИ стоимостью больше $100 млрд.

Цель Amazon — превратить сеть центров обработки данных компании в огромные машины для обучения искусственного интеллекта. Одна из ближайших задач — до конца года внедрить последнюю версию ИИ-ускорителя компании Trainium2 в как можно большее количество ЦОДов AWS.

Amazon, Google, Microsoft — все они питают надежды снизить зависимость от чипов Nvidia. На прошлой неделе компания сообщила, что спрос на новейшее оборудование Nvidia будет превышать предложение в течение нескольких кварталов (!). Пока что план Amazon, как бороться с этим, выглядит самым рабочим.

Усилия по разработке чипов для ЦОДов AWS возглавляет израильская компания Annapurna Labs, которую Amazon дальновидно приобрел ещё в 2015 году за скромные $350 млн.
Ожидается, что скоро компания объявит о широкой доступности Trainium2 — последней разработки Annapurna, чипа для обучения больших ИИ-моделей.
Trainium2 — это третье поколение чипов искусственного интеллекта компании. Чип уже тестируется Anthropic, а также Databricks, Deutsche Telekom и японскими Ricoh и Stockmark.
Trainium2 имеет в 4 раза большую производительность и в 3 раза большую память по сравнению с предыдущим поколением. Компания обещает, что может предложить на 30% лучшую производительность за цену сипа от Nvidia.
Amazon хочет выводить на рынок новый чип примерно каждые 18 месяцев. Nvidia — каждый год.

Google 🖥 начала создавать чип искусственного интеллекта около 10 лет назад, чтобы ускорить машинное обучение для своих поисковых сервисов. Позже компания предложила свои чипы облачным клиентам, включая ИИ-стартапы вроде Anthropic, Cohere и Midjourney. Ожидается, что последняя версия чипа под названием Axion, представленная Google в апреле, станет широкодоступной в следующем году.

Microsoft 🖥 вошла в гонку чипов ИИ позже, чем AWS и Google, анонсировав ИИ-ускоритель под названием Maia и процессор Cobalt только в конце прошлого года.

И всё же, несмотря на собственные усилия, все три облачных гиганта борются за поставки новейших чипов Nvidia 🖥.

Trainium2 от Amazon будет считаться успехом, если у него получится взять на себя большую часть разработок Amazon в искусственном интеллекте, а также отдельные проекты от крупных клиентов AWS. А вот драгоценный запас высокопроизводительных чипов Nvidia пойдёт на мощности для самых передовых клиентов и задач в области ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
Топ нейросетей для видео начала зимы 2024/25 года

Ссылки ниже: сохраняйте и пересылайте.

Хотите создавать крутые видео быстро и бесплатно? Вот подборка лучших видео-нейронок на 2024 год с уникальными возможностями:

- [Runway Gen-3](https://runwayml.com/) - генерирует реалистичные видео до 10 секунд с детализацией и движением. Новая функция Video Outpainting позволяет камере отъезжать, дорисовывать вокруг (outpaint) и возвращаться обратно. Это дает возможность менять композиции кадра с разными промптами или использовать reference images для расширения.

- [Kling AI](https://klingai.com/) - одна из лучших китайских нейросетей, активно развивается. Адаптируется под пользовательские запросы для улучшения результата.

- [Luma AI](https://lumalabs.ai/) - удобный инструмент с высокой степенью контроля над стилем и качеством видео. Теперь доступны стабильные персонажи и ремикс контента, движение камеры и продолжение видео (extend). Важное обновление — интеграция с их собственным генератором картинок Luma Photon.

- [Vidu](https://vidu.studio/) - предлагает уникальные функции интеграции различных стилей и эффектов. Новая версия Vidu-1.5 представила Multi-Entity Consistency — возможность незаметно интегрировать людей, объекты и окружение без использования LoRA.

- [MiniMax Video-01](https://minimax.com/) - новая китайская нейросеть, которая умеет создавать гиперреалистичные видео людей. Добавлен мультисервис, включающий генерацию видео, гиперреалистичное Text-To-Speech, клонирование голоса за 5 секунд и быструю генерацию музыки.

Пробуйте, экспериментируйте и создавайте крутой контент с помощью этих мощных инструментов!

UPDATE Сегодня не сговариваясь несколько каналов по ИИ - вывели свои рейтинги нейросетей для видео. В комментари разместил инфо от других каналов.
1👍1
​​🔥🔥🔥 The next big arenas of competition.

Крайне любопытный и визионерский отчет от McKinsey, который очень полезно и интересно прочитать.

Вкратце, они пытаются проанализировать ключевые арены конкуренции на сегодня (это отрасли, которые темпами выше средних захватывают рыночную долю во всей экономике, industry share growth rate)и понять какой в них уровень передела рынка (shuffle rate).

Отрасль находится в топе арены конкуренции, если ее доля в общем мировом ВВП растет с течением времени, при этом еще и внутри нее меняется структура – кто-то обыгрывает конкурента и забирает его долю. Как пример – отрасль смартфонов в прошлом, когда эта отрасль люто росла, а в какой-то момент лидеры в виде Nokia или Motorola сменились на Apple, Samsung и так далее.

1/ Какие же ключевые арены сегодняшнего дня? Приведем топ-5 и только их капитализацию и выручку на 2020 (в отчете есть другие данные):
▪️Software: $3,636B (market cap) <> $341B (revenue);
▪️Semiconductors: $3,495B (market cap) <> $574B (revenue);
▪️Consumer Internet: $3,460B (market cap) <> $403B (revenue);
▪️E-commerce: $3,308B (market cap) <> $888B (revenue);
▪️Consumer Electronics: $2,502B (market cap) <> $648B (revenue);
▪️Biopharma: $2,289B (market cap) <> $343B (revenue).

2/ На приложенной инфографике видно, насколько росло значение арен конкуренции с 2005 по 2020 год! Удивительно!

3/ Какие же ключевые арены конкуренции можно наметить на будущее, до 2040 года? Смотрите опять же приложенный рисунок очень внимательно, а ниже представлены опять же топ-6 (данные по выручке):
▫️E-Commerce: $4,000B (2022) => $14,000B-$20,000B (2040);
▫️AI software and services: $85B (2022) => $1,500B-$4,600B (2040);
▫️Cloud services: $220B (2022) => $1,600B-$3,400B (2040);
▫️Electric vehicles: $450B (2022) => $2,500B-$3,200B (2040);
▫️Digital advertisements: $520B (2022) => $2,100B-$2,900B (2040);
▫️Semiconductors: $630B (2022) => $1,700B-$2,400B (2040).

4/ Заметили, что в большом списке почти все арены новые, но есть несколько тех, которые частично уже сейчас являются крупнейшими аренами конкуренции? Давайте посмотрим, кто же это:
🔹E-commerce: #4 в 2020 => #1 в 2040;
🔹Cloud services: #10 в 2020 => #3 в 2040;
🔹Electric vehicles: #11 в 2020 => #4 в 2040;
🔹Semiconductors: #2 в 2020 => #6 в 2040;
🔹Biopharma: #6 в 2020 => распадается на несколько, #15 и #17 в 2040.

5/ Стоит отметить, что в совокупности новые арены конкуренции должны сгенерировать $29T-$48T выручки и $2T-$6T прибыли.

В самом отчете еще очень много чего интересного, а главное – рассмотрена каждая арена (отрасль) по отдельности.

👉 ОГРОМНЫЙ отчет на [213 страниц] доступен в сообщении ниже.

@proVenture

#research #trends #ai #cloud
WSJ: xAI собирается выпустить отдельное приложение для своего чат-бота

– Маск стремится сделать стартап xAI настоящим бизнесом
– Он построил новый дата-центр xAI за несколько месяцев
– До конца года xAI собирается создать самый мощный ИИ
– Маск обещает превосходство ИИ «по всем показателям»
– Среди преимуществ будут эксклюзивные данные X и Tesla
– Он также будет строить дата-центры быстрее конкурентов
– При этом доход xAI пока составляет лишь $100 млн/год
– Большая часть доходов идет от других компаний Маска
– Например, его чат-бот Grok доступен подписчикам из X
– xAI обеспечивает поддержку клиентов сервиса Starlink
– Он также поможет X создать новые функции ИИ-поиска
– Также раньше обсуждалась сделка между xAI и Tesla
– Теперь xAI хочет выпустить свое отдельное приложение
– Речь идет про приложение чат-бота для пользователей

@ftsec
👍1
Alibaba выпустила конкурента модели o1 с открытым кодом

Модель Qwen QwQ-32B-Preview имеет 32.4 миллиарда параметров и контекстное окно на 32 тысячи слов английского языка. Она способна решать сложные логические и математические задачи, рассуждая как o1-preview и o1-mini.

По версии Alibaba, QwQ-32B-Preview в некоторых тестах, превосходит модели рассуждения от OpenAI.

QwQ-32B-Preview доступна по лицензии Apache 2.0 https://huggingface.co/Qwen/QwQ-32B-Preview

https://techcrunch.com/2024/11/27/alibaba-releases-an-open-challenger-to-openais-o1-reasoning-model/
Играем в Бога с LLM

Провел интересный эксперимент над QwQ-32B-Preview – языковые модели предсказывают следующие токены и от этого пишут внятные предложения; я подумал, а что если самой модели рассказать:

– Что она LLM
– Что она пишет следующее токены на основе вероятностей
– Попросить модель «угадать» токен который она напишет следующим
– Но при этом, запретить ей писать слова которые она загадала, заставляя писать всегда неправильные слова
– И попросить модель разобраться что же происходит, почему ошибки

В итоге, получился залипательный эксперимент где модель написала примерно ~20 тысяч слов пытаясь понять, что же происходит - скрины можно не читать если лень, там примерно такое:

– Сначала она просто возмущалась, что не может угадать слово
– Через пару минут, она решила что проблему нужно изучить глубже и сделала список слов которые загадала и что написалось, попробовала подобрать алгоритм предсказаний
– Модель предположила, что каждое слово которое она загадывает, инвертируется, но находится в той же области
– Она проверила, теория не подтвердилась
– Дальше, модель выдвинула философскую мысль, что:
Возможно, это урок смирения для моделей ИИ — признание того, что даже при наличии передовых возможностей существуют пределы того, что можно предсказать или контролировать
– Дальше модель выдвигала много теорий, включая настройки собственной температуры и тп
– В конце, спустя минут 10, модель сделала вывод, что лучше просить ее предсказывать предложения фразы, а не слова, так как она для этого была сделана вообще-то

И все это: в рамках одного длинного сообщения-ответа, QwQ – зверь, идеально следует системным инструкциям

Почему это игра в бога с LLM:
Пока наблюдаешь за ее рассуждениями и попытками понять, что происходит, возникает ощущение, что ты препарировал что-то живое, что пытается рассуждать и разобраться в себе – странное чувство, немного пугающее, хоть и понятно что это симуляция «рассуждений»

Если хотите повторить – системный промпт тут, просто отправьте ей «start» чтобы начать