Создаем студийные песни за пару секунд: вышла Suno v4.5. Теперь она генерирует еще более реалистичные треки.
Появились новые жанры, мелодии стали сложнее, а вокал — глубже. Можно делать переходы от тихого шепота до мощных хуков, мешать фолк с джазом и редактировать песни на ходу. Максимальную длительность увеличили до 8 минут.
На видео — примеры треков, сгенерированных в v4.5. Попробовать самим можно здесь.
Появились новые жанры, мелодии стали сложнее, а вокал — глубже. Можно делать переходы от тихого шепота до мощных хуков, мешать фолк с джазом и редактировать песни на ходу. Максимальную длительность увеличили до 8 минут.
На видео — примеры треков, сгенерированных в v4.5. Попробовать самим можно здесь.
👍1🔥1
Grok теперь генерит любые PDF-доки — от резюме до научных отчётов
Нейронка от X прокачалась — теперь делает документы, которые не стыдно отправить в универ или на работу.
Что умеет:
— Резюме, отчёты, конспекты, презентации и любые PDF — по одному промту;
— Форматирование, шрифты, формулы и графики — всё ровно, как надо;
— Выглядит аккуратно, будто делал дизайнер в Word;
— И да — всё это бесплатно.
Теперь Grok — это и редактор, и дизайнер, и ассистент в одном.
Пробуем тут.
Нейронка от X прокачалась — теперь делает документы, которые не стыдно отправить в универ или на работу.
Что умеет:
— Резюме, отчёты, конспекты, презентации и любые PDF — по одному промту;
— Форматирование, шрифты, формулы и графики — всё ровно, как надо;
— Выглядит аккуратно, будто делал дизайнер в Word;
— И да — всё это бесплатно.
Теперь Grok — это и редактор, и дизайнер, и ассистент в одном.
Пробуем тут.
👍4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Появился ИИ-редактор видео Lens. Умеет быстро монтировать ролики и работать с моушн-дизайном.
Нейронка сама вырезает ненужные кадры, добавляет переходы, подписи и субтитры. Может даже сделать цветокоррекцию.
Встаем в очередь на тест по ссылке.
Нейронка сама вырезает ненужные кадры, добавляет переходы, подписи и субтитры. Может даже сделать цветокоррекцию.
Встаем в очередь на тест по ссылке.
👍1
Два аспиранта без опыта в аудио за 3 месяца собрали нейросеть, которая генерирует речь лучше коммерческих сервисов!
Послушайте, как естественно она звучит и насколько точно следует указаниям вроде «со смехом» или «грустно». А ещё она создает целый диалог с несколькими голосами «за один проход» — быстрее и эффективнее конкурентов.
Мы уже привыкли, когда подобные модели анонсируют OpenAI, Google или Илон Маск. Эта нейросеть привлекла мое внимание именно создателями. Похоже, в сфере ИИ теперь такие мощные инструменты и так много публичных наработок, что пара умных ребят за месяцы смогут сделать то, на что раньше у богатых компаний уходили годы.
Наверное, наше время чем-то похоже на конец 19 века, когда в одной Америке было 1900 независимых автопроизводителей, и 1980-е, когда подростки собирали в гаражах персональные компьютеры.
—
Конкретно в сфере синтеза речи: нас ждут виртуальные дикторы и ведущие подкастов, которых не отличишь от живых. Ну и мошенникам, конечно, раздолье.
Модель открытая, работает даже на макбуках. Пока говорит только на английском. Примеры и сравнение с ведущими моделями, попробовать можно на hf, скачивать здесь.
Послушайте, как естественно она звучит и насколько точно следует указаниям вроде «со смехом» или «грустно». А ещё она создает целый диалог с несколькими голосами «за один проход» — быстрее и эффективнее конкурентов.
Мы уже привыкли, когда подобные модели анонсируют OpenAI, Google или Илон Маск. Эта нейросеть привлекла мое внимание именно создателями. Похоже, в сфере ИИ теперь такие мощные инструменты и так много публичных наработок, что пара умных ребят за месяцы смогут сделать то, на что раньше у богатых компаний уходили годы.
Наверное, наше время чем-то похоже на конец 19 века, когда в одной Америке было 1900 независимых автопроизводителей, и 1980-е, когда подростки собирали в гаражах персональные компьютеры.
—
Конкретно в сфере синтеза речи: нас ждут виртуальные дикторы и ведущие подкастов, которых не отличишь от живых. Ну и мошенникам, конечно, раздолье.
Модель открытая, работает даже на макбуках. Пока говорит только на английском. Примеры и сравнение с ведущими моделями, попробовать можно на hf, скачивать здесь.
👍1😁1
В дополнение к посту о следующем майлстоуне — обучении LLM на актуальной учебной литературе — хочу обсудить конкретное проявление тренда: доменно-специфичные модели (DLLM).
DLLM могут стать самым заметным дизрапшном. По разным оценкам ежегодно выходит 2,8-3,3 млн новых научных статей — человек их не прочтёт, а копилот-модель сможет.
Вероятнее всего, в большинстве значимых областей появятся модели-эксперты, способные отвечать на вопросы по этой области, помогающие решать текущие задачи и дать человеку буст уровня x10 к текущей производительности. Можно будет иметь эксперта по современной физике, супер-интеллектуального помощника в области материаловедения, глубокого эксперта в software engineering, советника в медицине или сельском хозяйстве и так далее.
Между собой модели много чем будут отличаться — разные типы знаний, про многие из которых другим моделям знать не обязательно (физика твёрдого тела не требуется компилятору; медицинской модели не критично знание лицензий ПО), разные требования к лицензиям и безопасности, разные процедуры оценки качества и так далее. Будет и везде своя регуляторика, проверки и сертификации.
Нужна мультимодальность, но на более детальном уровне она будет разной — даже для картиночной модальности объекты будут сильно разными: 3D молекулы, медснимки, UML-диаграммы, фазовые графики — под каждую дисциплину своя суб-модальность.
Не думаю, что DLLM будут покрыты текущими производителями универсальных моделей. Их не хватит, чтобы глубоко копнуть во все эти области и заниматься постоянным обновлением и контролем качества. Но вероятно они предоставят хорошие базовые модели и инфраструктуру для их тюнинга и использования. А другие люди и организации, обладающие уникальными данными и экспертизой, будут DLLM создавать. Этот процесс, вероятно, придётся организовывать самим.
Важными измерениями здесь будут scale-диапазон (on-device → GPU-кластер), и открытая или закрытая (что и как ты контролируешь). В edge и on-device, думаю, будет особенно много интересного в ближайшие годы. Во многих местах надо уметь работать без интернета, особенно если это какой-то непрерывный техпроцесс.
Траектория с самостоятельным предобучением модели (уровня сотен миллиардов — триллионов токенов) останется для избранных и самых богатых, а совсем массовым сценарием будет адаптация базовой модели, в облаке или локально.
Данные по сути распадаются на три разных слоя:
1. Core corpus — стабилизированные источники (учебники, ГОСТы, review-статьи).
2. Dynamic feed — preprints, патенты, свежая пресса (auto-RAG-pipeline).
3. Telemetry (приватные логи и фидбек) — чтобы модель постепенно училась на контексте конкретной организации.
Особая ценность: способность держать эти слои в актуальном состоянии (а это уже SaaS-ниша под названием «DataOps for DLLM»). Core обновляется раз в квартал, Dynamic feed — ежедневный (или даже streaming) ingest препринтов и патентов через RAG-пайплайн, Telemetry — online fine-tuning / RLHF.
Отдельно поверх этих слоёв лежит слой комплаенса: для Core-корпуса важна лицензия, для Dynamic — проверка авторских прав, для Telemetry — GDPR/локальные законы.
Ну и в реальности это будет не просто DLLM, а агент с DLLM внутри, обвешанный специальными дополнительными инструкциями, тулами, да и другими агентами.
Большая тема — доменные бенчмарки, а может в пределе и сертификация. С одной стороны без бенчмарков доверия не будет, с другой стороны всё равно надо проверять на своих данных и задачах, так или иначе у каждой компании своя специфика и свои требования, и разные модели могут вести себя по-разному.
У DLLM профиль рисков отличается от общей модели — хорошая доменная модель ошибается реже, но цена ошибки выше: неправильная дозировка, некорректный отчёт. Отсюда — необходимость доменного аудита, traceable citations, где-то explainability. Вероятно, появится рынок независимого red-team-аудита, который регуляторы и страховщики будут учитывать при выводе модели в прод.
DLLM могут стать самым заметным дизрапшном. По разным оценкам ежегодно выходит 2,8-3,3 млн новых научных статей — человек их не прочтёт, а копилот-модель сможет.
Вероятнее всего, в большинстве значимых областей появятся модели-эксперты, способные отвечать на вопросы по этой области, помогающие решать текущие задачи и дать человеку буст уровня x10 к текущей производительности. Можно будет иметь эксперта по современной физике, супер-интеллектуального помощника в области материаловедения, глубокого эксперта в software engineering, советника в медицине или сельском хозяйстве и так далее.
Между собой модели много чем будут отличаться — разные типы знаний, про многие из которых другим моделям знать не обязательно (физика твёрдого тела не требуется компилятору; медицинской модели не критично знание лицензий ПО), разные требования к лицензиям и безопасности, разные процедуры оценки качества и так далее. Будет и везде своя регуляторика, проверки и сертификации.
Нужна мультимодальность, но на более детальном уровне она будет разной — даже для картиночной модальности объекты будут сильно разными: 3D молекулы, медснимки, UML-диаграммы, фазовые графики — под каждую дисциплину своя суб-модальность.
Не думаю, что DLLM будут покрыты текущими производителями универсальных моделей. Их не хватит, чтобы глубоко копнуть во все эти области и заниматься постоянным обновлением и контролем качества. Но вероятно они предоставят хорошие базовые модели и инфраструктуру для их тюнинга и использования. А другие люди и организации, обладающие уникальными данными и экспертизой, будут DLLM создавать. Этот процесс, вероятно, придётся организовывать самим.
Важными измерениями здесь будут scale-диапазон (on-device → GPU-кластер), и открытая или закрытая (что и как ты контролируешь). В edge и on-device, думаю, будет особенно много интересного в ближайшие годы. Во многих местах надо уметь работать без интернета, особенно если это какой-то непрерывный техпроцесс.
Траектория с самостоятельным предобучением модели (уровня сотен миллиардов — триллионов токенов) останется для избранных и самых богатых, а совсем массовым сценарием будет адаптация базовой модели, в облаке или локально.
Данные по сути распадаются на три разных слоя:
1. Core corpus — стабилизированные источники (учебники, ГОСТы, review-статьи).
2. Dynamic feed — preprints, патенты, свежая пресса (auto-RAG-pipeline).
3. Telemetry (приватные логи и фидбек) — чтобы модель постепенно училась на контексте конкретной организации.
Особая ценность: способность держать эти слои в актуальном состоянии (а это уже SaaS-ниша под названием «DataOps for DLLM»). Core обновляется раз в квартал, Dynamic feed — ежедневный (или даже streaming) ingest препринтов и патентов через RAG-пайплайн, Telemetry — online fine-tuning / RLHF.
Отдельно поверх этих слоёв лежит слой комплаенса: для Core-корпуса важна лицензия, для Dynamic — проверка авторских прав, для Telemetry — GDPR/локальные законы.
Ну и в реальности это будет не просто DLLM, а агент с DLLM внутри, обвешанный специальными дополнительными инструкциями, тулами, да и другими агентами.
Большая тема — доменные бенчмарки, а может в пределе и сертификация. С одной стороны без бенчмарков доверия не будет, с другой стороны всё равно надо проверять на своих данных и задачах, так или иначе у каждой компании своя специфика и свои требования, и разные модели могут вести себя по-разному.
У DLLM профиль рисков отличается от общей модели — хорошая доменная модель ошибается реже, но цена ошибки выше: неправильная дозировка, некорректный отчёт. Отсюда — необходимость доменного аудита, traceable citations, где-то explainability. Вероятно, появится рынок независимого red-team-аудита, который регуляторы и страховщики будут учитывать при выводе модели в прод.
Первые инкарнации вроде Med-PaLM 2 в здравоохранении, BloombergGPT в финансах, Sec-PaLM 2 в безопасности показывают, что рецепты “общее → узкое” уже работают; ближайшие пару лет зададут темп дальнейшей фрагментации рынков LLM на вертикали.
Telegram
gonzo-обзоры ML статей
Мне кажется, одним из следующих больших майлстоунов в обучении фронтирных моделей будет обучение на большом, актуальном и курируемом массиве учебной и научной литературы.
Это всё в целом как бы не новая идея. Модели и сейчас уже весьма неплохо отвечают…
Это всё в целом как бы не новая идея. Модели и сейчас уже весьма неплохо отвечают…
👍1
IAB выпустили 179-страничный отчет о цифровой экономике США, и там отдельная рубрика о creator economy.
Ключевой вывод: нас всё больше, и в нашей индустрии ещё больше работы и денег😃
Креаторы* — самый быстрорастущий сегмент рабочих мест в цифровой экономике.
С пика пандемии количество эквивалентных рабочих мест для креаторов выросло в 7,5 раз — с 200 тысяч в 2020 году до 1,5 миллиона в 2024. Сейчас на креаторов приходится 10% от всех фулл-тайм рабочих мест, зависящих от интернета.
Причины бурного роста:
• Перераспределение рекламных бюджетов от ТВ к платформам и креаторам.
• Снижение барьера в создании контента (смартфоны, софт, генеративный ИИ).
• Рост профессионализма креаторов и формирование целой индустрии.
Отдельно отметили:
• $1 млрд — инвестиции Amazon в Spotter.
• $500 млн выплат Spotter креаторам.
• Publicis приобрела Influential — платформу инфлюенсер-маркетинга (писал здесь).
• $150 млн инвестиций в Uscreen (подробнее у Никиты, CTO в Uscreen).
• Slow Ventures запустили фонд Creator Fund: инвестиции $1–3 млн за 10% доли в бизнесе креаторов (писал здесь).
*По их терминологии, креатор — это "тот, кто создает оригинальный контент, опираясь на свою экспертизу, увлечение или уникальный скилл. Его ценность — в том, что он показывает: будь то знания, креатив или развлечение. Аудитория следит за ним, потому что он стабильно предоставляет качественный, вовлекающий и полезный контент".
🖱 Полный отчёт смотрите по ссылке
Ключевой вывод: нас всё больше, и в нашей индустрии ещё больше работы и денег
Креаторы* — самый быстрорастущий сегмент рабочих мест в цифровой экономике.
С пика пандемии количество эквивалентных рабочих мест для креаторов выросло в 7,5 раз — с 200 тысяч в 2020 году до 1,5 миллиона в 2024. Сейчас на креаторов приходится 10% от всех фулл-тайм рабочих мест, зависящих от интернета.
Причины бурного роста:
• Перераспределение рекламных бюджетов от ТВ к платформам и креаторам.
• Снижение барьера в создании контента (смартфоны, софт, генеративный ИИ).
• Рост профессионализма креаторов и формирование целой индустрии.
Отдельно отметили:
• $1 млрд — инвестиции Amazon в Spotter.
• $500 млн выплат Spotter креаторам.
• Publicis приобрела Influential — платформу инфлюенсер-маркетинга (писал здесь).
• $150 млн инвестиций в Uscreen (подробнее у Никиты, CTO в Uscreen).
• Slow Ventures запустили фонд Creator Fund: инвестиции $1–3 млн за 10% доли в бизнесе креаторов (писал здесь).
*По их терминологии, креатор — это "тот, кто создает оригинальный контент, опираясь на свою экспертизу, увлечение или уникальный скилл. Его ценность — в том, что он показывает: будь то знания, креатив или развлечение. Аудитория следит за ним, потому что он стабильно предоставляет качественный, вовлекающий и полезный контент".
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В Google появился ИИ-поиск на базе Gemini 2.0. Достаточно просто переключиться на вкладку AI Mode в поисковике.
Развернуто отвечает на запросы пользователей и прикладывает ссылки на источник, картинки или карты.
Пока раскатывают только в США. Ждем релиз для всех.
Развернуто отвечает на запросы пользователей и прикладывает ссылки на источник, картинки или карты.
Пока раскатывают только в США. Ждем релиз для всех.
На фоне многочисленных стенаний по поводу оглупляющего действия технологий свежо смотрится работа, в которой проведен мета-анализ 130 исследований, охватывающих в сумме более 400 тысяч взрослых старше 50 лет.
Оказалось, что the use of technology — computers, smartphones, internet, email, social media or multiple uses — resulted in a 58% lower risk of cognitive impairment and a 26% reduced risk of cognitive decline over time.
Авторы подчеркивают, что ключевым фактором успеха является вовлеченность человека — не просто скроллинг, а активное взаимодействие с контентом или его создание.
Так что не все так плохо, как пугают технофобы:)
https://www.kiplinger.com/retirement/could-technology-use-lower-risk-of-dementia
(Оригинал статьи — https://pubmed.ncbi.nlm.nih.gov/40229575/)
Оказалось, что the use of technology — computers, smartphones, internet, email, social media or multiple uses — resulted in a 58% lower risk of cognitive impairment and a 26% reduced risk of cognitive decline over time.
Авторы подчеркивают, что ключевым фактором успеха является вовлеченность человека — не просто скроллинг, а активное взаимодействие с контентом или его создание.
Так что не все так плохо, как пугают технофобы:)
https://www.kiplinger.com/retirement/could-technology-use-lower-risk-of-dementia
(Оригинал статьи — https://pubmed.ncbi.nlm.nih.gov/40229575/)
Kiplinger
Could Technology Use Help Lower the Risk of Dementia? A New Study Says Yes
“Use it or lose it” enters the digital age as a new study finds that technology may lower the risk of cognitive decline.
👍1
👍3🔥2😁2
This media is not supported in your browser
VIEW IN TELEGRAM
📢 PDFs в Grok Studio — проще простого!
Вышла бета-версия с крутыми фичами для работы с PDF. Хотите узнать больше? Пишите, делитесь впечатлениями! 👇
#GrokStudio #PDF #Бета
Вышла бета-версия с крутыми фичами для работы с PDF. Хотите узнать больше? Пишите, делитесь впечатлениями! 👇
#GrokStudio #PDF #Бета
👍4
🟢 Perplexity: главные новости и планы развития
Как вы знаете, я особенно люблю из всех ИИ инструментов Perplexity, поэтому вот что мы от них ждем:
1. Comet - AI-браузер выходит в мае
Perplexity запускает браузер Comet с ИИ-агентами: он сможет выполнять сложные задачи (бронирования, покупки, заполнение форм) прямо в браузере. Уже открыт лист ожидания, релиз - в середине мая.
2. Perplexity интегрирован в новые Motorola Razr
На новых смартфонах Motorola Perplexity встроен в moto ai. Владельцы получат 3 месяца Perplexity Pro бесплатно. Переговоры о подобной интеграции ведутся с Samsung.
3. Ключевые направления развития
- В ближайшие месяцы ожидается запуск мультимодальных функций: анализ видео, аудио и 3D-моделей.
- Появятся персональные ИИ-агенты для индивидуальных задач и рекомендаций.
- Расширится интеграция с профессиональными сервисами и корпоративными платформами.
- В перспективе - запуск маркетплейса расширений для сторонних разработчиков.
Кто хочет - следите за запуском Comet и новыми возможностями Perplexity!
Как вы знаете, я особенно люблю из всех ИИ инструментов Perplexity, поэтому вот что мы от них ждем:
1. Comet - AI-браузер выходит в мае
Perplexity запускает браузер Comet с ИИ-агентами: он сможет выполнять сложные задачи (бронирования, покупки, заполнение форм) прямо в браузере. Уже открыт лист ожидания, релиз - в середине мая.
2. Perplexity интегрирован в новые Motorola Razr
На новых смартфонах Motorola Perplexity встроен в moto ai. Владельцы получат 3 месяца Perplexity Pro бесплатно. Переговоры о подобной интеграции ведутся с Samsung.
3. Ключевые направления развития
- В ближайшие месяцы ожидается запуск мультимодальных функций: анализ видео, аудио и 3D-моделей.
- Появятся персональные ИИ-агенты для индивидуальных задач и рекомендаций.
- Расширится интеграция с профессиональными сервисами и корпоративными платформами.
- В перспективе - запуск маркетплейса расширений для сторонних разработчиков.
Кто хочет - следите за запуском Comet и новыми возможностями Perplexity!
❤1👍1🔥1👏1