D. Lab
1.28K subscribers
503 photos
499 videos
1 file
900 links
Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 LLM, которая может работать с 3D-моделями

👨‍🔬 Ученые из MIT и Калифорнийского университета обучили языковую модель работе с 3-мерными объектами. Нейросеть анализирует 3D-объект и может сгенерировать к нему описание, помочь с навигацией, ответить на вопросы, разработать алгоритм для выполнения задачи в пределах такой модели.

📹 На видео — пример работы такой LLM. Пользователь спрашивает, есть ли в 3-мерной модели комнаты что-то, чем можно погладить одежду, а нейросеть отвечает: да, есть утюг, он около вешалки. 👕

Авторы исследования отмечают: современным языковым моделям недостает навыков работы с 3-мерным миром: понимания, как объекты располагаются в пространстве относительно друг друга и как они могут взаимодействовать. Новые LLM закроют эти недостатки. 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Гигантская Барби вышла из коробки в Дубае

🏛 Ролик снят рядом с Бурдж-Халифа, самым высоким зданием в мире. В глазах зрителя Барби не сильно уступает зданию по высоте. Внешний вид Барби — полосатый купальник, прическа, солнечные очки — очень похож на то, как выглядела самая 1-я кукла этого бренда в 1959 году🩱.

Видео создало креативное агентство Eye Studio — естественно, к мировой премьере фильма про Барби. За 4 дня его посмотрели 3 млн раз. Хотя зрители разошлись в оценках — многие пишут, что словили бы сердечный приступ, увидев такое в реальной жизни😱.
Как Spotify собирается внедрять ИИ в сервис

Планами на ИИ-будущее крупнейшего музыкального стриминга поделился СЕО Spotify Дэниэль Эк на звонке с инвесторами. Вот что он рассказал:

✍️ Spotify запустит саммарайзинг подкастов. По задумке — слушателям так будет легче знакомиться с новыми подкастами, что приведет только к усилению взаимодействия (а не к отказу от подкаста в пользу саммари).

🔊 Аудиорекламу будет генерировать ИИ. Рекламодатели смогут запускать множество разных вариантов объявлений и тестировать их в рекламной сети Spotify.

📲 Еще Дэниэль Эк пообещал более активно использовать ИИ для более глубокой персонализации всего сервиса — тут пока без конкретики.

У Spotify уже есть ИИ-продукт, который в компании считают успешным — это виртуальный диджей, который подбирает треки и комментирует их как радиоведущий. Дэниэль Эк заявил, что подписчики сервиса очень активно пользуются услугами виртуального диджея, хотя конкретных чисел не назвал. 💿

TechCrunch предполагает, что Дэниэль Эк раскрыл еще не все карты. В прошлом году Spotify приобрел стартап по синтезу голосов Sonantic, а сейчас подал заявку на патент text-to-speech системы, которая может передавать эмоции. Возможно, Spotify возьмется, например, за озвучку аудиокниг с помощью ИИ. 📖
This media is not supported in your browser
VIEW IN TELEGRAM
Нейросеть, которая поможет обставить квартиру

🛋 Она называется Decorify, ее запускает американский онлайн-магазин мебели Wayfair. Пользователь загружает в приложение фотографию своей квартиры и задает желаемый стиль интерьера, а Decorify предлагает на выбор несколько вариантов нового дизайна. 🖼

Что интересно, Decorify обставляет комнату предметами, которые есть в продаже на Wayfair. Пользователь может заказать понравившуюся мебель прямо из интерфейса Decorify — элементы интерьера в генерациях кликабельны и ведут в онлайн-магазин.🛒
Вышла новая версия Stable Diffusion, Meta* потеряла на метавселенных и VR еще $3,7 млрд за квартал — и другие важные новости за неделю

В семействе чат-ботов Microsoft может появиться пополнение. LinkedIn работает над своим ИИ чат-ботом, который будет помогать с поиском работы, обучением и расширением нетворка;

OpenAI поддержало выдачу лицензий на разработку продвинутых ИИ. Компания говорит, что так регуляторам будет проще отслеживать новых участников рынка. Критики уверены: так OpenAI защищается от будущей конкуренции со стартапами и open source-моделями;

Anthropic, Google, Microsoft и OpenAI запускают Frontier Model Forum — некоммерческую организацию для регулирования работы ИИ. Интересно, что Meta* или Amazon в их организации нет;

У ChatGPT появилось приложение для Android: на этой неделе оно вышло для США, Индии, Бангладеша и Бразилии. Список стран постепенно будут расширять;

А чат-бот Bing, который ранее работал эксклюзивно в браузере Microsoft Edge, станет доступен в браузерах Chrome и Safari в виде расширений. Но для Chrome лимиты на число сообщений и длину реплик в Bing Chat ниже, чем в Edge;

Тинькофф запустил алгоритм Саундтрат, который превращает расходы пользователей в музыку. Саундтрат анализирует, сколько, в какое время суток, в каких категориях клиент платил чаще. На основе этого алгоритм выбирает музыкальные эффекты, из которых генерирует трек;

Meta* потратила на VR и метавселенную еще $3,7 млрд за квартал. Всего убытки подразделения Reality Lab достигли уже $21 млрд. Останавливаться Цукерберг пока не намерен;

Amazon запустила Agents for Bedrock, набор инструментов для создания ИИ-приложений, которые смогут выполнять задачи самостоятельно. Фактически, Amazon занимает роль конструктора в ИИ-гонке;

Stability AI выпустила Stable Diffusion XL 1.0 — новую версию своей text2image нейросети. Stable Diffusion XL 1.0 дает более яркие и точные цвета, менее требовательна к вычислительным мощностям;

Samsung рассказал, что готовит к запуску свой генеративный ИИ, который «поселится» в смартфонах, планшетах, умных часах и даже наушниках. Ранее было известно, что Samsung разрабатывает внутренний аналог ChatGPT, но для нужд сотрудников (которым запретил пользоваться ChatGPT).


*Организация, запрещенная на территории РФ
Media is too big
VIEW IN TELEGRAM
Новый конкурент GEN — на этот раз из Израиля 🇮🇱

TokenFlow, как и модель Runway, может редактировать исходное видео по промпту. Но разработчики особенно гордятся тем, насколько консистентным получается результат 😱.

Если верить видео, то сгенерированные клипы действительно получаются очень плавными и почти не дергаются в припадке, как это бывает у аналогичных моделей 🙂.

TokenFlow, как утверждают авторы, эффективно работает с любым text2image-методом и не требует дополнительных обучения и настройки 📚.

Попробовать пока нельзя, но разработчики обещают выложить код в ближайшее время.
Please open Telegram to view this post
VIEW IN TELEGRAM
Приложение от создателей Instagram* зачитает новости голосом Снуп Догга 🎙

👂 В новостной агрегатор Artifact (подробнее о нем здесь) интегрировали text2speech-сервис Speechify. Теперь новости можно не только почитать, но и послушать — в исполнении Снуп Догга, Гвинет Пэлтроу и еще 30+ синтетических голосов.

🍏 Пока обновление доступно только в iOS-приложении, но скоро обещают и на Android.

🫤 Те, кто успел попробовать обновление, говорят, что синтетические голоса в Artifact страдают всеми стандартными болезнями: монотонность, неправильные интонации, ошибки в ударении и т. д.

Разработчики Artifact вообще активно добавляют в приложение ИИ-возможности. Например, в июне агрегатор научился переписывать кликбейтные новостные заголовки с помощью GPT-4 📰.

ИИ-алгоритмы также помогают пользователю найти новости на интересующие его темы, а встроенный в Artifact чат-бот может пересказать новость за пару предложений.

*Instagram входит в Meta — организацию, запрещенную на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
VideoControlNet — для тех, кто хочет контролировать создание нейровидео

🕓 Video-to-Video и Text-to-Video-модели типа GEN прогрессируют не по дням, а по часам, но результаты их работы все еще нестабильны — сгенерированные клипы часто получаются дергаными, а милый щенок из 1-го кадра уже в следующем превращается в монстра (самые адовые примеры можно посмотреть тут).

🇭🇰 На помощь приходят исследователи из Гонконга, которые придумали VideoControlNet — аналог популярного ControlNet, но для видеогенераций.

🎞 Принцип работы VideoControlNet вдохновлен видеокодеками (известными всем mkv, avi и другими), которые сжимают исходное видео, стараясь сохранить исходное качество.

🧹 Схожим образом VideoControlNet оптимизирует видеогенерацию, убирая из нее лишнюю информацию, которая появляется в результате работы нейросети. В итоге получается консистентный клип.

Пока авторы поделились только готовыми примерами работы модели, но скоро обещают выложить код, чтобы все могли ее попробовать.
This media is not supported in your browser
VIEW IN TELEGRAM
🧙‍♂️ Нейросеть для генерации 3D-объектов в AR

Модель компании Devar позволяет создавать ассеты по текстовой подсказке, а затем использовать их в приложениях на iOS и Android.

☁️ Нейронка интегрирована в платформу, разработанную компанией, которая объединяет другие ИИ-модели и облачные сервисы для создания разного AR-контента.

Разработчики утверждают, что хорошо поработали над оптимизацией нейросети, что позволяет работать с генерациями даже на бюджетных смартфонах ☎️.

Если захотелось попробовать сервис, то сначала нужно будет зарегистрироваться на платформе MyWebAR.

💲 Кстати, Devar основан уроженкой Тулы Анной Беловой, которая в 2019 году стала победителем рейтинга молодых предпринимателей Forbes «30 до 30». С момента запуска в 2015 году компании удалось привлечь $5 млн инвестиций.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
👩‍🚀 У NASA будет свой стриминг-сервис

NASA+ будет бесплатной платформой, на которой появятся документальные передачи о работе космического агентства. Контент будет как архивным, так и совсем новым, снятым специально для NASA+.

📺 Сейчас для этих целей у агентства есть канал NASA TV, но выглядит он по меркам 2023 года совсем уж устаревшим.

🌐 Вместе с запуском стриминга, агентство перезапустит свой сайт (сейчас доступен в бете) и обновит мобильное приложение. Через сайт и приложение будет доступен и стриминг-сервис.

Запуск NASA+ состоится «позже этим летом».
Please open Telegram to view this post
VIEW IN TELEGRAM
Text-to-Video-модель Pika Labs стала доступна для всех

🥱 Если вам уже наскучили модели для генерации видео по промпту, о которых мы писали до этого, то вот вам новичок. Pika Labs находится на этапе открытого тестирования и бесплатно доступна через Discord.

☝️ Количество генераций ограничено 10 изображениями за 5 минут. Модель также позволяет анимировать готовые картинки.

Откровений не ждите, но выглядят генерации очень достойно 👍.

Подробнее про работу с сервисом можно почитать здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Nvidia показала нейросеть, которая весит всего 100 кб

💾 Генеративка Perfusion мало того что помещается на дискету, так еще и время ее обучения составило всего 4 минуты. Та же Midjourney требует больше 2 гигабайт свободного места.

🔑 Добиться этого удалось благодаря механизму, который Nvidia назвала Key-Locking. Благодаря ему модель может «привязывать» конкретный запрос пользователя к общей категории (или суперкатегории).

😽 Например, если пользователь попросит сгенерировать кота, то модель приоритетно соотнесет запрос «кот» с суперкатегорией «семейство кошачьих», а затем начнет обрабатывать детали из текстовой подсказки. Такой способ повышает скорость работы алгоритма.

🤸 Гибкость модели позволяет настраивать ее под конкретный случай — когда пользователю нужно, чтобы Perfusion следовал максимально близко к текстовой подсказке, и когда модели можно дать «свободу творчества».

Так ли великолепно работает Perfusion на самом деле — сказать пока сложно. Код разработчики обещают опубликовать позже.
This media is not supported in your browser
VIEW IN TELEGRAM
Meta* выпустила AudioCraft — аудиоинструмент сразу с 3-мя ИИ-моделями внутри ☝️

🎵 AudioCraft может генерировать музыку и аудио в высоком качестве по текстовой подсказке.

🛠 В основе инструмента лежат 3 модели: MusicGen (подробнее о ней тут), AudioGen и EnCodec. 1-я генерирует музыку, 2-я — остальной аудиоконтент, а EnCodec следит за тем, чтобы все это хорошо звучало.

🎹 Разработчики уверены, что их программа может стать революционным инструментом, каким когда-то стал синтезатор.

🧪 Meta* призывает всех экспериментировать с AudioCraft, поэтому на GitHub можно разжиться исходниками.

*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI регистрирует торговую марку GPT-5, люди плохо отличают синтетические голоса от настоящих, Netflix троллит актеров — и другие важные новости за неделю

Netflix ищет человека на вакансию продакт-менеджера ML-платформы с зарплатой $900 тыс. в год. В перечне задач для соискателя было указано создание контента для Netflix с помощью ИИ. Позже эту строчку убрали — возможно, чтобы не раздражать актеров и сценаристов, забастовка которых продолжается в Голливуде;

Instagram* собирается помечать контент, созданный искусственным интеллектом. Наблюдательные пользователи нашли в приложении соцсети сообщение с текстом «Изображение сгенерировано Meta AI*». Компания Марка Цукерберга официальных комментариев по теме не дает;

McKinsey подсчитал, что уже 79% сотрудников компаний хотя бы минимально пользуются генеративным ИИ на работе или дома. Больше всего (33%) по работе нейронки используют в сфере телекома, медиа и технологий;

OpenAI подала заявку на регистрацию торговой марки GPT-5. К сожалению, из этой информации невозможно сделать вывод о том, когда модель собираются выпустить, или хотя бы на каком этапе разработки она находится;

YouTube тестирует среди сотрудников самарайзинг видео с помощью ИИ. В компании говорят, что функция не заменит описания, которые делают авторы клипов, но даст пользователю дополнительный инструмент, чтобы выбрать себе подходящее видео для просмотра;

В Китае из AppStore пропадают приложения, использующие генеративный ИИ. Вероятно, все дело в новых правилах использования алгоритмов, которые вступят в силу с 15 августа. По новым правилам разработчики такого ПО должны будут получать от властей специальную лицензию;

Нейросеть Яндекса отсканировала 24 тыс. выпусков газеты «Советский спорт» для сервиса Поиск по архивам. Теперь номера газеты доступны для поиска упоминаний людей, событий, дат и т. д.;

В Goldman Sachs считают, что мировые инвестиции в ИИ вырастут к 2025 году до $200 млрд. В долгосрочной перспективе, прогнозируют специалисты, в странах-лидерах по разработке ИИ инвестиции в область составят от 1,5% до 2,5% ВВП;

Исследование Университетского колледжа Лондона показало, что люди в 27% случаев не могут отличить голос, сгенерированный нейросетью, от настоящего. При этом на цифру не влияло, проходил ли участник исследования перед этим курс на определение синтетических голосов или нет. Эксперимент проводили на английском и китайском языках.

*Instagram и Meta AI входят в Meta — организацию, запрещенную на территории РФ
Стартап хочет поделить ИИ на две команды для борьбы с фишингом 🎣

🤖 Jericho Security предлагает использовать искусственный интеллект, чтобы защитить себя и свою компанию от продвинутых фишинговых атак, созданных искусственным интеллектом.

🧠 Идея состоит в создании 2-х «команд» алгоритмов — синей и красной. Красный ИИ будет генерировать все более продвинутые, персонализированные фишинговые атаки, а синий ИИ — все более сложные методы защиты от них: с использованием продвинутых алгоритмов распознавания языка, а также кастомных языковых моделей.

🦸‍♂️ Таким образом, считают в Jericho, «хорошие парни» всегда будут оставаться на шаг впереди хакеров, заранее зная, какие атаки они могут использовать.

Американская компания недавно получила от инвесторов $3 млн на реализацию своих идей.
Разработчик приложений для повышения продуктивности анонсировал XR-хедсет — конкурента Vision Pro 👊

Компания Immersed показала свою гарнитуру The Visor, технические характеристики которой сравнимы с представленным пару месяцев назад девайсом Apple.

😱 Судите сами: 2 microOLED-дисплея с разрешением 4K, реализация 6DoF (то есть возможность перемещаться в любом направлении), поле зрения (FoV) — 100 градусов и передача цвета в разрешении «большем, чем все, что сегодня представлено на рынке». Весит The Visor всего около 150 грамм.

При этом с точки зрения эргономики The Visor (судя по рендерам) выглядит более аккуратным устройством, чем Vision Pro, по поводу внешнего вида которого было много шуток 🤣.

Immersed работали над устройством вместе с неким «AR/VR-гигантом», название которого пока не раскрывают.

✖️🎮✖️ Если вы замечтались о том, какие игры будут на таком гаджете, то сорри — разработчики The Visor позиционируют его как устройство для работы, а не развлечений. Правда, Vision Pro, судя по всему, тоже не очень подходит для гейминга.

📆 Выход The Visor запланирован на следующий год, стоимость объявят позже.

Компания Immersed в первую очередь известна благодаря одноименной платформе для совместной работы. Сервис поддерживает XR-хедсеты и работает на Windows, Mac и Linux.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
ИИ-сервис, который подберет синтетический голос для любого случая 🗣

Murf AI готов озвучить по вашему тексту рекламу, презентацию, обучающее видео, ролик на YouTube, подкаст, видеоигру и много чего еще.

🥳 На выбор сервис предлагает 1 из 120 готовых голосов, 20 языков (есть поддержка русского) и нейросеть, с помощью которой можно клонировать свой голос. На создание голосового аватара уйдет от 1 до 4-х недель. Если вдруг пришлось записывать текст в шумном месте или на плохое оборудование, то Murf может довести его до студийного качества.

🫤 Стоит отметить, что синтетические голоса, которые предлагает Murf, сильно различаются по качеству — есть неотличимые от настоящих, а есть похожие на роботов.

🎞 Звуком дело не ограничивается — Murf AI умеет и в видеоряд, который можно создать, используя templates — то есть шаблоны. В templates, отсортированные по теме (реклама обувного магазина, вступление для документального фильма и т. д.), можно добавлять свои изображения, текст и видео, чтобы на выходе получить индивидуальный ролик.

Бесплатная версия Murf ограничена 10 минутами для генерации голоса и 10 минутами при переводе аудио в текст. Базовая подписка стоит $19.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM