Neurohive
4.36K subscribers
137 photos
10 videos
1.34K links
Нейросети - свежие новости. State-of-the-art модели и методы, AI, AGI, Deep learning, Big data, Machine learning
Website: neurohive.io/ru/
По вопросам сотрудничества: @cyrud
Download Telegram
Google представила MobileDiffusion – модель преобразования текста в изображение в реальном времени, полностью работающую на мобильных устройствах. На Android- и iOS-устройствах с процессорами последних поколений генерация изображения с разрешением 512×512 пикселей занимает менее половины секунды.

Для достижения такого результата разработчики оптимизировали количество итераций семплирования диффузионной модели и количество параметров, сократив его до 520 миллионов.

#Entertaining
Apple совместно с Калифорнийским университетом разработала open-source модель MGIE для редактирования изображений по текстовому запросу. Модель решает различные классы задач, включая модификацию изображений в стиле Photoshop, глобальную оптимизацию фотографий и локальное редактирование.

Ключевой особенностью MGIE является применение мультимодальных языковых моделей для генерации конкретных инструкций, улучшающих качество редактирования. Например, для запроса «сделать небо более голубым» MGIE сгенерирует инструкцию «увеличить насыщенность области неба на 20%».

#StateoftheArt
OpenAI представила Sora – диффузионную text-to-image модель, генерирующую видео длительностью 60 секунд. Ключевые преимущества модели OpenAI по сравнению с решениями конкурентов (включая Runway, Pika, Stability AI и Google) – высокое разрешение (Full HD), плавность движений камеры и объектов и высокая анатомическая точность при изображении человека.

За счет одновременной генерации всех кадров видео Sora лишена проблемы, присущей другим моделям – изменению вида объектов, временно пропадающих из поля зрения камеры.

#StateoftheArt
Salesforce представила Tableau Pulse – платформу, генерирующую персонализированную ленту с ключевыми изменениями метрик на основе дашбордов компании-пользователя Tableau.

Tableau Pulse использует запросы на естественном языке и визуализацию данных для отображения важных показателей, их трендов и рекомендаций, специфичных для данных каждой компании. Для генерации ленты используется внутренняя языковая модель Salesforce Einstein GPT.

#AppliedDS
Microsoft опубликовала ViSNet – графовую нейросеть, моделирующую геометрию сложных молекул для предсказания их активности. ViSNet может значительно ускорить поиск и изучение новых лекарств.

На конкурсе по разработке лекарств с помощью искусственнго интеллекта команда Microsoft, использовавшая ViSNet, заняла первое место среди 878 команд-участников.

#StateoftheArt
Стартап Insilico Medicine представил первое лекарство, разработанное с помощью генеративных моделей. Новый подход к созданию позволил препарату пройти первую фазы клинических испытаний всего за два года – втрое быстрее, чем обычно занимает данный этап.

В статье, опубликованной в Nature Biotechnology, представлен весь пайплайн разработки INS018_055, препарата-кандидата, который был обнаружен с использованием платформы искусственного интеллекта Insilico для лечения идиопатического легочного фиброза – относительно редкого, но агрессивного заболевания легких.

#Entertaining
В сервисе генерации изображений Midjourney появилась возможность переноса персонажа на новое изображение путем указания в запросе ссылки на уже существующее с ним изображение. Функция позволит использовать сервис для создания новых видов контента – раскрадровок, комиксов и графических романов.

Пользователь может контролировать «вес», с которым персонаж будет воспроизводиться на новом изображении: при весе в 100 модель будет пытаться воспроизвести форму лица, прическу и одежду, при весе в 0 — только форму лица, что подходит для изменения одежды или прически персонажа.

#Entertaining
На Хабре опубликовали статью, в которой ML-разработчик Яндекса рассказал о квантизации нейросетевых моделей, зачем она нужна и как она поможет сделать модель эффективнее.

Квантизация – процесс перехода к более компактному представлению данных, который помогает экономить ресурсы. В статье можно узнать, какие данные встречаются в квантизованных нейросетевых моделях, когда лучше квантизовать модель, а также что такое выбросы и как с ними бороться.
Google вместе со Stanford Medicine представила SCIN – открытый датасет с 10 000 изображениями дерматологических заболеваний. Обученные на его основе модели смогут удаленно диагностировать аллергические, воспалительные и инфекционные состояния кожи, ногтей и волос.

Для сбора датасета Google использовала новый метод краудсорсинга, позволяющий охватить людей на ранних стадиях их проблем со здоровьем, до того, как они обратятся за официальной помощью – используя рекламный блок в результатах поиска, приглашающий отправить изображения.

#Datasets
OpenAI представила Voice Engine — модель, выполняющую клонирование голоса по 15-секундной аудиозаписи. В компании среди пользователей модели указывают подкастеров, дикторов, авторов аудиокниг и рекламных роликов, стримеров и другие профессии.

Для защиты от мошенничества OpenAI внедрила меры безопасности, включая нанесение водяных знаков на аудиодорожку.

#StateoftheArt
На Хабре вышла статья от разработчика YandexGPT об эффективных методах ускорения LLM. Автор исследует задачу ускорения инференса больших языковых моделей, рассказывает про влияние внутреннего устройства GPU на время работы модели и демонстрирует, как дистилляция, квантизация и другие методы влияют на баланс скорости и качества.

В материале наглядно показывается, с какими сложностями сталкиваются команды при внедрении LLM-ок в реальные продукты. Разработчик поделился и экспериментами внутри Яндекса: например, с помощью замеров выяснилось, что, несмотря на меньшую скорость, О1-версия метода SmoothQuant — самая качественная и единственная способна квантизовать без потерь. В остальных версиях потери существенные.

#Development
Стартап Gretel, специализирующийся на генерации высококачественных синтетических данных, объявил о создании крупнейшего открытого text-to-SQL датасета, нацеленного на ускорение развития no-code инструментов аналитики.

Датасет содержит более 100 000 корректных синтетических образцов преобразования текста в SQL, охватывающих типичные запросы 100 направлений бизнеса и промышленности.

#Datasets
Google представила языковую модель RecurrentGemma, работающую локально на устройствах с ограниченными ресурсами, таких как смартфоны, персональные компьютеры и умные колонки. Предобученная модель содержит два миллиарда параметров и опубликована в открытом доступе.

Модель разработана для приложений, требующих реагирования в режиме реального времени, например, систем потокового перевода речи.

#AppliedDS
Хотите учиться у экспертов в области IT? Школа анализа данных Яндекса принимает заявки до 12 мая, успейте зарегистрироваться.

ШАД для вас, если вы:

· интересуетесь Machine Learning
· имеете хорошую математическую подготовку
· уверенно владеете каким-либо языком программирования

Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data
Science, инфраструктура больших данных, разработка машинного обучения или анализ
данных и ИИ в прикладных науках.

Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых
дверей. Узнать даты и зарегистрироваться можно по ссылке.
Microsoft представила платформу VASA-1, преобразующую изображение человека и аудиозапись с речью в видео с синхронизированными движениями губ и головы. Алгоритм работает в реальном времени со скоростью 40 кадров в секунду.

Cгенерированные видео передают полный спектр эмоций, а также особенности различных выражений лица и естественные движения головы.

#StateoftheArt
Яндекс обновил YandexART и рассказал в статье на Хабре, чем новая версия 1.3 отличается от предыдущей. Главное изменение в том, что нейросеть перешла на технологию латентной диффузии. Кроме того, датасет, на котором обучалась модель, был увеличен в 2,5 раза, и теперь нейросеть еще лучше понимает запросы пользователей.

YandexART 1.3 уже доступна в Шедевруме, там же появилась возможность создавать изображения в разных форматах, таких как 16:9, 4:3 или 3:4.

#StateoftheArt
Яндекс впервые проведет масштабный фестиваль Young Con для тех, кто хочет начать карьеру в IT

Участники смогут познакомиться с командами и технологиями Яндекса, а начинающие разработчики, аналитики или тестировщики — пройти пробное собеседование. Фестиваль пройдет 27 июня в Live Arena, посетить его можно как лично, так и онлайн.

Фестиваль вдохновлен научной фантастикой, основной темой станет «Вселенная Яндекса», объединяющая технологии, их создателей и пользователей. Сервисы Яндекса будут представлены в виде девяти тематических «миров» — стендов, где гости смогут поучаствовать в интерактивных развлечениях, познакомиться с теми, кто создает и развивает технологии, получить практические советы о развитии карьеры в IT. Всё для того, чтобы выбрать продукт или команду мечты и пройти экспресс-собеседование (такая возможность тоже будет).

В рамках феста пройдет финал «Баттла вузов. Кубок Y&&Y» — турнира по программированию среди студентов. Его победители разделят между собой 1 млн рублей. Завершится Young Con выступлениями групп The Hatters и ХЛЕБ.

Больше подробностей по ссылке.
Платформа автоматизации тестирования Mabl объявила о запуске AI-сервиса для тестирования мобильных приложений. C ее помощью разработчики могут за несколько минут создавать тесты для iOS- и Android-приложений, покрывающие все основные типы проверок.

Сервис многократно ускоряет ручное тестирование, создание автотестов и выявление пробелов в тестовом покрытии, а также дает возможность решения большинства задач тестирования для специалистов с малым опытом работы.

#AppliedDS
Python Tutorials for Digital Humanities рассказал, как можно распознавать широкую номенклатуру именованных сущностей (NER) без обучающей выборки с помощью библиотеки gliner-spacy. На видео пошагово рассказывается, как работать с репозиторием gliner-spacy, как интегрировать его в NLP-среду SpaCy, как получить первые результаты. Перевод подготовила Бюро переводов и школа переводчиков «Альянс ПРО».

Для удобства к ролику прилагается код на Python в блокноте Google Colab.

#Development
Google DeepMind разработала Gecko – бенчмарк, обеспечивающий более точное и надежное тестирование и сравнение text-to-image моделей, чем существующие подходы.

Gecko включает тексты 2000 запросов, которые проверяют широкий спектр навыков модели и уровней их сложности. Каждый запрос проверяет конкретные вспомогательные навыки, чтобы точно определить слабые места, ограничивающие соответствие сгенерированных моделью изображений запросам.

#Datasets