D. Lab

🔎

Из датасетов для обучения ИИ пропало до 30% информации

Выяснили исследователи из MIT. В своей работе они проанализировали 14 тыс. веб-доменов. Информация именно с этих доменов попадает в самые крупные датасеты для обучения ИИ (C4, RefinedWeb, Dolma и другие). Эти датасеты скачали от 100 тыс. до более чем 1 млн раз.

📚 В датасете Dolma, например, содержится 3 трлн токенов информации.

✈️ Авторы исследования подсчитали, что за 2023–2024 годы около 5% от всего количества токенов информации в датасете C4 оказались под запретом из-за действий владельцев ресурсов (откуда информация получена). Это значит, что владельцы тем или иным образом запретили собирать информацию с их сайта для обучения ИИ.

💎 Если 5% не кажется серьезной цифрой, то важно отметить, что этот показатель составляет почти 30% для информации из «высококачественных» источников. Такая информация критически важна для ИИ, чтобы модель могла выдавать точные ответы на запросы пользователей. Это могут быть, скажем, уважаемые СМИ, которые публикуют только проверенную информацию.

📆 Конечно, это не значит, что датасеты в прямом смысле потеряли эту информацию. Но это значит, что они, вероятно, не смогут получать обновленные, актуальные данные для обучения ИИ-моделей. А значит, сами модели могут стать в какой-то момент устаревшими.

🔒 Исследование MIT затрагивает критически важную для всего ИИ-сегмента проблему дефицита информации, о которой говорят не первый год. Но если раньше речь шла в основном о том, что новая информация для обучения закончится естественным путем (ИИ просто узнает все, что можно узнать), то теперь свою роль играют и владельцы информации.

😢 В этой ситуации мало кому жалко бигтехи, которые тратят десятки миллионов долларов на сделки, обеспечивающие их LLM данными. Датасетами также пользуется научное сообщество, стартапы и НКО, которым теперь будет тяжелее обучить модель.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔4

533 views14:35

D. Lab

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

🆕

В Dream Machine появился продвинутый генератор зацикленных видео

🔩 Теперь нейросеть сможет сгенерировать луп по текстовой подсказке, изображению-референсу, ключевому кадру.

Можно и просто сделать зацикленный видос из готового клипа.

🫡 Dream Machine все еще можно потестить бесплатно после регистрации.

🎞 Недавно нейросеть научилась генерировать видео по нескольким ключевым кадрам.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2⚡1🔥1

609 views15:14

D. Lab

📎

Сотрудники компаний массово жалуются на ИИ-помощника Microsoft

Выяснил Bloomberg, пообщавшись с теми, кто уже активно пользуется возможностями Copilot.

Оказалось, что просто запустить ассистента и наслаждаться сказочным приростом производительности не получится.

🗂 Сначала компаниям нужно решить, к какой именно информации дать доступ ассистенту, чтобы не стать жертвой хакерской атаки и не засветить конфиденциальную информацию перед сотрудниками. Настройка отнимает и время, и деньги.

❗️ Copilot одинаково хорошо справляется не со всеми задачами:

✅ — Саммарайзинг.

❌ — Работа с несколькими приложениями и задачи, где нужно понимание, чем именно занимается компания.

👩‍🎓 Чтобы эффективно использовать ИИ, сотрудники должны изучать гайды и ходить на обучающие семинары.

🧚‍♂️ Ничего шокирующего в такой практике нет — к любому новому софту надо привыкнуть и научиться его эффективно использовать. Возможно, дело в хайпе вокруг ИИ. Из-за него могло создаться впечатление, что ИИ-помощники — волшебный инструмент.

🛍 Проблему завышенных ожиданий косвенно подтверждает недавний опрос, проведенный среди 2,5 тыс. пользователей ИИ-помощников.

🤬 77% опрошенных сотрудников компаний заявили, что ИИ увеличивает их загруженность на работе и снижает продуктивность. Почти половина опрошенных отметили, что в принципе не знают, как увеличить эффективность на работе с помощью ИИ. 40% сотрудников считают, что у работодателей появились завышенные требования после интеграции ИИ-помощников в рабочий процесс.

Можно предположить, что многие компании повелись на хайп, интегрировали ИИ-решения в работу, но не захотели тратить время и деньги на обучение персонала работе с умными помощниками.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

769 views12:34

D. Lab

Runway заподозрили в плагиате, OpenAI может потерять $5 млрд, в США бастуют актеры видеоигр — и другие важные новости за неделю

✅ В США актеры видеоигр объявили забастовку. Они опасаются, что их труд ради экономии могут отдать нейросетям, поэтому требуют от разработчиков игр пообещать им защиту от ИИ. Все, как у актеров и сценаристов, которые бастовали в прошлом году;

✅ Т-банк выпустил русскоязычную LLM собственной разработки T-lite на 8 млрд параметров. Собственные бенчмарки банка показали, что LLM обходит аналогичные версии Llama3 и ChatGPT 3,5. Разработчики предлагают использовать T-lite в качестве инструмента для разработки LLM-приложений для использования внутри компаний;

✅ Разработчика нейросети Gen-3, компанию Runway, тоже заподозрили в использовании видео с YouTube для обучения своей модели. Runway до этого отказывались раскрыть, на какой информации тренировали свою модель;

✅ Тем временем игровой издатель и разработчик видеоигр Electronic Arts с помощью ИИ за 3 месяца оцифровал 11 тыс. игроков из студенческой лиги американского футбола. Образы игроков использовали в недавно вышедшей игре College Football 25. Для ускорения процесса при оцифровке использовались фото игроков, на которых спортсмены были запечатлены по плечи. Остальную часть тела игроков генерировал ИИ. Личное присутствие игроков требовалось в случае, когда ИИ допускал ошибки;

✅ Издательство Conde Nast (журналы New Yorker, Wired, Vogue и другие) обвинило стартап Perplexity — разработчика одноименного ИИ-поисковика — в использовании своего контента с нарушением копирайта. Conde Nast не первый, кто обвинил Perplexity в плагиате. Например, Forbes также утверждал, что поисковик цитирует материалы журнала без ссылки на первоисточник;

✅ Сбер интегрировал чат-бота GigaChat в онлайн-аптеку ЕАптека. Пользователи с помощью нейросети смогут подобрать препарат, узнать информацию по дозировке, противопоказаниям и побочным эффектам. Чат-бот должен снизить нагрузку на фармацевтов при подборе лекарства. Чтобы избежать опасных ошибок чат-бота, информацию о лекарствах обещают оперативно обновлять;

✅ Meta, как и обещала, выпустила на неделе самую мощную версию опенсорсной нейросети Llama 3 на 405 млрд параметров. Разработчики обещают решение задач на уровне топовых «закрытых» моделей от OpenAI и Mistral;

✅ Китайского конкурента Sora по имени Kling наконец-то можно потестить без танцев с бубном — нейросеть для генерации видео стала доступна всем желающим после регистрации. Пользователям бесплатно дают 60 кредитов для генераций (одна генерация — около 10 кредитов);

✅ MetaAI научился делать генеративные селфи. В чат-бот можно загрузить свое фото, а дальше написать промпт, начинающийся со слов Imagine Me (представь меня). В самом промпте должно быть описание сеттинга, где пользователь хочет видеть свой аватар;

✅ Адвокатская контора Venable LLP запустила сервис Takedown, который поможет голливудским клиентам автоматически удалять из интернета свои дипфейки. Takedown охотится не только за синтетическим контентом, но и за пиратским;

✅ Убытки OpenAI за 2024 год могут достигнуть $5 млрд, подсчитал The Information. Издание выяснило, что стартап тратит на работу и обучение своих моделей, а также на зарплаты сотрудникам, гораздо больше, чем планировал. Например, стоимость обучения моделей за год может вырасти до $3 млрд против запланированных $800 млн. Доходы стартапа такие затраты не покрывают. Эксперты считают, что в ближайшее время OpenAI нужно будет привлекать дополнительные деньги от инвесторов.

*Организация, запрещенная на территории РФ

👍4❤3

987 views09:00

About

Blog

Apps

Platform