DenoiseLAB
487 subscribers
1.34K photos
162 videos
3 files
1.6K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
Уроборос-многоножка — символ ближайших лет в обучении языковых моделей. Раньше информационный поток был линейно-иерархичным: от первоисточника через фильтры глухих телефонов и пропаганды достигал реципиента. Теперь круг замыкается — источником становится сам продукт переработки.

Количество генерированного или обработанного нейросетями контента лавинообразно растёт, имитация натурального даётся всё лучше — скоро будет совсем не отличить. Нейронки будут опираться в своих выдачах на контент, которые сгенерировали другие нейронки, опирающиеся на контент от третьих и так далее. Этакий информационный инцест — вырождение — информация смешивается со своими собственными производными.

На первом этапе обучения языковых моделей мы ещё имели более-менее нормальный (хотя уже порядком засранный) пул накопленной информации. Не библиотека, конечно: килотонны SEO-оптимизированной розовой слизи, перевранные вики-статьи и новости, форумные срачи, полный спектр улётного контента от повесточников и шизопатриотов до биохакеров и экстрасенсов. Ну хотя бы можно было как-то вручную отранжировать уровень доверия от Блумберга до Панорамы.

А вот что дальше, когда нейроэкскрементов станет на порядки больше, чем исходного материала? На чём будут дообучаться нейронки последующих лет? И речь ведь не только про статьи или новости. Сегодня нейро-улучшайзеры встроены в интерфейсы современных смартфонов, юзеры радостно "улучшают" свои тексты, чтоб не напрягаться формулировками, авто-улучшают свои фоточки, чтоб не заниматься фотошопингом, программисты вайб-кодят в полный рост. И вот это всё нейроулучшенное попадёт в один общий котёл вместе с крупицами оригинального.

Но и производители достоверного и натурального тоже станут перед выбором. Какой смысл продолжать делать качественный контент, если юзеры даже не заходят к тебе на сайт, ограничиваясь выдачей нейро-ассистентов? Должна же быть какая-то выгода. Кто-то наверное будет продавать владельцам нейронок свой контент за деньги (честно-честно не генерили), а кто-то будет монетизироваться через намеренное искажение данных в нужную спонсорам сторону.

Очень будет интересно посмотреть, как человечество справится с этим. Меня не покидает ощущение, что так или иначе ему всё равно придётся закатать рукава и как следует вручную прибраться в своём инфополе. Garbage in — garbage out.

Очень интересное мнение... по факту мы движемся к синтетической катастрофе. Круг замкнулся, за новым контеном будут гоняться как умалишенные ))) Сеньоры и лиды которых сейчас увольняют повсеместно будут ценны как вкрапления в янтаре, а людей надо будет еще больше, крен сместится на более прокаченных. Как в цедом и ожидалось, выигрышь на шорте, проигрышь на лонге. В топе будут те компании которые сохранят кадры, остальных поглотят.
2
😁6
↗️Описание Qwen3
• Qwen3 — последняя версия семейства моделей Qwen
• Включает серию больших языковых моделей (LLM)
• Разработаны для повышения производительности, результативности и многоязычных возможностей

↗️Архитектура и параметры
• Модели с плотной и смешанной экспертной архитектурой (MoE)
• Масштаб параметров от 0,6 до 235 миллиардов

↗️Интеграция режимов
• Режим мышления для сложных рассуждений
• Режим отсутствия мышления для быстрого реагирования
• Устранение необходимости переключения между моделями
• Динамическое переключение режимов на основе запросов пользователей или шаблонов чата

↗️Механизм продуманного бюджета
• Адаптивное распределение вычислительных ресурсов
• Балансировка задержки и производительности в зависимости от сложности задачи

↗️Сокращение вычислительных ресурсов
• Использование знаний из флагманских моделей
• Высокая конкурентоспособность малогабаритных моделей

↗️Эмпирические оценки
• Достижение современных результатов в различных тестах
• Конкуренция с более крупными моделями MoE и проприетарными моделями

↗️Многоязычная поддержка
• Расширение с 29 до 119 языков и диалектов
• Улучшенное понимание и возможности генерации на разных языках
• Пересказана только часть. Для продолжения перейдите к чтению оригинала.

Доступность статьи:
https://huggingface.co/papers/2505.09388?utm_source=digest-papers&utm_medium=email&utm_campaign=2025-05-19
Please open Telegram to view this post
VIEW IN TELEGRAM
Шедевр )))
👍5
Новые перспективные исследования.
Не спится мне ночью, я тут вот чего нашел... дичь какая-то... что-то я подобное уже слышал. Вот краткое содержание сие...

"Новая техноутопия предлагает нам порнографию вместо секса, инфлюэнсеров вместо религии, видеоигры вместо спорта, короткие видео вместо чтения, мемы вместо аналитики, чатботы вместо друзей и любимых, искусственный интеллект вместо размышлений

Она предлагает дешевую имитацию жизни, но её притягательность в том, что она не требует никаких усилий от потребителя, подстраивается под его ожидания и кажется безопасным.  Мягкий окутывающий плед, теплая уютная могила

Думаю так и надо. Очередной этап эволюции. Это фильтр для лишних людей. По-своему гуманный, потому что у каждого есть возможность остаться в реальном мире и не выбирать цифровое забвение. История будет продолжаться, но только с теми, кто выбрал красную таблетку. С теми, кто воспринимает технологии как часть жизни, а не цель существования..."
🤔3😁2
🎞 MyLens.ai — это нейронная сеть, которая идеально подходит для YouTube.

ИИ может пересказывать видео с платформы. Справится даже с часовым роликом всего за несколько секунд.

🎥 Загрузить можно абсолютно любое видео.
📝 Суммарный план, схемы и ключевые цитаты будут готовы моментально. Нейросеть способна создавать их самостоятельно.
🌐 Если у вас есть собственный ролик, программа подскажет, как сделать его вирусным.

Однако, есть и минус: ограничение на три видео в сутки.

https://mylens.ai/apps/youtube
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Vespa — поисковая платформа для работы с векторами и ML-моделями в реальном времени.
Проект предлагает нестандартный подход к обработке данных: он объединяет полнотекстовый поиск, векторные операции и ML-инференс в едином конвейере.

Платформа развертывается как в облаке, так и on-premise, а её архитектура оптимизирована для задач рекомендательных систем и персонализации. Хотя проект существует с 2003 года, он активно развивается — новые сборки выходят четыре раза в неделю.

🤖 GitHub
https://www.kaggle.com/models/mistral-ai/devstral-small-2505?utm_medium=email&utm_source=gamma&utm_campaign=model-devstral-2025

Devstral - это агентный LLM для решения задач программной инженерии, созданный в рамках сотрудничества между Mistral AI и All Hands AI 🙌. Devstral отлично справляется с использованием инструментов для изучения кодовых баз, редактирования множества файлов и управления агентами программной инженерии.