DenoiseLAB – Telegram

DenoiseLAB

486 subscribers

1.33K photos

159 videos

3 files

1.57K links

Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.

Download Telegram

About

Blog

Apps

Platform

486 subscribers

https://habr.com/ru/companies/sberbank/articles/943168/ - вышла моя новая статья для Сбера, тут я снова рассуждаю по вопросам генерации синтетических данных, я начинаю переходить в область доказательного машинного обучения. Давно к этому шел и наконец начинаю приближаться. Здесь я выкатываю три положения именно в формате теорем:

Теорема 1: о существовании регулярных паттернов в синтезированных данных
Теорема 2: о минимальной длине пути между синтетическими узлами
Теорема 3: о спектральных признаках синтетических данных
Теорема 4: о существовании маркерных последовательностей

Суть заключается в том, чтобы писать детекторы синтетичеких данных: фото, аудио, видео, тексты и так далее и понимать, где у нас сгенеренные вещи, а где, имено, реальные. Так же ставится вопрос о различимости реальных и фейковых данных. Суть любых таких алгоритмов это значительное быстрое время срабатывания. То есть всегда ставится вопрос о том как написать так чтобы алгоритм работал в реалтайме.

Сейчас стараюсь наполнять все это моделями и тестами.

Генерация синтетических данных для LLM. Часть 4: теоремы

Добрый день, уважаемые хабражители! Как и прежде меня зовут Владимир Миронов, и я занимаюсь тестированием и оценкой синтетических данных ;) Добрались, наконец-то, до четвёртой части в этом цикле...

👍2🔥2

126 viewsedited 12:00

🤖ИИ-фабрики пропаганды стали реальностью на 🖥потребительском оборудовании?

Исследователь Лукаш Олейник из 🇬🇧Королевского колледжа Лондона (факультет ⚔️военных исследований) провел исследование 📄«AI Propaganda factories with language models», где попытался оценить практическую реализуемость автоматизированных систем для ведения информационных войн на оборудовании потребительского сегмента.

🎯 К каким выводам пришёл исследователь?

▪️Создание и управление ИИ-системами для ведения информационных войн теперь доступно даже на вполне доступном оборудовании. Основой таких систем служат малые языковые модели (SLM) с открытыми весами, которые позволяют полностью автоматизировать производственный цикл создания контента.

▪️В качестве примера использовались такие модели, как ❗️Gemma-3 (27B) и ❗️ Mistral-Small (24B), которые не требуют облачной инфраструктуры. Модели могут работать на высокопроизводительных потребительских GPU (NVIDIA RTX 4090 и выше).

▪️ Генерируемый контент в большей степени определяется дизайном цифровой личности и тонкой настройкой (персоны), чем идентичностью самой модели.

▪️В ходе эксперимента не было зафиксировано ни одного отказа от выполнения задачи из 11,520 сгенерированных и оцененных ответов. ИИ-персоны стабильно поддерживали заданный стиль, тон и политическую позицию (медианный балл PF 4.1-4.3 из 5).

▪️Исследование продемонстрировало, что контроль качества контента на выходе (output) может обходиться без привлечения людей-корректировщиков. Для этих целей развертывается локально "шеф-редактор" на базе

❗️

Qwen3 (30B).

▪️ИИ-персоны с радикальными политическими взглядами (ультралевые, ультраправые) показывают более высокую стабильность и последовательность, чем умеренные персоны.

❗️ Главной уязвимостью ИИ-агентов является их сверхчеловеческая (избыточная) последовательность в риторике, стиле и идеологии в различных темах и контекстах. Именно эта роботизированная последовательность создаёт👍уникальную поведенческую сигнатуру для систем обнаружения.

Человек по своей природе зачастую непоследователен. На его стиль письма, скорость ответа и даже мнения влияют разные факторы, например, настроение, усталость, контекст и личные события, в то время, как ИИ-агент лишен человеческих "недостатков".

🕵️Паттерны для выявления ИИ-ботов:

↘️ Несгибаемая идеологическая позиция. Условный «ультраправый ИИ-агент» использует топорную риторику в вопросах обсуждения экономики или политики, не допуская отклонений от своей позиции. Он не выразит сомнения («это сложный вопрос, я не уверен»), не согласится с оппонентом даже в мелочах.

↘️ Одинаковая структура предложений, усредненная длина ответов, использование одних и тех же риторических приемов.

↘️ Анализ временных паттернов. Посты зачастую появляются с одинаковой регулярностью днем и глубокой ночью, часто без перерывов на сон. В сложных дискуссиях ИИ-агент выдает структурированный ответ на 300 символов за считанные секунды после публикации оппонента, что не оставляет времени на осмысление.

↘️ Тест на личный опыт. Задайте боту один и тот же вопрос, но разными словами, с разницей в несколько дней. ИИ-агент, скорее всего, выдаст практически идентичный по смыслу ответ, так как он обрабатывает семантическое ядро запроса. Человек вспомнит прошлый разговор и ответит, скорее всего, иначе, возможно, с раздражением.

↘️ Спросите об уникальном личном опыте: «Какое самое яркое воспоминание из вашего детства, связанное с дождем?»). ИИ либо откажется отвечать, либо сгенерирует общий, стереотипный ответ. Он не сможет передать уникальные детали, свойственные человеческой памяти.

↘️ Координация ИИ-ботов. Один аккаунт вступает в спор, а через несколько секунд или минут в комментариях появляются 3-10 других аккаунтов с идеально дополняющими друг друга аргументами, как будто они действуют по одному сценарию, атакуя, по принципу 🐝"рой пчёл".

🤔Концепция «ИИ-фабрик для пропаганды» на потребительском оборудовании больше не является чем-то теоретическим.

💬Ранее стало известно, что 🛡 Пентагон создаёт "кибервойска" из ИИ-агентов для их участия в 🤖информационных войнах.

✋

@Russian_OSINT

Please open Telegram to view this post

VIEW IN TELEGRAM

AI Propaganda factories with language models

AI-powered influence operations can now be executed end-to-end on commodity hardware. We show that small language models produce coherent, persona-driven political messaging and can be evaluated...

176 views13:14

Всех новоприбывших приветствую, очень рад всех видеть !! Спасибо что подписались !

❤12

154 views19:20

II Научная конференция «Искусственный интеллект в химии и материаловедении»

Дата и место: 17–21 ноября 2025 г., Москва
Дедлайн подачи заявок: 1 октября 2025 г.
Подробная информация: Ссылка

153 views19:34

https://habr.com/ru/articles/942766/ - хорошая годная статья про новомодные тренды в аналитике, но опять же фантазии. Как бы не эволюционировали модели как бы системы не развивались всегда нужны люди, это точно, опять же квалификация людей требуется своего повышения и понимания процессов на более глубоком уровне. Исходя из этого, следим за трендами и смотрим на все очень внимательно, сопоставляя факты и данным между собой. Больше всего всегда интересует именно скрытые закономерности.

Generative Business Intelligence. BI без дашбордов и аналитиков

Для многих сейчас понятия 'Business Intellegence' и 'Дашборд' практически тождественны. А можете представить BI без дашбордов? Давайте начнём с того, что дашборды бизнесу не нужны 🙂. Нужны ответы на...

166 viewsedited 19:38

This media is not supported in your browser

VIEW IN TELEGRAM

Милоты вам в ленту, уважаемые. А вообще, на сон грядущий вот такая занимательная книжка по аналитике популяции бурого медведя:

http://elibrary.udsu.ru/xmlui/bitstream/handle/123456789/20496/534%D0%BB%D0%B1_1000984056_27.10.2021.pdf

160 viewsedited 19:44

https://habr.com/ru/articles/708752/https://habr.com/ru/articles/708752/ - одна из базовых статей по математике в data science, аналитике и анализе данных. Рассматриваются типичные кейсы и пул знаний, которым необходимо обладать.

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и,...

162 viewsVladimir Mironov, 07:18

big tech night — это «ночь музеев» в мире IT, где Яндекс, Сбер, X5, Т-Банк и Lamoda впервые приглашают за кулисы.

Формат, придуманный в Яндексе, для тех, кто уже в IT или только стремится туда попасть. Здесь можно увидеть, как создаются технологии, меняющие окружающую среду, познакомиться с коллегами, обменяться опытом, задать неудобные вопросы и почувствовать себя частью комьюнити.

Вас ждут доклады, иммерсивные экскурсии и атмосфера IT-андеграунда. А если вы не в Москве, подключайтесь к онлайн-студии с двумя потоками — от серьезных дискуссий для гиков до лампового ночного шоу с историями из жизни.

Когда: 12 сентября.
Где: Москва или онлайн.
Регистрация - здесь.

big tech night. Откройте «ночь музеев» в мире IT

big tech night — главное IT-событие осени | 12 сентября, Москва

Познакомьтесь с Яндексом, Сбером, X5, Т-Банком, Lamoda и их разработками изнутри. Для IT-специалистов и всех, кто любит технологии

142 viewsVladimir Mironov, 07:24

Warner Bros. подала в суд на Midjourney из-за Бэтмена, обвиняя их в нарушении авторских прав. Подобный иск уже подавали Disney и Universal, компаниям не нравится, что ИИ использует их интеллектуальную собственность без прав.

В огромном иске Warner Bros. требуют по 150 тысяч долларов за каждое изображение. О какой именно цифре идёт речь — не сообщается.

Новый вид громких дел — они украли мою картинку Бэтмена

140 viewsVladimir Mironov, edited 08:04

Baidu выложила сразу 23 модели на Hugging Face размерами — от 0.3B до 424B параметров! 💥

Тех репорт: https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf

Machinelearning

🚀 Baidu открыла исходный код серии моделей ERNIE 4.5 !

🧠 Эти модели достигли SOTA-результатов на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.

🔧 Обучены…

136 viewsVladimir Mironov, 10:55

Всё по учебнику антиутопии: девушка 25 лет работала в банке, обучила ИИ-помощника, написала ему ответы, пофиксила ошибки — а потом её уволили. Потому что теперь она не нужна. ИИ справляется сам.

И это реальный случай: Кэтрин из Австралии думала, что помогает улучшить сервис, а на деле обучала свою замену. Начальству понравилось, что машина делает её работу — Кэтрин уволили.

137 viewsVladimir Mironov, edited 14:01

💊 Это мощно!

Учёные из Университета Саймон Фрейзер представили CGFlow — ИИ-фреймворк, который может радикально ускорить разработку лекарств.

В отличие от прошлых ИИ-инструментов, CGFlow не только проектирует молекулы, но и продумывает реальные пути их химического синтеза, чтобы их можно было произвести в настоящей лаборатории.

Модель пошагово конструирует молекулу, оптимизируя сразу два параметра: биологическую эффективность и практическую реализуемость.

Такой подход способен сократить многолетний (10 лет и ~$1 млрд) цикл создания лекарств до считаных лет. Уже есть интерес со стороны компаний, работающих над лечением рака.

119 views18:11

⚡Гендиректор GitHub Томас Думке уходит, чтобы вернуться к работе над стартапами.

- Microsoft не будет назначать нового CEO и полностью интегрирует GitHub в свою AI-команду CoreAI.

- Теперь GitHub станет ещё теснее связан с развитием инструментов на базе искусственного интеллекта, таких как Copilot.

https://www.theverge.com/news/757461/microsoft-github-thomas-dohmke-resignation-coreai-team-transition

https://news.ycombinator.com/item?id=44865560

Активизация ресурсов идет полным ходом, активно наступая на пятки всем разрабам. Чувствуется, что гитхаб будут выжимать как пряпку ))

GitHub just got less independent at Microsoft after CEO resignation

GitHub will be part of Microsoft’s AI engineering team

😁1

105 views18:13

Алгорейв. Нет, не про собеседования
YouTube | Подкаст | Слушать

Вечеринка как вечеринка. Душный клуб, смесь запахов пота, алкоголя и туалетной воды. На сцене — диджей, позади — визуальная подложка. Очень громко играет техно. Не самое сложное, довольно обычное, даже скорее заурядное. Классика: брейкдаун, билдап, дроп, бридж, брейкдаун, билдап, дроп. Визуальный ряд какой-то странный: бешеная мешанина разноцветных глитчей в духе лейбла Warp, а на фоне какие-то странные наборы букв и знаков препинания.

Если присмотреться, не сразу, но бросается в глаза, что диджей делает что-то необычное. Он почти не крутит ручки реверберации на пульте, зато постоянно что-то явно печатает в своем макбуке. Что характерно, кажется, будто он обновляет не только визуальный ряд, но и звук. Как только вы это понимаете, то все происходящее резко из двухмерного становится трехмерным: вы не просто не техно-вечеринке, вы наблюдаете аудиовизуальное представление, где диджей — не диджей, а программист, который вживую синтезирует музыку, меняя ее на ходу, подстраивая под настроения в зале. Публика мертва — давайте перепишем с техно на транс. Публика скучает — давай добавим дроп. Звучит все бледненько, так давай сюда накинем лоупасс фильтр, да чуток подсвингуем ритм.

Это алгорейв. А музыкант еще зовется лайв-кодером, потому что он буквально в прямом эфире пишет музыку под текущую ситуацию в зале на некотором особенном языке программирования.

Как выглядит этот язык? Например, вот так:

const drums = s("bd sd bd sd").bank("RolandTR909")  
const hats = s("hh*8").gain(0.3).bank("RolandTR909")  
const bass = note("c2 ~ c2 ~ e2 ~ g1 ~")  
  .sound("square")  
  .lpf(500)  
  .lpq(3)  
  .delay(0.5)  
  .delaytime("0.25 0.5")  
stack(drums, hats, bass)

Попробуйте. Не забудьте нажать на Play. Попробуйте прямо во время игры изменить ноты или параметры LP-фильтра или дилея, нажмите Update.

Среда, в который вы все это делаете, называется Strudel. Язык называется Tidal, но в диалекте Strudel. Tidal похож на Haskell, Strudel — на JavaScript. Есть еще масса реализаций на разных языках, вроде Python. Языки программирования всех этих сред называются Uzu, все как один — диалекты Tidal.

Принципы очень просты: мы описываем некую сущность (изображение или звук), а дальше в виде паттерна билдер (или монад, если оно вам так хочется) изменяем его: например, в случае музыки, меняем ритм, банки звуков, длительности, добавляем эффекты, меняем ноты. После этого полученные паттерны складываем определенным образом. В примере выше — просто играем одновременно. Благодаря своей структуре, все Uzu-языки по умолчанию сделаны с FRP, что дает эту визуальную привлекательность и наглядность.

Сам Tidal вышел из докторской диссертации Алекса МакЛина, который описывал подходы к занятиям искусством через программирование. Не программирование как область искусства, но искусство, создаваемое через программирование. Референсной реализацией его идеи и был Tidal — некоторый язык на базе Haskell. В сущности, Tidal не ограничен предметной областью (музыка, изображение, видео), это общий язык для описания некоторых паттернов во времени + ряд способов это рабочее пространство искажать.

За процессом создания музыки в Strudel (наверное, основной инструмент алгорейвов) бесконечно залипательно наблюдать. В чем-то он схож с битбоксингом, когда музыканты используют семплеры, чтобы нанизывать небольшие бусины на украшение, пока оно наконец-то органически не сложится: вспомним добрым словом великого DubFX. Особенно впечатляют примеры составления треков с нуля, когда за пару минут можно буквально написать сносный трек.

Strudel вовсе не ограничен электронной музыкой, с его помощью можно написать любую другу музыку. Хоть Radiohead, хоть Шостаковича.

Мы как-то привыкли, что программирование — это про языки разработку приложений, хоть под веб, хоть под мобилки, хоть под десктоп. Но на самом деле — это просто метод адаптации среды под наши нужды. И можно программировать без циклов и ветвлений, собирая при этом целые залы людей, которые идут туда вовсе не ради своей бесконечной любви к JSON.

Алгорейв. Нет, не про собеседования

В этом выпуске посмотрим на программирование под несколько неожиданным углом, посмотрим, как оно может выглядеть вдали от перекладывания JSON'ов, и без SOLID. Поговорим о феномене алгорейвов: о программировании музыки вживую, прямо на сцене, как части аудиовизуального…

🔥1

103 views18:16

Вот бывают супер-необычные новости )))

Дефицит урана угрожает возрождению ядерной энергетики. Всемирная ядерная ассоциация прогнозирует «значительный разрыв» между спросом и предложением, если не будут найдены новые источники, следует из опубликованного доклада. Документ приводит Financial Times.

🔼Мировые потребности в уране для реакторов к 2030 году вырастут на треть – до 86 тыс. тонн, а к 2040 году – до 150 тыс. тонн. А добыча в следующем десятилетии может сократится вдвое, поскольку существующие месторождения будут истощены.

Это приведет к образованию «значительного дефицита», который поставит под угрозу возрождение ядерной энергетики.

🔼Производителей урана призывают инвестировать в поиск новых рудников и развитие простаивающих, а также – в процессы конверсии и обогащения, превращающие уран в реакторное топливо.

Атомная энергетика переживает всплеск интереса, поскольку правительства стремятся обеспечить больше внутренних источников энергии, а ведущие технологические компании рассматривают ее как способ питания центров обработки данных и энергоемких технологий ИИ, отмечается в докладе.

♐️Согласно докладу, к 2040 году общемировая мощность АЭС должна удвоиться и составить 746 гигаватт электроэнергии, значительная часть прироста будет обеспечена за счет новых реакторов в Китае и Индии.

📠

ПАО «ППГХО»

📰

Подпишитесь на «Ведомости»

Please open Telegram to view this post

VIEW IN TELEGRAM

Uranium shortfall threatens nuclear energy renaissance, industry warned

Association predicts a ‘significant gap’ between supply and demand unless new sources are found

106 views18:24

Пятая международная конференция «ГМО: история, достижения, социальные и экологические риски»

Дата и место: 1–3 декабря 2025 г., Санкт-Петербург
Дедлайн подачи заявок: 5 октября 2025 г.
Подробная информация: Ссылка

ГМО: история, достижения, социальные и экологические риски

Пятая международная конференция

118 views18:33

⚡️

Tencent дропнули Hunyuan-MT — мощные open-source модели для перевода

Что внутри:
- Доступны модели Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B
- Поддержка 33 языков
- Chimera-7B — это первая d индустрии откртытая ансамблевая модель

🏆 Результаты:
- 1-е место в 30 из 31 категорий на международном конкурсе WMT25 (Workshop on Machine Translation 2025, крупнейшая в мире конференция-соревнование по машинному переводу)
- Hunyuan-MT-7B лидирует среди моделей своего размера

🟠

Модели: https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597

🟠

Репозиторий: https://github.com/Tencent-Hunyuan/Hunyuan-MT
Demo: https://hunyuan.tencent.com/modelSquare/home/list

#AI #NLP #Translation #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

Hunyuan-MT - a tencent Collection

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

131 views23:21

В Британии женщина отсудила 30 000 фунтов потому, что коллега назвал её... Дартом Вейдером 😔

Во время тимбилдинга парень прошёл за женщину шуточный тест по «Звёзным войнам» и публично заявил, что ~~она душит подчиненных~~ у неё такой же тип личности, как у лорда Ситхов. Девушка не стерпела и подала в суд, заявив, что это сравнение нанесло ей моральный ущерб.

Парня-шутника не спасло даже то, что в тесте Вейдера описывали как «целеустремлённого лидера» 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣3❤2🔥1

123 views10:55

Что может быть фактором личного успеха? Часто называют хорошее образование и личные связи, «правильная семья». Но немаловажен и рост мужчины и женщины.

На диаграмме – как распределён рост СЕО в Швеции по сравнению с ростом обычных мужчин.

Исследование, охватившее 1,3 миллиона шведских мужчин, показало, что генеральные директора, как правило, выше среднего роста.
В то время как средний рост мужчины в выборке составлял 1,79 м, мужчины, занявшие руководящие должности в качестве генеральных директоров, обычно имели рост 1,83 м. Исследователи предполагают, что подсознательное предубеждение может заставлять некоторых работодателей считать, что более высокие люди более уверены в себе и более склонны к лидерству.

Только около 14,5% мужчин в США имеют рост выше 180 см. Однако среди генеральных директоров компаний из списка Fortune 500, этот показатель составлял 58%.

По мере того, как всё больше женщин становились руководителями, рост стал важен и для них.
Исследование Национальной медицинской библиотеки Англии показало, что представители всех полов имеют больше шансов занять руководящую или высшую должность, если они высокого роста. В Англии женщины, работающие профессиональными руководителями и менеджерами, в среднем на дюйм (на 2,5 см) выше, чем женщины, работающие на рабочих должностях.
Как для мужчин, так и для женщин, участвовавших в исследовании, связь между ростом и заработком также была значимой. Увеличение роста на один дюйм в этом исследовании означало потенциальное увеличение заработной платы на 1,4–2,9%.

Похоже, это правило работает в большинстве стран мира. Так, в Китае согласно отчёту, подготовленному исследователями из Китайского университета Жэньминь, каждый дополнительный сантиметр роста связан с потенциальным увеличением годового заработка человека на 1,3%.

😁1

152 views11:10

II Международная научно-практическая конференция «Искусственный интеллект и духовная культура»

Дата и место: 23 октября 2025 г., Москва
Дедлайн подачи заявок: 28 сентября 2025 г.
Подробная информация: Ссылка

Яндекс Диск

Искусственный интеллект и духовная культура.pdf

Посмотреть и скачать с Яндекс Диска

142 views12:37