DenoiseLAB
484 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
Оказывается конфа была для лидов, архитекторов. Окак...
🔥3
Стендовые доклады все отфоткал, да качество можно было и получше, но сегодня я без тяжелой аппаратуры. Но все равно очень интересно. Продвинулись ребятки бодро.

Для меня было несколько ключевых моментов, над которыми я думал, ребята это реализовали, и весьма неплохо.

Что самое интересное, не всегда все тяжелые модели вывозят, иногда старая классика решает. В целом, это подтверждали и мы у себя, когда мучали Qwen.
👍2💅2
This media is not supported in your browser
VIEW IN TELEGRAM
Мое утренее состояние )) дождь, +1.
😁2
Электроэнергия для расчета большой языковой модели (LLM, тип нейросетевой системы ИИ) сопоставима с потребностями среднего российского города, заявил в эксклюзивном интервью "России 24" первый заместитель председателя правления Сбербанка Александр Ведяхин. По словам Ведяхина, затраты "Сбера" на разработки искусственного интеллекта "оказывают существенное влияние на баланс банка и на отчет о доходах и расходах".

"Затраты на обучение больших языковых моделей, к примеру, за рубежом, измеряются десятками, иногда сотнями миллиардов долларов. Это действительно очень существенная инвестиция, и для нас тоже. На обучение большой языковой модели приходится 80% затрат. Это поставка графических процессоров (GPU), на которых осуществляется расчет модели. А также электроэнергия. Электроэнергия для расчета модели сопоставима с потребностями среднего российского города", – заметил первый зампред правления банка.


Помимо стоимости, отметил Ведяхин, для расчета LLM необходимо и время. Одна модель может считаться 3-6 месяцев, крупные – 9 месяцев. Все зависит от объема кластера, пояснил он. Ведяхин подчеркнул, что быстрый ответ "нейронки" также зависит от средств, вложенных разработчиками в LLM.
🤔1
Walt Disney инвестирует $1 млрд в OpenAI и позволит Sora и ChatGPT использовать с 2026 года персонажей из своих франшиз, таких как Микки Маус, Золушка и Муфаса, пишет Reuters.

Соглашение предполагает возможность создания видеороликов. Оно не распространяется на использование изображений или голосов актеров.

Источник агентства рассказал, что гендиректор Disney Боб Айгер и основатель OpenAI Сэм Альтман обсуждали сделку несколько лет назад, когда искали способ «более наглядно продемонстрировать потенциал генеративного ИИ в сочетании с персонажами и историями Disney».
Китай провел первый полет нового тяжелого беспилотного летательного аппарата «Цзютянь», который называют крупнейшим в мире «материнским дроном», сообщил Bloomberg.

«Цзютянь» позиционируется как воздушная платформа, способная запускать рои ударных дронов и нести различные виды вооружений.
👍2😱1
☝🏻SpaceX начинает продажи спутникового интернета Starlink через вендинговые автоматы

В штате Айова был замечен первый вендинговый автомат, через который можно приобрести комплект оборудования.

Киоск продаёт Standard Kit всего за $89 — это рекордно низкая цена за оборудование за всю историю Starlink. 💰

При этом тарелка остаётся в собственности покупателя, а не является арендой, как при заказе на сайте.

Дополнительно при активации подписки в течение недели начисляется $100 сервисного кредита, что фактически делает оборудование бесплатным

Эта экспансия происходит на фоне впечатляющего роста Starlink — сервис уже насчитывает более 8 миллионов подписчиков в 150+ странах, а компания добавляет около 14 000 новых пользователей ежедневно. 📈

Илон Маск заявил, что основная часть выручки SpaceX теперь приходится именно на Starlink.

Одновременно SpaceX агрессивно снижает цены.

В планах — переход на гигабитные скорости с запуском спутников V3 на ракете Starship 3. 🚀
================
👁 News | 👁 Soft | 👁 Gear | 🌐 Links
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI представила GPT-5.2, свою новую модель ИИ

Компания заявила, что она лучше справляется с созданием электронных таблиц, презентаций, обработкой изображений, написанием кода и пониманием широкого контекста. GPT-5.2 с 11 декабря доступна для платных пользователей в ChatGPT и его интерфейсе прикладного программирования.
Ученые и специалисты Института лингвистических исследований Российской академии наук (ИЛИ РАН) на основе анализа российских СМИ описали уже как минимум 90 новых слов и словосочетаний, появившихся в 2025 году в русском языке, рассказал ТАСС доктор филологических наук, ведущий научный сотрудник ИЛИ РАН, руководитель группы Словарей новых слов Валерий Ефремов.

"Мы [лексикографический ресурс "Новое в русской лексике" ИЛИ РАН] в 2025 году уже зарегистрировали 90 новых и словосочетаний. К примеру, мы зафиксировали слова "вайб-программирование", "брейнрот-персонаж", "зумерский", "нацмессенджер", "лабубный", "лабубоман", - рассказал ТАСС Ефремов и уточнил:
"При доработке данных 2025 года мы ожидаем как минимум еще не меньше двухсот неологизмов".
Новые слова и словосочетания отражают процессы, возникающие в языке как в зеркале жизни российского общества. Например, в 2025 году в русском языке появилось словосочетание "банковский абьюзер", обозначающее человека, который ищет "выгодные ставки в разных банках" и "переводит деньги с вклада на вклад", что может сообщать о существующей проблеме. Другая польза от регистрации новых слов заключается в том, что человек может узнавать их значения, встречаясь с ними в интернете, например значения таких слов, как "кофе-рейв" и "чатгейт", не зарегистрированных ни в каких иных источниках.


По мнению Ефремова, в ближайшее время в толковые словари обязательно войдет слово "вайб", которое "очень важно" для современной культуры и обрастает множеством производных слов; войдут многие слова, которые связаны с аббревиатурой "ИИ" (искусственный интеллект), и слово "нейросети", потому что вещи, обозначаемые ими, хотя и возникли недавно, но глубоко проникли в жизнь людей. При этом есть слова, которые резко появлялись в русском языке в прошлые годы, но в нем не прижились и быстро из него ушли или еще уйдут, например "тамагочи", "бала-баяна" и "квадробер".

Другими словами и словосочетаниями, появившимися в русском языке в 2025 году, являются "байкшеринг", "бедроттинг", "бумераскер", "вайб-кодер", "инфлейшеншип", "гиблификация", "манки-брэнчинг", "сигналгейт" и множество иных.
ОЧЕЛОВЕЧИВАЕМ любой текст от нейронки и обходим ВСЕ самые мощные ИИ-детекторы — нашли мастхев для школьников и студентов на время зимней сессии.

The AI Text Humanizer перепишет сгенерированный текст так, что его НЕВОЗМОЖНО будет отличить от человеческого.

Обходит МОЩНЕЙШИЕ детекторы нейротекста, в том числе Turnitin, ZeroGPT, QuillBot и Grammarly. Не придерется даже самый душный препод.
Уберет все нейроштампы, очеловечит формулировки, удалит канцеляризмы и при этом сохранить весь смысл текста. Вы получите буквально идеально написанную работу!
ЗНАЕТ и понимает русский язык и при этом учитывает контекст задачи.
• Идеально скопирует ваш стиль!

😶😶😶😶😶😶😶😶😶

Забираем себе имбу — здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Правительство утвердило новые правила для попадания программно-аппаратных комплексов с ИИ в реестр отечественного ПО, сообщили в аппарате кабмина.

Теперь производители должны иметь собственный центр обработки данных мощностью не менее 10 МВт, хранилище объемом от 1 эксабайта и вычислительные мощности на не менее чем 1 тыс. графических процессоров на территории России.
Дайджест вакансий

💙 Вышка

Менеджер по работе с абитуриентами

  Альфа-Банк

Стажер-финансовый аналитик в управление развития эффективности сотрудников

Стажер-социолог в управление маркетинговых исследований

Стажер-IT проектный менеджер в дирекцию разработки онлайн каналов юридических лиц

Стажер в дирекцию продвинутой аналитики рисков

❤️  RWB

Программист-математик (Логистика / Маршрутизация)

Data Analyst (Автоматизация складов)

Ассистент менеджера по работе с партнерами

💎  ТеДо

Специалист / трансформация промышленных компаний

Специалист / проверка бухгалтерских данных

🔔  Тематическая стажировка

Стажировка / КонсультантПлюс

💸  Финансы

Стажер / Департамент финансовых институтов / Аудиторско-консалтинговая группа ФБК

Стажер в отдел по работе с субсидиями и целевыми программами / РФС

🎓  Юриспруденция

Стажер-юрист / Nestle

Младший юрист / Департамент правового консалтинга / Аудиторско-консалтинговая группа ФБК

🤝  Продажи

Специалист в отдел продаж и маркетинга / Viventis Development

👨‍🏫  Обучение

Преподаватель курсов по математике (ОГЭ и ЕГЭ) / Учеба.ру

☕️  Удаленка

Junior SMM-дизайнер / федеральный телеканал холдинга Газпром медиа

#вакансиидня_hsecareer
Please open Telegram to view this post
VIEW IN TELEGRAM
1
⚡️ «Норникель» выложил MetalGPT-1 - 32B LLM, обученную на миллионe закрытых технологических документов по металлургии и добыче.

Важно не только то, что это доменная модель. Важно каким типом данных её кормили.

Технологические протоколы, регламенты, НИОКР, строй- и проектная документация - это не тексты в привычном ML-смысле.

Это формализованные фрагменты производственного мира: язык процессов, цепочек, ограничений, рисков.
Обучая LLM на таком корпусе, компания фактически создаёт отдельный “data-reality layer”, который универсальные модели просто не видят. И в этом - главная новость.

Появляется новая парадигма: не “адаптируем GPT под домен”, а строим ИИ вокруг индустриального мира как первичного источника данных.

MetalGPT-1 - всего лишь первый пример. Дальше будут модели для химтеха, логистики, энергетики, строительства. У каждой отрасли — собственный язык, собственный датасет, собственная реальность.
И это значит, что domain-first LLM перестают быть экспериментом. Они становятся инфраструктурой.

#llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Boston Dynamics показала работа Atlas, работающего на ИИ-мозге класса “Large Behavior Model”.

Робот выполняет полноценные складские задачи - например, укладывает коробки. Один модуль управляет всем: ходьбой, приседанием, подъёмом, балансом. Навыки не программировали вручную- Atlas научился им по демонстрациям человека.

Это шаг от «заранее прописанных движений» к автономному поведению: единая модель, способная учиться и выполнять сложные моторные задачи.

#ai #robots #BostonDynamics
🌟 OMC25: датасет для вычислительной химии.

ОMC25 - крупнейший набор данных по молекулярным кристаллам, рассчитанный методом теории функционала плотности (DFT) в пакете VASP.

В основе датасета лежат структуры, полученные из траекторий релаксации молекулярных кристаллов. Сами исходные кристаллы были сгенерированы с помощью инструмента Genarris 3.0, который, в свою очередь, использовал молекулы из известного набора OE62. Это обеспечивает преемственность данных и четкую привязку к проверенным химическим структурам, но масштаб здесь совершенно иной.

Тренировочная часть содержит почти 25 млн. фреймов. Это данные по 207 тыс. кристаллов, которые, в свою очередь,  произошли от 44 тыс. уникальных молекул.

Валидационная часть меньше, но тоже весовая: около 1,4 миллиона кадров. Данные упакованы в формате ase-db как объекты LMDBDatabase, что является стандартом в задачах машинного обучения для химии.

Исходные кристаллы были созданы программой Genarris 3.0. Она, в свою очередь, использовала молекулы из популярного набора OE62. Так что у данных есть четкая привязка к проверенным химическим структурам.

Работа с данными сета происходит через библиотеку fairchem. Каждая структура хранится как объект ASE Atoms, что привычно для инженеров, работающих с атомистическим моделированием.

Ключевые метки для обучения моделей включают полную энергию DFT, силы, действующие на атомы, и тензор напряжений . Это "каноническая троица" для обучения межатомных потенциалов. Помимо физических величин, в атрибуте atoms.info зашиты критически важные метаданные.

Помимо самого набора, авторы выложили базовый чекпоинт eSEN-S, обученный на всём OMC25.


📌Лицензирование : CC-BY-4.0 License


🟡Датасет
🟡Модель
🖥GitHub


#AI #ML #Dataset #FAIR #Chemistry
Please open Telegram to view this post
VIEW IN TELEGRAM
Обожаю читать технические чаты нашей необьятной, это лучше любого сериала и кино, особенно когда идет какой-нибудь дичайший спор, и не дай Боже о новой какой-то технологии. Просто кладезь инфы и характеров. Публика фолиантами готова перекидываться. До победного будут доказывать что-то друг другу )))
Русская техническая школа - вещь !!!
💯2
🧠 RamTorch: Эффективное использование памяти для глубокого обучения

RamTorch — это библиотека для PyTorch, оптимизирующая использование памяти при обучении и выводе больших моделей, которые не помещаются в память GPU. Она использует гибридные реализации компонентов нейронных сетей, храня параметры в памяти CPU и передавая их на GPU по мере необходимости.

🚀 Основные моменты:
- Эффективные линейные слои с хранением параметров на CPU
- Асинхронные CUDA потоки для минимизации задержек
- Поддержка оптимизатора ZeRO-1 для распределенного обучения
- Совместимость с существующим кодом PyTorch

📌 GitHub: https://github.com/lodestone-rock/RamTorch

#python