DenoiseLAB
486 subscribers
1.34K photos
163 videos
3 files
1.6K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.

Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.

FireDucks побеждает с отрывом.

⛓️Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks

⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo

⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb

⛓️И наконец, бенчмарки, с которыми стоит ознакомиться:

https://fireducks-dev.github.io/docs/benchmarks/
⚡️Китайцы из Alibaba мощно прокачали свою нейросеть Qwen2.5 Max и выкатили думающую модель QwQ-Max-Preview.

• Она умеет кодировать, решать математические задачи, создавать игры, писать тексты и проводить исследования;
• По сравнению с Qwen2.5-Max, она намного умнее и гораздо более креативна;
• Работает бесплатно из браузера и без VPN;
• Совсем скоро выкатят приложение на Android и iOS.

Пробуем тут. Нужно выбрать модель 2.5 Max и нажать на Thinking QwQ.
⚡️⚡️⚡️Первая open-source модель переноса головы на фото — GHOST 2.0

Сегодня мы выпустили первую модель для переноса головы на фото с открытым кодом — GHOST 2.0. Модель продолжает наследие семейства моделей переноса лиц на фото и видео (GHOST).

Архитектура GHOST 2.0 модели включает две составляющих:
🟢 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника
🟢 Blender позволяет "встроить" голову в целевую картинку с сохранение свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)

Самое интересное, что в open source таких моделей по сути нет и самый ближайший аналог — это модель HeSer 2022 года, которую по метрикам удалось обойти. Также мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении, чтобы постараться учесть сложные кейсы, когда голова-источник отличается от области встраивания по форме, положению, причёске и т.д. Подробно про эти эксперименты можно почитать в детальном тех репорте.

Внизу по ссылочке можно поиграть с демкой, почитать Хабр и собственно развернуть у себя код, чтобы изучить "нутро" модели. В ближайшее время обновим TG бот, и я отдельно оповещу об этом)

⚡️По сложившейся традиции все наши статьи стараемся номинировать на Paper of the day на Hugging Face — буду очень рад вашим Upvote голосам👇
https://huggingface.co/papers/2502.18417

Полезные ссылки:
👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Хабр: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page: https://ai-forever.github.io/ghost-2.0/
Данные – это сердце и кровеносная система IT-архитектуры, питающая бизнес жизненно важными ресурсами. Эффективное управление ими укрепляет иммунитет компании, помогает достигать высоких результатов, обеспечивать лидерство и открывать новые возможности для развития.

17 апреля приглашаем вас на Дата Саммит «Пульс данных»! Эксперты ведущих компаний и госструктур (к участию приглашены представители Минцифры, Сбербанка, Росатома, Ростеха, Роснефти, Axenix и других крупнейших игроков рынка) – поделятся практическим опытом внедрения решений для управления данными, обсудят ключевые тренды и перспективы.

Что вас ждет на Саммите:

Данные + ИИ: новый уровень
Покажем, как искусственный интеллект уже встроен в решения по управлению данными, какие задачи он автоматизирует и как максимально эффективно его использовать.

❗️ Премьера: Селена – высокопроизводительная Lakehouse-платформа
Впервые представим Селену – платформу для аналитики в реальном времени. Презентацию проведет RnD-инженер, готовый ответить на любые вопросы.

🤝🏻 Нетворкинг с лидерами индустрии
Уникальная возможность пообщаться с CDO, CDTO, директорами по данным и экспертами крупнейших компаний, обменяться опытом и наладить полезные связи.

Присоединяйтесь, чтобы почувствовать пульс ваших данных!
Участвовать можно как лично, так и онлайн.

👉🏻 Зарегистрироваться
В Москве появятся беспилотные поезда метро — таким образом власти столицы хотят снизить интервалы между поездами в час пик.

Начнут с Большой кольцевой линии — там уже готовят сеть 5G для быстрой связи с «беспилотниками».
🔥1
⚡️ GPT-4.5 ТУТOpenAI только что анонсировали новую модель.

Она в РАЗЫ лучше конкурентов по понимаю промтов, почти не выдумывает инфу и самое главное — куда креативнее. Суперского буста в программировании ждать не стоит — o1 и o3 пока делают это лучше.

Начинают раскатывать уже сегодня, пока для подписчиков и по API.
🥱1
ИИ открыл новый способ считать. Но вы всё равно продолжите пользоваться калькулятором

ИИ должен упростить нашу жизнь, да? Ну так вот, вместо того, чтобы просто запомнить, что 2+2=4, GPT-J делает что-то похожее на тригонометрический ритуал. Он кодирует числа на многомерной спирали, раскладывает в базис косинусов, а сложение выполняет через преобразования, которые нормальный человек даже на экзамене по линалу не вспомнит.

Исследователи попытались разобраться, как LLM складывают числа, и обнаружили, что модели вроде GPT-J-6B кодируют и обнаружили метод, который назвали Clock algorithm, потому что сложение выполняется как сложение углов: через cos(a), cos(b) → cos(a+b) и напоминает сложение углов на циферблате.

Векторные представления чисел исследовали через остаточный поток модели, прогоняя GPT-J-6B на всех числах из диапазона [0,360]. Спектральный анализ показал, что представление разрежено в пространстве Фурье, а главная компонента PCA оказалась линейной. А что у нас такое периодическое и линейное? Спираль!🌀

x = r cos t
y = r sin t
y = c t

Проверили это гипотезу, подбирая параметры спирали для представления каждого числа. Оказалось, что токены, представляющие суммы (a+b), хорошо описываются этой же основой, что говорит о реальном использовании модели такого механизма.

🛠 Как проверить, что модель действительно так считает?
✔️ Intervention patching: заменили активации слоёв модели на вычисленные вручную спиральные представления и обнаружили, что это почти так же хорошо, как полная подмена слоя! Значит, модель действительно использует эту структуру.
✔️ Разделение ролей между слоями: слои MLP 14-18 формируют спиральное представление (a+b), а слои 19-27 считывают его и поднимают соответствующий токен в логитах.
✔️ Разбор нейронов: используя атрибуционные техники, исследователи выяснили, что активации нейронов MLP тоже следуют периодическим паттернам, что дополнительно подтверждает гипотезу о геликоидальном (спиральном) сложении.

Почему это важно?
Оказывается, вместо того, чтобы просто запоминать суммы, модель самостоятельно выучивает сложную, но универсальную алгоритмическую структуру! Этот же метод ранее встречался в исследованиях модульного сложения в трансформерах, который раньше описывал Neel Nanda. LLM не просто таблицы с вероятностями, а какие-то самоорганизующиеся вычислительные системы.
В любом случае, может, машинное обучение и не всегда дает интуитивно понятные решения, но точно умеет находить красивые и неожиданные пути.

🔗 Источники:
📜 arxiv
📝 Блог
💻 Код

#articles #models
🔥1
🐳Разбирал фотки, в этом здании располагается офис Хабр.ру. В прошлом году, были там на конфе.
https://github.com/DenoiseLAB/HSE_Assistant_Hack - запушил наше решение по HSE Assistant Hack. Очень долго мы там тюнили все, прям реально долго подбирали гиперпараметы и по итогу взяли первые места на лидерборде как на привате так и на паблике.
https://github.com/DenoiseLAB?tab=repositories - периодически сюда пушу, неплохие решения которые были за практику.

#coding
DenoiseLAB pinned «https://github.com/DenoiseLAB?tab=repositories - периодически сюда пушу, неплохие решения которые были за практику. #coding»
This media is not supported in your browser
VIEW IN TELEGRAM
«Бегущий по лезвию 2049»: китайская компания BYD совместно с DJI начала продавать систему запуска дронов с крыши для всех своих авто

По задумке, коптер будет снимать пейзажи и красивые пролеты рядом с тачкой, а также помогать ориентироваться на бездорожье.

Он взлетает по нажатию одной кнопки и автоматически возвращается на место.

#technology
https://github.com/natasha/slovnet - если вы вдруг ищите NLP на русском, всякие тулзы и корпуса слов, мимо этого вы не пройдете.
Режиссёр-самоучка сделал в бесплатной программе мульт, который нагнул Disney, забрал «Оскар» и превратил чёрного кота в национального героя — рассказываем историю оглушительного успеха «Потока».

Гинтс Зильбалодис с детства мечтал сделать крутой мульт — родители привили любовь к рисованию, оставалось только заставить картинки двигаться. В Латвии нет вышки для аниматоров, поэтому Гинтс вооружился гайдами на Ютубе и засел изучать Blender.

Анимация диалогов получалась у парня хуже всего, поэтому он твёрдо решил — хорошая история обойдётся и без них. На сценарий без единой реплики у Гинтса и его друга ушло больше 3 лет.

Сюжет получился прост: в постапокалиптическом будущем котик выживает в мире, в котором нет людей. Он нашел убежище на лодке вместе с другими животными, однако ужиться с ними оказывается ещё сложнее, чем преодолеть свой страх воды.

Одна из главных фишек мульта — реалистичные движения персонажей. Зильбалодис и его команда просмотрели тысячи мемных видео с котиками и другими животными, параллельно посещая зоопарк. Там нашли и «актёров» — для мульта записывали звуки реальных животных.

Всё испортила капибара: её уговаривали, кормили, щекотали, а в ответ услышали лишь писк, который бил по ушам. В итоге капибару «озвучил» верблюд.

На амбициозного режиссёра с бюджетом в два дошика обратило внимания правительство — фонды Латвии, Франции и Бельгии выделили в сумме 3,5 миллиона евро. Для сравнения масштабов — у «Головоломки 2» от Disney бюджет свыше 200 млн долларов.

Инвестиции отбились — картина стала настоящим хитом, собрала 20 миллионов долларов, забрала «Оскар» за лучший мульт, а сам Гинтс радостно делится в Твиттере историями разработки.

Чёрный кот же стал героем в Латвии — хвостатому поставили статую в Риге, уличные художники рисуют арты с ним, а дата получения «Оскара» стала национальным праздником.

@exploitex