DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
Создатель Linux отстранил от работы 11 программистов из-за их связи с Россией.

Вчера компания исключила 11 человек из списка разработчиков, отвечающих за стабильность ядра операционной системы Linux. Формальным поводом стало «выполнение требований комплаенса (соответствия нормам)». Реальных причин никому не озвучили. Все отстранённые работали под доменом .ru, поэтому основным предположением стало происхождение программистов. Сегодня основатель Linux Линус Торвальдс фактически подтвердил это.

«Совершенно ясно, почему было внесено изменение [в список разработчиков], оно не отменяется. <...> Если вы еще не слышали об антироссийских санкциях, вам стоит как-нибудь почитать новости. И под «новостями» я не имею в виду спонсируемый российским государством спам.

Я финн. Неужели вы думали, что я буду поддерживать российскую агрессию? Очевидно, дело не только в отсутствии реальных новостей, но и в недостаточном знании истории».
Американец использовал сеть из тысяч графических процессоров, чтобы рассчитать самое большое на данный момент известное простое число. Им оказалось 2¹³⁶²⁷⁹⁸⁴¹-1. Архив с записью этого числа занимает 18,3 Мб. За "находку" американец получит $3к.

Намайнил что-то действительно полезное
😁3
Mini-Omni - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.

Функциональные возможности модели:

🟢speech-to-speech в реальном времени. Не требуются дополнительные модели ASR или TTS;

🟢генерация текста и аудио одновременно;

🟢потоковое воспроизведение аудио;

🟢пакетное преобразование "speech-to-text" и "speech-to-speech".

Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.

Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.

Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.

В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Nemotron-Mini-4B-Instruct - небольшая модель, полученная в результате файнтюна, обрезки (pruning), дистилляции и квантования модели Minitron-4B-Base.

Эта модель оптимизирована для roleplay-сценариев, RAG QA и вызова функций на английском языке.

Практическое применение модели ориентировано на интеграции в гейм-разработке, преимущественно - в экосистеме NVIDIA.

Модель обучалась в период февраль-август 2024 года.

При создании Nemotron-Mini-4B-Instruct использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).

▶️Технические характеристики:

🟢total params - 4B;
🟢embedding size - 3072;
🟢attention heads - 32;
🟢MLP intermediate dimension - 9216;
🟢input context - 4096.

Пример инференса в Transformers, шаблоны простого промпта и instruct- шаблон в карточке модели на Huggingface.

Есть неофициальные квантованные (imatrix) GGUF - версии модели в 8 разрядностях, от 3-bit (2.18 Gb) до 16-bit (8.39 Gb) для запуска в llama.cpp и LM Studio.


📌Лицензирование : NVIDIA Community Model License.


🟡Страница модели на NGC Catalog
🟡Модель
🟡GGUF
🟡Arxiv
🟡Demo
Please open Telegram to view this post
VIEW IN TELEGRAM
Крутое событие для мобильных разработчиков — Я.Субботник 16 ноября!

Встречаемся на масштабном митапе в московском офисе Яндекса на «Парке культуры».

В программе — доклады об iOS и Android, экскурсия по «Красной Розе» и командный квиз с участием автора блога Mobile Developer Алексея Гладкова и руководителя мобильной разработки Супераппа Яндекса Артура Василова. А ещё нетворкинг и афтерпати с угощениями и напитками.

Регистрируйтесь и присоединяйтесь офлайн или онлайн.
👍1
⚡️ Прими участие в хакатоне Т1 2024 в Москве и поборись за призовой фонд в 1 200 000 рублей!

Когда: 26-29 ноября 2024
Формат: гибридный
Призовой фонд: 1 200 000 рублей

🔥 Хакатон Т1 2024 создан для тебя, если ты:

– Выпускник вуза или молодой специалист;
– Студент старших курсов технических вузов;
– Специалист по frontend или backend-разработке, системный аналитик, AI-специалист.

❗️На хакатоне тебе будут предложены 2 кейса:

1. Хаб: объединение данных пользователя в золотую запись
Создайте методику, которая поможет найти "золотую запись" в большом наборе данных, используя признаки актуальности, частоты и полноты.

2. Окно знаний: цифровой ассистент базы знаний Создайте платформу, которая позволит пользователям разрабатывать окна взаимодействия с ассистентом, интегрируя собственные базы знаний.

▶️ Регистрация открыта! Успей зарегистрироваться до 25 ноября, 23:59 МСК по ссылке.
⚡️ Прими участие в хакатоне Т1 2024 в Санкт-Петербурге и поборись за призовой фонд в 800 000 рублей!

Когда: 15-18 ноября 2024
Формат: гибридный
Призовой фонд: 800 000 рублей

🔥 Хакатон Т1 2024 создан для тебя, если ты:
– выпускник вуза или молодой специалист;
– студент старших курсов технических вузов;
– специалист по frontend- или backend-разработке, системный аналитик, AI-специалист.

❗️На хакатоне тебе будут предложены 2 кейса:

1. Открытый WAF, закрытый доступ: Создание непробиваемой политики против инъекций. Примите участие в создании непреодолимого барьера для злоумышленников.

2. SprintHealth: Инновационный Анализ для Agile-команд. Создайте инструмент для оценки «здоровья» спринтов на основе детального анализа данных задач.

▶️ Регистрация открыта! Успей зарегистрироваться до 13 ноября, 23:59 МСК по ссылке.
🚀Analytics meetup - Системный анализ, метрики и дата-приложения: инструменты для успеха

1. Системный анализ с нуля. Внедрение в команду разработки — Михаил Сластной, РТК ИТ
Как конфигурации команд влияют на производительность и бюджеты? Какие роли нужны для эффективной разработки? Михаил расскажет о переходе команды от работы с бизнес-аналитиками (БА) к добавлению системных аналитиков (СА), покажет оригинальный метод градации специалистов и поделится опытом создания гибких и результативных процессов.

2. Как настроить аналитику при выходе продукта на новые рынки — Алёна Трескова, Яндекс
Разбор реальных кейсов выхода на международные рынки. Как правильно выбрать метрики, учесть культурные и языковые особенности разных стран и обеспечить бесперебойный мониторинг KPI. Полезно для аналитиков, продактов и тех, кто планирует расширение на зарубежные рынки.

3. Создание дата приложений при помощи Taipy — Бояджи Владислав, МТС
Узнайте, как сэкономить время на разработке дата-приложений с помощью фреймворка Taipy. Это идеальное решение для аналитиков и дата-сайентистов, позволяющее быстро создать веб-интерфейс для модели или визуализации данных, не тратя усилия на ручную разработку.

Модератор Антон Комаров
Evrone

Эксперт Михаил Сластной
РТК ИТ, Начальник отдела



🗓 6 ноября, начало в 19:00 мск, Среда

🌐 ОНЛАЙН

Регистрация на мероприятие
👍1
Кодишь лучше, чем пишешь курсовую? Тогда тебе на Alfa Hack — хакатон по направлениям Data Science, Data Analysis и ML от Альфа-Банка! ❤️

Ты сможешь:
➡️ побороться за денежный приз из фонда 500к и получить фаст-трек в команду Альфы;
➡️ потусить на финале в Москве;
➡️ понетворкаться с экспертами;
➡️ прокачать Python и погрузиться в актуальные задачи бизнеса.

Не упусти возможность стать частью команды Альфы — регистрируйся до 31 октября и участвуй из любой точки России: https://u.to/2173IA
Please open Telegram to view this post
VIEW IN TELEGRAM
Можно ли уронить большую систему, внедряя паттерны для повышения надёжности?

Можно уронить всё, что угодно 😅
А вот как этого не сделать — расскажем на бесплатном вебинаре Слёрма 

«Паттерны построения отказоустойчивых приложений на Golang»

Рассмотрим:

😄 базу: таймауты и ретраи (linear, exponential backoff)
😄 продвинутые паттерны: graceful degradation, bulkhead isolation, feature flags

⚡️Спикер вебинара — Виталий Лихачёв, SRE в booking.сom

➡️ 31 октября в 19:00 мск
➡️ Занять место на вебинаре — по ссылке

#реклама
О рекламодателе
erid: LjN8KQ8AJ
🏆 Business camp Х5 - оплачиваемая программа для студентов и выпускников, которые хотят развиваться в мире бизнеса и IT

Компания X5 Group открывает свои двери для начинающих профессионалов, готовых к карьерному росту и новым вызовам.

Почему стоит подать заявку?
- Получишь полезный опыт: 6 месяцев ты будешь работать над реальными проектами
- Забудешь про скучные задания: на Business camp Х5 у тебя будет возможность генерить идеи и воплощать их в дружном коллективе
- Гибкий график работы: сможешь работать от 20 до 40 часов в неделю

Для кого?
- Ты - студент 3−4 курса бакалавриата или 1−2 курса магистратуры (выпускаешься в 2025 / 2026)
- Готов(а) работать в Москве
- Средний балл 4.7 и выше (по пятибалльной шкале)

Направления: Data Science, Data Engineering, IT, Бизнес-аналитик

❗️Заявки принимаются до 10 ноября 2024 года

💫 Регистрируйся и открывай новые карьерные горизонты вместе с X5 Group - https://vk.cc/cD3qLb?erid=LjN8KbvDt
💬 КРОК проводит серию митапов про people-менеджмент

Во втором выпуске поговорят про работу с зумерами – разницу поколений, майндсет руководителя и форматы развития молодых специалистов.

Среди гостей — те, кому есть чем поделиться о работе с людьми:
– Денис Медведев, руководитель группы менеджеров по продажам, КРОК
– Кристина Чебыкина, руководитель группы консультантов и разработчиков 1С, КРОК
– Максим Чижин, руководитель группы инженеров дата-центра, Selectel

Когда: 29 октября (вт)
Во сколько: 19:00 по мск
Где: встречаемся онлайн

Зарегистрироваться и узнать про следующие выпуски можно по ссылке: http://croc.global/2gf

Реклама. ЗАО «КРОК инкорпорейтед», ИНН 7701004101, erid 2VtzqwJsyQ8