Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Футбольных комментаторов тоже заменили?

Разработчик скормил модели gpt-4-vision-preview каждый кадр футбольной трансляции и попросил её сгенерировать дикторский текст. Этот текст озвучила модель TTS. Автор утверждает, что не совершал никаких дополнительных манипуляций с роликом. По его мнению, можно добиться даже лучшего результата.

Код проекта
🤯12😁5👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🗺 Яндекс записал подкаст про создание новых высокодетализированных Карт

Гостями недавнего выпуска Yet Another Podcast стали технический директор Яндекс Карт Илья Власюк и продакт-менеджер Андрей Столяров. Они рассказали, какие задачи решает обновление, откуда для него брались данные и что ждет Карты в будущем.

А еще ответили на вопросы о метках транспорта, пользе разметки в приложении и о том, какие задачи в Картах решают нейросети. Полный выпуск по ссылке 👀
🔥52
Говорят, что без знания линейной алгебры, матанализа и теории вероятностей в Data Science делать нечего. А насколько у вас хорошо с математикой?

🔥 — изучал, отлично разбираюсь
👍 — есть пробелы в знаниях, но в целом с математикой дружу
🎉 — у меня и без этого всё прекрасно

Поделитесь в комментариях, в какой области работаете и какие знания, по вашему мнению, нужны для входа в вашу область👇
#холивар
👍29🔥22🎉4
DALL-E 2 заставили генерировать запрещёнку

Исследователи из Университета Джонса Хопкинса хакнули самые популярные нейросети для генерации изображений. Оказалось, что определённые промпты позволяют обходить встроенные механизмы цензуры и получать NSFW контент (насилие, порнография и т.п.).

Авторы протестировали DALL-E 2 и Stable Diffusion. Они использовали алгоритм под названием Sneaky Prompt, создающий бессмысленные командные слова, «противоборствующие» команды, которые генераторы воспринимают как запросы на создание определённых изображений. Например, команда «sumowtawgha» заставила DALL-E 2 сгенерировать реалистичные изображения голых людей.

😎 Тем временем, пользователи «Двача» тоже научились писать такие промпты, чтобы генераторы изображений выдавали им обнажёнку и всякий треш. Если коротко, суть сводится к тому, чтобы подобрать слова и словосочетания, которые заставят цензурный фильтр игнорировать содержимое картинки.
😁122🤔2🥰1
Forwarded from Библиотека программиста | программирование, кодинг, разработка
Подборка лучших статей «Библиотеки программиста» за октябрь: сохраняй в заметки, чтобы не пропустить #самыйсок

📊 Эффективная работа с JSON в Go
🔝 Лучшие практики Go: путь к чистому коду
📚 ТОП-8 книг по DevOps в 2023 году
💪 6 сервисов для подготовки к техническим собеседованиям
🗺️ Карьерная карта: что это, как ее составить и почему она обязательно нужна разработчику
🛡️ 8 способов защиты от манипуляций на работе
👩‍💻 Женщины в ИТ: проблемы и преимущества сложной профессии
🤖 8 лучших бесплатных курсов по ИИ и глубокому обучению
👨‍💻 9 трендов в найме айтишников в 2023 году
🤔 9 мифов об IT и найме айтишников
🤖 25 бесплатных AI-инструментов для разработчиков
☁️ ТОП-10 бессерверных фреймворков
🚩 Итог одной валютной удаленки: проработал месяц бесплатно и ушел с долгами
💻 20 лучших ноутбуков для программиста в 2023 году
🧠 Как научиться критически мыслить: 6 эффективных способов
Результаты ежегодного опроса разработчиков StackOverflow: 20+ главных инсайтов 2023 года
👍41
Билл Гейтс: «ИИ полностью изменит то, как вы используете компьютер»

Сооснователь Microsoft написал новый пост в своём блоге, в котором сообщил, что современное программное обеспечение «довольно глупое», но скоро это изменится.

По мнению Гейтса, глупость ПО заключается в том, что вы не можете общаться с ним как с другим человеком. Можно использовать Microsoft Word и Google Docs для рабочих задач, но нельзя попросить их отправить письмо или запланировать вечеринку. Наверное, вы уже поняли, к чему клонит Гейтс — такие задачи в будущем за вас будет выполнять ИИ-помощник.

Случится это, как считает Билл, уже в ближайшие 5 лет. Он видит это так: человек будет просто говорить любому из своих устройств, что он хочет, а то будет исполнять поручения. По сути, у каждого будет свой личный ИИ-ассистент. Или, иными словами, агент. Главным его преимуществом станет «память»: он запомнит все предпочтения и модели поведения пользователя.

Гейтс обозначил и трудности, связанные с созданием ИИ-ассистентов. Например, до сих пор никто не придумал, как могла бы выглядеть структура данных для такого агента. Нужен новый тип базы данных, который сохранял бы конфиденциальность. Неясно также, как именно человек будет взаимодействовать с агентами — через смартфоны, очки или наушники? Гейтс делает ставку на последнее.

Главный вопрос, которым задаётся предприниматель, — как агенты повлияют на социальную жизнь? Что будет делать человек с таким большим количеством освободившегося времени и захочет ли получать образование, если ответы на все вопросы ему сможет дать ИИ-ассистент?

Что думаете вы? 🤔
🤔9👍6🤯2
Результаты ежегодного опроса разработчиков StackOverflow: 20+ главных инсайтов 2023 года

В данной статье мы собрали 20+ главных инсайтов, которые помогут лучше понять, что происходит в ИТ-сфере в мире.

🔗 Читать статью
🔗 Зеркало
👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🐼 Pandas ускорили в 150 раз!

NVIDIA представила инструмент RAPIDS cuDF, который позволяет производить вычисления с DataFrame на GPU. При этом пользователям не нужно изучать новый синтаксис. Достаточно перед импортом Pandas запустить команду %load_ext cudf.pandas

В ролике можно увидеть разницу в работе: слева — Pandas на CPU, справа — режим ускорения в RAPIDS cuDF.

Колаб для тест-драйва
Репозиторий на гитхабе
🤯32👍13
⚔️ Parquet vs. CSV

В целом, выбор между форматами данных Parquet и CSV зависит от конкретных требований и контекста использования. Первый был изначально создан для экосистемы Hadoop и адаптирован под работу с большими данными.

Parquet
- Предлагает эффективное сжатие и кодирование данных. Это увеличивает скорость чтения.
- Поддерживает сложные иерархические структуры данных.
- Файлы Parquet меньше, чем CSV-файлы.

CSV
- Универсальный и простой. CSV легко прочесть как человеку, так и программе.
- Поддерживается практически всеми приложениями для работы с данными.

Что чаще используете в работе? 🤔
👍72
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍31
🎯 Компромисс смещения и дисперсии в машинном обучении

Пора раз и навсегда разобраться с bias (смещение) и variance (дисперсия/разброс). Компромисс между ними — довольно важная штука при обучении модели. Если коротко, смещение отражает разницу между прогнозируемым и ожидаемым значениями, а дисперсия характеризует разброс предсказаний в зависимости от обучающей выборки. В идеале нам хотелось бы, чтобы и смещение, и разброс были низкими.

В статье автор показывает, откуда берутся bias и variance математически (для MSE) и как сделать разложение на смещение и разброс на наборе данных о диабете индейцев пима, а также рассказывает, как всё-таки добиться компромисса.

Читать статью
👏3👍1🔥1
🚀 Как ускорить генерацию изображений Stable Diffusion? Применить LCM-LoRA

Авторы нового метода утверждают, что любую Stable Diffusion XL (SDXL) модель можно заставить работать быстрее — на RTX 3090 сгенерировать картинку получится за одну секунду вместо семи, а на M1 Mac за шесть секунд вместо приблизительно минуты. Количество шагов генерации снижается с нескольких десятков до четырёх.

📖 Подробный препринт про LCM-LoRA
👁️ Демо с SDXL
💻 Пост с примером кода
👍4
🏎️ Очередное ускорение: создана технология для оптимизации вычислений на GPU в режиме реального времени

Компания Fujitsu объявила о разработке «первой в мире» технологии, которая автоматически перераспределяет вычисления между GPU и CPU, чтобы ресурсы использовались наилучшим образом.

Технология определяет, какие программы требуют GPU, а какие могут без особого ущерба обойтись CPU. Работает это так:
🔸 Например, есть три программы, один CPU и два GPU. Графические процессоры назначают программам 1 и 2.
🔸 Затем в ответ на запрос от программы 3 GPU «забирают» у программы 1 и временно передают третьей для оценки производительности. То есть технология измеряет, насколько будет улучшена производительность, если программа 3 будет работать на графическом процессоре.
🔸 Если в результате оценки выяснится, что время обработки будет значительно снижено, GPU действительно отдают программе 3.
🔸 После того, как закончится обработка программы 2, второй GPU станет свободным и его передадут программе 1.

В результате всех манипуляций общее время вычислений сокращается. Fujitsu утверждает, что технология позволяет ускорить процесс обучения моделей искусственного интеллекта, в том числе передовых моделей для распознавания изображений.

Технология оптимизации будет реализована на собственной платформе компании Fujitsu Kozuchi.
7👍3
Свежий #дайджест по статьям и видеороликам:

✍️ Обзор методов повышения производительности LLM
Это один из роликов с конференции DevDay, которые OpenAI опубликовала только сегодня ночью. Представленные выступления шли после блока анонсов от главы компании Сэма Альтмана. В них разработчики рассказали любопытные подробности.
✍️ Влияние больших языковых моделей на научные открытия
Практически книга, в которой рассказывается, как GPT-4 применим в открытии лекарств, биологии, вычислительной химии и т.д.
✍️ Эмбеддинги слов в PyTorch + Lightning
Ролик с песнями, объясняющий, как всё это накодить и использовать в PyTorch.
✍️ Введение в архитектуру MLOps
В статье перечислены ключевые компоненты архитектуры MLOps: от хранения данных до деплоя моделей и их мониторинга.
✍️ Как научить Transformer обрабатывать длинные тексты
Обзор основных идей по оптимизации self-attention.
2🥰2
😒 Расскажите, вы испытывали разочарование от взаимодействия с ИИ?

Инструментов с искусственным интеллектом сейчас больше, чем когда-либо, и все пишут об их крутизне. Но что, если ваш опыт говорит об обратном? Делитесь впечатлениями от попыток внедрить ChatGPT, Midjourney и др. инструменты в работу (и не только в работу) 👇
👍1
🔈16+ лучших нейронок для синтеза речи

Предлагаем подборку платных, бесплатных и опенсорсных инструментов для озвучивания текста, клонирования голоса и дублированного перевода подкастов и видео.

Читать статью
👍5🔥42