Forwarded from Библиотека Go-разработчика | Golang
❔ Результаты ежегодного опроса разработчиков StackOverflow: 20+ главных инсайтов 2023 года
В данной статье мы собрали 20+ главных инсайтов, которые помогут лучше понять, что происходит в ИТ-сфере в мире.
🔗 Читать статью
🔗 Зеркало
В данной статье мы собрали 20+ главных инсайтов, которые помогут лучше понять, что происходит в ИТ-сфере в мире.
🔗 Читать статью
🔗 Зеркало
👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🐼 Pandas ускорили в 150 раз!
NVIDIA представила инструмент RAPIDS cuDF, который позволяет производить вычисления с DataFrame на GPU. При этом пользователям не нужно изучать новый синтаксис. Достаточно перед импортом Pandas запустить команду %load_ext cudf.pandas
В ролике можно увидеть разницу в работе: слева — Pandas на CPU, справа — режим ускорения в RAPIDS cuDF.
Колаб для тест-драйва
Репозиторий на гитхабе
NVIDIA представила инструмент RAPIDS cuDF, который позволяет производить вычисления с DataFrame на GPU. При этом пользователям не нужно изучать новый синтаксис. Достаточно перед импортом Pandas запустить команду %load_ext cudf.pandas
В ролике можно увидеть разницу в работе: слева — Pandas на CPU, справа — режим ускорения в RAPIDS cuDF.
Колаб для тест-драйва
Репозиторий на гитхабе
🤯32👍13
⚔️ Parquet vs. CSV
В целом, выбор между форматами данных Parquet и CSV зависит от конкретных требований и контекста использования. Первый был изначально создан для экосистемы Hadoop и адаптирован под работу с большими данными.
⚫ Parquet
- Предлагает эффективное сжатие и кодирование данных. Это увеличивает скорость чтения.
- Поддерживает сложные иерархические структуры данных.
- Файлы Parquet меньше, чем CSV-файлы.
⚫ CSV
- Универсальный и простой. CSV легко прочесть как человеку, так и программе.
- Поддерживается практически всеми приложениями для работы с данными.
Что чаще используете в работе? 🤔
В целом, выбор между форматами данных Parquet и CSV зависит от конкретных требований и контекста использования. Первый был изначально создан для экосистемы Hadoop и адаптирован под работу с большими данными.
⚫ Parquet
- Предлагает эффективное сжатие и кодирование данных. Это увеличивает скорость чтения.
- Поддерживает сложные иерархические структуры данных.
- Файлы Parquet меньше, чем CSV-файлы.
⚫ CSV
- Универсальный и простой. CSV легко прочесть как человеку, так и программе.
- Поддерживается практически всеми приложениями для работы с данными.
Что чаще используете в работе? 🤔
👍7❤2
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈
👍3❤1
🎯 Компромисс смещения и дисперсии в машинном обучении
Пора раз и навсегда разобраться с bias (смещение) и variance (дисперсия/разброс). Компромисс между ними — довольно важная штука при обучении модели. Если коротко, смещение отражает разницу между прогнозируемым и ожидаемым значениями, а дисперсия характеризует разброс предсказаний в зависимости от обучающей выборки. В идеале нам хотелось бы, чтобы и смещение, и разброс были низкими.
В статье автор показывает, откуда берутся bias и variance математически (для MSE) и как сделать разложение на смещение и разброс на наборе данных о диабете индейцев пима, а также рассказывает, как всё-таки добиться компромисса.
Читать статью
Пора раз и навсегда разобраться с bias (смещение) и variance (дисперсия/разброс). Компромисс между ними — довольно важная штука при обучении модели. Если коротко, смещение отражает разницу между прогнозируемым и ожидаемым значениями, а дисперсия характеризует разброс предсказаний в зависимости от обучающей выборки. В идеале нам хотелось бы, чтобы и смещение, и разброс были низкими.
В статье автор показывает, откуда берутся bias и variance математически (для MSE) и как сделать разложение на смещение и разброс на наборе данных о диабете индейцев пима, а также рассказывает, как всё-таки добиться компромисса.
Читать статью
👏3👍1🔥1
🚀 Как ускорить генерацию изображений Stable Diffusion? Применить LCM-LoRA
Авторы нового метода утверждают, что любую Stable Diffusion XL (SDXL) модель можно заставить работать быстрее — на RTX 3090 сгенерировать картинку получится за одну секунду вместо семи, а на M1 Mac за шесть секунд вместо приблизительно минуты. Количество шагов генерации снижается с нескольких десятков до четырёх.
📖 Подробный препринт про LCM-LoRA
👁️ Демо с SDXL
💻 Пост с примером кода
Авторы нового метода утверждают, что любую Stable Diffusion XL (SDXL) модель можно заставить работать быстрее — на RTX 3090 сгенерировать картинку получится за одну секунду вместо семи, а на M1 Mac за шесть секунд вместо приблизительно минуты. Количество шагов генерации снижается с нескольких десятков до четырёх.
📖 Подробный препринт про LCM-LoRA
👁️ Демо с SDXL
💻 Пост с примером кода
👍4
🏎️ Очередное ускорение: создана технология для оптимизации вычислений на GPU в режиме реального времени
Компания Fujitsu объявила о разработке «первой в мире» технологии, которая автоматически перераспределяет вычисления между GPU и CPU, чтобы ресурсы использовались наилучшим образом.
Технология определяет, какие программы требуют GPU, а какие могут без особого ущерба обойтись CPU. Работает это так:
🔸 Например, есть три программы, один CPU и два GPU. Графические процессоры назначают программам 1 и 2.
🔸 Затем в ответ на запрос от программы 3 GPU «забирают» у программы 1 и временно передают третьей для оценки производительности. То есть технология измеряет, насколько будет улучшена производительность, если программа 3 будет работать на графическом процессоре.
🔸 Если в результате оценки выяснится, что время обработки будет значительно снижено, GPU действительно отдают программе 3.
🔸 После того, как закончится обработка программы 2, второй GPU станет свободным и его передадут программе 1.
В результате всех манипуляций общее время вычислений сокращается. Fujitsu утверждает, что технология позволяет ускорить процесс обучения моделей искусственного интеллекта, в том числе передовых моделей для распознавания изображений.
Технология оптимизации будет реализована на собственной платформе компании Fujitsu Kozuchi.
Компания Fujitsu объявила о разработке «первой в мире» технологии, которая автоматически перераспределяет вычисления между GPU и CPU, чтобы ресурсы использовались наилучшим образом.
Технология определяет, какие программы требуют GPU, а какие могут без особого ущерба обойтись CPU. Работает это так:
🔸 Например, есть три программы, один CPU и два GPU. Графические процессоры назначают программам 1 и 2.
🔸 Затем в ответ на запрос от программы 3 GPU «забирают» у программы 1 и временно передают третьей для оценки производительности. То есть технология измеряет, насколько будет улучшена производительность, если программа 3 будет работать на графическом процессоре.
🔸 Если в результате оценки выяснится, что время обработки будет значительно снижено, GPU действительно отдают программе 3.
🔸 После того, как закончится обработка программы 2, второй GPU станет свободным и его передадут программе 1.
В результате всех манипуляций общее время вычислений сокращается. Fujitsu утверждает, что технология позволяет ускорить процесс обучения моделей искусственного интеллекта, в том числе передовых моделей для распознавания изображений.
Технология оптимизации будет реализована на собственной платформе компании Fujitsu Kozuchi.
❤7👍3
Свежий #дайджест по статьям и видеороликам:
✍️ Обзор методов повышения производительности LLM
Это один из роликов с конференции DevDay, которые OpenAI опубликовала только сегодня ночью. Представленные выступления шли после блока анонсов от главы компании Сэма Альтмана. В них разработчики рассказали любопытные подробности.
✍️ Влияние больших языковых моделей на научные открытия
Практически книга, в которой рассказывается, как GPT-4 применим в открытии лекарств, биологии, вычислительной химии и т.д.
✍️ Эмбеддинги слов в PyTorch + Lightning
Ролик с песнями, объясняющий, как всё это накодить и использовать в PyTorch.
✍️ Введение в архитектуру MLOps
В статье перечислены ключевые компоненты архитектуры MLOps: от хранения данных до деплоя моделей и их мониторинга.
✍️ Как научить Transformer обрабатывать длинные тексты
Обзор основных идей по оптимизации self-attention.
✍️ Обзор методов повышения производительности LLM
Это один из роликов с конференции DevDay, которые OpenAI опубликовала только сегодня ночью. Представленные выступления шли после блока анонсов от главы компании Сэма Альтмана. В них разработчики рассказали любопытные подробности.
✍️ Влияние больших языковых моделей на научные открытия
Практически книга, в которой рассказывается, как GPT-4 применим в открытии лекарств, биологии, вычислительной химии и т.д.
✍️ Эмбеддинги слов в PyTorch + Lightning
Ролик с песнями, объясняющий, как всё это накодить и использовать в PyTorch.
✍️ Введение в архитектуру MLOps
В статье перечислены ключевые компоненты архитектуры MLOps: от хранения данных до деплоя моделей и их мониторинга.
✍️ Как научить Transformer обрабатывать длинные тексты
Обзор основных идей по оптимизации self-attention.
❤2🥰2
😒 Расскажите, вы испытывали разочарование от взаимодействия с ИИ?
Инструментов с искусственным интеллектом сейчас больше, чем когда-либо, и все пишут об их крутизне. Но что, если ваш опыт говорит об обратном? Делитесь впечатлениями от попыток внедрить ChatGPT, Midjourney и др. инструменты в работу (и не только в работу) 👇
Инструментов с искусственным интеллектом сейчас больше, чем когда-либо, и все пишут об их крутизне. Но что, если ваш опыт говорит об обратном? Делитесь впечатлениями от попыток внедрить ChatGPT, Midjourney и др. инструменты в работу (и не только в работу) 👇
👍1
🔈16+ лучших нейронок для синтеза речи
Предлагаем подборку платных, бесплатных и опенсорсных инструментов для озвучивания текста, клонирования голоса и дублированного перевода подкастов и видео.
Читать статью
Предлагаем подборку платных, бесплатных и опенсорсных инструментов для озвучивания текста, клонирования голоса и дублированного перевода подкастов и видео.
Читать статью
👍5🔥4❤2
Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
Чем отличаются друг от друга XGBoost, CatBoost и LightGBM?
⚫ XGBoost (eXtreme Gradient Boosting):
- Строит деревья одинаковой конкретной глубины. Построение идёт послойно, а затем отсекаются листья.
- Имеет механизмы регуляризации, чтобы предотвращать переобучение.
⚫ CatBoost:
- Специализируется на работе с категориальными данными и не требует их предварительной обработки.
- Использует симметричные деревья, что делает процесс обучения быстрее.
⚫ LightGBM (Light Gradient Boosting Machine):
- Строит деревья, ориентируясь не на уровень, а на каждый конкретный лист. Добавляет лист, если разделение по нему даёт прирост в информации.
- Использует технику называемую Gradient-based One-Side Sampling (GOSS), которая уменьшает количество данных в процессе обучения. За счёт этого возрастает скорость.
- Есть механизм Exclusive Feature Bundling (EFB), который объединяет взаимоисключающие переменные в одну. Это тоже увеличивает скорость расчёта.
Для лучшего понимания можно посмотреть лекцию
⚫ XGBoost (eXtreme Gradient Boosting):
- Строит деревья одинаковой конкретной глубины. Построение идёт послойно, а затем отсекаются листья.
- Имеет механизмы регуляризации, чтобы предотвращать переобучение.
⚫ CatBoost:
- Специализируется на работе с категориальными данными и не требует их предварительной обработки.
- Использует симметричные деревья, что делает процесс обучения быстрее.
⚫ LightGBM (Light Gradient Boosting Machine):
- Строит деревья, ориентируясь не на уровень, а на каждый конкретный лист. Добавляет лист, если разделение по нему даёт прирост в информации.
- Использует технику называемую Gradient-based One-Side Sampling (GOSS), которая уменьшает количество данных в процессе обучения. За счёт этого возрастает скорость.
- Есть механизм Exclusive Feature Bundling (EFB), который объединяет взаимоисключающие переменные в одну. Это тоже увеличивает скорость расчёта.
Для лучшего понимания можно посмотреть лекцию
👍17🥰3
🤷♂️ Пока без платной подписки: OpenAI приостановила покупку ChatGPT Plus
Об этом сообщил глава компании Сэм Альтман в X (бывший Twitter). Он пояснил, что после недавней конференции OpenAI перестало хватать вычислительных ресурсов из-за всплеска активности пользователей. Компания пришлёт уведомление, когда платная подписка снова станет доступна, но точная дата неизвестна.
👀 Тем временем разработчики OpenAI уже корпят над GPT-5. Альтман подтвердил это в интервью Financial Times. Сроки выхода новой модели он тоже не обозначил. GPT-5 обучают не только на открытых данных из интернета, но и на базах данных некоторых компаний. Что именно сможет делать новая модель, Альтман сказать затрудняется.
Об этом сообщил глава компании Сэм Альтман в X (бывший Twitter). Он пояснил, что после недавней конференции OpenAI перестало хватать вычислительных ресурсов из-за всплеска активности пользователей. Компания пришлёт уведомление, когда платная подписка снова станет доступна, но точная дата неизвестна.
👀 Тем временем разработчики OpenAI уже корпят над GPT-5. Альтман подтвердил это в интервью Financial Times. Сроки выхода новой модели он тоже не обозначил. GPT-5 обучают не только на открытых данных из интернета, но и на базах данных некоторых компаний. Что именно сможет делать новая модель, Альтман сказать затрудняется.
👍2😁2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ Полезное расширение для JupyterLab — Einblick. Позволяет манипулировать датафреймами с помощью запросов на естественном языке
Для работы нужно:
🔸 установить расширение командой pip install ai-einblick-prompt
🔸 создать Jupyter-блокнот в среде JupyterLab, загрузить данные
🔸 нажать справа в ячейке на логотип Einblick
🔸 в появившемся выпадающем меню выбрать генерацию и написать запрос
Примеры запросов:
- «Create a box plot of col_3.»
- «Filter for cat_1, cat_2, and cat_3.»
- «Create a new column, col_1 by splitting col_2 on „-“.»
В ответ на это в следующей ячейке появится соответствующий код.
Убедитесь, что у вас установлена последняя версия JupyterLab для корректной работы.
🐍 Страница расширения на PyPI
🧑💻 Сайт с примерами промптов
Для работы нужно:
🔸 установить расширение командой pip install ai-einblick-prompt
🔸 создать Jupyter-блокнот в среде JupyterLab, загрузить данные
🔸 нажать справа в ячейке на логотип Einblick
🔸 в появившемся выпадающем меню выбрать генерацию и написать запрос
Примеры запросов:
- «Create a box plot of col_3.»
- «Filter for cat_1, cat_2, and cat_3.»
- «Create a new column, col_1 by splitting col_2 on „-“.»
В ответ на это в следующей ячейке появится соответствующий код.
Убедитесь, что у вас установлена последняя версия JupyterLab для корректной работы.
🐍 Страница расширения на PyPI
🧑💻 Сайт с примерами промптов
👏7❤1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Наивный байесовский классификатор назвали наивным, потому что...
Anonymous Quiz
30%
он предполагает, что каждый класс имеет одинаковую вероятность появления
2%
его результат обычно хуже, чем у других классификаторов
67%
он предполагает, что все признаки независимы друг от друга