Stable Diffusion: 8 New Amazing Results!
https://www.youtube.com/watch?v=DaLS4Baiqgk
@machinelearning_ru
https://www.youtube.com/watch?v=DaLS4Baiqgk
@machinelearning_ru
YouTube
Stable Diffusion: 8 New Amazing Results!
❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/papers
📝 The paper "Diffusion Self-Guidance for Controllable Image Generation" is available here:
https://arxiv.org/abs/2306.00986
Try it out!
ControlNet - https://github.…
📝 The paper "Diffusion Self-Guidance for Controllable Image Generation" is available here:
https://arxiv.org/abs/2306.00986
Try it out!
ControlNet - https://github.…
🔗 CodeBert для автогенерации комментариев к коду
Код программ отличается от естественного языка из-за его формализма и строгости, однако ничто не мешает воспринимать его как последовательность токенов и работать с ним, как с обычным языком. Существуют исследования, которые показали, что модель BERT, обученная на большом наборе данных, неплохо справляется с некоторыми задачами, связанными с обработкой программного кода.
В этом посте я буду решать задачу автогенерации комментариев к нему. Вы узнаете, как подготовить данные для обучения, настроить нейросеть и получить результат.
Данные
Данные представлены в виде набора пар [функция — комментарий] для различных языков программирования (awesome Code Search Net Challenge dataset). Кстати говоря, этот набор изначально был создан не для этой задачи, однако его можно легко перепрофилировать под свои нужды.
Мы не будем очищать данные, это описано здесь. Мы же буду использовать уже предварительно обработанные данные в объеме 1 % от общего количества образцов в наборе, так как обучение модели занимает довольно много времени. Но, как можно будет убедиться в будущем, генерация комментариев даже на 1 % данных выглядит неплохо. Если у вас есть время и ресурсы, можете обучить модель на всём наборе и получить результаты получше.
▪ Читать
@machinelearning_ru
Код программ отличается от естественного языка из-за его формализма и строгости, однако ничто не мешает воспринимать его как последовательность токенов и работать с ним, как с обычным языком. Существуют исследования, которые показали, что модель BERT, обученная на большом наборе данных, неплохо справляется с некоторыми задачами, связанными с обработкой программного кода.
В этом посте я буду решать задачу автогенерации комментариев к нему. Вы узнаете, как подготовить данные для обучения, настроить нейросеть и получить результат.
Данные
Данные представлены в виде набора пар [функция — комментарий] для различных языков программирования (awesome Code Search Net Challenge dataset). Кстати говоря, этот набор изначально был создан не для этой задачи, однако его можно легко перепрофилировать под свои нужды.
Мы не будем очищать данные, это описано здесь. Мы же буду использовать уже предварительно обработанные данные в объеме 1 % от общего количества образцов в наборе, так как обучение модели занимает довольно много времени. Но, как можно будет убедиться в будущем, генерация комментариев даже на 1 % данных выглядит неплохо. Если у вас есть время и ресурсы, можете обучить модель на всём наборе и получить результаты получше.
▪ Читать
@machinelearning_ru
📌 10 основных диаграмм для анализа данных
Я работаю аналитиком данных уже более десяти лет. На протяжении всего своего пути я пришел к выводу, что диаграммы играют решающую роль в понимании и эффективной передаче данных. Они способны раскрыть идеи, скрытые в сложных наборах данных, и представить их в визуально привлекательной форме.
Сегодня я хочу поделиться с вами десятью наиболее важными видами диаграмм для анализа данных. Это диаграммы, которые я использую чаще всего, и я считаю, что они являются строительными блоками для любого проекта анализа данных.
▪ Читать
@machinelearning_ru
Я работаю аналитиком данных уже более десяти лет. На протяжении всего своего пути я пришел к выводу, что диаграммы играют решающую роль в понимании и эффективной передаче данных. Они способны раскрыть идеи, скрытые в сложных наборах данных, и представить их в визуально привлекательной форме.
Сегодня я хочу поделиться с вами десятью наиболее важными видами диаграмм для анализа данных. Это диаграммы, которые я использую чаще всего, и я считаю, что они являются строительными блоками для любого проекта анализа данных.
▪ Читать
@machinelearning_ru
Введение для Python-разработчиков в Prompt Engineering GPT-4
Это пошаговое руководство, использующее примеры, представляет собой введение в Prompt Engineering в этих трех областях.
Цель состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки Python.
▪ Читать
@machinelearning_ru
Это пошаговое руководство, использующее примеры, представляет собой введение в Prompt Engineering в этих трех областях.
Цель состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки Python.
▪ Читать
@machinelearning_ru
Google’s New AI: Blurry Photos No More!
https://www.youtube.com/watch?v=3Hs-tyr4FFA
@machinelearning_ru
https://www.youtube.com/watch?v=3Hs-tyr4FFA
@machinelearning_ru
YouTube
Google’s New AI: Blurry Photos No More!
❤️ Check out the Gradient Dissent podcast by Weights & Biases: http://wandb.me/gd
📝 The paper "DC2: Dual-Camera Defocus Control by Learning to Refocus" is available here:
https://defocus-control.github.io/
The paper I am 🙌📜-ing in the intro:
https://u…
📝 The paper "DC2: Dual-Camera Defocus Control by Learning to Refocus" is available here:
https://defocus-control.github.io/
The paper I am 🙌📜-ing in the intro:
https://u…
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 NEURAL NETWORKS A VISUAL INTRODUCTION
Интерактивная визуализация нейросетей, которая представляет интерактивное устройство нейросети, где все элементы описываются простым и последовательным образом, включая структуру, вычислительные элементы, нейроны и слои.
Анимация в проекте на очень высоком уровне, а объяснения основных терминов, понятны любому.
https://mlu-explain.github.io/neural-networks/
@machinelearning_ru
Интерактивная визуализация нейросетей, которая представляет интерактивное устройство нейросети, где все элементы описываются простым и последовательным образом, включая структуру, вычислительные элементы, нейроны и слои.
Анимация в проекте на очень высоком уровне, а объяснения основных терминов, понятны любому.
https://mlu-explain.github.io/neural-networks/
@machinelearning_ru
Пугающее противостояние: утечка данных в машинном обучении
Все знают общее значение утечки данных: ситуация, когда без разрешения или соблюдения мер безопасности передают конфиденциальную информацию третьим лицам. Попросту говоря, сливают. Но в машинном обучении при утечке информация из тестового датасета ошибочно попадает в обучающий.
Нашел на Хабре статью о том, какими могут быть подобные утечки и как с ними бороться. Спойлер – метода всего три: проверка вручную, пайплайны, перекрёстный контроль.
▪️ Читать
@machinelearning_ru
Все знают общее значение утечки данных: ситуация, когда без разрешения или соблюдения мер безопасности передают конфиденциальную информацию третьим лицам. Попросту говоря, сливают. Но в машинном обучении при утечке информация из тестового датасета ошибочно попадает в обучающий.
Нашел на Хабре статью о том, какими могут быть подобные утечки и как с ними бороться. Спойлер – метода всего три: проверка вручную, пайплайны, перекрёстный контроль.
▪️ Читать
@machinelearning_ru
10 бесплатных курсов машинного обучения от лучших университетов
1. Introduction to Machine Learning - UC Berkeley
2. Introduction to Machine Learning - Carnegie Mellon University
3. Machine Learning - Stanford University
4. Machine Learning & Data Mining - Caltech
5. Learning from Data - Caltech
6. Machine Learning for Intelligent Systems - Cornell University
7. Large Scale Machine Learning - University of Toronto
8. Machine Learning with Large Datasets - Carnegie Mellon University
9. Foundations of Machine Learning and Statistical Inference - Caltech
10. Algorithmic Aspects of Machine Learning - MIT
@machinelearning_ru
1. Introduction to Machine Learning - UC Berkeley
2. Introduction to Machine Learning - Carnegie Mellon University
3. Machine Learning - Stanford University
4. Machine Learning & Data Mining - Caltech
5. Learning from Data - Caltech
6. Machine Learning for Intelligent Systems - Cornell University
7. Large Scale Machine Learning - University of Toronto
8. Machine Learning with Large Datasets - Carnegie Mellon University
9. Foundations of Machine Learning and Statistical Inference - Caltech
10. Algorithmic Aspects of Machine Learning - MIT
@machinelearning_ru
This media is not supported in your browser
VIEW IN TELEGRAM
SkyPilot - платформа для запуска LLM и ИИ в облаке.
• Задачи могут быть описаны в YAML или на Python и запущены в любом облаке. Инструкции для новой модели LLaMA 2 уже подготовлены авторами.
С помощью одной команды пользователи могут развернуть частного чат-бота LLaMA 2 со SkyPilot в своем облаке.
SkyPilot для LLaMA 2
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Собрание бесплатных курсов по Python и машинному обучению.
1. Основы Python для анализа данных — программирование на Python.
2. Ускоренный курс по машинному обучению — видеолекции от исследователей Google содержат основы машинного обучения.
3. Основы R — как обрабатывать, анализировать и визуализировать данные.
4. Введение в Data Science и аналитику — все основы Data Science и Data Science Life Cycle.
5. Линейная регрессия — как применять R для осуществления линейной регрессии, одного из популярных методов статистического моделирования.
6. Визуализация — принципы визуализации данных и применение ggplot2 для них вкратце.
7. Введение CS50 в программирование на Python, май 2023 г.
8. Python для всех: Getting Started with Python - предлагаемый на Coursera, этот курс для начинающих знакомит с программированием на Python через пошаговые учебные пособия и практические упражнения. Курс ведет известный преподаватель доктор Чарльз Северанс.
@machinelearning_ru
1. Основы Python для анализа данных — программирование на Python.
2. Ускоренный курс по машинному обучению — видеолекции от исследователей Google содержат основы машинного обучения.
3. Основы R — как обрабатывать, анализировать и визуализировать данные.
4. Введение в Data Science и аналитику — все основы Data Science и Data Science Life Cycle.
5. Линейная регрессия — как применять R для осуществления линейной регрессии, одного из популярных методов статистического моделирования.
6. Визуализация — принципы визуализации данных и применение ggplot2 для них вкратце.
7. Введение CS50 в программирование на Python, май 2023 г.
8. Python для всех: Getting Started with Python - предлагаемый на Coursera, этот курс для начинающих знакомит с программированием на Python через пошаговые учебные пособия и практические упражнения. Курс ведет известный преподаватель доктор Чарльз Северанс.
@machinelearning_ru
Unreal Engine 5.2: Incredible Simulations!
https://www.youtube.com/watch?v=KStJfpHsImE
@machinelearning_ru
https://www.youtube.com/watch?v=KStJfpHsImE
@machinelearning_ru
YouTube
Unreal Engine 5.2: Incredible Simulations!
❤️ Check out Weights & Biases and sign up for a free demo here: https://wandb.com/papers
My latest paper on simulations that look almost like reality is available for free here:
https://rdcu.be/cWPfD
Or this is the orig. Nature Physics link with clickable…
My latest paper on simulations that look almost like reality is available for free here:
https://rdcu.be/cWPfD
Or this is the orig. Nature Physics link with clickable…
📖 Mastering Data Preprocessing for Machine Learning in Python: Исчерпывающее руководство
Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные.
1. Обработка недостающих данных: *рисунок 1.
2. Масштабирование признаков: *рисунок 2.
3. Кодирование категориальных переменных: *рисунок 3.
4. Преобразование и сокращение данных: *рисунок 4.
Все вместе: Комплексный конвейер подготовки данных: *рисунок 5.
Подготовка данных является краеугольным камнем для создания исключительных моделей машинного обучения. Вооружившись Python Pandas, NumPy и Scikit-learn, вы теперь обладаете кулинарным опытом, чтобы умело подготовить данные к пиршеству машинного обучения.
Помните, что понимание данных – это ключ к успешной предварительной обработке.
Экспериментируйте с различными методами, подбирая их в соответствии с уникальными характеристиками вашего набора данных. Итеративный характер подготовки данных позволяет точно настроить подход и добиться оптимальной производительности модели.
📌 Полная статья
@machinelearning_ru
Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные.
1. Обработка недостающих данных: *рисунок 1.
2. Масштабирование признаков: *рисунок 2.
3. Кодирование категориальных переменных: *рисунок 3.
4. Преобразование и сокращение данных: *рисунок 4.
Все вместе: Комплексный конвейер подготовки данных: *рисунок 5.
Подготовка данных является краеугольным камнем для создания исключительных моделей машинного обучения. Вооружившись Python Pandas, NumPy и Scikit-learn, вы теперь обладаете кулинарным опытом, чтобы умело подготовить данные к пиршеству машинного обучения.
Помните, что понимание данных – это ключ к успешной предварительной обработке.
Экспериментируйте с различными методами, подбирая их в соответствии с уникальными характеристиками вашего набора данных. Итеративный характер подготовки данных позволяет точно настроить подход и добиться оптимальной производительности модели.
📌 Полная статья
@machinelearning_ru
🐍 Clickhouse DB в Python
Clickhouse – это высокопроизводительная, ориентированная на столбцы SQL СУБД для OLAP-процессов. Мечта инженера по обработке данных.
Что такое рабочий процесс OLAP?
Аббревиатура OLAP расшифровывается как online analytical processing. Рабочие процессы OLAP – это процессы, требующие ответов в реальном времени поверх больших наборов данных для аналитических целей.
• Clickhouse работает на macOS, FreeBSD и Linux, а также может поддерживаться на Windows с помощью WSL.
• Вы можете установить сервер clickhouse на свою систему локально, используя следующую команду в терминале:
• Настройка клиентов:
Существует несколько способов настройки клиентов для выполнения запросов к БД clickhouse. Здесь мы рассмотрим три основных:
1. Сервер Clickhouse представляет собой http-клиент, позволяющий пользователям выполнять запросы с помощью удобного пользовательского интерфейса. Доступ к нему можно получить по адресу http://localhost:8123/play. Он выглядит следующим образом: *в изображении.
2. Мы также можем настроить собственный клиент на базе SQL, выполнив в терминале следующую команду:
3. Если вы являетесь поклонником VSCode, то для начала работы с clickhouse есть очень полезное расширение. С помощью SQLTools можно устанавливать соединения с сервером clickhouse и выполнять на нем SQL-запросы.
4. Для этих же целей можно использовать tabix, если вы являетесь поклонником докеризованных сервисов.
Подключимся к Clickhouse с помощью python
@machinelearning_ru
Clickhouse – это высокопроизводительная, ориентированная на столбцы SQL СУБД для OLAP-процессов. Мечта инженера по обработке данных.
Что такое рабочий процесс OLAP?
Аббревиатура OLAP расшифровывается как online analytical processing. Рабочие процессы OLAP – это процессы, требующие ответов в реальном времени поверх больших наборов данных для аналитических целей.
• Clickhouse работает на macOS, FreeBSD и Linux, а также может поддерживаться на Windows с помощью WSL.
• Вы можете установить сервер clickhouse на свою систему локально, используя следующую команду в терминале:
curl https://clickhouse.com/ | sh
• Настройка клиентов:
Существует несколько способов настройки клиентов для выполнения запросов к БД clickhouse. Здесь мы рассмотрим три основных:
1. Сервер Clickhouse представляет собой http-клиент, позволяющий пользователям выполнять запросы с помощью удобного пользовательского интерфейса. Доступ к нему можно получить по адресу http://localhost:8123/play. Он выглядит следующим образом: *в изображении.
2. Мы также можем настроить собственный клиент на базе SQL, выполнив в терминале следующую команду:
./clickhouse client
3. Если вы являетесь поклонником VSCode, то для начала работы с clickhouse есть очень полезное расширение. С помощью SQLTools можно устанавливать соединения с сервером clickhouse и выполнять на нем SQL-запросы.
4. Для этих же целей можно использовать tabix, если вы являетесь поклонником докеризованных сервисов.
docker build -t tabix .
docker run -d -p 8080:80 tabix
Подключимся к Clickhouse с помощью python
@machinelearning_ru
This media is not supported in your browser
VIEW IN TELEGRAM
Запуск FreeWilly2 70B на GPU A100 (40 ГБ) с использованием Lit-GPT за 3 простых шага.
📌 FreeWilly2: https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor
@machinelearning_ru
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Как создавать качественные ML-системы
Каждый проект надо начинать с плана, потому что ML-системы слишком сложны, чтобы внедрять их спонтанно. Команда VK Cloud перевела серию из двух статей о жизненном цикле ML-проекта. Из 1 части вы узнаете, каков жизненный цикл ML-проекта и ценность для бизнеса, как собирать требования, начинать с малого и отказываться от плохих идей.
Во второй части поговорили о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL.
▪️ Читать 1 часть
▪️ Читать 2 часть
@machinelearning_ru
Каждый проект надо начинать с плана, потому что ML-системы слишком сложны, чтобы внедрять их спонтанно. Команда VK Cloud перевела серию из двух статей о жизненном цикле ML-проекта. Из 1 части вы узнаете, каков жизненный цикл ML-проекта и ценность для бизнеса, как собирать требования, начинать с малого и отказываться от плохих идей.
Во второй части поговорили о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL.
▪️ Читать 1 часть
▪️ Читать 2 часть
@machinelearning_ru
NVIDIA's New AI: Text To Image Supercharged!
https://www.youtube.com/watch?v=k4k5RTNX-Js
@machinelearning_ru
https://www.youtube.com/watch?v=k4k5RTNX-Js
@machinelearning_ru
YouTube
NVIDIA's New AI: Text To Image Supercharged!
❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/papers
📝 The paper "Key-Locked Rank One Editing for Text-to-Image Personalization" is available here:
https://research.nvidia.com/labs/par/Perfusion/
I made a remark in the…
📝 The paper "Key-Locked Rank One Editing for Text-to-Image Personalization" is available here:
https://research.nvidia.com/labs/par/Perfusion/
I made a remark in the…