Машинное обучение RU

Stable Diffusion: 8 New Amazing Results!

https://www.youtube.com/watch?v=DaLS4Baiqgk

@machinelearning_ru

Stable Diffusion: 8 New Amazing Results!

❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/papers

📝 The paper "Diffusion Self-Guidance for Controllable Image Generation" is available here:
https://arxiv.org/abs/2306.00986

Try it out!
ControlNet - https://github.…

2.0K views07:48

Машинное обучение RU

🔗 CodeBert для автогенерации комментариев к коду

Код программ отличается от естественного языка из-за его формализма и строгости, однако ничто не мешает воспринимать его как последовательность токенов и работать с ним, как с обычным языком. Существуют исследования, которые показали, что модель BERT, обученная на большом наборе данных, неплохо справляется с некоторыми задачами, связанными с обработкой программного кода.

В этом посте я буду решать задачу автогенерации комментариев к нему. Вы узнаете, как подготовить данные для обучения, настроить нейросеть и получить результат.

Данные
Данные представлены в виде набора пар [функция — комментарий] для различных языков программирования (awesome Code Search Net Challenge dataset). Кстати говоря, этот набор изначально был создан не для этой задачи, однако его можно легко перепрофилировать под свои нужды.

Мы не будем очищать данные, это описано здесь. Мы же буду использовать уже предварительно обработанные данные в объеме 1 % от общего количества образцов в наборе, так как обучение модели занимает довольно много времени. Но, как можно будет убедиться в будущем, генерация комментариев даже на 1 % данных выглядит неплохо. Если у вас есть время и ресурсы, можете обучить модель на всём наборе и получить результаты получше.

▪ Читать

@machinelearning_ru

2.1K views13:08

Машинное обучение RU

📌 10 основных диаграмм для анализа данных

Я работаю аналитиком данных уже более десяти лет. На протяжении всего своего пути я пришел к выводу, что диаграммы играют решающую роль в понимании и эффективной передаче данных. Они способны раскрыть идеи, скрытые в сложных наборах данных, и представить их в визуально привлекательной форме.

Сегодня я хочу поделиться с вами десятью наиболее важными видами диаграмм для анализа данных. Это диаграммы, которые я использую чаще всего, и я считаю, что они являются строительными блоками для любого проекта анализа данных.

▪ Читать

@machinelearning_ru

2.7K views13:06

Машинное обучение RU

Введение для Python-разработчиков в Prompt Engineering GPT-4

Это пошаговое руководство, использующее примеры, представляет собой введение в Prompt Engineering в этих трех областях.

Цель состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки Python.

▪ Читать

@machinelearning_ru

2.9K views10:01

Машинное обучение RU

Google’s New AI: Blurry Photos No More!

https://www.youtube.com/watch?v=3Hs-tyr4FFA

@machinelearning_ru

YouTube

Google’s New AI: Blurry Photos No More!

❤️ Check out the Gradient Dissent podcast by Weights & Biases: http://wandb.me/gd

📝 The paper "DC2: Dual-Camera Defocus Control by Learning to Refocus" is available here:
https://defocus-control.github.io/

The paper I am 🙌📜-ing in the intro:
https://u…

3.0K views06:51

Машинное обучение RU

This media is not supported in your browser

VIEW IN TELEGRAM

🧠 NEURAL NETWORKS A VISUAL INTRODUCTION

Интерактивная визуализация нейросетей, которая представляет интерактивное устройство нейросети, где все элементы описываются простым и последовательным образом, включая структуру, вычислительные элементы, нейроны и слои.

Анимация в проекте на очень высоком уровне, а объяснения основных терминов, понятны любому.

https://mlu-explain.github.io/neural-networks/

@machinelearning_ru

2.8K viewsedited 07:15

Машинное обучение RU

Пугающее противостояние: утечка данных в машинном обучении

Все знают общее значение утечки данных: ситуация, когда без разрешения или соблюдения мер безопасности передают конфиденциальную информацию третьим лицам. Попросту говоря, сливают. Но в машинном обучении при утечке информация из тестового датасета ошибочно попадает в обучающий.

Нашел на Хабре статью о том, какими могут быть подобные утечки и как с ними бороться. Спойлер – метода всего три: проверка вручную, пайплайны, перекрёстный контроль.

▪️ Читать

@machinelearning_ru

2.5K views11:24

Машинное обучение RU

10 бесплатных курсов машинного обучения от лучших университетов

1. Introduction to Machine Learning - UC Berkeley

2. Introduction to Machine Learning - Carnegie Mellon University

3. Machine Learning - Stanford University

4. Machine Learning & Data Mining - Caltech

5. Learning from Data - Caltech

6. Machine Learning for Intelligent Systems - Cornell University

7. Large Scale Machine Learning - University of Toronto

8. Machine Learning with Large Datasets - Carnegie Mellon University

9. Foundations of Machine Learning and Statistical Inference - Caltech

10. Algorithmic Aspects of Machine Learning - MIT

@machinelearning_ru

3.0K views10:02

Машинное обучение RU

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

✈️

SkyPilot для LLaMA 2

SkyPilot - платформа для запуска LLM и ИИ в облаке.

• Задачи могут быть описаны в YAML или на Python и запущены в любом облаке. Инструкции для новой модели LLaMA 2 уже подготовлены авторами.
С помощью одной команды пользователи могут развернуть частного чат-бота LLaMA 2 со SkyPilot в своем облаке.

SkyPilot для LLaMA 2

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

2.2K viewsedited 09:31

Машинное обучение RU

Собрание бесплатных курсов по Python и машинному обучению.

1. Основы Python для анализа данных — программирование на Python.

2. Ускоренный курс по машинному обучению — видеолекции от исследователей Google содержат основы машинного обучения.

3. Основы R — как обрабатывать, анализировать и визуализировать данные.

4. Введение в Data Science и аналитику — все основы Data Science и Data Science Life Cycle.

5. Линейная регрессия — как применять R для осуществления линейной регрессии, одного из популярных методов статистического моделирования.

6. Визуализация — принципы визуализации данных и применение ggplot2 для них вкратце.

7. Введение CS50 в программирование на Python, май 2023 г.

8. Python для всех: Getting Started with Python - предлагаемый на Coursera, этот курс для начинающих знакомит с программированием на Python через пошаговые учебные пособия и практические упражнения. Курс ведет известный преподаватель доктор Чарльз Северанс.

@machinelearning_ru

2.8K views10:02

Машинное обучение RU

13 Бесплатных курсов по изучению генеративного ИИ

▪ Список

@machinelearning_ru

2.6K views08:06

Машинное обучение RU

Unreal Engine 5.2: Incredible Simulations!

https://www.youtube.com/watch?v=KStJfpHsImE

@machinelearning_ru

YouTube

Unreal Engine 5.2: Incredible Simulations!

❤️ Check out Weights & Biases and sign up for a free demo here: https://wandb.com/papers

My latest paper on simulations that look almost like reality is available for free here:
https://rdcu.be/cWPfD

Or this is the orig. Nature Physics link with clickable…

2.3K views19:17

Машинное обучение RU

📖 Mastering Data Preprocessing for Machine Learning in Python: Исчерпывающее руководство

Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные.

1. Обработка недостающих данных: *рисунок 1.

2. Масштабирование признаков: *рисунок 2.

3. Кодирование категориальных переменных: *рисунок 3.

4. Преобразование и сокращение данных: *рисунок 4.

Все вместе: Комплексный конвейер подготовки данных: *рисунок 5.

Подготовка данных является краеугольным камнем для создания исключительных моделей машинного обучения. Вооружившись Python Pandas, NumPy и Scikit-learn, вы теперь обладаете кулинарным опытом, чтобы умело подготовить данные к пиршеству машинного обучения.

Помните, что понимание данных – это ключ к успешной предварительной обработке.
Экспериментируйте с различными методами, подбирая их в соответствии с уникальными характеристиками вашего набора данных. Итеративный характер подготовки данных позволяет точно настроить подход и добиться оптимальной производительности модели.

📌 Полная статья

@machinelearning_ru

2.3K views09:11

Машинное обучение RU

🐍 Clickhouse DB в Python

Clickhouse – это высокопроизводительная, ориентированная на столбцы SQL СУБД для OLAP-процессов. Мечта инженера по обработке данных.

Что такое рабочий процесс OLAP?

Аббревиатура OLAP расшифровывается как online analytical processing. Рабочие процессы OLAP – это процессы, требующие ответов в реальном времени поверх больших наборов данных для аналитических целей.

• Clickhouse работает на macOS, FreeBSD и Linux, а также может поддерживаться на Windows с помощью WSL.

• Вы можете установить сервер clickhouse на свою систему локально, используя следующую команду в терминале:
curl https://clickhouse.com/ | sh

• Настройка клиентов:
Существует несколько способов настройки клиентов для выполнения запросов к БД clickhouse. Здесь мы рассмотрим три основных:

1. Сервер Clickhouse представляет собой http-клиент, позволяющий пользователям выполнять запросы с помощью удобного пользовательского интерфейса. Доступ к нему можно получить по адресу http://localhost:8123/play. Он выглядит следующим образом: *в изображении.
2. Мы также можем настроить собственный клиент на базе SQL, выполнив в терминале следующую команду:
./clickhouse client
3. Если вы являетесь поклонником VSCode, то для начала работы с clickhouse есть очень полезное расширение. С помощью SQLTools можно устанавливать соединения с сервером clickhouse и выполнять на нем SQL-запросы.
4. Для этих же целей можно использовать tabix, если вы являетесь поклонником докеризованных сервисов.

docker build -t tabix .
docker run -d -p 8080:80 tabix

Подключимся к Clickhouse с помощью python

@machinelearning_ru

3.7K viewsedited 13:37

Машинное обучение RU

This media is not supported in your browser

VIEW IN TELEGRAM

Запуск FreeWilly2 70B на GPU A100 (40 ГБ) с использованием Lit-GPT за 3 простых шага.

📌

FreeWilly2: https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

3.7K viewsedited 08:13

Машинное обучение RU

Как создавать качественные ML-системы

Каждый проект надо начинать с плана, потому что ML-системы слишком сложны, чтобы внедрять их спонтанно. Команда VK Cloud перевела серию из двух статей о жизненном цикле ML-проекта. Из 1 части вы узнаете, каков жизненный цикл ML-проекта и ценность для бизнеса, как собирать требования, начинать с малого и отказываться от плохих идей.

Во второй части поговорили о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL.

▪️ Читать 1 часть
▪️ Читать 2 часть

@machinelearning_ru

3.8K views08:02

Машинное обучение RU

NVIDIA's New AI: Text To Image Supercharged!

https://www.youtube.com/watch?v=k4k5RTNX-Js

@machinelearning_ru

YouTube

NVIDIA's New AI: Text To Image Supercharged!

❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/papers

📝 The paper "Key-Locked Rank One Editing for Text-to-Image Personalization" is available here:
https://research.nvidia.com/labs/par/Perfusion/

I made a remark in the…

3.5K views06:32

About

Blog

Apps

Platform