Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Классификация текстов в spaCy: пошаговая инструкция

Как реализовать классификатор текстов при помощи библиотеки spaCy, а также несколько полезных лайфхаков, которые помогут ускорить обработку данных.

Читать статью

👍2

3.15K views18:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека scikit-image

scikit-image — это библиотека для обработки изображений. scikit-image также удобна для применения в задачах компьютерного зрения.

Библиотека содержит множество полезных инструментов для работы с изображениями, включая:
— Фильтрация и преобразования изображений (размытие, поворот, масштабирование и т. д.).
— Сегментация изображений и анализ регионов.
— Обнаружение особых точек и линий (краев, углов, границ).
— Морфологические операции.
— Анализ текстур и цветов.
— Восстановление изображений и удаление шумов.
#код

❤5👍3

3.26K views10:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Есть набор данных. Он содержит недостающие значения, которые распределены вдоль одного стандартного отклонения от медианы. Какой процент данных останется неизменным? Почему?

В данном вопросе можно воспользоваться подсказкой: предполагается, что данные имеют нормальное распределение, так как они распределены вокруг медианы. Известно, что при нормальном распределении около 68% данных находится в пределах одного стандартного отклонения от медианы, что означает, что примерно 32% данных остается неизменным. Следовательно, при наличии пропущенных значений около 32% данных останутся неизменными.

👍1

3.05K views18:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 8 лучших бесплатных курсов по ИИ и глубокому обучению

Расскажем о самых интересных и эффективных курсах, которые помогут начать карьеру AI/ML-разработчика.

Читать статью

❤6🔥2

9.26K views09:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Делаем 10-минутную задачу за 2 часа с помощью ChatGPT

Все мы видели много статей, где с помощью AI-инструментов за минуты выполняется работа, на которую раньше мог легко уйти день. Особенно впечатляют примеры, где работа (успешно) идет вне зоны компетенции человека (т.е. когда AI позволяет делать то, что человек в принципе один сделать не мог бы). Но у автора статьи получился несколько другой случай.

Читать статью

😁12

2.92K views18:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🖥️ Учимся классифицировать объекты с помощью ML

В этом уроке разобрали реальную задачу с настоящими, а не синтетическими данными. Рассказали, как отличать линейную задачу классификации от нелинейного случая, а также как решать задачу в линейном случае с помощью Python и некоторых несложных математических алгоритмов.

Самое интересное в этом уроке — это то, как работает этот алгоритм на реальных данных. На самом деле он достаточно интуитивно понятен.

Читать статью

👍3

2.71K views09:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Очередной #дайджест по Data Science:

✍️ Диффузионные модели в CV. Что за зверь?
Генеративные модели сейчас находятся на хайпе и про них слышно из каждого угла. Многие знакомы с Dalle-2, Dalle-3, Midjourney, Stable AI и это лишь модели из домена по генерации изображений.

✍️ Разработан инструмент, позволяющий художникам «отравлять» свой контент для ИИ
С тех пор, как год назад вышел ChatGPT, индустрия генерации цифрового контента находится в суматохе. Всех постепенно начинает вытеснять ИИ.

✍️ LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)
Многие организации инвестируют огромные средства в системы, способные хранить, обрабатывать и анализировать данные.

✍️ Как применять метод PCA для уменьшения размерности данных
Одной из ключевых задач при работе с данными является уменьшение размерности данных, чтобы улучшить их интерпретируемость, ускорить алгоритмы обучения машин и, в конечном итоге, повысить качество решений.

👍2🔥1

2.94K views11:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Что вы чаще всего гуглите по работе?
#интерактив

2.59K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

👍2

2.99K views20:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

AI21 Labs привлекает 155 миллионов долларов для ускорения генеративного искусственного интеллекта для предприятий

Израильская компания AI21 Labs, лидер LLM, закрыла финансирование серии C на сумму 155 миллионов долларов, чтобы ускорить рост своих текстовых генеративных услуг искусственного интеллекта для предприятий.

Читать статью

👍1

2.78K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Что такое нормальное распределение?

График колокола, также известный как нормальное распределение, представляет собой распределение, в котором большинство наблюдений сосредоточены в центре, а по мере удаления от центра количество наблюдений уменьшается. Статистически значимым является то, что при нормальном распределении 68% данных попадают в пределы одного стандартного отклонения от среднего значения, 95% данных — в пределы двух стандартных отклонений, а 99.7% данных — в пределы трех стандартных отклонений от среднего.
#вопросы_с_собеседований

👍12👾3

2.88K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как выбрать GPU для машинного обучения

Машинное обучение позволяет компьютерам извлекать данные, находить закономерности и принимать решения на их основе в различных отраслях. Например, в медицине его используют для анализа рентгеновских снимков и МРТ. Автономные транспортные средства с их помощью строят маршруты, а в финансисты прогнозируют рыночные тенденции.

Центральные процессоры не подходят для таких сложных задач из-за отсутствия возможности параллельной обработки данных, длительного времени обучения и ограниченной пропускной способности. Поэтому организации все чаще приобретают графические процессоры или арендуют облачные сервисы с GPU.

В этом материале рассказали, на какие параметры графических ускорителей стоит обращать внимание, если планируете работать с машинным обучением.

Читать статью

👍4🔥2

2.95K views07:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека фронтендера | Frontend, JS, JavaScript, React.js, Angular.js, Vue.js

👨‍💻 9 мифов об IT и найме айтишников

Развеиваем мифы об ИТ-специалистах, их зарплате, востребованности и процессе найма.

🔗 Читать статью
🔗 Зеркало

👍2

2.86K views10:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Монитор с какой диагональю чаще всего используете на работе?
#интерактив

👍1

2.91K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Создание изображения в Python

Чтобы создать новое изображение с помощью библиотеки Python Pillow PIL, используйте метод Image.nеw().

В этом примере мы создаем новое изображение в режиме RGB с размером (200, 200).

Мы не будем указывать цвет, поэтому методы new() считают значение цвета по умолчанию 0 – для каналов RGB будет черным цветом.

Подробнее с методом можно ознакомиться здесь.
#код

👍3

3.02K views09:15

About

Blog

Apps

Platform