Data Science | Machinelearning [ru] – Telegram

Data Science | Machinelearning [ru]

17.9K subscribers

460 photos

14 videos

29 files

3.32K links

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

17.9K subscribers

Data Science | Machinelearning [ru]

⚙️

Пишем свою Diffusion модель с нуля

Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

3.04K views18:07

Data Science | Machinelearning [ru]

🤔

До 5 % новых статей «Википедии» содержат тексты от ИИ

Учёные из Принстона проанализировали новые статьи в «Википедии» и выяснили, что ИИ уже активно пишет энциклопедию. Около 5% англоязычных материалов содержат значительные объёмы текста, сгенерированного машинами.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥2

3K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое train_test_split в Scikit-learn и зачем он используется?

train_test_split — это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения.

➡️

Пример:

from sklearn.model_selection import train_test_split
import numpy as np

# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])

# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)

🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

3.19K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Data Analyst со знанием 1C / SQL / Python
• 1C, PostgreSQL, Python, SQL, Tableau
• от 150 000 до 200 000 ₽ | от 3 лет опыта

Разработчик чатбота с интеграцией LLM/специалист по Data Science
• Python, Обработка естественного языка, Машинное обучение, Pandas, Анализ данных
• от 300 до 450 € | Опыт не указан

Data Scientist
• Python, SQL, Машинное обучение, Анализ данных, Математическая статистика
• Уровень дохода не указан | от 2 лет опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

3.04K views18:07

Data Science | Machinelearning [ru]

⚙️

Нейросетевой апскейлинг дома: вторая молодость для классических мультфильмов

Статья рассказывает, как с помощью нейросетей улучшить качество старых видеозаписей, включая VHS и DVD. Описываются инструменты, процесс и результаты с примерами, доступные каждому без глубоких технических знаний.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2

3.13K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Проверка, являются ли две строки анаграммами

Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы.

Пример:

result1 = are_anagrams("listen", "silent")
print(result1)  # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2)  # Ожидаемый результат: False

Решение задачи🔽

def are_anagrams(str1, str2):
# Удаляем пробелы и приводим к одному регистру
str1 = ''.join(str1.lower().split())
str2 = ''.join(str2.lower().split())

# Проверяем, равны ли отсортированные символы
return sorted(str1) == sorted(str2)

# Пример использования:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11👎3❤2

3.17K views18:07

Data Science | Machinelearning [ru]

🎞

Как за 6 промтов к ChatGPT создать Python скрипт, скачивающий видео с YouTube для просмотра на телевизоре через Kodi

Статья рассказывает, как с помощью Python и ChatGPT создать скрипт для автоматической загрузки видео с YouTube и генерации метаданных (описаний и обложек) для интеграции с медиацентром Kodi.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤1👍1

3.32K views10:07

Data Science | Machinelearning [ru]

💬

Внедрение ИИ в общение с клиентами

Статья исследует развитие ИИ в общении с клиентами и его интеграцию в бизнес. Обсуждаются успехи и сложности внедрения чат-ботов, важность настройки под бизнес-цели и перспективы замены сотрудников ИИ.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

3.35K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для сеньоров

Prompt-инженер
• Технический перевод, техническая документация, Python
• до 200 000 ₽ | Старший (Senior) уровень

Аналитик данных / Data Analyst
• SQL, Python, математическая статистика, Jupyter Notebook, A/B тестирование
• от 300 000 до 400 000 ₽ | Старший (Senior) уровень

Database Administrator
• ClickHouse, PostgreSQL, Python
• до 5 000 $ | Старший (Senior) уровень

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

3.18K views18:07

Data Science | Machinelearning [ru]

⚙️

Что такое модуль collections в Python и как он используется?

collections — это стандартный модуль Python, который предоставляет высокопроизводительные контейнеры данных, такие как Counter, deque, и defaultdict. Он используется для более удобной работы со структурами данных.

➡️

Пример:

from collections import Counter

data = ['apple', 'banana', 'apple', 'orange', 'banana', 'apple']
counter = Counter(data)
print(counter)  # Counter({'apple': 3, 'banana': 2, 'orange': 1})

🗣️ В этом примере Counter подсчитывает количество каждого элемента в списке data. Это полезно для анализа данных, работы с частотами или подсчёта элементов в коллекциях.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

3.3K views13:37

Data Science | Machinelearning [ru]

📝

Подборка вакансий для лидов

Team Lead Data Science
• Python, PySpark, SQL, Hadoop, Linux, Bash, Git
• Уровень дохода не указан | от 3 лет опыта

Team Lead Data Scientist (Персонификация)
• Git, Машинное обучение, NLP
• Уровень дохода не указан | Опыт не указан

Ведущий инженер данных (Data Platform и ML)
• SQL, Python, ClickHouse, Apache Kafka, Apache Airflow, Grafana, DWH, ETL, Apache Spark
• Уровень дохода не указан | от 3 лет опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

3.14K views18:07

Data Science | Machinelearning [ru]

⚙️

MarketNet: Применение компьютерного зрения на финансовых рынках

Рассмотрим, может ли машинное обучение реально помогать трейдерам. Разберём процесс создания MarketNet, от экспериментов с классификацией до оценки успешности сделок на основе данных OHLC и рыночных профилей.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2

3.34K views10:03

Data Science | Machinelearning [ru]

🔍 Будь ленивым — автоматизируй

Каждый раз вручную выполняешь одно и то же действие? Создаёшь файлы, пишешь повторяющиеся команды?

👉 Совет: если ты делаешь одно и то же больше трёх раз, это надо автоматизировать. Скрипты, алиасы, макросы в IDE — пусть машина работает за тебя, а ты занимайся более сложными задачами.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15

3.17K views14:07

Data Science | Machinelearning [ru]

⚙️

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Статья раскрывает исследование по снятию защиты в современной языковой модели ИИ. Описан процесс автоматизации взлома модели и представлена программа, демонстрирующая успешный обход встроенных механизмов безопасности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

3.26K views18:07

Data Science | Machinelearning [ru]

⚙️

Машинное обучение: Логистическая регрессия. Теория и реализация. С нуля

В этой статье я привел базовые сведения о логистической регрессии и показал как сделать модель с нуля на чистом Python. Логистическая функция, обучение, метрики качества для модели классификации, реализация и небольшой разбор обучения весов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍3🐳1

3.17K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Поиск наиболее часто встречающегося слова в тексте

Напишите функцию, которая принимает текстовую строку и возвращает наиболее часто встречающееся слово и количество его вхождений. Игнорируйте регистр и знаки препинания.

Пример:

text = "Python is great, and Python is fun! Learning Python is rewarding."
result = most_common_word(text)
print(result)
# Ожидаемый результат: ('python', 3)

Решение задачи🔽

import re
from collections import Counter

def most_common_word(text):
words = re.findall(r'\b\w+\b', text.lower())
counter = Counter(words)
return counter.most_common(1)[0]

# Пример использования:
text = "Python is great, and Python is fun! Learning Python is rewarding."
result = most_common_word(text)
print(result)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤1

3.11K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

• Сбер выкладывает GigaChat Lite в открытый доступ

• История YOLO – самой известной архитектуры компьютерного зрения

• Магия простоты: как мы улучшили отображение общественного транспорта на карте

• Обучение и fine-tuning моделей простым языком: зачем, как, где

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍3🐳1

3.03K views18:07

Data Science | Machinelearning [ru]

🎁

Динамическая адаптация награды с помощью Pydantic

Статья рассказывает, как Pydantic помогает бизнесу гибко управлять наградами для пользователей. Описаны преимущества Pydantic в валидации и преобразовании данных по сравнению с dataclass.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.96K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Классификация данных с использованием k-Nearest Neighbors (kNN)

Напишите функцию на Python, которая принимает обучающий набор данных, тестовый набор данных и значение 𝑘, а затем использует алгоритм k-ближайших соседей (kNN) для классификации тестовых данных. Функция должна возвращать предсказанные метки для тестового набора данных.

Пример:

import numpy as np

X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])

predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions)  # Ожидаемый результат: [0, 1]

Решение задачи🔽

from sklearn.neighbors import KNeighborsClassifier

def knn_classification(X_train, y_train, X_test, k=3):
model = KNeighborsClassifier(n_neighbors=k)
model.fit(X_train, y_train)
return model.predict(X_test)

# Пример использования:
import numpy as np

X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])

predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions) # Ожидаемый результат: [0, 1]

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2👎1🐳1

3.14K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Data-analyst (junior)
🟢SQL, Python, Pandas, Matplotlib, Numpy, статистика
🟢Уровень дохода не указан | Без опыта

Power BI разработчик
🟢Power BI, Python, PostgreSQL, Apache Airflow, Git
🟢от 120 000 ₽ | Опыт работы: 1–3 года

Junior Data Analyst
🟢SQL, DataLens, Power BI, Python, ETL
🟢Уровень дохода не указан | Опыт работы: 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

3.2K views18:07