Data Science | Machinelearning [ru] – Telegram

Data Science | Machinelearning [ru]

17.9K subscribers

461 photos

14 videos

29 files

3.33K links

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

17.9K subscribers

Data Science | Machinelearning [ru]

🔫

Claude сопротивляется

Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🐳1

3.18K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется?

PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.

➡️

Пример:

import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Загрузка данных
data = load_iris()
X = data.data

# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print(X_pca[:5])  # Преобразованные данные

🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2

3.06K views18:07

Data Science | Machinelearning [ru]

⚙️

Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%

Статья рассказывает, как автоматизация на основе LLM ускорила верификацию данных и сократила ошибки в производственной цепочке. Узнаете, как это помогло заказчику сэкономить ресурсы и время.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🐳2

3.35K views10:07

Data Science | Machinelearning [ru]

🚀

Не останавливайся на «оно работает»

Фича готова, тесты зелёные, код ревью пройдено. Кажется, что можно расслабиться?

👉 Совет: потрать ещё 10 минут на вопрос: «Можно ли сделать это лучше?». Оптимизируй, убери лишнее, подумай о будущем расширении. Хороший код — это не просто рабочий код, а код, который легко поддерживать.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4🐳1

3.19K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

AI Agent Engineer
🟢ElizaOS, AI, REST API, TypeScript, Python
🟢Уровень дохода не указан | 1–3 года опыта

AI Engineer
🟢Python, FastAPI, MongoDB, GitLab CI/CD, Kubernetes, AWS, Azure, GCP
🟢Уровень дохода не указан | 1–3 года опыта

Database Administrator
🟢PostgreSQL, MySQL, Zabbix, Prometheus, Linux, BigQuery, MongoDB, ClickHouse
🟢Уровень дохода не указан | более 6 лет опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1🔥1

3.21K views18:07

Data Science | Machinelearning [ru]

➡️

Добро пожаловать в CAMELoT

В статье рассказывается о новой архитектуре CAMELoT, которая помогает большим языковым моделям обрабатывать длинные последовательности, не требуя повторного обучения. Она использует ассоциативную память для улучшения производительности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2❤1

3.16K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Выявление тренда в временном ряде

Напишите Python-скрипт, который принимает временной ряд в виде pandas.Series и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным.

➡️ Пример:

import pandas as pd
import numpy as np

# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

result = detect_trend(time_series)
print(result)  # Ожидаемый результат: "Восходящий тренд"

Решение задачи🔽

import numpy as np

def detect_trend(series):
x = np.arange(len(series))
slope = np.polyfit(x, series.values, 1)[0]
if slope > 0:
return "Восходящий тренд"
elif slope < 0:
return "Нисходящий тренд"
else:
return "Тренд отсутствует"

# Пример использования
import pandas as pd
import numpy as np

date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

print(detect_trend(time_series))

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

3.2K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT

• Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей

• Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

• Возможности LLM и RAG на примере реализации бота для поддержки клиентов

• Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

3.23K views18:07

Data Science | Machinelearning [ru]

⚙️

Как устроена Лаборатория Инноваций СИБУРа и зачем она нужна

Как применять ИИ и цифровизацию в гигантской промышленной компании с десятками заводов? Узнайте, как СИБУР реализует более 30 успешных кейсов и работает с сотнями гипотез в Лаборатории ИИ.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1👎1🐳1

3.09K views10:07

Data Science | Machinelearning [ru]

⚙️

Пишем свою Diffusion модель с нуля

Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

3.04K views18:07

Data Science | Machinelearning [ru]

🤔

До 5 % новых статей «Википедии» содержат тексты от ИИ

Учёные из Принстона проанализировали новые статьи в «Википедии» и выяснили, что ИИ уже активно пишет энциклопедию. Около 5% англоязычных материалов содержат значительные объёмы текста, сгенерированного машинами.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥2

3K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое train_test_split в Scikit-learn и зачем он используется?

train_test_split — это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения.

➡️

Пример:

from sklearn.model_selection import train_test_split
import numpy as np

# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])

# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)

🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

3.19K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Data Analyst со знанием 1C / SQL / Python
• 1C, PostgreSQL, Python, SQL, Tableau
• от 150 000 до 200 000 ₽ | от 3 лет опыта

Разработчик чатбота с интеграцией LLM/специалист по Data Science
• Python, Обработка естественного языка, Машинное обучение, Pandas, Анализ данных
• от 300 до 450 € | Опыт не указан

Data Scientist
• Python, SQL, Машинное обучение, Анализ данных, Математическая статистика
• Уровень дохода не указан | от 2 лет опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

3.04K views18:07

Data Science | Machinelearning [ru]

⚙️

Нейросетевой апскейлинг дома: вторая молодость для классических мультфильмов

Статья рассказывает, как с помощью нейросетей улучшить качество старых видеозаписей, включая VHS и DVD. Описываются инструменты, процесс и результаты с примерами, доступные каждому без глубоких технических знаний.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2

3.14K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Проверка, являются ли две строки анаграммами

Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы.

Пример:

result1 = are_anagrams("listen", "silent")
print(result1)  # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2)  # Ожидаемый результат: False

Решение задачи🔽

def are_anagrams(str1, str2):
# Удаляем пробелы и приводим к одному регистру
str1 = ''.join(str1.lower().split())
str2 = ''.join(str2.lower().split())

# Проверяем, равны ли отсортированные символы
return sorted(str1) == sorted(str2)

# Пример использования:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11👎3❤2

3.17K views18:07

Data Science | Machinelearning [ru]

🎞

Как за 6 промтов к ChatGPT создать Python скрипт, скачивающий видео с YouTube для просмотра на телевизоре через Kodi

Статья рассказывает, как с помощью Python и ChatGPT создать скрипт для автоматической загрузки видео с YouTube и генерации метаданных (описаний и обложек) для интеграции с медиацентром Kodi.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤1👍1

3.32K views10:07

Data Science | Machinelearning [ru]

💬

Внедрение ИИ в общение с клиентами

Статья исследует развитие ИИ в общении с клиентами и его интеграцию в бизнес. Обсуждаются успехи и сложности внедрения чат-ботов, важность настройки под бизнес-цели и перспективы замены сотрудников ИИ.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

3.35K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для сеньоров

Prompt-инженер
• Технический перевод, техническая документация, Python
• до 200 000 ₽ | Старший (Senior) уровень

Аналитик данных / Data Analyst
• SQL, Python, математическая статистика, Jupyter Notebook, A/B тестирование
• от 300 000 до 400 000 ₽ | Старший (Senior) уровень

Database Administrator
• ClickHouse, PostgreSQL, Python
• до 5 000 $ | Старший (Senior) уровень

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

3.18K views18:07

Data Science | Machinelearning [ru]

⚙️

Что такое модуль collections в Python и как он используется?

collections — это стандартный модуль Python, который предоставляет высокопроизводительные контейнеры данных, такие как Counter, deque, и defaultdict. Он используется для более удобной работы со структурами данных.

➡️

Пример:

from collections import Counter

data = ['apple', 'banana', 'apple', 'orange', 'banana', 'apple']
counter = Counter(data)
print(counter)  # Counter({'apple': 3, 'banana': 2, 'orange': 1})

🗣️ В этом примере Counter подсчитывает количество каждого элемента в списке data. Это полезно для анализа данных, работы с частотами или подсчёта элементов в коллекциях.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

3.3K views13:37

Data Science | Machinelearning [ru]

📝

Подборка вакансий для лидов

Team Lead Data Science
• Python, PySpark, SQL, Hadoop, Linux, Bash, Git
• Уровень дохода не указан | от 3 лет опыта

Team Lead Data Scientist (Персонификация)
• Git, Машинное обучение, NLP
• Уровень дохода не указан | Опыт не указан

Ведущий инженер данных (Data Platform и ML)
• SQL, Python, ClickHouse, Apache Kafka, Apache Airflow, Grafana, DWH, ETL, Apache Spark
• Уровень дохода не указан | от 3 лет опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

3.14K views18:07