Data Science | Machinelearning [ru]
17.9K subscribers
461 photos
14 videos
29 files
3.33K links
Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
🔫 Claude сопротивляется

Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🐳1
⚙️ Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется?

PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.

➡️ Пример:

import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Загрузка данных
data = load_iris()
X = data.data

# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print(X_pca[:5]) # Преобразованные данные


🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2
⚙️ Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%

Статья рассказывает, как автоматизация на основе LLM ускорила верификацию данных и сократила ошибки в производственной цепочке. Узнаете, как это помогло заказчику сэкономить ресурсы и время.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
4🐳2
🚀 Не останавливайся на «оно работает»

Фича готова, тесты зелёные, код ревью пройдено. Кажется, что можно расслабиться?

👉 Совет: потрать ещё 10 минут на вопрос: «Можно ли сделать это лучше?». Оптимизируй, убери лишнее, подумай о будущем расширении. Хороший код — это не просто рабочий код, а код, который легко поддерживать.
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🐳1
🔎 Подборка зарубежных вакансий

AI Agent Engineer
🟢ElizaOS, AI, REST API, TypeScript, Python
🟢Уровень дохода не указан | 1–3 года опыта

AI Engineer
🟢Python, FastAPI, MongoDB, GitLab CI/CD, Kubernetes, AWS, Azure, GCP
🟢Уровень дохода не указан | 1–3 года опыта

Database Administrator
🟢PostgreSQL, MySQL, Zabbix, Prometheus, Linux, BigQuery, MongoDB, ClickHouse
🟢Уровень дохода не указан | более 6 лет опыта
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1
➡️ Добро пожаловать в CAMELoT

В статье рассказывается о новой архитектуре CAMELoT, которая помогает большим языковым моделям обрабатывать длинные последовательности, не требуя повторного обучения. Она использует ассоциативную память для улучшения производительности.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21
👩‍💻 Выявление тренда в временном ряде

Напишите Python-скрипт, который принимает временной ряд в виде pandas.Series и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным.

➡️ Пример:

import pandas as pd
import numpy as np

# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

result = detect_trend(time_series)
print(result) # Ожидаемый результат: "Восходящий тренд"


Решение задачи🔽

import numpy as np

def detect_trend(series):
x = np.arange(len(series))
slope = np.polyfit(x, series.values, 1)[0]
if slope > 0:
return "Восходящий тренд"
elif slope < 0:
return "Нисходящий тренд"
else:
return "Тренд отсутствует"

# Пример использования
import pandas as pd
import numpy as np

date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

print(detect_trend(time_series))
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1
⚙️ Как устроена Лаборатория Инноваций СИБУРа и зачем она нужна

Как применять ИИ и цифровизацию в гигантской промышленной компании с десятками заводов? Узнайте, как СИБУР реализует более 30 успешных кейсов и работает с сотнями гипотез в Лаборатории ИИ.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21👎1🐳1
⚙️ Пишем свою Diffusion модель с нуля

Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
🤔 До 5 % новых статей «Википедии» содержат тексты от ИИ

Учёные из Принстона проанализировали новые статьи в «Википедии» и выяснили, что ИИ уже активно пишет энциклопедию. Около 5% англоязычных материалов содержат значительные объёмы текста, сгенерированного машинами.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥2
⚙️ Что такое train_test_split в Scikit-learn и зачем он используется?

train_test_split — это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения.

➡️ Пример:

from sklearn.model_selection import train_test_split
import numpy as np

# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])

# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)


🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
📝 Подборка вакансий для мидлов

Data Analyst со знанием 1C / SQL / Python
1C, PostgreSQL, Python, SQL, Tableau
от 150 000 до 200 000 ₽ | от 3 лет опыта

Разработчик чатбота с интеграцией LLM/специалист по Data Science
Python, Обработка естественного языка, Машинное обучение, Pandas, Анализ данных
от 300 до 450 € | Опыт не указан

Data Scientist
Python, SQL, Машинное обучение, Анализ данных, Математическая статистика
Уровень дохода не указан | от 2 лет опыта
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
⚙️ Нейросетевой апскейлинг дома: вторая молодость для классических мультфильмов

Статья рассказывает, как с помощью нейросетей улучшить качество старых видеозаписей, включая VHS и DVD. Описываются инструменты, процесс и результаты с примерами, доступные каждому без глубоких технических знаний.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52
👩‍💻 Проверка, являются ли две строки анаграммами

Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы.

Пример:

result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False


Решение задачи🔽

def are_anagrams(str1, str2):
# Удаляем пробелы и приводим к одному регистру
str1 = ''.join(str1.lower().split())
str2 = ''.join(str2.lower().split())

# Проверяем, равны ли отсортированные символы
return sorted(str1) == sorted(str2)

# Пример использования:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11👎32
🎞 Как за 6 промтов к ChatGPT создать Python скрипт, скачивающий видео с YouTube для просмотра на телевизоре через Kodi

Статья рассказывает, как с помощью Python и ChatGPT создать скрипт для автоматической загрузки видео с YouTube и генерации метаданных (описаний и обложек) для интеграции с медиацентром Kodi.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51👍1
💬 Внедрение ИИ в общение с клиентами

Статья исследует развитие ИИ в общении с клиентами и его интеграцию в бизнес. Обсуждаются успехи и сложности внедрения чат-ботов, важность настройки под бизнес-цели и перспективы замены сотрудников ИИ.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
📝 Подборка вакансий для сеньоров

Prompt-инженер
Технический перевод, техническая документация, Python
до 200 000 ₽ | Старший (Senior) уровень

Аналитик данных / Data Analyst
SQL, Python, математическая статистика, Jupyter Notebook, A/B тестирование
от 300 000 до 400 000 ₽ | Старший (Senior) уровень

Database Administrator
ClickHouse, PostgreSQL, Python
до 5 000 $ | Старший (Senior) уровень
Please open Telegram to view this post
VIEW IN TELEGRAM
1
⚙️ Что такое модуль collections в Python и как он используется?

collections — это стандартный модуль Python, который предоставляет высокопроизводительные контейнеры данных, такие как Counter, deque, и defaultdict. Он используется для более удобной работы со структурами данных.

➡️ Пример:

from collections import Counter

data = ['apple', 'banana', 'apple', 'orange', 'banana', 'apple']
counter = Counter(data)
print(counter) # Counter({'apple': 3, 'banana': 2, 'orange': 1})


🗣️ В этом примере Counter подсчитывает количество каждого элемента в списке data. Это полезно для анализа данных, работы с частотами или подсчёта элементов в коллекциях.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
3
📝 Подборка вакансий для лидов

Team Lead Data Science
Python, PySpark, SQL, Hadoop, Linux, Bash, Git
Уровень дохода не указан | от 3 лет опыта

Team Lead Data Scientist (Персонификация)
Git, Машинное обучение, NLP
Уровень дохода не указан | Опыт не указан

Ведущий инженер данных (Data Platform и ML)
SQL, Python, ClickHouse, Apache Kafka, Apache Airflow, Grafana, DWH, ETL, Apache Spark
Уровень дохода не указан | от 3 лет опыта
Please open Telegram to view this post
VIEW IN TELEGRAM
1