Алоха товарищи. Тут подкаст вышел интересный. Спикер - Антон Полднев — специалист по рекламным технологиям Яндекса с опытом свыше 10 лет.
В подкасте он рассказывает о своем пути от стажера, который писал на Perl, до руководителя и делится инсайтами разработки высоконагруженных систем.
Он объясняет, как работает рекомендательная система рекламы, как ML помогает предсказывать поведение пользователей и вероятность конверсии для бизнеса. ⠀
Ключевые моменты:
👉 Ответственность за рекламные технологии.
👉 Переход на C++ для повышения производительности.
👉 Внедрение нейросетей и машинного обучения.
👉 Важность командной работы и четкого распределения задач.
👉 Эксперименты и A/B-тесты для оптимизации решений.
Также Антон рассказал про Perforator — opensource-инструмент, который помогает анализировать работу приложений на сервере в реальном времени. С помощью этого инструмента разработчики могут увидеть, как распределяются ресурсы серверов и какие программы расходуют их больше всего.
Ссылки на подкаст
👉 YouTube
👉 VK
👉 Rutube
В подкасте он рассказывает о своем пути от стажера, который писал на Perl, до руководителя и делится инсайтами разработки высоконагруженных систем.
Он объясняет, как работает рекомендательная система рекламы, как ML помогает предсказывать поведение пользователей и вероятность конверсии для бизнеса. ⠀
Ключевые моменты:
👉 Ответственность за рекламные технологии.
👉 Переход на C++ для повышения производительности.
👉 Внедрение нейросетей и машинного обучения.
👉 Важность командной работы и четкого распределения задач.
👉 Эксперименты и A/B-тесты для оптимизации решений.
Также Антон рассказал про Perforator — opensource-инструмент, который помогает анализировать работу приложений на сервере в реальном времени. С помощью этого инструмента разработчики могут увидеть, как распределяются ресурсы серверов и какие программы расходуют их больше всего.
Ссылки на подкаст
👉 YouTube
👉 VK
👉 Rutube
❤3👍3🔥1
Этичные хакеры будут искать уязвимости в нейросетках Яндекса
Яндекс давно привлекает этичных хакеров для повышения безопасности сервисов. Теперь им предлагают найти ошибки в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре в рамках нового конкурса багбаунти-программы «Охота за ошибками». Вознаграждение — до миллиона рублей, в зависимости от критичности проблемы.
Искать нужно будет технические уязвимости, которые могут влиять на результат работы нейросетевых моделей. Неточные ответы Алисы не в счет.
Яндекс давно привлекает этичных хакеров для повышения безопасности сервисов. Теперь им предлагают найти ошибки в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре в рамках нового конкурса багбаунти-программы «Охота за ошибками». Вознаграждение — до миллиона рублей, в зависимости от критичности проблемы.
Искать нужно будет технические уязвимости, которые могут влиять на результат работы нейросетевых моделей. Неточные ответы Алисы не в счет.
❤6👍3👎3🔥2🐳1
В статье показали, как делали ИИ-помощника на RAG для юристов внутри компании: с какими проблемами столкнулись, как прокачивали точность ответов и экономили память на видеокартах.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥1
StandardScaler
из библиотеки scikit-learn
— это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1.Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans.
from sklearn.preprocessing import StandardScaler
import numpy as np
X = np.array([[10, 200],
[20, 300],
[30, 400]])
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(X_scaled)
🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Team Lead Data Scientist
Lead Data Engineer
Lead Data Engineer
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
В статье проверяют, как Yandex GPT в голосовом ассистенте ведёт себя с персональными данными. Узнают, что он сливает номер телефона и личную инфу, а потом делает вид, что ничего не знает.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤1👍1
Попал на новый проект и боишься "чужого" кода? Сложно и страшно?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥1
Python-разработчик
AI Engineer
DBA | Senior Database Administrator
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Статья анализирует роль языка и цифровизации в накоплении и передаче знаний. Обсуждаются вызовы структурирования данных, которые, несмотря на успехи машинного обучения и реляционных баз, всё ещё затрудняют полное понимание накопленной информации.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥2
Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией.
data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})
print(find_highest_correlation(data))
# Ожидаемый результат: ('B', 'D')
Решение задачи
def find_highest_correlation(df):
corr_matrix = df.corr()
max_corr = 0
columns = (None, None)
for col1 in corr_matrix.columns:
for col2 in corr_matrix.columns:
if col1 != col2 and corr_matrix[col1][col2] > max_corr:
max_corr = corr_matrix[col1][col2]
columns = (col1, col2)
return columns
# Пример использования:
import pandas as pd
data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})
print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
• Разбей и властвуй: как создать кастомный токенизатор в SpaCy
• Функция property() в Python: добавляем управляемые атрибуты в классы
• Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году
• cgroups и namespaces в Linux: как это работает?
• ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
В статье разберут, почему при обучении нейросети loss внезапно становится NaN и модель ломается. Расскажут, какие бывают причины этого трэша и как спасти обучение без лишней боли.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
В машинном обучении Accuracy — это метрика качества классификации. Показывает, сколько предсказаний модель сделала правильно.
Решение задачи
def accuracy_score(y_true, y_pred):
correct = 0
for true, pred in zip(y_true, y_pred):
if true == pred:
correct += 1
return correct / len(y_true)
# Пример использования:
y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1]
print(accuracy_score(y_true, y_pred)) # 0.833...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
Data Engineer (Junior)
Junior/Middle Data Engineer (Финансовый блок)
Data Analyst (Junior)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥1🐳1
One-Hot Encoding — это способ преобразования категориальных признаков (текста) в числовой формат для обучения моделей машинного обучения.
Каждое уникальное значение категории превращается в отдельную колонку с 0 или 1.
import pandas as pd
data = pd.DataFrame({
'Color': ['Red', 'Green', 'Blue', 'Red']
})
# Применяем One-Hot Encoding
encoded = pd.get_dummies(data)
print(encoded)
Color_Blue Color_Green Color_Red
0 0 0 1
1 0 1 0
2 1 0 0
3 0 0 1
🗣️ В этом примере категориальный столбец Color преобразован в три колонки с бинарными значениями. Такой формат данных необходим для многих моделей, например, линейной регрессии и деревьев решений.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Data Scientist (Middle)
Инженер данных / Data engineer (middle)
Аналитик данных/Data Analyst
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Создайте модель на датасете Iris, обучите классификатор
KNeighborsClassifier
и сделайте предсказание. Это классическая задача для первых шагов в машинном обучении.Решение задачи
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
# Загружаем данные
iris = load_iris()
X, y =iris.data , iris.target
# Делим на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# Обучаем модель
model = KNeighborsClassifier(n_neighbors=3)model.fit (X_train, y_train)
# Предсказание
y_pred = model.predict(X_test)
# Оценка качества
print(f"Точность: {accuracy_score(y_test, y_pred):.2f}")
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Показано, как собрать рекомендательную систему на своём архиве документов, даже если там куча форматов. NLP + графы = машинный архивариус, который сам подсовывает нужные файлы.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥1