Эта статья поможет вам не только понять, какие исследования и опыт позволяют извлекать знания из данных, чтобы делать машины умнее, но и как конкретно это происходит.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
Пропущенные данные — частая проблема в Data Science, особенно в реальных данных. Чтобы правильно обработать такие данные, можно использовать стратегии заполнения пропусков (например, средним значением или медианой) или удалить строки/столбцы с пропусками.
import pandas as pd
import numpy as np
data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)
# Заполнение пропусков средним значением
df['A'].fillna(df['A'].mean(), inplace=True)
print(df)
🗣️ Пропущенные данные могут искажать результаты анализа, поэтому их нужно обрабатывать перед моделированием.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1👎1
Data Engineer
•
SQL, Python, bash, Airflow, NiFi, PostgreSQL, GreenPlum, Clickhouse, Redis, Kafka, Git, Linux•
Уровень дохода не указан | Опыт работы: 3–6 летData аналитик (Виртуальные ассистенты)
•
SQL, Big Data, Python, библиотеки для анализа данных•
Уровень дохода не указан | Опыт работы: 1–3 годаData Scientist (Скоринг/моделирование)
•
Python, SQL, Hadoop, методы машинного обучения•
Уровень дохода не указан | Опыт работы: 1–3 годаPlease open Telegram to view this post
VIEW IN TELEGRAM
❤1
Ты знал, что злоумышленникам для взлома генеративных ИИ достаточно всего 42 секунды и пяти запросов? В этой статье мы разберем, как это происходит, какие уязвимости существуют и как защитить свои системы от подобных атак.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🐳2
Создайте Python-скрипт, который читает большой CSV-файл построчно, фильтрует строки по заданному критерию и подсчитывает агрегированные данные на основе указанного столбца. Скрипт должен эффективно обрабатывать файл, используя потоковое чтение (без загрузки файла целиком в память) и выводить итоговую статистику в консоль.
•
python process_data.py data.csv age 30
— фильтрует строки, где значение в столбце age
больше 30
, и подсчитывает общее количество таких записей и среднее значение в другом числовом столбце, например, salary
.Решение задачи
import csv
import sys
def process_large_csv(file_path, filter_column, threshold, aggregate_column):
count = 0
total_sum = 0.0
with open(file_path, 'r', encoding='utf-8') as file:
reader = csv.DictReader(file)
for row in reader:
# Преобразование значений для фильтрации и агрегации
try:
filter_value = float(row[filter_column])
aggregate_value = float(row[aggregate_column])
except ValueError:
continue # Пропускаем строки с некорректными данными
# Фильтрация строк по заданному условию
if filter_value > threshold:
count += 1
total_sum += aggregate_value
# Вывод итоговой статистики
if count > 0:
average = total_sum / count
print(f"Обработано записей: {count}")
print(f"Среднее значение {aggregate_column} для записей, где {filter_column} > {threshold}: {average:.2f}")
else:
print("Записи, соответствующие условиям фильтрации, не найдены.")
if __name__ == "__main__":
if len(sys.argv) < 5:
print("Использование: python process_data.py <file_path> <filter_column> <threshold> <aggregate_column>")
sys.exit(1)
file_path = sys.argv[1]
filter_column = sys.argv[2]
threshold = float(sys.argv[3])
aggregate_column = sys.argv[4]
process_large_csv(file_path, filter_column, threshold, aggregate_column)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥2
Статья раскрывает процесс использования БПЛА и нейросетей для точного распознавания объектов на ортофотопланах. Описаны этапы подготовки данных, разметки и обучения сети на примере поиска пикетных столбиков на ж/д перегонах. Исходный код доступен на GitHub.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12
В статье описан путь от пет-проекта до системы для трекинга транспорта: нейросети, компьютерное зрение и инструменты, позволяющие «видеть» и анализировать производственные процессы.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🐳1
Senior Data Analyst
•
Python, SQL, Tableau, Power BI•
Уровень дохода не указан | 3–5 лет опытаSenior Data scientist (Recsys)
•
Python, PyTorch, Машинное обучение, Deep Learning•
Уровень дохода не указан | Опыт не указанSenior Big Data Engineer
•
ClickHouse, Apache Hadoop, Apache Spark, Apache Kafka•
Уровень дохода не указан | Опыт не указанPlease open Telegram to view this post
VIEW IN TELEGRAM
❤1
В статье рассказывается, как быстро протестировать 16 LLM для создания текстовых прототипов, даже если вы не в теме ML. Берём несколько моделей, сравниваем результаты, оцениваем, подходит ли под задачу.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥1
__name__ == "__main__"
в Python?Конструкция
if __name__ == "__main__"
определяет, выполняется ли скрипт как основная программа или импортируется в качестве модуля. Это позволяет запускать код только при непосредственном запуске скрипта, исключая его выполнение при импорте.def greet():
print("Hello from greet!")
if __name__ == "__main__":
greet() # Этот вызов выполнится только при запуске скрипта напрямую
🗣 В этом примере greet() будет вызвана, если файл запускается напрямую. Если скрипт импортируется как модуль, greet() не вызовется, сохраняя модульную структуру кода.
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳7❤1
Статья раскрывает процесс полной автоматизации создания карточек товаров для маркетплейсов, используя нейросети, Photoshop и немного креативного подхода. Описаны практические методы, которые экономят тысячи рублей на огромном ассортименте.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥1
Ты можешь быть отличным кодером, но без понимания архитектуры систем твои решения будут ограниченными.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍1
Статья знакомит с FlexiPrompt — лёгкой библиотекой для генерации промптов в Python при работе с языковыми моделями. Рассмотрены её преимущества: быстрая интеграция, гибкая настройка диалога и возможность создания нескольких агентов в одной LLM.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Напишите функцию, которая принимает список email-адресов и возвращает уникальные домены из этого списка. Домен — это часть адреса после символа
@
.["user1@example.com", "user2@test.com", "user3@example.com", "user4@sample.com"]
#{"example.com", "test.com", "sample.com"}
Решение задачи
def get_unique_domains(emails):
domains = {email.split('@')[1] for email in emails}
return domains
# Пример использования:
emails = ["user1@example.com ", " user2@test.com ", " user3@example.com ", " user4@sample.com "]
result = get_unique_domains(emails)
print(result) # Ожидаемый результат: {'example.com ', ' test.com ', ' sample.com '}
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👎1
Статья описывает метод, разработанный для автоматического наполнения графов знаний с помощью LLM, что снижает вероятность «галлюцинаций» и повышает точность ответов. Решение Prompt Me One More Time подробно представлено на TextGraphs-17 конференции ACL-2024.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Напишите функцию, которая принимает список чисел и возвращает все значения, которые являются выбросами. Выбросы определяются как значения, которые находятся ниже первого квартиля (Q1) минус 1.5 * IQR или выше третьего квартиля (Q3) плюс 1.5 * IQR, где IQR — межквартильный размах.
Входной список:
[10, 12, 14, 15, 15, 16, 16, 16, 17, 18, 19, 100]
Ожидаемый вывод:
[100]
Решение задачи
import numpy as np
def find_outliers(data):
q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
return [x for x in data if x < lower_bound or x > upper_bound]
# Пример использования:
input_data = [10, 12, 14, 15, 15, 16, 16, 16, 17, 18, 19, 100]
result = find_outliers(input_data)
print(result) # Ожидаемый результат: [100]
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
ML\AI & Python Developer (Junior)
Junior Data Analyst
Junior Data Analyst
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2