В статье обсуждается заявление Ильи Суцкевера о том, что данные для ИИ сравнимы с ископаемым топливом, и их запас исчерпан. Объясняется концепция энтропии данных и её значение для LLM.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
train_test_split
в Scikit-learn и зачем он используется?train_test_split
— это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения.from sklearn.model_selection import train_test_split
import numpy as np
# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])
# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)
🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.
Please open Telegram to view this post
VIEW IN TELEGRAM
Аналитик данных Middle+ / Data Analyst
•
Python, SQL, A/B тестирование•
от 200 000 до 300 000 ₽ | Средний (Middle) уровеньАналитик данных
•
SQL, PostgreSQL, Greenplum, Apache Airflow, DWH, Apache Spark•
от 280 000 до 350 000 ₽ | Средний (Middle) уровеньИнженер по компьютерному зрению
•
Python, OpenCV, TensorFlow, PyTorch, машинное обучение, глубокое обучение•
Уровень дохода не указан | Требуемый опыт не указанPlease open Telegram to view this post
VIEW IN TELEGRAM
Статья рассказывает, как с помощью нейросетей улучшить качество старых видеозаписей, включая VHS и DVD. Описываются инструменты, процесс и результаты с примерами, доступные каждому без глубоких технических знаний.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Напишите функцию, которая принимает список и возвращает элемент, который встречается чаще всего. Если таких элементов несколько, вернуть любой из них.
Пример:
numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result)
# Ожидаемый результат: 3 (или 1, если в списке оба встречаются одинаково часто)
Решение задачи
from collections import Counter
def most_frequent(lst):
count = Counter(lst)
return max(count, key=count.get)
# Пример использования:
numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result) # Ожидаемый результат: 3
Please open Telegram to view this post
VIEW IN TELEGRAM
Статья исследует развитие ИИ в общении с клиентами и его интеграцию в бизнес. Обсуждаются успехи и сложности внедрения чат-ботов, важность настройки под бизнес-цели и перспективы замены сотрудников ИИ.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Поиск работы часто превращается в рутину. Чтобы сэкономить время, разработчик создал систему автоматизации откликов на вакансии. Как это работает и какие результаты он получил — читайте в статье.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt-инженер
•
Технический перевод, техническая документация, Python•
до 200 000 ₽ | Старший (Senior) уровеньАналитик данных / Data Analyst
•
SQL, Python, математическая статистика, Jupyter Notebook, A/B тестирование•
от 300 000 до 400 000 ₽ | Старший (Senior) уровеньDatabase Administrator
•
ClickHouse, PostgreSQL, Python•
до 5 000 $ | Старший (Senior) уровеньPlease open Telegram to view this post
VIEW IN TELEGRAM
Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова
yield
, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
a, b = 0, 1
for _ in range(n):
yield a
a, b = b, a + b
# Используем генератор
for num in fibonacci(5):
print(num)
# Вывод: 0, 1, 1, 2, 3
🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.
Please open Telegram to view this post
VIEW IN TELEGRAM
Team Lead Data Platform
•
Python, SQL, Git, Apache Hadoop, Apache Spark, Apache Airflow, Apache Kafka, Управление людьми•
Уровень дохода не указан | Требуемый опыт не указанTeam Lead Data Scientist (кредитный скоринг)
•
Python, SQL, MatPlotLib, Pandas, NumPy, Машинное обучение, Математическое моделирование, XML, JSON•
Уровень дохода не указан | от 3 лет опытаВедущий аналитик
•
Microsoft Excel, Анализ данных, Pandas, Tableau, PowerBI, SQL, Python, NumPy, SQLAlchemy•
от 100 000 ₽ | Требуемый опыт не указанPlease open Telegram to view this post
VIEW IN TELEGRAM
Порой сложно разобраться, как данные путешествуют через сервисы, API и базу. Это может превращать даже простые задачи в ад.
Please open Telegram to view this post
VIEW IN TELEGRAM
Senior Data Scientist (ML / NLP / RAG)
AI R&D Engineer (Intern)
Data Engineer
Please open Telegram to view this post
VIEW IN TELEGRAM
Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл.
python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35
Решение задачи
import pandas as pd
import sys
if len(sys.argv) < 4:
print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>")
sys.exit(1)
input_file = sys.argv[1]
output_file = sys.argv[2]
column_name = sys.argv[3]
try:
df = pd.read_csv(input_file)
df = df.drop_duplicates(subset=[column_name])
df.to_csv(output_file, index=False)
print(f"Дубликаты удалены. Результат сохранён в {output_file}")
except Exception as e:
print(f"Ошибка: {e}")
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
• Не бойтесь потоков в Python, они не кусаются
• Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM
• Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?
• Семантический веб: краткий обзор технологий и инструментов
• Инструмент обеспечения качества данных: от теории к практике
Please open Telegram to view this post
VIEW IN TELEGRAM
Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Напишите функцию, которая принимает список email-адресов и возвращает уникальные домены из этого списка. Домен — это часть адреса после символа
@
.["user1@example.com", "user2@test.com", "user3@example.com", "user4@sample.com"]
#{"example.com", "test.com", "sample.com"}
Решение задачи
def get_unique_domains(emails):
domains = {email.split('@')[1] for email in emails}
return domains
# Пример использования:
emails = ["user1@example.com ", " user2@test.com ", " user3@example.com ", " user4@sample.com "]
result = get_unique_domains(emails)
print(result) # Ожидаемый результат: {'example.com ', ' test.com ', ' sample.com '}
Please open Telegram to view this post
VIEW IN TELEGRAM
Data-аналитик в области временных рядов (Junior)
Продуктовый аналитик/junior product менеджер
Data-инженер
Please open Telegram to view this post
VIEW IN TELEGRAM
Статья описывает метод, разработанный для автоматического наполнения графов знаний с помощью LLM, что снижает вероятность «галлюцинаций» и повышает точность ответов. Решение Prompt Me One More Time подробно представлено на TextGraphs-17 конференции ACL-2024.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1