Напишите функцию на Python, которая принимает путь к текстовому файлу и возвращает словарь с подсчётом количества уникальных слов. Слова должны сравниваться без учёта регистра, а знаки препинания должны быть удалены.
Пример:
# Содержимое файла example.txt:
# "Hello, world! This is a test. Hello again."
result = count_words_in_file("example.txt")
print(result)
# Ожидаемый результат:
# {'hello': 2, 'world': 1, 'this': 1, 'is': 1, 'a': 1, 'test': 1, 'again': 1}
Решение задачи
import string
from collections import Counter
def count_words_in_file(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
text =f.read ().lower()
text = text.translate(str.maketrans('', '', string.punctuation))
words = text.split()
return dict(Counter(words))
# Пример использования
result = count_words_in_file("example.txt")
print(result)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1👎1🔥1
Как машинное обучение помогает управлять ускорителями частиц? В статье раскрываются примеры применения нейронных сетей, обучения с подкреплением и байесовской оптимизации для стабилизации и настройки пучков частиц.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥2
PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.
В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍2
Data Engineer (Golang)
•
Golang, ClickHouse, MySQL, MongoDB, Kubernetes, HTTP/gRPC API, Apache Kafka, Redis•
Уровень дохода не указан | от 3 летData Scientist NLP (портал gosuslugi.ru)
•
Python 3, numpy, pandas, scipy, sklearn, PyTorch, NLTK, transformers, FastAPI, Docker, Spark/Hadoop•
Уровень дохода не указан | от 1 годаSenior Data Engineer
•
Apache Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter, S3 MinIO•
Уровень дохода не указан | от 5 летSenior Python Dev (AI, Big Data, LLM)
•
Python, PostgreSQL, Big Data, AI, ML, ClickHouse, Time Series, Go•
от 3 000 $ | от 5 летPlease open Telegram to view this post
VIEW IN TELEGRAM
❤3🐳1
• Вся правда о еженедельных созвонах, или Зачем переливать из пустого в порожнее?
• Тяжела и неказиста жизнь простого RnD. Часть первая: как работают с новыми технологиями в крупных компаниях
• Прийти на внедренный проект на этапе развития системы: как аналитику быстро погрузиться в процессы
• Как гуманитарию подойти к IT: из переводчика в технические писатели
• Поздравляем, вы DevOps-инженер. Как найти себя в необъятном мире ИТ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🐳1
PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.
import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
# Загрузка данных
data = load_iris()
X = data.data
# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
print(X_pca[:5]) # Преобразованные данные
🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2
Статья рассказывает, как автоматизация на основе LLM ускорила верификацию данных и сократила ошибки в производственной цепочке. Узнаете, как это помогло заказчику сэкономить ресурсы и время.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🐳2
Фича готова, тесты зелёные, код ревью пройдено. Кажется, что можно расслабиться?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🐳1
AI Agent Engineer
AI Engineer
Database Administrator
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
В статье рассказывается о новой архитектуре CAMELoT, которая помогает большим языковым моделям обрабатывать длинные последовательности, не требуя повторного обучения. Она использует ассоциативную память для улучшения производительности.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2❤1
Напишите Python-скрипт, который принимает временной ряд в виде
pandas.Series
и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным.import pandas as pd
import numpy as np
# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)
result = detect_trend(time_series)
print(result) # Ожидаемый результат: "Восходящий тренд"
Решение задачи
import numpy as np
def detect_trend(series):
x = np.arange(len(series))
slope = np.polyfit(x, series.values, 1)[0]
if slope > 0:
return "Восходящий тренд"
elif slope < 0:
return "Нисходящий тренд"
else:
return "Тренд отсутствует"
# Пример использования
import pandas as pd
import numpy as np
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)
print(detect_trend(time_series))
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥1
• Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT
• Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей
• Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели
• Возможности LLM и RAG на примере реализации бота для поддержки клиентов
• Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Как применять ИИ и цифровизацию в гигантской промышленной компании с десятками заводов? Узнайте, как СИБУР реализует более 30 успешных кейсов и работает с сотнями гипотез в Лаборатории ИИ.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1👎1🐳1
Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Учёные из Принстона проанализировали новые статьи в «Википедии» и выяснили, что ИИ уже активно пишет энциклопедию. Около 5% англоязычных материалов содержат значительные объёмы текста, сгенерированного машинами.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥2
train_test_split
в Scikit-learn и зачем он используется?train_test_split
— это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения.from sklearn.model_selection import train_test_split
import numpy as np
# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])
# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)
🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
Data Analyst со знанием 1C / SQL / Python
•
1C, PostgreSQL, Python, SQL, Tableau•
от 150 000 до 200 000 ₽ | от 3 лет опытаРазработчик чатбота с интеграцией LLM/специалист по Data Science
•
Python, Обработка естественного языка, Машинное обучение, Pandas, Анализ данных•
от 300 до 450 € | Опыт не указанData Scientist
•
Python, SQL, Машинное обучение, Анализ данных, Математическая статистика•
Уровень дохода не указан | от 2 лет опытаPlease open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
Статья рассказывает, как с помощью нейросетей улучшить качество старых видеозаписей, включая VHS и DVD. Описываются инструменты, процесс и результаты с примерами, доступные каждому без глубоких технических знаний.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2
Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы.
Пример:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True
result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False
Решение задачи
def are_anagrams(str1, str2):
# Удаляем пробелы и приводим к одному регистру
str1 = ''.join(str1.lower().split())
str2 = ''.join(str2.lower().split())
# Проверяем, равны ли отсортированные символы
return sorted(str1) == sorted(str2)
# Пример использования:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True
result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11👎3❤2