Python, Data Science, нейросети, ИИ все-все-все
17 subscribers
9 photos
1 file
131 links
IT-публикации о Python, Data Science и собственных проектах. Для связи пишите в чат, прикрепленный к каналу.
Download Telegram
🎸🎷🎻 В этой статье Луис Мартинс из TensorFlow рассказывает о преобразовании аудио в музыкальные партитуры с помощью модели SPICE. Выглядит интересно: напел мелодию на телефон и тут же получил ноты 🎶

#data_science #music #tensorflow

https://blog.tensorflow.org/2020/06/estimating-pitch-with-spice-and-tensorflow-hub.htm
100 статей по обработке естествественного языка, которые необходимо прочитать

Это список из 100 важных работ по обработке естественного языка, о которых, вероятно, должны знать и читать серьезные студенты и исследователи, работающие в этой области. Этот список составлен Масато Хагивара по ответам на соответствующий вопрос на Quora.

https://github.com/mhagiwara/100-nlp-papers

#data_science #machine_learning #nlp #natural_language_processing #english #github #nlp #оея #статьи #подборки
На YouTube выложен курс Калифорнийского университета Berkeley из 66 занятий про проектированию, визуализации и пониманию глубоких нейронных сетей https://www.youtube.com/playlist?list=PLuv1FSpHurUevSXe_k0S7Onh6ruL-_NNh

#data_science #courses #deep_learning
Несколько интересных статей и переводов по #data_science и #python из недавних постов на Хабре:
— «Triton: Open Source язык для ядер Deep Learning» перевод статьи про трудности обработки данных на GPU и проект Triton от OpenAI https://habr.com/ru/company/skillfactory/blog/579380/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov. В оригинале статьи вёрстка более корректная: https://openai.com/blog/triton/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov
— Про собеседования ML-инженера в компании-гиганты с примерами для разных этапов: https://habr.com/ru/post/579410/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov. Статью хорошо дополняют комментарии.
— Пяток книжек по статистике и анализу данных, которые я и сам рекомендую: https://habr.com/ru/company/skypro/blog/579278/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov
— Пара статей про «Python-культуру» в российских компаниях: https://habr.com/ru/company/it_people/blog/576410/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov (Provectus) и https://habr.com/ru/company/it_people/blog/569868/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov (Тинькофф)

Присылайте, если было что-то еще интересное.
Коротко для новичков: что такое Kaggle

Как указано на сайте ODS https://ods.ai/, Data Science соревнование — это «коллективное решение бизнес задачи в игровой форме, в кратчайшие сроки, с целью выявления лучшего решения. Это повод окунуться в предметную область и понять, как задача бизнеса переводится на язык прикладной математики».

📊 Kaggle https://www.kaggle.com/ — самая известная платформа Data Science соревнований. Любая компания может объявить на ней конкурс с денежным призом и описанием специфичной задачи анализа данных, а участники найдут решение.

💽 Логика простая: даже крутейший отдел дата сайентистов не сравнится по разнообразию идей с крупным коммьюнити, каким является Kaggle. А так компания добивается результата за небольшой срок и при ограниченных вложениях денег. Особенно, если данные и вся сопутствующая информация хорошо подготовлены. Плюс реклама компании в IT-среде.

🤖 Аналитики могут искать решение по одиночке или в команде. Kaggle проверяет не само решение, а то, насколько хорошо предлагаемая модель научилась предсказывать по имеющимся данным скрытые от нее значения. Например, находить координату объекта по фотографии, которая содержит этот объект. Чья модель предсказывает лучше, у того и выше место в рейтинге.

🏅 За позиции в рейтинге участники получают медали — золотые, серебряные, бронзовые. Их также дают за датасеты, публичные Jupyter-блокноты, участие в обсуждениях. Последние, кстати, не очень ценятся. Медали складываются в звания: Expert — Master — Grandmaster. Может помочь при прохождении технических интервью.

🏎️ Один из главных подвохов — некоторые задачи требуют значительных вычислительных ресурсов, которые могут очень отличаться у разных участников. Kaggle чуть выравнивает шансы, предоставляя возможности запуска Jupyter-блокнотов на графических (GPU) и тензорных (TPU) ускорителях. Аналогично тому, как это работает в Google Colab, то есть с лимитом вычислений в границах временного интервала.

🎓 Ещё здесь есть множество мини-курсов. Но мне их текущий формат не очень нравится — тесты выглядят натянуто.

Главное: Kaggle — это среда, в которой можно почерпнуть и попробовать на бизнес-задачах свежие идеи из мира Data Science.

#kaggle #novice #data_science
На Хабре недавно опубликовали перевод статьи Self-Parking Car In 500 Lines of Code. Большая статья с вдумчивой и хорошо иллюстрированной проработкой идеи генетического алгоритма (автор написал визуальный симулятор: https://trekhleb.dev/self-parking-car-evolution). И всё это на чистом JavaScript, без python-библиотек, так что идеи можно прочувствовать, как они есть.

Оригинал: https://trekhleb.dev/blog/2021/self-parking-car-evolution/
Перевод: https://habr.com/ru/post/580812/

#data_science #parking
JupyterLab теперь и в виде десктопного приложения

Самая популярная IDE для анализа данных стала еще лучше. Теперь не нужно запускать JupyterLab через терминал, вышла настольная версия. Что такое JupyterLab, я описывал еще в этой давней статье: https://proglib.io/p/jupyter

Линки для скачивания установщиков доступны на странице GitHub: https://github.com/jupyterlab/jupyterlab_app

В интерфейсе всё, как и раньше. Однако теперь будет проще новичкам, для которых терминал это что-то с другой планеты (c Юпитера? :-)

#jupyter #data_science
Описание сookiecutter-шаблона для Data Science проектов:
https://drivendata.github.io/cookiecutter-data-science/

Якорная ссылка, чтобы сразу посмотреть структуру:
https://drivendata.github.io/cookiecutter-data-science/#directory-structure



#data_science #cookiecutter
Добавил несколько ссылок на бесплатные книжки по Deep Learning и общему Machine Learning в любимый читателями репозиторий https://github.com/matyushkin/ds

Не стесняйтесь делать пул-реквесты и обмениваться идеями через телеграм-чат https://t.me/matyushkin_chat или в комментариях вк-группы. Хочется обмена идеями между всеми, но большинство ребят до сих пор пишут только в личные сообщения.

#data_science
Айрана Монгуш описала свой трек по изучению Data Science: https://habr.com/ru/post/589765/
Всё по делу.

#data_science #courses
Чтение на выходные: член сообщества ODS Олег Седухин опубликовал на Хабре обстоятельный лонгрид про CatBoost, XGBoost и выразительную способность решающих деревьев. С большим количеством занимательных экспериментов и ценных мыслей — рекомендую:

https://habr.com/ru/company/ods/blog/645887/

#data_science #machinelearning #catboost #xgboost
PyCaret представляет собой обертку на языке Python для нескольких библиотек и фреймворков машинного обучения, таких как scikit-learn, XGBoost, LightGBM, CatBoost, spaCy, Optuna, Hyperopt, Ray и некоторых других.

PyCaret — библиотека машинного обучения с открытым исходным кодом на языке Python, которая автоматизирует рабочие процессы машинного обучения. Это сквозной инструмент машинного обучения и управления моделями, который ускоряет цикл экспериментирования и делает нас более продуктивными.

Документация: https://pycaret.gitbook.io/docs/

#ml #data_science #links