🎸🎷🎻 В этой статье Луис Мартинс из TensorFlow рассказывает о преобразовании аудио в музыкальные партитуры с помощью модели SPICE. Выглядит интересно: напел мелодию на телефон и тут же получил ноты 🎶
#data_science #music #tensorflow
https://blog.tensorflow.org/2020/06/estimating-pitch-with-spice-and-tensorflow-hub.htm
#data_science #music #tensorflow
https://blog.tensorflow.org/2020/06/estimating-pitch-with-spice-and-tensorflow-hub.htm
100 статей по обработке естествественного языка, которые необходимо прочитать
Это список из 100 важных работ по обработке естественного языка, о которых, вероятно, должны знать и читать серьезные студенты и исследователи, работающие в этой области. Этот список составлен Масато Хагивара по ответам на соответствующий вопрос на Quora.
https://github.com/mhagiwara/100-nlp-papers
#data_science #machine_learning #nlp #natural_language_processing #english #github #nlp #оея #статьи #подборки
Это список из 100 важных работ по обработке естественного языка, о которых, вероятно, должны знать и читать серьезные студенты и исследователи, работающие в этой области. Этот список составлен Масато Хагивара по ответам на соответствующий вопрос на Quora.
https://github.com/mhagiwara/100-nlp-papers
#data_science #machine_learning #nlp #natural_language_processing #english #github #nlp #оея #статьи #подборки
GitHub
GitHub - mhagiwara/100-nlp-papers: 100 Must-Read NLP Papers
100 Must-Read NLP Papers. Contribute to mhagiwara/100-nlp-papers development by creating an account on GitHub.
Ещё один перевод публикации с RealPython про анализ тональности текста.
https://proglib.io/p/lyublyu-i-nenavizhu-analiz-emocionalnoy-okraski-teksta-s-pomoshchyu-python-2020-11-13
Решаем Data Science-задачу определения эмоциональной окраски текста с помощью Python-библиотеки spaCy и стопки рецензий на фильмы. Сентимент-анализ в действии.
#python #nlp #sentimen_analysis #data_science
https://proglib.io/p/lyublyu-i-nenavizhu-analiz-emocionalnoy-okraski-teksta-s-pomoshchyu-python-2020-11-13
Решаем Data Science-задачу определения эмоциональной окраски текста с помощью Python-библиотеки spaCy и стопки рецензий на фильмы. Сентимент-анализ в действии.
#python #nlp #sentimen_analysis #data_science
Библиотека программиста
🔥 «Люблю» и «ненавижу»: анализ эмоциональной окраски текста с помощью Python
Решаем Data Science-задачу определения эмоциональной окраски текста с помощью Python-библиотеки spaCy и стопки рецензий на фильмы. Сентимент-анализ в действии.
📊 Туториал: визуализация данных в вебе с помощью Python и Dash
В этом руководстве рассмотрим, как с помощью Python и библиотеки Dash создать, оформить и опубликовать на хостинге интерактивное веб-приложение с результатами анализа данных.
https://proglib.io/p/tutorial-vizualizaciya-dannyh-v-vebe-s-pomoshchyu-python-i-dash-2021-01-11
#python #data_science #dash #web
В этом руководстве рассмотрим, как с помощью Python и библиотеки Dash создать, оформить и опубликовать на хостинге интерактивное веб-приложение с результатами анализа данных.
https://proglib.io/p/tutorial-vizualizaciya-dannyh-v-vebe-s-pomoshchyu-python-i-dash-2021-01-11
#python #data_science #dash #web
Библиотека программиста
📊 Туториал: визуализация данных в вебе с помощью Python и Dash
В этом руководстве мы рассмотрим, как с помощью Python и библиотеки Dash создать, оформить и опубликовать на хостинге интерактивное веб-приложение с результатами анализа данных.
DatasetGAN: эффективная фабрика разметки данных с минимальными человеческими усилиями
https://vk.com/@python_ds-datasetgan-effektivnaya-fabrika-razmetki-dannyh-s-minimalnym
#data_science #deep_learning #computer_vision
https://vk.com/@python_ds-datasetgan-effektivnaya-fabrika-razmetki-dannyh-s-minimalnym
#data_science #deep_learning #computer_vision
VK
DatasetGAN: эффективная фабрика разметки данных с минимальными человеческими усилиями
Кто и что сделал? Исследователи компании Nvidia представили DatasetGAN — алгоритм для разметки крупных наборов данных с изображениями выс..
На YouTube выложен курс Калифорнийского университета Berkeley из 66 занятий про проектированию, визуализации и пониманию глубоких нейронных сетей https://www.youtube.com/playlist?list=PLuv1FSpHurUevSXe_k0S7Onh6ruL-_NNh
#data_science #courses #deep_learning
#data_science #courses #deep_learning
Несколько интересных статей и переводов по #data_science и #python из недавних постов на Хабре:
— «Triton: Open Source язык для ядер Deep Learning» перевод статьи про трудности обработки данных на GPU и проект Triton от OpenAI https://habr.com/ru/company/skillfactory/blog/579380/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov. В оригинале статьи вёрстка более корректная: https://openai.com/blog/triton/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov
— Про собеседования ML-инженера в компании-гиганты с примерами для разных этапов: https://habr.com/ru/post/579410/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov. Статью хорошо дополняют комментарии.
— Пяток книжек по статистике и анализу данных, которые я и сам рекомендую: https://habr.com/ru/company/skypro/blog/579278/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov
— Пара статей про «Python-культуру» в российских компаниях: https://habr.com/ru/company/it_people/blog/576410/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov (Provectus) и https://habr.com/ru/company/it_people/blog/569868/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov (Тинькофф)
Присылайте, если было что-то еще интересное.
— «Triton: Open Source язык для ядер Deep Learning» перевод статьи про трудности обработки данных на GPU и проект Triton от OpenAI https://habr.com/ru/company/skillfactory/blog/579380/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov. В оригинале статьи вёрстка более корректная: https://openai.com/blog/triton/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov
— Про собеседования ML-инженера в компании-гиганты с примерами для разных этапов: https://habr.com/ru/post/579410/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov. Статью хорошо дополняют комментарии.
— Пяток книжек по статистике и анализу данных, которые я и сам рекомендую: https://habr.com/ru/company/skypro/blog/579278/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov
— Пара статей про «Python-культуру» в российских компаниях: https://habr.com/ru/company/it_people/blog/576410/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov (Provectus) и https://habr.com/ru/company/it_people/blog/569868/?utm_source=telegram.me&utm_medium=social&utm_campaign=neskolko-interesnyh-statey-i-perevodov (Тинькофф)
Присылайте, если было что-то еще интересное.
На YouTube-канале Karpov Courses выходит серия с собеседованиями по ML-позициям https://www.youtube.com/watch?v=WKYPQtqE-m0&list=PLBRXq5LaddfzDBjg6soIwJJA2klXXs6ni
Валерий Бабушкин проводит тестовые собеседования с аналитиками данных. Далее в компании пары дата сайнтистов разбирает ошибки. Местами слишком неспешно, но реалистично.
#data_science #hr
Валерий Бабушкин проводит тестовые собеседования с аналитиками данных. Далее в компании пары дата сайнтистов разбирает ошибки. Местами слишком неспешно, но реалистично.
#data_science #hr
YouTube
ML System Design с Валерием Бабушкиным | Выпуск 2 | Собеседование | karpov.courses
Курс HARD ML: https://bit.ly/2WyzaWX
Промокод SYSTEMDESIGN даёт 10% скидки на курс.
Первая часть собеседования ML Design System меньше, чем за месяц, стала самым популярным видео на нашем YouTube-канале.
В новом выпуске участник столкнулся совсем с другой…
Промокод SYSTEMDESIGN даёт 10% скидки на курс.
Первая часть собеседования ML Design System меньше, чем за месяц, стала самым популярным видео на нашем YouTube-канале.
В новом выпуске участник столкнулся совсем с другой…
Коротко для новичков: что такое Kaggle
Как указано на сайте ODS https://ods.ai/, Data Science соревнование — это «коллективное решение бизнес задачи в игровой форме, в кратчайшие сроки, с целью выявления лучшего решения. Это повод окунуться в предметную область и понять, как задача бизнеса переводится на язык прикладной математики».
📊 Kaggle https://www.kaggle.com/ — самая известная платформа Data Science соревнований. Любая компания может объявить на ней конкурс с денежным призом и описанием специфичной задачи анализа данных, а участники найдут решение.
💽 Логика простая: даже крутейший отдел дата сайентистов не сравнится по разнообразию идей с крупным коммьюнити, каким является Kaggle. А так компания добивается результата за небольшой срок и при ограниченных вложениях денег. Особенно, если данные и вся сопутствующая информация хорошо подготовлены. Плюс реклама компании в IT-среде.
🤖 Аналитики могут искать решение по одиночке или в команде. Kaggle проверяет не само решение, а то, насколько хорошо предлагаемая модель научилась предсказывать по имеющимся данным скрытые от нее значения. Например, находить координату объекта по фотографии, которая содержит этот объект. Чья модель предсказывает лучше, у того и выше место в рейтинге.
🏅 За позиции в рейтинге участники получают медали — золотые, серебряные, бронзовые. Их также дают за датасеты, публичные Jupyter-блокноты, участие в обсуждениях. Последние, кстати, не очень ценятся. Медали складываются в звания: Expert — Master — Grandmaster. Может помочь при прохождении технических интервью.
🏎️ Один из главных подвохов — некоторые задачи требуют значительных вычислительных ресурсов, которые могут очень отличаться у разных участников. Kaggle чуть выравнивает шансы, предоставляя возможности запуска Jupyter-блокнотов на графических (GPU) и тензорных (TPU) ускорителях. Аналогично тому, как это работает в Google Colab, то есть с лимитом вычислений в границах временного интервала.
🎓 Ещё здесь есть множество мини-курсов. Но мне их текущий формат не очень нравится — тесты выглядят натянуто.
Главное: Kaggle — это среда, в которой можно почерпнуть и попробовать на бизнес-задачах свежие идеи из мира Data Science.
#kaggle #novice #data_science
Как указано на сайте ODS https://ods.ai/, Data Science соревнование — это «коллективное решение бизнес задачи в игровой форме, в кратчайшие сроки, с целью выявления лучшего решения. Это повод окунуться в предметную область и понять, как задача бизнеса переводится на язык прикладной математики».
📊 Kaggle https://www.kaggle.com/ — самая известная платформа Data Science соревнований. Любая компания может объявить на ней конкурс с денежным призом и описанием специфичной задачи анализа данных, а участники найдут решение.
💽 Логика простая: даже крутейший отдел дата сайентистов не сравнится по разнообразию идей с крупным коммьюнити, каким является Kaggle. А так компания добивается результата за небольшой срок и при ограниченных вложениях денег. Особенно, если данные и вся сопутствующая информация хорошо подготовлены. Плюс реклама компании в IT-среде.
🤖 Аналитики могут искать решение по одиночке или в команде. Kaggle проверяет не само решение, а то, насколько хорошо предлагаемая модель научилась предсказывать по имеющимся данным скрытые от нее значения. Например, находить координату объекта по фотографии, которая содержит этот объект. Чья модель предсказывает лучше, у того и выше место в рейтинге.
🏅 За позиции в рейтинге участники получают медали — золотые, серебряные, бронзовые. Их также дают за датасеты, публичные Jupyter-блокноты, участие в обсуждениях. Последние, кстати, не очень ценятся. Медали складываются в звания: Expert — Master — Grandmaster. Может помочь при прохождении технических интервью.
🏎️ Один из главных подвохов — некоторые задачи требуют значительных вычислительных ресурсов, которые могут очень отличаться у разных участников. Kaggle чуть выравнивает шансы, предоставляя возможности запуска Jupyter-блокнотов на графических (GPU) и тензорных (TPU) ускорителях. Аналогично тому, как это работает в Google Colab, то есть с лимитом вычислений в границах временного интервала.
🎓 Ещё здесь есть множество мини-курсов. Но мне их текущий формат не очень нравится — тесты выглядят натянуто.
Главное: Kaggle — это среда, в которой можно почерпнуть и попробовать на бизнес-задачах свежие идеи из мира Data Science.
#kaggle #novice #data_science
На Хабре недавно опубликовали перевод статьи Self-Parking Car In 500 Lines of Code. Большая статья с вдумчивой и хорошо иллюстрированной проработкой идеи генетического алгоритма (автор написал визуальный симулятор: https://trekhleb.dev/self-parking-car-evolution). И всё это на чистом JavaScript, без python-библиотек, так что идеи можно прочувствовать, как они есть.
Оригинал: https://trekhleb.dev/blog/2021/self-parking-car-evolution/
Перевод: https://habr.com/ru/post/580812/
#data_science #parking
Оригинал: https://trekhleb.dev/blog/2021/self-parking-car-evolution/
Перевод: https://habr.com/ru/post/580812/
#data_science #parking
JupyterLab теперь и в виде десктопного приложения
Самая популярная IDE для анализа данных стала еще лучше. Теперь не нужно запускать JupyterLab через терминал, вышла настольная версия. Что такое JupyterLab, я описывал еще в этой давней статье: https://proglib.io/p/jupyter
Линки для скачивания установщиков доступны на странице GitHub: https://github.com/jupyterlab/jupyterlab_app
В интерфейсе всё, как и раньше. Однако теперь будет проще новичкам, для которых терминал это что-то с другой планеты (c Юпитера? :-)
#jupyter #data_science
Самая популярная IDE для анализа данных стала еще лучше. Теперь не нужно запускать JupyterLab через терминал, вышла настольная версия. Что такое JupyterLab, я описывал еще в этой давней статье: https://proglib.io/p/jupyter
Линки для скачивания установщиков доступны на странице GitHub: https://github.com/jupyterlab/jupyterlab_app
В интерфейсе всё, как и раньше. Однако теперь будет проще новичкам, для которых терминал это что-то с другой планеты (c Юпитера? :-)
#jupyter #data_science
Библиотека программиста
JupyterLab и Jupyter Notebook — мощные инструменты Data Science
Подробно рассказываем об инструментах семейства Jupyter – эффективных средствах разработки для задач Data Science и смежных областей.
В блоге TowardDataScience вышел хороший разбор pydantic — библиотеки для валидации данных:
https://towardsdatascience.com/8-reasons-to-start-using-pydantic-to-improve-data-parsing-and-validation-4f437eae7678
#data_science #validation
https://towardsdatascience.com/8-reasons-to-start-using-pydantic-to-improve-data-parsing-and-validation-4f437eae7678
#data_science #validation
Medium
8 Reasons to Start Using Pydantic to Improve Data Parsing and Validation
Improving your apps goes with controlling their data quality
В Коде выпустили хороший вводный урок о том, как запустить нейросеть (для совсем новичков):
https://thecode.media/we-did-it/
#deep_learning #data_science
https://thecode.media/we-did-it/
#deep_learning #data_science
Журнал «Код» программирование без снобизма
Запускаем нейросеть на домашнем компьютере — Журнал «Код» программирование без снобизма
Сегодня у нас нестандартный проект: будем устанавливать и запускать настоящую нейросеть у себя на компьютере.
Описание сookiecutter-шаблона для Data Science проектов:
https://drivendata.github.io/cookiecutter-data-science/
Якорная ссылка, чтобы сразу посмотреть структуру:
https://drivendata.github.io/cookiecutter-data-science/#directory-structure
#data_science #cookiecutter
https://drivendata.github.io/cookiecutter-data-science/
Якорная ссылка, чтобы сразу посмотреть структуру:
https://drivendata.github.io/cookiecutter-data-science/#directory-structure
#data_science #cookiecutter
drivendata.github.io
Cookecutter Data Science
PyGMTSAR, или спутниковая интерферометрия для всех с примерами Jupyter Python ноутбуков на Google Colab: https://habr.com/ru/post/583834/
#data_science #jupyter #geodata
#data_science #jupyter #geodata
Хабр
PyGMTSAR, или спутниковая интерферометрия для всех с примерами Jupyter Python ноутбуков на Google Colab
После анализа модели Танцующие горы Ирана по данным спутниковой интерферометрии мне захотелось проверить набор гипотез и улучшить качество результатов. Как оказалось, ни один из существующих...
Луи Бушар пополняет репозиторий-список прорывных статей по ИИ этого года, с видеообзорами, сокращенными версиями и программным кодом: https://github.com/louisfb01/best_AI_papers_2021
#data_science #research #papers #научные_публикации #репозитории
#data_science #research #papers #научные_публикации #репозитории
GitHub
GitHub - louisfb01/best_AI_papers_2021: A curated list of the latest breakthroughs in AI (in 2021) by release date with a clear…
A curated list of the latest breakthroughs in AI (in 2021) by release date with a clear video explanation, link to a more in-depth article, and code. - louisfb01/best_AI_papers_2021
Добавил несколько ссылок на бесплатные книжки по Deep Learning и общему Machine Learning в любимый читателями репозиторий https://github.com/matyushkin/ds
Не стесняйтесь делать пул-реквесты и обмениваться идеями через телеграм-чат https://t.me/matyushkin_chat или в комментариях вк-группы. Хочется обмена идеями между всеми, но большинство ребят до сих пор пишут только в личные сообщения.
#data_science
Не стесняйтесь делать пул-реквесты и обмениваться идеями через телеграм-чат https://t.me/matyushkin_chat или в комментариях вк-группы. Хочется обмена идеями между всеми, но большинство ребят до сих пор пишут только в личные сообщения.
#data_science
Айрана Монгуш описала свой трек по изучению Data Science: https://habr.com/ru/post/589765/
Всё по делу.
#data_science #courses
Всё по делу.
#data_science #courses
Чтение на выходные: член сообщества ODS Олег Седухин опубликовал на Хабре обстоятельный лонгрид про CatBoost, XGBoost и выразительную способность решающих деревьев. С большим количеством занимательных экспериментов и ценных мыслей — рекомендую:
https://habr.com/ru/company/ods/blog/645887/
#data_science #machinelearning #catboost #xgboost
https://habr.com/ru/company/ods/blog/645887/
#data_science #machinelearning #catboost #xgboost
Хабр
CatBoost, XGBoost и выразительная способность решающих деревьев
Сейчас существенная часть машинного обучения основана на решающих деревьях и их ансамблях, таких как CatBoost и XGBoost, но при этом не все имеют представление о том, как устроены эти алгоритмы...
PyCaret представляет собой обертку на языке Python для нескольких библиотек и фреймворков машинного обучения, таких как scikit-learn, XGBoost, LightGBM, CatBoost, spaCy, Optuna, Hyperopt, Ray и некоторых других.
PyCaret — библиотека машинного обучения с открытым исходным кодом на языке Python, которая автоматизирует рабочие процессы машинного обучения. Это сквозной инструмент машинного обучения и управления моделями, который ускоряет цикл экспериментирования и делает нас более продуктивными.
Документация: https://pycaret.gitbook.io/docs/
#ml #data_science #links
PyCaret — библиотека машинного обучения с открытым исходным кодом на языке Python, которая автоматизирует рабочие процессы машинного обучения. Это сквозной инструмент машинного обучения и управления моделями, который ускоряет цикл экспериментирования и делает нас более продуктивными.
Документация: https://pycaret.gitbook.io/docs/
#ml #data_science #links
pycaret.gitbook.io
PyCaret 3.0 | Docs
An open-source, low-code machine learning library in Python