Datalytics
9.37K subscribers
187 photos
13 videos
5 files
630 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.

Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML


Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/

#opendata #data #git #datatools
Forwarded from Ivan Begtin (Ivan Begtin)
Из любопытных инструментов, в Hex, онлайн сервисе тетрадок для машинного обучения, появились no-code cells [1], это когда вместо написания Python или SQL можно выбрать интерактивно параметры, а сервис сам сгенерирует код.

Выглядит удобно как гибридный инструмент, и для тех кто напишет код сам, и для тех кому угодно не в виде кода, и для тех кто поправит за вторыми, то что они не могут сами.

Наступает время гибридных инструментов!

Ссылки:
[1] https://hex.tech/blog/introducing-no-code-cells

#datatools #sql #python