Код в мешке
249 subscribers
9.11K photos
1.6K videos
2.11K files
42.8K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
PR Битрикс 24 на том же заблокированном ФБ пишет, что:

1. Ограничений по количеству пользователей в бесплатном тарифе нет, убрали ещё в начале пандемии. (Кто-нибудь помнит про пандемию?)
2. Можно работать по правилам Скрам: 5 скрам-команд бесплатно, есть инструменты для общения команды, можно перенести данные из Jira с помощью конвертеров. Тут подробнее: https://www.bitrix24.ru/features/more/scrum.php
На случай... хотя какой уж там случай. До вечера можно успеть сделать сайт из вашего аккаунта в инстаграм: https://yandex.ru/business/instagram/

Спасибо Яндексу за это.
Успеете. Роскомнадзор отложил блокировку Instagram до 14 марта, чтобы пользователи успели перенести фото и видео в другие соцсети.
YouTube тоже заблокируют. VPN никто не отменял, но, если вам нужно сохранить какие-то видео для быстрого доступа, то рекомендую прогу VDL - Video Downloader. Лежит на Github, простой GUI для youtube-dl и yt-dlp, никакой рекламы и смс.

https://github.com/engatec/vdl
Forwarded from Ivan Begtin (Ivan Begtin)
Напомню что 4-5 марта мы, Инфокультура и АУРД, организуем в Москве Open Data Day 2022 [1] он пройдет паралеллельно с сотнями других мероприятий по всему миру [2]. ODD начинался по инициативе Open Knowledge Foundation, большая часть мероприятий были простыми митапами и хакатонами, но несколько больших мероприятий были в формате конференций, например, неделя открытых данных в Нью-Йорке.

В Москве мы проводим мероприятие в формате конференции в которой будут дискусии по актуальным вопросам открытых данных и открытости в целом (открытый код, открытые сообщества, открытое железо и тд.), а также практические мастер классы. Мы скоро разместим программу где будут подробности!

А когда-то мы проводили ODD в формате большой оффлайновой [не]конференции, но пандемия все сильно поменяла и в этом году почти всё будет онлайн с оффлайновым присутствием для спикера и тех кто захочет прийти во ФРИИ и послушать вживую.

Как принять участие/помочь/сделать доброе дело?
1. Сделать репост этого поста и рассказать другим о мероприятии.
2. Ещё есть время предложить спикеров для дискуссий/актуальные темы/проведения мастер классов. Главный критерий - знание предметной области и хорошая подача материала!
3. Подключиться к трансляции в сам День открытых данных, задавать вопросы и комментировать.
4. [При желании] прийти вживую в оффлайн и поговорить на актуальные темы в оффлайне. Чай/кофе/печеньки обеспечим;)

И, конечно, и это важно, что мероприятий в день открытых данных много. В России кроме мероприятия в Москве, анонсировано мероприятие в Кирове и надеюсь оно также будет интересным. Я ещё напишу о нём когда узнаю все подробности от организаторов.

Формат полу-онлайн конференции может подойти не всем, кто-то хочет больше общения вживую. Не стесняйтесь организовать своё мероприятие в своём городе. Создавайте для него лендинг или сообщество в соц сети, регистрируйте на opendataday.org и присылайте мне, я и мои коллеги постараемся привлечь к нему побольше внимания.

ODD в Москве проводится при поддержке членов ассоциации АУРД и наших многолетних партнеров: Фонда Развития Интернет Инициатив, Интерфакса, Департамента медиаи коммуникации Высшей школы экономики и Центра цифровых прав, Роскомсвободы и многих других! Присоединяйтесь к списку партнеров и вступайте к нам в ассоциацию, конечно же;)

Вы также можете поддержать Инфокультуру по мере своих возможностей.

Ссылки:
[1] https://opendataday.ru/msk
[2] https://opendataday.org

#opendataday #odd #деньоткрытыхданных #opendata #events #data
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике полезных инструментов работы с данными, low code инструменты с открытым кодом по превращению данных в приложения.

- Budibase [1] позволяет строить простые приложения, поддерживает PostgreSQL, MySQL, MSSQL, MongoDB, Rest API и др. Кроме открытого кода есть облачная версия [2]. В примерах разного рода формы для заполнения. Написан на Javascript.

- Tooljet [3] также позволяет делать простые приложения и также поддерживает много разных баз данных PostgreSQL, MongoDB, Elasticsearch и др., написан на Javascript. Также представлен открытым кодом и облачной версией [4]

- N8N [5] автоматизация потоков задач и данных, с открытым кодом и удобным интерфейсом. Имеет много интеграций и не только с базами данных.

Таких продуктов ещё десятки, low code платформы это одна из наиболее "горячих тем" в последние пару лет. Всё чаще они позиционируются как "постройте внутреннее приложение за минуты".

Ссылки:
[1] https://github.com/Budibase/budibase
[2] https://budibase.com/pricing
[3] https://github.com/ToolJet/ToolJet
[4] https://tooljet.com/pricing
[5] https://github.com/n8n-io/n8n

#nocode #lowcode #platforms #tools
Forwarded from Ivan Begtin (Ivan Begtin)
Не так давно я писал про распознавание классов данных в DataCrafter'е и про небольшой движок с открытым кодом metacrafter [1], но не все и не всегда понимают зачем это нужно и для чего вообще используются подобные инструменты и нужно понимание того что содержится в таблицах с данными. Я постараюсь об этом рассказать в подробностях.

То что я ранее упоминал как классы данных, иногда называют метки данных (data labels), но самое распространённое название - это semantic type (семантический тип данных). В отличие от простых типов данных таких как числа, числа с плавающей запятой, строки, даты, бинарные блоки и так далее, семантические типы определяют смысл и предназначение именно этих данных. Смысл и предназначение как в содержании, так и в последующих вариантах применения.

Например, типом поля может быть строка, а семантическим типом может быть: адрес, номер телефона, название организации или ФИО человека. Каждый из этих семантических типов имеет разный смысл и разные модели использования. Где-то это ссылка на справочные значения, где-то данные требующие расшифровки и декомпозиции, а где-то и метрики для последующего анализа и отображения.

Многие инструменты умеют определять семантические типы весьма неплохо. Например, Talend ETL поддерживает несколько десятков семантических типов данных [2] что используется в преобразованиях данных. Некоторые семантические типы понимает и распознает Google DataStudio [3] что позволяет сразу размечать данные в наборе для разных видов визуализации. А в таком инструменте как Dataprep [4] семантические типы данных используются в задачах очистки наборов данных. И таких применений ещё много.

Поэтому отвечая на вопрос: зачем это нужно, перечислю наиболе очевидные области применения:
1. Идентификации персональных данных в целях комплаенса и соответствия требованиям.
2. Автоматизация обработки данных включая (сопоставление схем, обогащение данных, автоматизация преобразований)
3. Обеспечение качества данных: автоматизация проверки на соответствие данных шаблонам и подсказки для инженеров QA.
4. Автоматизация документирования данных автоописанием полей данных на основе их смысла
5. Улучшение визуализации в BI системах за счёт того что система начинает понимать природу данных и предлагать разные способы их визуализации
6. Повышение находимости данных (data discoverability) через доп фильтры для поиска и через дополнительный способ навигации по данным.

Наиболее остроактуальные темы - это повышение качества данных и идентификация персональных данных. Многие онлайн платформы, вроде Snowflake, автоматизируют идентификацию семантических типов.

Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://help.talend.com/r/en-US/Cloud/data-preparation-user-guide/predefined-semantic-types
[3] https://developers.google.com/datastudio/connector/semantics
[4] https://docs.dataprep.ai/user_guide/clean/clean_df.html

#data #datatools #dataconcepts
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике полезных инструментов с открытым кодом для работы с данными Datasette [1]. Незаменим когда надо очень быстро и простым образом опубликовать данные так чтобы можно было их не просто скачать, но и связывать с другими данными, делать SQL запросы и просматривать онлайн.

Инструмент автоматически создаёт интерфейс поверх набора данных и даёт возможности поиска по нему разными способами. Его особенность в том что он работает поверх базы SQLlite, которую также можно скачать.

Примеры публикаций датасетов с помощью datasette:
- global-power-plants.datasettes.com [2] - база электростанций по всему миру
- fara.datasettes.com [3] - реестр инагентов в США (FARA)
- covid-19.datasettes.com [4] - база кейсов по COVID-19
И многие другие.

Интерфейс который создает datasette неидеален и лично мне он не нравится, но для многих он может быть и будет полезен.

Ссылки:
[1] https://datasette.io/
[2] https://global-power-plants.datasettes.com/
[3] https://fara.datasettes.com/
[4] https://covid-19.datasettes.com/

#datatools #opendata #data #opensource
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто работает с данными и кому нужно регулярно кто-либо архивировать из социальных сетей, продвинутый инструмент для этой задачи - snscrape [1]. Поддерживает Faceboo, VK, Twitter, Instagram, Reddit и ещё много чего. Лучше всего архивирует данные твиттера.

Когда надо сохранить/регулярно сохранять чьи-то социальные сети - вещь незаменимая.

Работает с командной строки, написан на языке Python.

Ссылки:
[1] https://github.com/JustAnotherArchivist/snscrape

#datatools #opensource #digitalpreservation
Forwarded from Ivan Begtin (Ivan Begtin)
Для всех кто учится работать с данными и работать с SQL я рекомендую сразу начинать изучать dbt, например, по ссылкам из awesome-dbt [1] и начиная с бесплатного официального курса [2]. Пройдёт год-два максимум и dbt в России начнут повсеместно использовать, а для работы инженера-аналитика (analytics engineer) дистанционно на проект/компанию в любой стране - это будет одна из наиболее востребованных технологий.

Почему dbt? Потому что пока это наиболее развитый инструмент преобразования данных. Если в областях ETL/ELT, data orchestration, data visualization, BI и других есть масштабная конкуренция и авторы и создатели проектов регулярно пишут о том как заменить одно на другое или как отказаться от чего-либо, например, как отказаться от Airflow [3], то про dbt все пишут только о том как они заменили свои механизмы трансформации данных на dbt.

Продукт получился просто таки попаданием в яблочко, в России он мало применяется только по причине малой применимости тут других зарубежных облачных продуктов. Но важная особенность dbt что он, и облачный, и как изначальный open source продукт.

Ссылки:
[1] https://github.com/Hiflylabs/awesome-dbt
[2] https://courses.getdbt.com/collections
[3] https://blog.fal.ai/the-unbundling-of-airflow-2/

#datatools #studies #learning #sql #dbt
Краткое пособие по тому, как устроен мир. Фильм...

Его взгляд интересен не только тем, что автор проанализировал всю историю взаимоотношений России и Запада под необычным углом, но и тем, что биографически Ги Меттан никак не был связан с Россией. Наша страна открылась ему после того, как в 1994 году они с женой...