Forwarded from CodeCamp
Делюсь полезностью: нашёл штуку, которая превращает ваш ноут в локальную расшифровочную станцию 💻
По сути это аккуратная графическая оболочка для Whisper + pyannote, которая:
— Делает автотранскрибацию огромных записей локально;
— Отличает, кто говорит, и поддерживает ~60 языков;
— Показывает всё в удобном редакторе, где можно сразу поправить косяки;
— Работает с любым аудио/видео и сама расставляет паузы, спикеров и таймкоды.
Наслаждайтесь🍆
По сути это аккуратная графическая оболочка для Whisper + pyannote, которая:
— Делает автотранскрибацию огромных записей локально;
— Отличает, кто говорит, и поддерживает ~60 языков;
— Показывает всё в удобном редакторе, где можно сразу поправить косяки;
— Работает с любым аудио/видео и сама расставляет паузы, спикеров и таймкоды.
Наслаждайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Purple-Air-Brochure.pdf
638.1 KB
📙 PDF Purple Air Brochure
📙 PurpleAir - SaveEcoBot
Real-Time Interactive Map by PurpleAir
Район залива Только что стал оранжевым.
PurpleAir
↘️ https://www.purpleair.com/
➖➖➖
▶️ https://www.youtube.com/watch?v=GnW63BvCn4U
...
The Purple Air Map uses the Air Quality Index (AQI) Thresholds created by the EPA for their map interface.Фиолетовый воздух: Сеть датчиков качества воздуха в режиме реального времени
“Purple Air : Сеть датчиков качества воздуха в режиме реального времени”
↘️ https://aqicn.org/network/purpleair/ru/
📙 PurpleAir - SaveEcoBot
Недорогая сеть датчиков качества воздуха, предоставляющая измерения качества воздуха в реальном времени на публичной карте.
Полезна как для гражданских ученых, так и для специалистов по качеству воздуха, датчики PurpleAir легко устанавливаются и требуют только розетку и WiFi.
Real-Time Interactive Map by PurpleAir
Интерактивная карта с обновлениями каждые две минуты, датчики PurpleAir маленькие, простые в установке и требуют только питание и WiFi
↘️ https://map.purpleair.com/
Район залива Только что стал оранжевым.
Этот веб-сайт позволяет отслеживать респираторный...
PurpleAir
↘️ https://www.purpleair.com/
➖➖➖
▶️ https://www.youtube.com/watch?v=GnW63BvCn4U
...
Forwarded from Киллер-фича
Забудьте про выполнение домашних задач и контрольных — эта нейронка решит ВСЁ за вас.
• ИИ даст пошаговый разбор и объяснение. Вы не только выполните работу, но и поймёте принципы, по которым она решалась.
• Сервис поддерживает более 250 учебных предметов: математику, физику, экономику, науку, гуманитарные и другие области.
• Персональный ИИ-учитель доступен 24 часа в сутки.
• Поддерживается русский язык!
• Ежедневно даётся бесплатное количество кредитов.
Юзаем тут.
• ИИ даст пошаговый разбор и объяснение. Вы не только выполните работу, но и поймёте принципы, по которым она решалась.
• Сервис поддерживает более 250 учебных предметов: математику, физику, экономику, науку, гуманитарные и другие области.
• Персональный ИИ-учитель доступен 24 часа в сутки.
• Поддерживается русский язык!
• Ежедневно даётся бесплатное количество кредитов.
Юзаем тут.
Forwarded from NN
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini научили генерировать интерактивную инфографику — чат-бот умеет делать и объяснять схемы любой сложности.
Можно попросить бота рассказать про устройство клетки или разобрать конструкцию самолета. На каждый элемент можно кликнуть и прочитать про него подробнее.
Доступ уже открывают всем пользователям. Пробуем в Gemini App.
Можно попросить бота рассказать про устройство клетки или разобрать конструкцию самолета. На каждый элемент можно кликнуть и прочитать про него подробнее.
Доступ уже открывают всем пользователям. Пробуем в Gemini App.
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярных напоминаний, всяческий полезный [и бесполезный] код утилит для командной строки которые я когда-то делал и иногда продолжаю развивать когда это необходимо для работы,
например, для Dateno. Лично я испытываю глубокую привязанность к работе в командной строке отсюда и все эти инструменты:
- undatum - многофункциональная утилита для обработки данных изначально в формате JSON lines, делалась как xsv для JSON/JSON lines, я её лично активно и везде применяю.
- docx2csv - утилита по извлечению таблиц из файлов MS Word (.docx), настолько простая что надо её с чем-то объединить
- mongo2md - инструмент автоматизации документирования коллекций в MongoDB было полезно когда MongoDB была в основе технологического стека разных проектов, сейчас скорее буду переводить в статус легаси, но полезно как пример автодокументирования.
- metawarc утилита по извлечению метаданных из файлов WARC, умеет собирать данные из pdf, doc, docx, pdf, png, jpg, xls, xlsx и других файлов документов и изображений. Полезна для разного рода OSINT задач и для автоматизированного анализа WARC файлов
- apibackuper утилита для сбора данных из API через декларативно заданные правила. Использую её повсеместно и всё время хочу переписать чтобы вместо cfg файлов использовать yaml/toml, заменить zip контейнеры на базу duckdb и в целом сделать удобнее. Но и так работает
- wparc архиватор API и данных из Wordpress и файлов заодно. Одна из утилит для архивации сайтов для RuArxive
- lazyscraper скрейпер сайтов для лентяев, когда хочется извлечь данные минимальными усилиями и без программирования. Я её чуть-чуть не доделал чтобы даже xpath не использовать, но в остальном вполне рабочий инструмент
- metacrafter мой любимый инструмент идентификации структуры таблиц в файлах и таблицах с данными. Надо объединить с undatum её конечно же
- apicrafter утилита по быстрому созданию API поверх коллекций в MongoDB. Когда-то использовалась в проектах где основной стек был на MongoDB, сейчас всё по другому я бы делал
#opensource #data #datatools
например, для Dateno. Лично я испытываю глубокую привязанность к работе в командной строке отсюда и все эти инструменты:
- undatum - многофункциональная утилита для обработки данных изначально в формате JSON lines, делалась как xsv для JSON/JSON lines, я её лично активно и везде применяю.
- docx2csv - утилита по извлечению таблиц из файлов MS Word (.docx), настолько простая что надо её с чем-то объединить
- mongo2md - инструмент автоматизации документирования коллекций в MongoDB было полезно когда MongoDB была в основе технологического стека разных проектов, сейчас скорее буду переводить в статус легаси, но полезно как пример автодокументирования.
- metawarc утилита по извлечению метаданных из файлов WARC, умеет собирать данные из pdf, doc, docx, pdf, png, jpg, xls, xlsx и других файлов документов и изображений. Полезна для разного рода OSINT задач и для автоматизированного анализа WARC файлов
- apibackuper утилита для сбора данных из API через декларативно заданные правила. Использую её повсеместно и всё время хочу переписать чтобы вместо cfg файлов использовать yaml/toml, заменить zip контейнеры на базу duckdb и в целом сделать удобнее. Но и так работает
- wparc архиватор API и данных из Wordpress и файлов заодно. Одна из утилит для архивации сайтов для RuArxive
- lazyscraper скрейпер сайтов для лентяев, когда хочется извлечь данные минимальными усилиями и без программирования. Я её чуть-чуть не доделал чтобы даже xpath не использовать, но в остальном вполне рабочий инструмент
- metacrafter мой любимый инструмент идентификации структуры таблиц в файлах и таблицах с данными. Надо объединить с undatum её конечно же
- apicrafter утилита по быстрому созданию API поверх коллекций в MongoDB. Когда-то использовалась в проектах где основной стек был на MongoDB, сейчас всё по другому я бы делал
#opensource #data #datatools
Forwarded from Неискусственный интеллект (Илья Склюев)
Отечественные чат-боты превзошли американцев и китайцев... в сборе информации
Вечером среды мы внезапно поняли, что в приложениях «Алисы» и GigaChat почему-то нет простой кнопки, позволяющей отключить сбор и анализ ваших диалогов. Хотя у ChatGPT и DeepSeek настройка находится в пару кликов.
Оказывается, всё это не просто так. Отечественные компании ведут активный сбор данных, но используют их по-разному:
1️⃣ «Алиса» анализирует ваши «отдельные голосовые и текстовые сообщения» по умолчанию
Нам казалось, что отключить настройку можно через «Яндекс ID». Но в компании пояснили, что кнопка «Помогать Алисе стать лучше» действует только для умных устройств.
В сервисном соглашении «Алисы AI» в разделе про данные пользователя говорят, что «Правообладателю передается следующая информация: идентификатор Пользователя, Запросы, ответы на Запросы Пользователя, иная информация, предоставляемая и собираемая посредством пользовательского интерфейса Сервиса».
Используют их, конечно же, «в целях совершенствования в целях проведения анализа, развития и совершенствования Сервиса и его отдельных функций». А ещё для рекламы:
«Персональная информация Пользователя обрабатывается в целях предоставления функциональности Сервиса, в том числе для отображения контента, потенциально наиболее интересного Пользователю».
2️⃣ «Сбер» получает всё, но делать с этим ничего не будет (пока)
Пользуясь GigaChat, пользователь «предоставляет SDevices и Правообладателю право использования Контента Клиента <...> любыми способами, не противоречащими действующему законодательству, в том числе, указанными в п. 2 ст. 1270 Гражданского кодекса Российской Федерации, но не ограничиваясь ими».
В корпоративном соглашении и в версии для физлиц подчёркивают, что «SDevices и Правообладатель не используют предоставленный или загружаемый Контент в собственных целях, не связанных с предоставлением Сервиса». Формулировка размытая, но нам официально заявили, что в «Сбере» не используют запросы пользователей для обучения нейросетей.
При этом, как только вы что-то сгенерировали в GigaChat, то вы передаёте компании лицензию на использование контента следующими способами:
▪️ «воспроизведение, хранение и запись в память ЭВМ Правообладателя и его аффилированных лиц и на серверах, назначенных Правообладателем, если такое использование необходимо для целей предоставления Сервиса»
▪️ «использование с предварительного согласия Клиента в маркетинговых и информационных материалах Правообладателя, направленных на привлечение внимание к Сервису или информирование о возможностях Сервиса неопределенного круга лиц».
Так что всё содержимое вашего диалога прекрасно видно компании. А условия использования в дальнейшем ещё могут поменяться.
@anti_agi
Вечером среды мы внезапно поняли, что в приложениях «Алисы» и GigaChat почему-то нет простой кнопки, позволяющей отключить сбор и анализ ваших диалогов. Хотя у ChatGPT и DeepSeek настройка находится в пару кликов.
Оказывается, всё это не просто так. Отечественные компании ведут активный сбор данных, но используют их по-разному:
Нам казалось, что отключить настройку можно через «Яндекс ID». Но в компании пояснили, что кнопка «Помогать Алисе стать лучше» действует только для умных устройств.
В сервисном соглашении «Алисы AI» в разделе про данные пользователя говорят, что «Правообладателю передается следующая информация: идентификатор Пользователя, Запросы, ответы на Запросы Пользователя, иная информация, предоставляемая и собираемая посредством пользовательского интерфейса Сервиса».
Используют их, конечно же, «в целях совершенствования в целях проведения анализа, развития и совершенствования Сервиса и его отдельных функций». А ещё для рекламы:
«Персональная информация Пользователя обрабатывается в целях предоставления функциональности Сервиса, в том числе для отображения контента, потенциально наиболее интересного Пользователю».
Не очень понимаем, как с такими условиями пользоваться агентскими фичами «Алисы». Если любая информация, попавшая в поле зрения бота, будет уходить для отображения интересного контента.
Пользуясь GigaChat, пользователь «предоставляет SDevices и Правообладателю право использования Контента Клиента <...> любыми способами, не противоречащими действующему законодательству, в том числе, указанными в п. 2 ст. 1270 Гражданского кодекса Российской Федерации, но не ограничиваясь ими».
В корпоративном соглашении и в версии для физлиц подчёркивают, что «SDevices и Правообладатель не используют предоставленный или загружаемый Контент в собственных целях, не связанных с предоставлением Сервиса». Формулировка размытая, но нам официально заявили, что в «Сбере» не используют запросы пользователей для обучения нейросетей.
При этом, как только вы что-то сгенерировали в GigaChat, то вы передаёте компании лицензию на использование контента следующими способами:
Так что всё содержимое вашего диалога прекрасно видно компании. А условия использования в дальнейшем ещё могут поменяться.
@anti_agi
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Begtin (Ivan Begtin)
К вопросу о работе с данными в гуманитарных науках, я, честно говоря, долго об этом думал в контексте что много что команда Инфокультуры и я лично делаем в этой теме хотя и гуманитарные науки для нас совсем не основная тема. Но есть, как минимум, такие проекты как finlibrary.ru и Ruarxive.org, а также множество других меньшего масштаба по сохранению цифрового и аналогового культурного наследия.
И вот посмотрев на окружающий мир лично я понял что слишком мало я знаю о том кто что хорошого открытого и цифрового в области культуры делает. Причем именно в такой комбинации, на первом месте открытость и лишь на втором месте цифра. Не просто какой-то интерактивный проект или работа, а под свободными лицензиями, с открытым кодом и открытыми данными.
Поэтому мы организовали премию цель которой найти лучшие и вдохновляющие примеры того что делают исследователи в гуманитарных науках. Потому что в других науках и так много всего происходит, а в гуманитарных очень многое не на поверхности, не очевидно, но интересно.
Не стесняйтесь подавать собственные проекты, не стесняйтесь номинировать уже сделанное. Это не конкурс и не хакатон, тут не надо делать что-то на заказ, можно и нужно номинировать существующее.
#opendata #openaccess #humanitarian #contest
И вот посмотрев на окружающий мир лично я понял что слишком мало я знаю о том кто что хорошого открытого и цифрового в области культуры делает. Причем именно в такой комбинации, на первом месте открытость и лишь на втором месте цифра. Не просто какой-то интерактивный проект или работа, а под свободными лицензиями, с открытым кодом и открытыми данными.
Поэтому мы организовали премию цель которой найти лучшие и вдохновляющие примеры того что делают исследователи в гуманитарных науках. Потому что в других науках и так много всего происходит, а в гуманитарных очень многое не на поверхности, не очевидно, но интересно.
Не стесняйтесь подавать собственные проекты, не стесняйтесь номинировать уже сделанное. Это не конкурс и не хакатон, тут не надо делать что-то на заказ, можно и нужно номинировать существующее.
#opendata #openaccess #humanitarian #contest
Forwarded from Ivan Begtin (Ivan Begtin)
Про форматы файлов, много о них я писал и в контексте ИИ, и в контексте работы дата инженеров и в контексте цифровой архивации. Мало кто системно разные форматы изучает и чаще те кто это делают занимаются цифровой архивацией в очень широком контексте, но в первую очередь думая о сохранении доступности данных и иных материалов созданных в ПО которое уже малодоступно или которым уже невозможно пользоваться.
С чего начать тем кто ищет информацию о структурах файлах и того как работать с разными форматами работать?
1. PRONOM
Это специальный реестр форматов файлов от Национальных Архивов Великобритании и он включает подробное описание сотен форматов файлов включая форматы разных старых приложений или относительно новые форматы для данных такие как JSONl. В реестре PRONOM присутствуют и цифровые отпечатки файлов, помогающие их идентифицировать. Эти отпечатки используются в утилите DROID для идентификации типов файлов по большому их реестру. Утилита сама не обновлялась давно, но цифровые отпечатки из PRONOM обновляются довольно часто, чуть ли не ежемесячно
2. Archive Team Wiki (File formats)
У команды ArchiveTeam есть большой вики проект fileformats.archiveteam.org с большим числом практических статей по разным форматам файлов и о том как с ними работать и как их архивировать. Полезный сайт для всех кто погружается в работу с какими либо относительно популярными файловыми форматами. Вики ArchiveTeam полезно именно своей практичностью и включает материалы из множества источников.
3. MultimediaWiki
Другой Вики проект доступный по адресу wiki.multimedia.cx и включающий описание многих мультимедийных форматов включая те что используются в игровой индустрии и многое про то как заниматься реверс инжинирингом кода для извлечения интересных материалов из тех же игр.
4. IANA Mimetypes
Это реестр mime типов на сайте IANA, покрывает те форматы файлов для которых mime типы зарегистрированы, их много, но не исчерпывающе. Важнее подробное описание каждого типа и ссылки на сами спецификации и области применения.
—
#readings #fileformats
С чего начать тем кто ищет информацию о структурах файлах и того как работать с разными форматами работать?
1. PRONOM
Это специальный реестр форматов файлов от Национальных Архивов Великобритании и он включает подробное описание сотен форматов файлов включая форматы разных старых приложений или относительно новые форматы для данных такие как JSONl. В реестре PRONOM присутствуют и цифровые отпечатки файлов, помогающие их идентифицировать. Эти отпечатки используются в утилите DROID для идентификации типов файлов по большому их реестру. Утилита сама не обновлялась давно, но цифровые отпечатки из PRONOM обновляются довольно часто, чуть ли не ежемесячно
2. Archive Team Wiki (File formats)
У команды ArchiveTeam есть большой вики проект fileformats.archiveteam.org с большим числом практических статей по разным форматам файлов и о том как с ними работать и как их архивировать. Полезный сайт для всех кто погружается в работу с какими либо относительно популярными файловыми форматами. Вики ArchiveTeam полезно именно своей практичностью и включает материалы из множества источников.
3. MultimediaWiki
Другой Вики проект доступный по адресу wiki.multimedia.cx и включающий описание многих мультимедийных форматов включая те что используются в игровой индустрии и многое про то как заниматься реверс инжинирингом кода для извлечения интересных материалов из тех же игр.
4. IANA Mimetypes
Это реестр mime типов на сайте IANA, покрывает те форматы файлов для которых mime типы зарегистрированы, их много, но не исчерпывающе. Важнее подробное описание каждого типа и ссылки на сами спецификации и области применения.
—
#readings #fileformats
www.nationalarchives.gov.uk
PRONOM | Welcome
PRONOM is an online technical registry providing impartial and definitive information about file formats, software products and other technical components required to support long-term access of electronic records.
Forwarded from Ivan Begtin (Ivan Begtin)
Продолжая рассказывать про применение ИИ агентов для разработки, после экспериментов на не самом критичном коде я добрался до обновления реестра дата каталогов в Dateno и могу сказать что результаты пока что хорошие.
Вплоть до того что ИИ агент способен сформировать карточку дата каталога просто передав ему ссылку и задав промпт сгенерировать его описание. Это работает, во многом, потому что уже есть больше 10 тысяч созданных карточек и поскольку есть чёткие спецификации схем ПО дата каталогов, самих описаний дата каталогов и тд.
Кроме того хорошо отрабатывают задачи которые:
- находят ошибки в метаданных дата каталогов
- находят и исправляют дубликаты записей
- обогащают карточки каталогов тематиками и тэгами
- исправляют геоклассификацию каталогов
- и многое другое что предполагает массовое исправление и обогащение данных
Лично для меня и Dateno это очень хорошая новость это означает что реестр (dateno.io/registry) можно вести теперь значительно меньшими личными усилиями.
В ближайшее время я сделаю очередное обновление реестра уже по итогам большого числа итераций обновления метаданных и качество реестра существенно вырастет. А оно влияет и на индекс Dateno и на сам продукт реестра дата каталогов.
P.S. Тут я описываю внутренности происходящего в Dateno, которым я занимаюсь как основным проектом и продуктом. А новости проекта всегда можно читать в LinkedIn
#opendata #datacatalogs #ai #dev #datatools
Вплоть до того что ИИ агент способен сформировать карточку дата каталога просто передав ему ссылку и задав промпт сгенерировать его описание. Это работает, во многом, потому что уже есть больше 10 тысяч созданных карточек и поскольку есть чёткие спецификации схем ПО дата каталогов, самих описаний дата каталогов и тд.
Кроме того хорошо отрабатывают задачи которые:
- находят ошибки в метаданных дата каталогов
- находят и исправляют дубликаты записей
- обогащают карточки каталогов тематиками и тэгами
- исправляют геоклассификацию каталогов
- и многое другое что предполагает массовое исправление и обогащение данных
Лично для меня и Dateno это очень хорошая новость это означает что реестр (dateno.io/registry) можно вести теперь значительно меньшими личными усилиями.
В ближайшее время я сделаю очередное обновление реестра уже по итогам большого числа итераций обновления метаданных и качество реестра существенно вырастет. А оно влияет и на индекс Dateno и на сам продукт реестра дата каталогов.
P.S. Тут я описываю внутренности происходящего в Dateno, которым я занимаюсь как основным проектом и продуктом. А новости проекта всегда можно читать в LinkedIn
#opendata #datacatalogs #ai #dev #datatools
GitHub
GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
Forwarded from Ivan Begtin (Ivan Begtin)
Я ранее писал про применение ИИ агентов для рефакторингка кода и про декларативное программирование, а теперь а теперь расскажу про декларативное создание баз данных.
Когда я только-только начинал вести список каталогов с данными в мире я делал это в в Excel файле с парой десятков колонок и сотнями записей, потом Excel стал неудобен и я перенес все в Airtable что было удобнее в течение длительного времени, там можно было настраивать разные view на одну и ту же таблицу и целенаправленно вносить новые записи с по странам или темам. С автоматизацией было не очень, зато ручная работа облегчалась.
И вот когда у меня в голове уже созрела мысль что не попробовать ли сделать поисковик по датасетам, я понял что надо перестать думать об этих данных как о таблицах (сложно перестать, конечно) и начать думать как о реестре. Для меня тогда выбор был в том чтобы:
- перенести этот реестр в СУБД и создать поверх интерфейс для редактирования. Например, загрузить в Postgres и поверх сделать быстро интерфейс с помощью Strapi или Directus'а или других no-code инструментов
- или начать смотреть на этот реестр как на код и поместить все в Github. Не так удобно для работы вручную, но хорошо автоматизируется
В итоге я пошёл вторым путем и разрезал таблицы на индивидуальные карточки дата каталогов сохраненные как YAML файлы согласно предопределенной схеме данных. Например, вот такая карточка. Эти записи можно редактировать вручную, а можно и автоматически. Можно автоматизировать обогащение метаданных, проверку API, доступность сайтов, проверку ошибок и так далее. Чтобы собственно и происходит внутри этого репозитория. От изначальный 2 тысяч каталогов до текущего их числа в более чем 10+ тысяч дата каталогов он вырос за счет автоматизированной загрузки в него большого числа дата каталогов из их агрегаторов.
Теперь я подключил последнюю версию Cursor'а к обновлению этого репозитория и оказывается он очень хорош в массовом обновлении YAML файлов и понимает команды сформулированные в стиле:
- "Проанализируй все записи, найди те у которых веб сайт владельца не указан, найди веб сайт и заполни поля owner.name и owner.link"
- "Проверь все записи относящиеся к Бельгии и проверь доступны ли указанные там сайты"
- "Создай JSON схему для YAML файлов дата каталогов и проверь все их записи на соответствие этой схеме"
и так далее.
Магия начала работать когда реестр достиг некоторой критической массы которая "помогает" ИИ агенту понимать схемы данных, предназначение репозитория и находить несоответствия. Ручная работа всё еще необходима, но для проверки сделанного, и её тоже можно автоматизировать.
Итого сейчас в обновленных данных реестра Dateno 10 905 каталогов. Они все пока в репозитории реестра в виде YAML файлов и parquet файла слепка с данными. Это на 794 каталога данных больше чем пока есть в общедоступном реестре (всего 10 111 каталогов).
Были добавлены:
- каталоги данных на базе GBIF IPT
- большие списки каталогов данных во Франции, Испании и Нидерландах
- по мелочи каталоги данных в других странах
А также огромное число исправлений в метаданных всех каталогов.
Фактически ИИ агенты для разработки прекрасно подходят для работы с данными упакованными таким образом. Я начинаю склоняться к мысли что такое обогащение данных работает лучше чем инструменты вроде OpenRefine.
Чуть позже я буду писать об этом всем лонгрид, но это уже после завершения чистки и обогащения репозитория которое уже сильно ускорилось.
#opendata #datacatalogs #dateno #dataengineering #dataanalysis
Когда я только-только начинал вести список каталогов с данными в мире я делал это в в Excel файле с парой десятков колонок и сотнями записей, потом Excel стал неудобен и я перенес все в Airtable что было удобнее в течение длительного времени, там можно было настраивать разные view на одну и ту же таблицу и целенаправленно вносить новые записи с по странам или темам. С автоматизацией было не очень, зато ручная работа облегчалась.
И вот когда у меня в голове уже созрела мысль что не попробовать ли сделать поисковик по датасетам, я понял что надо перестать думать об этих данных как о таблицах (сложно перестать, конечно) и начать думать как о реестре. Для меня тогда выбор был в том чтобы:
- перенести этот реестр в СУБД и создать поверх интерфейс для редактирования. Например, загрузить в Postgres и поверх сделать быстро интерфейс с помощью Strapi или Directus'а или других no-code инструментов
- или начать смотреть на этот реестр как на код и поместить все в Github. Не так удобно для работы вручную, но хорошо автоматизируется
В итоге я пошёл вторым путем и разрезал таблицы на индивидуальные карточки дата каталогов сохраненные как YAML файлы согласно предопределенной схеме данных. Например, вот такая карточка. Эти записи можно редактировать вручную, а можно и автоматически. Можно автоматизировать обогащение метаданных, проверку API, доступность сайтов, проверку ошибок и так далее. Чтобы собственно и происходит внутри этого репозитория. От изначальный 2 тысяч каталогов до текущего их числа в более чем 10+ тысяч дата каталогов он вырос за счет автоматизированной загрузки в него большого числа дата каталогов из их агрегаторов.
Теперь я подключил последнюю версию Cursor'а к обновлению этого репозитория и оказывается он очень хорош в массовом обновлении YAML файлов и понимает команды сформулированные в стиле:
- "Проанализируй все записи, найди те у которых веб сайт владельца не указан, найди веб сайт и заполни поля owner.name и owner.link"
- "Проверь все записи относящиеся к Бельгии и проверь доступны ли указанные там сайты"
- "Создай JSON схему для YAML файлов дата каталогов и проверь все их записи на соответствие этой схеме"
и так далее.
Магия начала работать когда реестр достиг некоторой критической массы которая "помогает" ИИ агенту понимать схемы данных, предназначение репозитория и находить несоответствия. Ручная работа всё еще необходима, но для проверки сделанного, и её тоже можно автоматизировать.
Итого сейчас в обновленных данных реестра Dateno 10 905 каталогов. Они все пока в репозитории реестра в виде YAML файлов и parquet файла слепка с данными. Это на 794 каталога данных больше чем пока есть в общедоступном реестре (всего 10 111 каталогов).
Были добавлены:
- каталоги данных на базе GBIF IPT
- большие списки каталогов данных во Франции, Испании и Нидерландах
- по мелочи каталоги данных в других странах
А также огромное число исправлений в метаданных всех каталогов.
Фактически ИИ агенты для разработки прекрасно подходят для работы с данными упакованными таким образом. Я начинаю склоняться к мысли что такое обогащение данных работает лучше чем инструменты вроде OpenRefine.
Чуть позже я буду писать об этом всем лонгрид, но это уже после завершения чистки и обогащения репозитория которое уже сильно ускорилось.
#opendata #datacatalogs #dateno #dataengineering #dataanalysis
GitHub
dataportals-registry/data/entities/AE/Federal/opendata/databayanatae.yaml at main · commondataio/dataportals-registry
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
Forwarded from Ivan Begtin (Ivan Begtin)
Для всех ИИ агентов для кодинга у меня есть довольно простой тест который большая часть из них ещё полгода назад пройти не могли. В Армении есть портал статистики statbank.armstat.am который много лет назад создавался за счет помощи ЕС и с той поры не обновлялся. Он построен на базе движка с открытым кодом PxWeb шведско-норвежской разработки который прошел большую эволюцию за эти годы, но в Армстате используется очень старая его версия с интерфейсом созданным на ASP.NET с большим числом postback запросов что не критично, но неприятно усложняет сбор из него данных. Я такую задачу отношу к скорее утомительным чем сложным, потому что отладка на них может быть долгой и замороченной.
У меня с этой задачей всегда была развилка из 3-х вариантов:
1. Создать и оплатить задачу для фрилансера (в пределах от $50 до $250 за всю работу)
2. Поручить одному из разработчиков/инженеров в команде (по уровню это задача скорее для аккуратного джуна)
3. С помощью ИИ агента сделать такой парсер
Поскольку задача не приоритетная (в Dateno данные собираются с более современных инсталляций PxWeb и через API), то для таких проверок ИИ агентов она прекрасно подходила. И я её пробовал решать и через ChatGPT, и Copilot, и Manus и Claude Code и первую версию Cursor'а, в общем много вариантов.
Они либо утыкались в то что определяли что это PxWeb и делали код для API который не работал, или проверяли что код для API не работает и писали что ничего дальше сделать не могут, или писали плохой код для скрейпинга веб страниц который не работал.
В итоге могу сказать что окончательно рабочее решение сумел сделать Antifravity от Google. Но каким образом, через запуск Chrome локально и автоматизированно пройдясь по сайту определив его структуру и создав код на Python который с некоторыми ошибками, но в итоге извлекал списки показателей и умел выгружать данные. Неидеальные, потому что так и не научился выгружать данные в форматах отличных от CSV, несмотря на несколько попыток и при том что через веб интерфейс это все работает, значит ошибка не в оригинальной системе.
Тем не менее, это уже результат примерно 2-х часов работы, что соответствовало бы времени в течение которого пришлось бы потратить на проверку работы фрилансера или разработчика в команде.
Что в итоге:
1. Количеств задач отдаваемых фрилансерам стремительно падает кроме малого числа где фрилансер большой профессионал в своей специализированной области.
2. Зачем нанимать джунов? Этот вопрос все острее с развитием ИИ агентов
3. ИИ агенты все успешнее решают "замороченные" и "утомительные" задачи с которыми ранее не справлялись
Все выводы звучали и раньше.
- ИИ агенты позволяют сильно повышать продуктивность команд
- проблема подготовки зрелых специалистов из джунов только нарастает
Меня приятно удивило качество работы Antigravity, но я его рассматриваю скорее как пример прогресса ИИ агентов в целом, подозреваю что другие ИИ агенты если ещё не могут этого (нужно браузером исследовать сайт), то смогут в скором будущем.
#opendata #opensource #ai #coding
У меня с этой задачей всегда была развилка из 3-х вариантов:
1. Создать и оплатить задачу для фрилансера (в пределах от $50 до $250 за всю работу)
2. Поручить одному из разработчиков/инженеров в команде (по уровню это задача скорее для аккуратного джуна)
3. С помощью ИИ агента сделать такой парсер
Поскольку задача не приоритетная (в Dateno данные собираются с более современных инсталляций PxWeb и через API), то для таких проверок ИИ агентов она прекрасно подходила. И я её пробовал решать и через ChatGPT, и Copilot, и Manus и Claude Code и первую версию Cursor'а, в общем много вариантов.
Они либо утыкались в то что определяли что это PxWeb и делали код для API который не работал, или проверяли что код для API не работает и писали что ничего дальше сделать не могут, или писали плохой код для скрейпинга веб страниц который не работал.
В итоге могу сказать что окончательно рабочее решение сумел сделать Antifravity от Google. Но каким образом, через запуск Chrome локально и автоматизированно пройдясь по сайту определив его структуру и создав код на Python который с некоторыми ошибками, но в итоге извлекал списки показателей и умел выгружать данные. Неидеальные, потому что так и не научился выгружать данные в форматах отличных от CSV, несмотря на несколько попыток и при том что через веб интерфейс это все работает, значит ошибка не в оригинальной системе.
Тем не менее, это уже результат примерно 2-х часов работы, что соответствовало бы времени в течение которого пришлось бы потратить на проверку работы фрилансера или разработчика в команде.
Что в итоге:
1. Количеств задач отдаваемых фрилансерам стремительно падает кроме малого числа где фрилансер большой профессионал в своей специализированной области.
2. Зачем нанимать джунов? Этот вопрос все острее с развитием ИИ агентов
3. ИИ агенты все успешнее решают "замороченные" и "утомительные" задачи с которыми ранее не справлялись
Все выводы звучали и раньше.
- ИИ агенты позволяют сильно повышать продуктивность команд
- проблема подготовки зрелых специалистов из джунов только нарастает
Меня приятно удивило качество работы Antigravity, но я его рассматриваю скорее как пример прогресса ИИ агентов в целом, подозреваю что другие ИИ агенты если ещё не могут этого (нужно браузером исследовать сайт), то смогут в скором будущем.
#opendata #opensource #ai #coding
Statistikmyndigheten SCB
PxWeb
Statistics Sweden (SCB) and Statistics Norway (SSB) has developed a new interface for PxWeb 2.0. The first version was released in October 2025 and is available on Github.
Forwarded from Цифровой архив госфинансов и госуправления
Датасет Цифрового архива: расходы рабочих и служащих РСФСР на промышленные товары
По данным статистического ежегодника «Народное хозяйство в СССР» пятидесятые годы XX века были отмечены ростом потребления наиболее дорогих видов тканей, шерстяных и шелковых, верхнего и бельевого трикотажа, чулочно-носочных изделий, кожаной обуви. Так, в 1958 году наибольшие траты на непродовольственные товары среди всех категорий покупателей пришлись именно на готовую одежду. При этом больше всех на такие товары тратили инженерно-технические работники промышленности, а меньше всего — учителя начальных школ.
Публикуем датасет «Денежные расходы рабочих и служащих на приобретение непродовольственных промышленных товаров на одну семью за год», составленный на основе соответствующей таблицы из справочника «Бюджеты рабочих, служащих и колхозников РСФСР. Статистический сборник».
#датасет #статситика #ЦАГГ #история #РСФСР
По данным статистического ежегодника «Народное хозяйство в СССР» пятидесятые годы XX века были отмечены ростом потребления наиболее дорогих видов тканей, шерстяных и шелковых, верхнего и бельевого трикотажа, чулочно-носочных изделий, кожаной обуви. Так, в 1958 году наибольшие траты на непродовольственные товары среди всех категорий покупателей пришлись именно на готовую одежду. При этом больше всех на такие товары тратили инженерно-технические работники промышленности, а меньше всего — учителя начальных школ.
Публикуем датасет «Денежные расходы рабочих и служащих на приобретение непродовольственных промышленных товаров на одну семью за год», составленный на основе соответствующей таблицы из справочника «Бюджеты рабочих, служащих и колхозников РСФСР. Статистический сборник».
#датасет #статситика #ЦАГГ #история #РСФСР
Forwarded from ChatGPT | Нейросети
Планируем ЛЮБОЙ проект за 6️⃣ промптов — нейронка поможет разложить все ваши дела по полочкам: от похода в магазин до рабочих задач и посиделок с друзьями.
1️⃣ Делаем обзор проекта, получаем общее представление:
2️⃣ Разбиваем даже огромную задачу на мелкие понятные шаги:
3️⃣ Задаем временную шкалу и ставим реалистичные дедлайны:
4️⃣ Готовимся к рискам и страхуемся заранее:
5️⃣ Выделяем ресурсы на проект:
6️⃣ Проводим еженедельный обзор проекта:
Забираем себе.
ChatGPT
Создай чёткий план этого проекта.
Проект: [вставьте название проекта]
Включи в план
1. Основную цель
2. Конечный результат, которого я хочу достичь
3. Как будет выглядеть успех
4. Чего мне следует избегать
Пиши кратко, чтобы я мог прочитать это менее чем за тридцать секунд.
Разбей этот проект на простые задачи.
Проект: [вставь название проекта]
Для каждой задачи укажи:
1. Простое описание
2. Что нужно, чтобы начать
3. Какие блоки могут возникнуть
4. Мини-план следующих действий
Составь простой график выполнения проекта.
Проект: [вставь название проекта]
Разбей на недельные этапы.
Для каждой недели опиши:
1. Что должно быть сделано
2. Как должен выглядеть прогресс
Посмотри на этот проект и перечисли возможные риски.
Проект: [вставь название проекта]
Для каждого риска укажи:
1. Почему он может возникнуть
2. Как его предотвратить
3. Что делать, если он всё-таки случится
Перечисли ресурсы, необходимые для проекта.
Проект: [вставь название проекта]
Укажи: инструменты, информацию, людей, ссылки и всё важное.
Отметь каждый пункт как обязательный или необязательный.
Составь простой еженедельный план.
Проект: [вставь название проекта]
Включи:
1. Что уже сделано
2. Что не сделано и почему
3. На чём сосредоточиться в следующий раз
4. Одно маленькое улучшение, которое облегчит жизнь на следующей неделе
Забираем себе.
ChatGPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Павел Дуров
В качестве логотипа сети
Please open Telegram to view this post
VIEW IN TELEGRAM
Cocoon
Confidential Compute Open Network
Cocoon connects GPU power, AI, and Telegram’s vast ecosystem – all built on privacy and blockchain.
Forwarded from TrendWatching
Дуров запустил Сосун — децентрализованную сеть для ИИ-вычислений Cocoon.
Судя по оставленной пасхалке в виде реакций, выбор одного из стульев с той самой загадки сделан.
🍆 🍆 🍆
Судя по оставленной пасхалке в виде реакций, выбор одного из стульев с той самой загадки сделан.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from TrendWatching
Забираем ТОПОВУЮ нейросеть для генерации речи — она создаёт реалистичную озвучку за минуту.
• Внутри больше 600 (!) голосов, как женских, так и мужских.
• Текст конвертируется в разные аудиоформаты, в т. ч. MP3, WAV и Ogg Opus.
• Работа из БРАУЗЕРА — ничего скачивать и устанавливать не нужно.
• Главное — абсолютно БЕСПЛАТНО, без лимитов и регистрации.
• Русский язык тоже есть.
Юзаем тут.
• Внутри больше 600 (!) голосов, как женских, так и мужских.
• Текст конвертируется в разные аудиоформаты, в т. ч. MP3, WAV и Ogg Opus.
• Работа из БРАУЗЕРА — ничего скачивать и устанавливать не нужно.
• Главное — абсолютно БЕСПЛАТНО, без лимитов и регистрации.
• Русский язык тоже есть.
Юзаем тут.
Forwarded from NN
Разработчики открыли «суперсилы» ИИ-агентов: на GitHub вышла библиотека готовых воркфлоу для продвинутого вайбкодинга.
Одной короткой командой бота можно попросить построить сложный план проекта, структурировать разработку, написать тесты для каждой фичи и провести код-ревью. Работает с Claude Code, Codex и OpenCode.
Превращаем агентов в суперпрограммистов здесь.
Одной короткой командой бота можно попросить построить сложный план проекта, структурировать разработку, написать тесты для каждой фичи и провести код-ревью. Работает с Claude Code, Codex и OpenCode.
Превращаем агентов в суперпрограммистов здесь.
Forwarded from HABR FEED + OPENNET
Бэкап PostgreSQL на независимый сервер по расписанию #habr
https://habr.com/ru/companies/amvera/articles/971338/
Tags: бэкапы по расписанию, бэкапы в облаке, бэкап PostgreSQL, postgres backup, postgresql backup, postgresql cron, бэкапы на независимый сервер, как сделать бэкап, как сделать дамп, сделать бэкап postgresql
Author: MarkovM (Amvera)
https://habr.com/ru/companies/amvera/articles/971338/
Tags: бэкапы по расписанию, бэкапы в облаке, бэкап PostgreSQL, postgres backup, postgresql backup, postgresql cron, бэкапы на независимый сервер, как сделать бэкап, как сделать дамп, сделать бэкап postgresql
Author: MarkovM (Amvera)
Хабр
Бэкап PostgreSQL на независимый сервер по расписанию
Потеря данных из-за отсутствия резервных копий или непроверенных бэкапов, одна из самых частых болезненных ситуаций как для обычных разработчиков, так и для крупных компаний. Несмотря на серьезность...