Forwarded from Типичный программист
Пользователь Reddit поделился годным лайфхаком, который помогает делать более точные генерации изображений. Причём работает метод с любой нейронкой.
Всё довольно просто. Если вы хотите внести какие-то изменения в изображения, то вместо того чтобы детально описывать всё в промпте и прикладывать к нему картинку, достаточно описать изменения прямо на ней. В промпте достаточно указать стиль, в котором хотите получить результат.
Нейронка гораздо лучше понимает, что вы от неё хотите, когда вы словами опишите то, что и где хотите увидеть прямо на том месте изображения. Это работает не только с зарисовками, как в примере, но и с фотографиями и коллажами.
Пробуйте и делитесь своими результатами в комментариях.
#ии
Всё довольно просто. Если вы хотите внести какие-то изменения в изображения, то вместо того чтобы детально описывать всё в промпте и прикладывать к нему картинку, достаточно описать изменения прямо на ней. В промпте достаточно указать стиль, в котором хотите получить результат.
Нейронка гораздо лучше понимает, что вы от неё хотите, когда вы словами опишите то, что и где хотите увидеть прямо на том месте изображения. Это работает не только с зарисовками, как в примере, но и с фотографиями и коллажами.
Пробуйте и делитесь своими результатами в комментариях.
#ии
Forwarded from Типичный программист
Математика для программистов: ответы на популярные вопросы и полезные ресурсы для изучения
Рассказали, кому и как именно нужна математика в IT. Пояснили, как правильно её изучать и где взять ресурсы для обучения: https://tproger.ru/articles/maths-for-programmers/
#математика
Рассказали, кому и как именно нужна математика в IT. Пояснили, как правильно её изучать и где взять ресурсы для обучения: https://tproger.ru/articles/maths-for-programmers/
#математика
Forwarded from Типичный программист
Java 25: начинается эра «без шаблонов»
Недавно вышел JDK 25. Он является версией с долгосрочной поддержкой, а значит, что в нём отлажены экспериментальные функции и их уже можно смело использовать до следующей LTS версии.
В 25 версии появилось много улучшений:
➡️ Упрощение импорта модулей: теперь можно просто импортировать модуль java.base, который автоматически включает все часто используемые пакеты. Это значительно упрощает начало файлов Java и уменьшает количество операторов импорта.
➡️ Компактные исходные файлы и методы main: синтаксис стал более лаконичным, и теперь можно использовать void main() как точку входа в программу. Методы, такие как println, теперь доступны через новый класс
➡️ Гибкие тела конструкторов: разработчики могут выполнять логику в конструкторе до вызова super(), что позволяет использовать пролог (операторы до super) и эпилог (операторы после) для выполнения различных задач перед инициализацией родительского конструктора.
➡️ Scoped Values: эта функция официально заменяет ThreadLocal, обеспечивая неизменяемость данных, ограниченное время жизни и эффективность работы с виртуальными потоками.
➡️ Compact Object Headers: заголовок объекта был сжат до 64 бит (8 байт), что автоматически уменьшает объём занимаемой памяти и улучшает локальность кэша процессора.
Это ещё не всё. Почитать подробнее с примерами можно в этой статье.
#java
Недавно вышел JDK 25. Он является версией с долгосрочной поддержкой, а значит, что в нём отлажены экспериментальные функции и их уже можно смело использовать до следующей LTS версии.
В 25 версии появилось много улучшений:
java.lang.IO, который неявно импортируется в компактных исходных файлах.Это ещё не всё. Почитать подробнее с примерами можно в этой статье.
#java
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Типичный программист
Пора хвастаться!
На прошлой неделе мы запустили рубрику, где вы можете хвастаться своими проектами. Кое-кто уже начал это делать, но остальные пока скромничают. Не стесняйтесь. Делитесь своим прогрессом, даже если проект пока не закончен! Поверьте, это помогает мотивации 😉
А если вы разработчик игр и хотите похвастаться своей игрой, то залетайте в наш «субботний скриншотник» в GameDev-канале.
На прошлой неделе мы запустили рубрику, где вы можете хвастаться своими проектами. Кое-кто уже начал это делать, но остальные пока скромничают. Не стесняйтесь. Делитесь своим прогрессом, даже если проект пока не закончен! Поверьте, это помогает мотивации 😉
А если вы разработчик игр и хотите похвастаться своей игрой, то залетайте в наш «субботний скриншотник» в GameDev-канале.
Forwarded from CodeCamp
Делюсь полезностью: нашёл штуку, которая превращает ваш ноут в локальную расшифровочную станцию 💻
По сути это аккуратная графическая оболочка для Whisper + pyannote, которая:
— Делает автотранскрибацию огромных записей локально;
— Отличает, кто говорит, и поддерживает ~60 языков;
— Показывает всё в удобном редакторе, где можно сразу поправить косяки;
— Работает с любым аудио/видео и сама расставляет паузы, спикеров и таймкоды.
Наслаждайтесь🍆
По сути это аккуратная графическая оболочка для Whisper + pyannote, которая:
— Делает автотранскрибацию огромных записей локально;
— Отличает, кто говорит, и поддерживает ~60 языков;
— Показывает всё в удобном редакторе, где можно сразу поправить косяки;
— Работает с любым аудио/видео и сама расставляет паузы, спикеров и таймкоды.
Наслаждайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Purple-Air-Brochure.pdf
638.1 KB
📙 PDF Purple Air Brochure
📙 PurpleAir - SaveEcoBot
Real-Time Interactive Map by PurpleAir
Район залива Только что стал оранжевым.
PurpleAir
↘️ https://www.purpleair.com/
➖➖➖
▶️ https://www.youtube.com/watch?v=GnW63BvCn4U
...
The Purple Air Map uses the Air Quality Index (AQI) Thresholds created by the EPA for their map interface.Фиолетовый воздух: Сеть датчиков качества воздуха в режиме реального времени
“Purple Air : Сеть датчиков качества воздуха в режиме реального времени”
↘️ https://aqicn.org/network/purpleair/ru/
📙 PurpleAir - SaveEcoBot
Недорогая сеть датчиков качества воздуха, предоставляющая измерения качества воздуха в реальном времени на публичной карте.
Полезна как для гражданских ученых, так и для специалистов по качеству воздуха, датчики PurpleAir легко устанавливаются и требуют только розетку и WiFi.
Real-Time Interactive Map by PurpleAir
Интерактивная карта с обновлениями каждые две минуты, датчики PurpleAir маленькие, простые в установке и требуют только питание и WiFi
↘️ https://map.purpleair.com/
Район залива Только что стал оранжевым.
Этот веб-сайт позволяет отслеживать респираторный...
PurpleAir
↘️ https://www.purpleair.com/
➖➖➖
▶️ https://www.youtube.com/watch?v=GnW63BvCn4U
...
Forwarded from Киллер-фича
Забудьте про выполнение домашних задач и контрольных — эта нейронка решит ВСЁ за вас.
• ИИ даст пошаговый разбор и объяснение. Вы не только выполните работу, но и поймёте принципы, по которым она решалась.
• Сервис поддерживает более 250 учебных предметов: математику, физику, экономику, науку, гуманитарные и другие области.
• Персональный ИИ-учитель доступен 24 часа в сутки.
• Поддерживается русский язык!
• Ежедневно даётся бесплатное количество кредитов.
Юзаем тут.
• ИИ даст пошаговый разбор и объяснение. Вы не только выполните работу, но и поймёте принципы, по которым она решалась.
• Сервис поддерживает более 250 учебных предметов: математику, физику, экономику, науку, гуманитарные и другие области.
• Персональный ИИ-учитель доступен 24 часа в сутки.
• Поддерживается русский язык!
• Ежедневно даётся бесплатное количество кредитов.
Юзаем тут.
Forwarded from NN
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini научили генерировать интерактивную инфографику — чат-бот умеет делать и объяснять схемы любой сложности.
Можно попросить бота рассказать про устройство клетки или разобрать конструкцию самолета. На каждый элемент можно кликнуть и прочитать про него подробнее.
Доступ уже открывают всем пользователям. Пробуем в Gemini App.
Можно попросить бота рассказать про устройство клетки или разобрать конструкцию самолета. На каждый элемент можно кликнуть и прочитать про него подробнее.
Доступ уже открывают всем пользователям. Пробуем в Gemini App.
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярных напоминаний, всяческий полезный [и бесполезный] код утилит для командной строки которые я когда-то делал и иногда продолжаю развивать когда это необходимо для работы,
например, для Dateno. Лично я испытываю глубокую привязанность к работе в командной строке отсюда и все эти инструменты:
- undatum - многофункциональная утилита для обработки данных изначально в формате JSON lines, делалась как xsv для JSON/JSON lines, я её лично активно и везде применяю.
- docx2csv - утилита по извлечению таблиц из файлов MS Word (.docx), настолько простая что надо её с чем-то объединить
- mongo2md - инструмент автоматизации документирования коллекций в MongoDB было полезно когда MongoDB была в основе технологического стека разных проектов, сейчас скорее буду переводить в статус легаси, но полезно как пример автодокументирования.
- metawarc утилита по извлечению метаданных из файлов WARC, умеет собирать данные из pdf, doc, docx, pdf, png, jpg, xls, xlsx и других файлов документов и изображений. Полезна для разного рода OSINT задач и для автоматизированного анализа WARC файлов
- apibackuper утилита для сбора данных из API через декларативно заданные правила. Использую её повсеместно и всё время хочу переписать чтобы вместо cfg файлов использовать yaml/toml, заменить zip контейнеры на базу duckdb и в целом сделать удобнее. Но и так работает
- wparc архиватор API и данных из Wordpress и файлов заодно. Одна из утилит для архивации сайтов для RuArxive
- lazyscraper скрейпер сайтов для лентяев, когда хочется извлечь данные минимальными усилиями и без программирования. Я её чуть-чуть не доделал чтобы даже xpath не использовать, но в остальном вполне рабочий инструмент
- metacrafter мой любимый инструмент идентификации структуры таблиц в файлах и таблицах с данными. Надо объединить с undatum её конечно же
- apicrafter утилита по быстрому созданию API поверх коллекций в MongoDB. Когда-то использовалась в проектах где основной стек был на MongoDB, сейчас всё по другому я бы делал
#opensource #data #datatools
например, для Dateno. Лично я испытываю глубокую привязанность к работе в командной строке отсюда и все эти инструменты:
- undatum - многофункциональная утилита для обработки данных изначально в формате JSON lines, делалась как xsv для JSON/JSON lines, я её лично активно и везде применяю.
- docx2csv - утилита по извлечению таблиц из файлов MS Word (.docx), настолько простая что надо её с чем-то объединить
- mongo2md - инструмент автоматизации документирования коллекций в MongoDB было полезно когда MongoDB была в основе технологического стека разных проектов, сейчас скорее буду переводить в статус легаси, но полезно как пример автодокументирования.
- metawarc утилита по извлечению метаданных из файлов WARC, умеет собирать данные из pdf, doc, docx, pdf, png, jpg, xls, xlsx и других файлов документов и изображений. Полезна для разного рода OSINT задач и для автоматизированного анализа WARC файлов
- apibackuper утилита для сбора данных из API через декларативно заданные правила. Использую её повсеместно и всё время хочу переписать чтобы вместо cfg файлов использовать yaml/toml, заменить zip контейнеры на базу duckdb и в целом сделать удобнее. Но и так работает
- wparc архиватор API и данных из Wordpress и файлов заодно. Одна из утилит для архивации сайтов для RuArxive
- lazyscraper скрейпер сайтов для лентяев, когда хочется извлечь данные минимальными усилиями и без программирования. Я её чуть-чуть не доделал чтобы даже xpath не использовать, но в остальном вполне рабочий инструмент
- metacrafter мой любимый инструмент идентификации структуры таблиц в файлах и таблицах с данными. Надо объединить с undatum её конечно же
- apicrafter утилита по быстрому созданию API поверх коллекций в MongoDB. Когда-то использовалась в проектах где основной стек был на MongoDB, сейчас всё по другому я бы делал
#opensource #data #datatools
Forwarded from Неискусственный интеллект (Илья Склюев)
Отечественные чат-боты превзошли американцев и китайцев... в сборе информации
Вечером среды мы внезапно поняли, что в приложениях «Алисы» и GigaChat почему-то нет простой кнопки, позволяющей отключить сбор и анализ ваших диалогов. Хотя у ChatGPT и DeepSeek настройка находится в пару кликов.
Оказывается, всё это не просто так. Отечественные компании ведут активный сбор данных, но используют их по-разному:
1️⃣ «Алиса» анализирует ваши «отдельные голосовые и текстовые сообщения» по умолчанию
Нам казалось, что отключить настройку можно через «Яндекс ID». Но в компании пояснили, что кнопка «Помогать Алисе стать лучше» действует только для умных устройств.
В сервисном соглашении «Алисы AI» в разделе про данные пользователя говорят, что «Правообладателю передается следующая информация: идентификатор Пользователя, Запросы, ответы на Запросы Пользователя, иная информация, предоставляемая и собираемая посредством пользовательского интерфейса Сервиса».
Используют их, конечно же, «в целях совершенствования в целях проведения анализа, развития и совершенствования Сервиса и его отдельных функций». А ещё для рекламы:
«Персональная информация Пользователя обрабатывается в целях предоставления функциональности Сервиса, в том числе для отображения контента, потенциально наиболее интересного Пользователю».
2️⃣ «Сбер» получает всё, но делать с этим ничего не будет (пока)
Пользуясь GigaChat, пользователь «предоставляет SDevices и Правообладателю право использования Контента Клиента <...> любыми способами, не противоречащими действующему законодательству, в том числе, указанными в п. 2 ст. 1270 Гражданского кодекса Российской Федерации, но не ограничиваясь ими».
В корпоративном соглашении и в версии для физлиц подчёркивают, что «SDevices и Правообладатель не используют предоставленный или загружаемый Контент в собственных целях, не связанных с предоставлением Сервиса». Формулировка размытая, но нам официально заявили, что в «Сбере» не используют запросы пользователей для обучения нейросетей.
При этом, как только вы что-то сгенерировали в GigaChat, то вы передаёте компании лицензию на использование контента следующими способами:
▪️ «воспроизведение, хранение и запись в память ЭВМ Правообладателя и его аффилированных лиц и на серверах, назначенных Правообладателем, если такое использование необходимо для целей предоставления Сервиса»
▪️ «использование с предварительного согласия Клиента в маркетинговых и информационных материалах Правообладателя, направленных на привлечение внимание к Сервису или информирование о возможностях Сервиса неопределенного круга лиц».
Так что всё содержимое вашего диалога прекрасно видно компании. А условия использования в дальнейшем ещё могут поменяться.
@anti_agi
Вечером среды мы внезапно поняли, что в приложениях «Алисы» и GigaChat почему-то нет простой кнопки, позволяющей отключить сбор и анализ ваших диалогов. Хотя у ChatGPT и DeepSeek настройка находится в пару кликов.
Оказывается, всё это не просто так. Отечественные компании ведут активный сбор данных, но используют их по-разному:
Нам казалось, что отключить настройку можно через «Яндекс ID». Но в компании пояснили, что кнопка «Помогать Алисе стать лучше» действует только для умных устройств.
В сервисном соглашении «Алисы AI» в разделе про данные пользователя говорят, что «Правообладателю передается следующая информация: идентификатор Пользователя, Запросы, ответы на Запросы Пользователя, иная информация, предоставляемая и собираемая посредством пользовательского интерфейса Сервиса».
Используют их, конечно же, «в целях совершенствования в целях проведения анализа, развития и совершенствования Сервиса и его отдельных функций». А ещё для рекламы:
«Персональная информация Пользователя обрабатывается в целях предоставления функциональности Сервиса, в том числе для отображения контента, потенциально наиболее интересного Пользователю».
Не очень понимаем, как с такими условиями пользоваться агентскими фичами «Алисы». Если любая информация, попавшая в поле зрения бота, будет уходить для отображения интересного контента.
Пользуясь GigaChat, пользователь «предоставляет SDevices и Правообладателю право использования Контента Клиента <...> любыми способами, не противоречащими действующему законодательству, в том числе, указанными в п. 2 ст. 1270 Гражданского кодекса Российской Федерации, но не ограничиваясь ими».
В корпоративном соглашении и в версии для физлиц подчёркивают, что «SDevices и Правообладатель не используют предоставленный или загружаемый Контент в собственных целях, не связанных с предоставлением Сервиса». Формулировка размытая, но нам официально заявили, что в «Сбере» не используют запросы пользователей для обучения нейросетей.
При этом, как только вы что-то сгенерировали в GigaChat, то вы передаёте компании лицензию на использование контента следующими способами:
Так что всё содержимое вашего диалога прекрасно видно компании. А условия использования в дальнейшем ещё могут поменяться.
@anti_agi
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Begtin (Ivan Begtin)
К вопросу о работе с данными в гуманитарных науках, я, честно говоря, долго об этом думал в контексте что много что команда Инфокультуры и я лично делаем в этой теме хотя и гуманитарные науки для нас совсем не основная тема. Но есть, как минимум, такие проекты как finlibrary.ru и Ruarxive.org, а также множество других меньшего масштаба по сохранению цифрового и аналогового культурного наследия.
И вот посмотрев на окружающий мир лично я понял что слишком мало я знаю о том кто что хорошого открытого и цифрового в области культуры делает. Причем именно в такой комбинации, на первом месте открытость и лишь на втором месте цифра. Не просто какой-то интерактивный проект или работа, а под свободными лицензиями, с открытым кодом и открытыми данными.
Поэтому мы организовали премию цель которой найти лучшие и вдохновляющие примеры того что делают исследователи в гуманитарных науках. Потому что в других науках и так много всего происходит, а в гуманитарных очень многое не на поверхности, не очевидно, но интересно.
Не стесняйтесь подавать собственные проекты, не стесняйтесь номинировать уже сделанное. Это не конкурс и не хакатон, тут не надо делать что-то на заказ, можно и нужно номинировать существующее.
#opendata #openaccess #humanitarian #contest
И вот посмотрев на окружающий мир лично я понял что слишком мало я знаю о том кто что хорошого открытого и цифрового в области культуры делает. Причем именно в такой комбинации, на первом месте открытость и лишь на втором месте цифра. Не просто какой-то интерактивный проект или работа, а под свободными лицензиями, с открытым кодом и открытыми данными.
Поэтому мы организовали премию цель которой найти лучшие и вдохновляющие примеры того что делают исследователи в гуманитарных науках. Потому что в других науках и так много всего происходит, а в гуманитарных очень многое не на поверхности, не очевидно, но интересно.
Не стесняйтесь подавать собственные проекты, не стесняйтесь номинировать уже сделанное. Это не конкурс и не хакатон, тут не надо делать что-то на заказ, можно и нужно номинировать существующее.
#opendata #openaccess #humanitarian #contest
Forwarded from Ivan Begtin (Ivan Begtin)
Про форматы файлов, много о них я писал и в контексте ИИ, и в контексте работы дата инженеров и в контексте цифровой архивации. Мало кто системно разные форматы изучает и чаще те кто это делают занимаются цифровой архивацией в очень широком контексте, но в первую очередь думая о сохранении доступности данных и иных материалов созданных в ПО которое уже малодоступно или которым уже невозможно пользоваться.
С чего начать тем кто ищет информацию о структурах файлах и того как работать с разными форматами работать?
1. PRONOM
Это специальный реестр форматов файлов от Национальных Архивов Великобритании и он включает подробное описание сотен форматов файлов включая форматы разных старых приложений или относительно новые форматы для данных такие как JSONl. В реестре PRONOM присутствуют и цифровые отпечатки файлов, помогающие их идентифицировать. Эти отпечатки используются в утилите DROID для идентификации типов файлов по большому их реестру. Утилита сама не обновлялась давно, но цифровые отпечатки из PRONOM обновляются довольно часто, чуть ли не ежемесячно
2. Archive Team Wiki (File formats)
У команды ArchiveTeam есть большой вики проект fileformats.archiveteam.org с большим числом практических статей по разным форматам файлов и о том как с ними работать и как их архивировать. Полезный сайт для всех кто погружается в работу с какими либо относительно популярными файловыми форматами. Вики ArchiveTeam полезно именно своей практичностью и включает материалы из множества источников.
3. MultimediaWiki
Другой Вики проект доступный по адресу wiki.multimedia.cx и включающий описание многих мультимедийных форматов включая те что используются в игровой индустрии и многое про то как заниматься реверс инжинирингом кода для извлечения интересных материалов из тех же игр.
4. IANA Mimetypes
Это реестр mime типов на сайте IANA, покрывает те форматы файлов для которых mime типы зарегистрированы, их много, но не исчерпывающе. Важнее подробное описание каждого типа и ссылки на сами спецификации и области применения.
—
#readings #fileformats
С чего начать тем кто ищет информацию о структурах файлах и того как работать с разными форматами работать?
1. PRONOM
Это специальный реестр форматов файлов от Национальных Архивов Великобритании и он включает подробное описание сотен форматов файлов включая форматы разных старых приложений или относительно новые форматы для данных такие как JSONl. В реестре PRONOM присутствуют и цифровые отпечатки файлов, помогающие их идентифицировать. Эти отпечатки используются в утилите DROID для идентификации типов файлов по большому их реестру. Утилита сама не обновлялась давно, но цифровые отпечатки из PRONOM обновляются довольно часто, чуть ли не ежемесячно
2. Archive Team Wiki (File formats)
У команды ArchiveTeam есть большой вики проект fileformats.archiveteam.org с большим числом практических статей по разным форматам файлов и о том как с ними работать и как их архивировать. Полезный сайт для всех кто погружается в работу с какими либо относительно популярными файловыми форматами. Вики ArchiveTeam полезно именно своей практичностью и включает материалы из множества источников.
3. MultimediaWiki
Другой Вики проект доступный по адресу wiki.multimedia.cx и включающий описание многих мультимедийных форматов включая те что используются в игровой индустрии и многое про то как заниматься реверс инжинирингом кода для извлечения интересных материалов из тех же игр.
4. IANA Mimetypes
Это реестр mime типов на сайте IANA, покрывает те форматы файлов для которых mime типы зарегистрированы, их много, но не исчерпывающе. Важнее подробное описание каждого типа и ссылки на сами спецификации и области применения.
—
#readings #fileformats
www.nationalarchives.gov.uk
PRONOM | Welcome
PRONOM is an online technical registry providing impartial and definitive information about file formats, software products and other technical components required to support long-term access of electronic records.
Forwarded from Ivan Begtin (Ivan Begtin)
Продолжая рассказывать про применение ИИ агентов для разработки, после экспериментов на не самом критичном коде я добрался до обновления реестра дата каталогов в Dateno и могу сказать что результаты пока что хорошие.
Вплоть до того что ИИ агент способен сформировать карточку дата каталога просто передав ему ссылку и задав промпт сгенерировать его описание. Это работает, во многом, потому что уже есть больше 10 тысяч созданных карточек и поскольку есть чёткие спецификации схем ПО дата каталогов, самих описаний дата каталогов и тд.
Кроме того хорошо отрабатывают задачи которые:
- находят ошибки в метаданных дата каталогов
- находят и исправляют дубликаты записей
- обогащают карточки каталогов тематиками и тэгами
- исправляют геоклассификацию каталогов
- и многое другое что предполагает массовое исправление и обогащение данных
Лично для меня и Dateno это очень хорошая новость это означает что реестр (dateno.io/registry) можно вести теперь значительно меньшими личными усилиями.
В ближайшее время я сделаю очередное обновление реестра уже по итогам большого числа итераций обновления метаданных и качество реестра существенно вырастет. А оно влияет и на индекс Dateno и на сам продукт реестра дата каталогов.
P.S. Тут я описываю внутренности происходящего в Dateno, которым я занимаюсь как основным проектом и продуктом. А новости проекта всегда можно читать в LinkedIn
#opendata #datacatalogs #ai #dev #datatools
Вплоть до того что ИИ агент способен сформировать карточку дата каталога просто передав ему ссылку и задав промпт сгенерировать его описание. Это работает, во многом, потому что уже есть больше 10 тысяч созданных карточек и поскольку есть чёткие спецификации схем ПО дата каталогов, самих описаний дата каталогов и тд.
Кроме того хорошо отрабатывают задачи которые:
- находят ошибки в метаданных дата каталогов
- находят и исправляют дубликаты записей
- обогащают карточки каталогов тематиками и тэгами
- исправляют геоклассификацию каталогов
- и многое другое что предполагает массовое исправление и обогащение данных
Лично для меня и Dateno это очень хорошая новость это означает что реестр (dateno.io/registry) можно вести теперь значительно меньшими личными усилиями.
В ближайшее время я сделаю очередное обновление реестра уже по итогам большого числа итераций обновления метаданных и качество реестра существенно вырастет. А оно влияет и на индекс Dateno и на сам продукт реестра дата каталогов.
P.S. Тут я описываю внутренности происходящего в Dateno, которым я занимаюсь как основным проектом и продуктом. А новости проекта всегда можно читать в LinkedIn
#opendata #datacatalogs #ai #dev #datatools
GitHub
GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
Forwarded from Ivan Begtin (Ivan Begtin)
Я ранее писал про применение ИИ агентов для рефакторингка кода и про декларативное программирование, а теперь а теперь расскажу про декларативное создание баз данных.
Когда я только-только начинал вести список каталогов с данными в мире я делал это в в Excel файле с парой десятков колонок и сотнями записей, потом Excel стал неудобен и я перенес все в Airtable что было удобнее в течение длительного времени, там можно было настраивать разные view на одну и ту же таблицу и целенаправленно вносить новые записи с по странам или темам. С автоматизацией было не очень, зато ручная работа облегчалась.
И вот когда у меня в голове уже созрела мысль что не попробовать ли сделать поисковик по датасетам, я понял что надо перестать думать об этих данных как о таблицах (сложно перестать, конечно) и начать думать как о реестре. Для меня тогда выбор был в том чтобы:
- перенести этот реестр в СУБД и создать поверх интерфейс для редактирования. Например, загрузить в Postgres и поверх сделать быстро интерфейс с помощью Strapi или Directus'а или других no-code инструментов
- или начать смотреть на этот реестр как на код и поместить все в Github. Не так удобно для работы вручную, но хорошо автоматизируется
В итоге я пошёл вторым путем и разрезал таблицы на индивидуальные карточки дата каталогов сохраненные как YAML файлы согласно предопределенной схеме данных. Например, вот такая карточка. Эти записи можно редактировать вручную, а можно и автоматически. Можно автоматизировать обогащение метаданных, проверку API, доступность сайтов, проверку ошибок и так далее. Чтобы собственно и происходит внутри этого репозитория. От изначальный 2 тысяч каталогов до текущего их числа в более чем 10+ тысяч дата каталогов он вырос за счет автоматизированной загрузки в него большого числа дата каталогов из их агрегаторов.
Теперь я подключил последнюю версию Cursor'а к обновлению этого репозитория и оказывается он очень хорош в массовом обновлении YAML файлов и понимает команды сформулированные в стиле:
- "Проанализируй все записи, найди те у которых веб сайт владельца не указан, найди веб сайт и заполни поля owner.name и owner.link"
- "Проверь все записи относящиеся к Бельгии и проверь доступны ли указанные там сайты"
- "Создай JSON схему для YAML файлов дата каталогов и проверь все их записи на соответствие этой схеме"
и так далее.
Магия начала работать когда реестр достиг некоторой критической массы которая "помогает" ИИ агенту понимать схемы данных, предназначение репозитория и находить несоответствия. Ручная работа всё еще необходима, но для проверки сделанного, и её тоже можно автоматизировать.
Итого сейчас в обновленных данных реестра Dateno 10 905 каталогов. Они все пока в репозитории реестра в виде YAML файлов и parquet файла слепка с данными. Это на 794 каталога данных больше чем пока есть в общедоступном реестре (всего 10 111 каталогов).
Были добавлены:
- каталоги данных на базе GBIF IPT
- большие списки каталогов данных во Франции, Испании и Нидерландах
- по мелочи каталоги данных в других странах
А также огромное число исправлений в метаданных всех каталогов.
Фактически ИИ агенты для разработки прекрасно подходят для работы с данными упакованными таким образом. Я начинаю склоняться к мысли что такое обогащение данных работает лучше чем инструменты вроде OpenRefine.
Чуть позже я буду писать об этом всем лонгрид, но это уже после завершения чистки и обогащения репозитория которое уже сильно ускорилось.
#opendata #datacatalogs #dateno #dataengineering #dataanalysis
Когда я только-только начинал вести список каталогов с данными в мире я делал это в в Excel файле с парой десятков колонок и сотнями записей, потом Excel стал неудобен и я перенес все в Airtable что было удобнее в течение длительного времени, там можно было настраивать разные view на одну и ту же таблицу и целенаправленно вносить новые записи с по странам или темам. С автоматизацией было не очень, зато ручная работа облегчалась.
И вот когда у меня в голове уже созрела мысль что не попробовать ли сделать поисковик по датасетам, я понял что надо перестать думать об этих данных как о таблицах (сложно перестать, конечно) и начать думать как о реестре. Для меня тогда выбор был в том чтобы:
- перенести этот реестр в СУБД и создать поверх интерфейс для редактирования. Например, загрузить в Postgres и поверх сделать быстро интерфейс с помощью Strapi или Directus'а или других no-code инструментов
- или начать смотреть на этот реестр как на код и поместить все в Github. Не так удобно для работы вручную, но хорошо автоматизируется
В итоге я пошёл вторым путем и разрезал таблицы на индивидуальные карточки дата каталогов сохраненные как YAML файлы согласно предопределенной схеме данных. Например, вот такая карточка. Эти записи можно редактировать вручную, а можно и автоматически. Можно автоматизировать обогащение метаданных, проверку API, доступность сайтов, проверку ошибок и так далее. Чтобы собственно и происходит внутри этого репозитория. От изначальный 2 тысяч каталогов до текущего их числа в более чем 10+ тысяч дата каталогов он вырос за счет автоматизированной загрузки в него большого числа дата каталогов из их агрегаторов.
Теперь я подключил последнюю версию Cursor'а к обновлению этого репозитория и оказывается он очень хорош в массовом обновлении YAML файлов и понимает команды сформулированные в стиле:
- "Проанализируй все записи, найди те у которых веб сайт владельца не указан, найди веб сайт и заполни поля owner.name и owner.link"
- "Проверь все записи относящиеся к Бельгии и проверь доступны ли указанные там сайты"
- "Создай JSON схему для YAML файлов дата каталогов и проверь все их записи на соответствие этой схеме"
и так далее.
Магия начала работать когда реестр достиг некоторой критической массы которая "помогает" ИИ агенту понимать схемы данных, предназначение репозитория и находить несоответствия. Ручная работа всё еще необходима, но для проверки сделанного, и её тоже можно автоматизировать.
Итого сейчас в обновленных данных реестра Dateno 10 905 каталогов. Они все пока в репозитории реестра в виде YAML файлов и parquet файла слепка с данными. Это на 794 каталога данных больше чем пока есть в общедоступном реестре (всего 10 111 каталогов).
Были добавлены:
- каталоги данных на базе GBIF IPT
- большие списки каталогов данных во Франции, Испании и Нидерландах
- по мелочи каталоги данных в других странах
А также огромное число исправлений в метаданных всех каталогов.
Фактически ИИ агенты для разработки прекрасно подходят для работы с данными упакованными таким образом. Я начинаю склоняться к мысли что такое обогащение данных работает лучше чем инструменты вроде OpenRefine.
Чуть позже я буду писать об этом всем лонгрид, но это уже после завершения чистки и обогащения репозитория которое уже сильно ускорилось.
#opendata #datacatalogs #dateno #dataengineering #dataanalysis
GitHub
dataportals-registry/data/entities/AE/Federal/opendata/databayanatae.yaml at main · commondataio/dataportals-registry
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
Forwarded from Ivan Begtin (Ivan Begtin)
Для всех ИИ агентов для кодинга у меня есть довольно простой тест который большая часть из них ещё полгода назад пройти не могли. В Армении есть портал статистики statbank.armstat.am который много лет назад создавался за счет помощи ЕС и с той поры не обновлялся. Он построен на базе движка с открытым кодом PxWeb шведско-норвежской разработки который прошел большую эволюцию за эти годы, но в Армстате используется очень старая его версия с интерфейсом созданным на ASP.NET с большим числом postback запросов что не критично, но неприятно усложняет сбор из него данных. Я такую задачу отношу к скорее утомительным чем сложным, потому что отладка на них может быть долгой и замороченной.
У меня с этой задачей всегда была развилка из 3-х вариантов:
1. Создать и оплатить задачу для фрилансера (в пределах от $50 до $250 за всю работу)
2. Поручить одному из разработчиков/инженеров в команде (по уровню это задача скорее для аккуратного джуна)
3. С помощью ИИ агента сделать такой парсер
Поскольку задача не приоритетная (в Dateno данные собираются с более современных инсталляций PxWeb и через API), то для таких проверок ИИ агентов она прекрасно подходила. И я её пробовал решать и через ChatGPT, и Copilot, и Manus и Claude Code и первую версию Cursor'а, в общем много вариантов.
Они либо утыкались в то что определяли что это PxWeb и делали код для API который не работал, или проверяли что код для API не работает и писали что ничего дальше сделать не могут, или писали плохой код для скрейпинга веб страниц который не работал.
В итоге могу сказать что окончательно рабочее решение сумел сделать Antifravity от Google. Но каким образом, через запуск Chrome локально и автоматизированно пройдясь по сайту определив его структуру и создав код на Python который с некоторыми ошибками, но в итоге извлекал списки показателей и умел выгружать данные. Неидеальные, потому что так и не научился выгружать данные в форматах отличных от CSV, несмотря на несколько попыток и при том что через веб интерфейс это все работает, значит ошибка не в оригинальной системе.
Тем не менее, это уже результат примерно 2-х часов работы, что соответствовало бы времени в течение которого пришлось бы потратить на проверку работы фрилансера или разработчика в команде.
Что в итоге:
1. Количеств задач отдаваемых фрилансерам стремительно падает кроме малого числа где фрилансер большой профессионал в своей специализированной области.
2. Зачем нанимать джунов? Этот вопрос все острее с развитием ИИ агентов
3. ИИ агенты все успешнее решают "замороченные" и "утомительные" задачи с которыми ранее не справлялись
Все выводы звучали и раньше.
- ИИ агенты позволяют сильно повышать продуктивность команд
- проблема подготовки зрелых специалистов из джунов только нарастает
Меня приятно удивило качество работы Antigravity, но я его рассматриваю скорее как пример прогресса ИИ агентов в целом, подозреваю что другие ИИ агенты если ещё не могут этого (нужно браузером исследовать сайт), то смогут в скором будущем.
#opendata #opensource #ai #coding
У меня с этой задачей всегда была развилка из 3-х вариантов:
1. Создать и оплатить задачу для фрилансера (в пределах от $50 до $250 за всю работу)
2. Поручить одному из разработчиков/инженеров в команде (по уровню это задача скорее для аккуратного джуна)
3. С помощью ИИ агента сделать такой парсер
Поскольку задача не приоритетная (в Dateno данные собираются с более современных инсталляций PxWeb и через API), то для таких проверок ИИ агентов она прекрасно подходила. И я её пробовал решать и через ChatGPT, и Copilot, и Manus и Claude Code и первую версию Cursor'а, в общем много вариантов.
Они либо утыкались в то что определяли что это PxWeb и делали код для API который не работал, или проверяли что код для API не работает и писали что ничего дальше сделать не могут, или писали плохой код для скрейпинга веб страниц который не работал.
В итоге могу сказать что окончательно рабочее решение сумел сделать Antifravity от Google. Но каким образом, через запуск Chrome локально и автоматизированно пройдясь по сайту определив его структуру и создав код на Python который с некоторыми ошибками, но в итоге извлекал списки показателей и умел выгружать данные. Неидеальные, потому что так и не научился выгружать данные в форматах отличных от CSV, несмотря на несколько попыток и при том что через веб интерфейс это все работает, значит ошибка не в оригинальной системе.
Тем не менее, это уже результат примерно 2-х часов работы, что соответствовало бы времени в течение которого пришлось бы потратить на проверку работы фрилансера или разработчика в команде.
Что в итоге:
1. Количеств задач отдаваемых фрилансерам стремительно падает кроме малого числа где фрилансер большой профессионал в своей специализированной области.
2. Зачем нанимать джунов? Этот вопрос все острее с развитием ИИ агентов
3. ИИ агенты все успешнее решают "замороченные" и "утомительные" задачи с которыми ранее не справлялись
Все выводы звучали и раньше.
- ИИ агенты позволяют сильно повышать продуктивность команд
- проблема подготовки зрелых специалистов из джунов только нарастает
Меня приятно удивило качество работы Antigravity, но я его рассматриваю скорее как пример прогресса ИИ агентов в целом, подозреваю что другие ИИ агенты если ещё не могут этого (нужно браузером исследовать сайт), то смогут в скором будущем.
#opendata #opensource #ai #coding
Statistikmyndigheten SCB
PxWeb
Statistics Sweden (SCB) and Statistics Norway (SSB) has developed a new interface for PxWeb 2.0. The first version was released in October 2025 and is available on Github.
Forwarded from Цифровой архив госфинансов и госуправления
Датасет Цифрового архива: расходы рабочих и служащих РСФСР на промышленные товары
По данным статистического ежегодника «Народное хозяйство в СССР» пятидесятые годы XX века были отмечены ростом потребления наиболее дорогих видов тканей, шерстяных и шелковых, верхнего и бельевого трикотажа, чулочно-носочных изделий, кожаной обуви. Так, в 1958 году наибольшие траты на непродовольственные товары среди всех категорий покупателей пришлись именно на готовую одежду. При этом больше всех на такие товары тратили инженерно-технические работники промышленности, а меньше всего — учителя начальных школ.
Публикуем датасет «Денежные расходы рабочих и служащих на приобретение непродовольственных промышленных товаров на одну семью за год», составленный на основе соответствующей таблицы из справочника «Бюджеты рабочих, служащих и колхозников РСФСР. Статистический сборник».
#датасет #статситика #ЦАГГ #история #РСФСР
По данным статистического ежегодника «Народное хозяйство в СССР» пятидесятые годы XX века были отмечены ростом потребления наиболее дорогих видов тканей, шерстяных и шелковых, верхнего и бельевого трикотажа, чулочно-носочных изделий, кожаной обуви. Так, в 1958 году наибольшие траты на непродовольственные товары среди всех категорий покупателей пришлись именно на готовую одежду. При этом больше всех на такие товары тратили инженерно-технические работники промышленности, а меньше всего — учителя начальных школ.
Публикуем датасет «Денежные расходы рабочих и служащих на приобретение непродовольственных промышленных товаров на одну семью за год», составленный на основе соответствующей таблицы из справочника «Бюджеты рабочих, служащих и колхозников РСФСР. Статистический сборник».
#датасет #статситика #ЦАГГ #история #РСФСР
Forwarded from ChatGPT | Нейросети
Планируем ЛЮБОЙ проект за 6️⃣ промптов — нейронка поможет разложить все ваши дела по полочкам: от похода в магазин до рабочих задач и посиделок с друзьями.
1️⃣ Делаем обзор проекта, получаем общее представление:
2️⃣ Разбиваем даже огромную задачу на мелкие понятные шаги:
3️⃣ Задаем временную шкалу и ставим реалистичные дедлайны:
4️⃣ Готовимся к рискам и страхуемся заранее:
5️⃣ Выделяем ресурсы на проект:
6️⃣ Проводим еженедельный обзор проекта:
Забираем себе.
ChatGPT
Создай чёткий план этого проекта.
Проект: [вставьте название проекта]
Включи в план
1. Основную цель
2. Конечный результат, которого я хочу достичь
3. Как будет выглядеть успех
4. Чего мне следует избегать
Пиши кратко, чтобы я мог прочитать это менее чем за тридцать секунд.
Разбей этот проект на простые задачи.
Проект: [вставь название проекта]
Для каждой задачи укажи:
1. Простое описание
2. Что нужно, чтобы начать
3. Какие блоки могут возникнуть
4. Мини-план следующих действий
Составь простой график выполнения проекта.
Проект: [вставь название проекта]
Разбей на недельные этапы.
Для каждой недели опиши:
1. Что должно быть сделано
2. Как должен выглядеть прогресс
Посмотри на этот проект и перечисли возможные риски.
Проект: [вставь название проекта]
Для каждого риска укажи:
1. Почему он может возникнуть
2. Как его предотвратить
3. Что делать, если он всё-таки случится
Перечисли ресурсы, необходимые для проекта.
Проект: [вставь название проекта]
Укажи: инструменты, информацию, людей, ссылки и всё важное.
Отметь каждый пункт как обязательный или необязательный.
Составь простой еженедельный план.
Проект: [вставь название проекта]
Включи:
1. Что уже сделано
2. Что не сделано и почему
3. На чём сосредоточиться в следующий раз
4. Одно маленькое улучшение, которое облегчит жизнь на следующей неделе
Забираем себе.
ChatGPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Павел Дуров
В качестве логотипа сети
Please open Telegram to view this post
VIEW IN TELEGRAM
Cocoon
Confidential Compute Open Network
Cocoon connects GPU power, AI, and Telegram’s vast ecosystem – all built on privacy and blockchain.
Forwarded from TrendWatching
Дуров запустил Сосун — децентрализованную сеть для ИИ-вычислений Cocoon.
Судя по оставленной пасхалке в виде реакций, выбор одного из стульев с той самой загадки сделан.
🍆 🍆 🍆
Судя по оставленной пасхалке в виде реакций, выбор одного из стульев с той самой загадки сделан.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM