Forwarded from Ivan Begtin (Ivan Begtin)
К вопросу о том как и кто являются пользователями данных и как оценивать насколько тот или иной публичный дата продукт / каталог данных может использоваться.
Есть три основных категории пользователей и у каждой из них свой набор ожиданий :
1. Аналитики
- максимальная оперативность данных
- доступность данных в форматах привычных для работы (CSV, XLSX)
- возможность доступа к данным аналитическими и No code/Low code инструментами
- наличие данных по ключевым наиболее значимым темам (официальная и ведомственная статистика, например)
2. Исследователи
- доступность данных по научным дисциплинам, в открытом или регламентированном доступе (когда известно кого спросить, какие правила необходимо соблюсти и какие условия доступа к данным)
- наличие DOI у датасетов
- возможность работы с данными инструментами принятым в среде их научной дисциплины, разные для экономистов, биоинформатиков, физиков, геофизиков, астрономов и тд.
- наличие четкой прослеживаемости данных и методологии их получения
3. Разработчики и дата инженеры
- доступность данных через API
- доступность данных для массовой выгрузки (bulk download)
- доступность схем и структур данных
- наличие данных в современных форматах для выгрузки: сжатые CSV, Parquet и др.
- наличие предсказуемой инфраструктуры для интеграции с ETL/ELT системами получения данных
———
У этих 3-х групп есть ряд подгрупп которые имеют свою специфику:
- журналисты. Имеют те же требования что и аналитики, с меньшим погружением в технологии, с большим погружением в доступность данных.
- AI/ML инженеры. Помимо ожиданий разработчиков и дата инженеров у них еще присутствует потребность именно в данных большого объема для обучения, интегрируемость в стеки данных и интегрируемость в продуктами вроде Hugging Face
- статистики. Это не только сотрудники статслужб, но и профессиональные пользователи их данных. Они могут быть аналитиками и исследователями и тут важным становится наличие значимых метаданных и специальных стандартов и форматов SDMX, DDI и тд.
- геоаналитики и георазработчики. Подгруппы аналитиков и разработчиков с упором на геоданные, ключевое здесь это наличие возможности поиска данных по геопривязке, получению их в форме стандартизированных API ArcGIS/OGC и возможность выгрузки в наиболее востребованных форматах геоданных
—
Пользователь может быть в одной роли или хоть сразу в нескольких, важно то что любые публикуемые данные и создаваемые дата каталоги можно четко разметить по их потенциальным пользователям.
Эту структуру ролей пользователей можно и дальше декомпозировать, но смысл не изменится - любой дата портал можно оценить по ориентации именно по этим ролям.
К примеру, когда я ругаюсь в адрес российского портала data.gov.ru, то могу объяснить это довольно просто. Можно посмотреть на него глазами любой из перечисленных ролей/групп пользователей и убедиться что для их задач он непригоден.
#opendata #users #thoughts #data
Есть три основных категории пользователей и у каждой из них свой набор ожиданий :
1. Аналитики
- максимальная оперативность данных
- доступность данных в форматах привычных для работы (CSV, XLSX)
- возможность доступа к данным аналитическими и No code/Low code инструментами
- наличие данных по ключевым наиболее значимым темам (официальная и ведомственная статистика, например)
2. Исследователи
- доступность данных по научным дисциплинам, в открытом или регламентированном доступе (когда известно кого спросить, какие правила необходимо соблюсти и какие условия доступа к данным)
- наличие DOI у датасетов
- возможность работы с данными инструментами принятым в среде их научной дисциплины, разные для экономистов, биоинформатиков, физиков, геофизиков, астрономов и тд.
- наличие четкой прослеживаемости данных и методологии их получения
3. Разработчики и дата инженеры
- доступность данных через API
- доступность данных для массовой выгрузки (bulk download)
- доступность схем и структур данных
- наличие данных в современных форматах для выгрузки: сжатые CSV, Parquet и др.
- наличие предсказуемой инфраструктуры для интеграции с ETL/ELT системами получения данных
———
У этих 3-х групп есть ряд подгрупп которые имеют свою специфику:
- журналисты. Имеют те же требования что и аналитики, с меньшим погружением в технологии, с большим погружением в доступность данных.
- AI/ML инженеры. Помимо ожиданий разработчиков и дата инженеров у них еще присутствует потребность именно в данных большого объема для обучения, интегрируемость в стеки данных и интегрируемость в продуктами вроде Hugging Face
- статистики. Это не только сотрудники статслужб, но и профессиональные пользователи их данных. Они могут быть аналитиками и исследователями и тут важным становится наличие значимых метаданных и специальных стандартов и форматов SDMX, DDI и тд.
- геоаналитики и георазработчики. Подгруппы аналитиков и разработчиков с упором на геоданные, ключевое здесь это наличие возможности поиска данных по геопривязке, получению их в форме стандартизированных API ArcGIS/OGC и возможность выгрузки в наиболее востребованных форматах геоданных
—
Пользователь может быть в одной роли или хоть сразу в нескольких, важно то что любые публикуемые данные и создаваемые дата каталоги можно четко разметить по их потенциальным пользователям.
Эту структуру ролей пользователей можно и дальше декомпозировать, но смысл не изменится - любой дата портал можно оценить по ориентации именно по этим ролям.
К примеру, когда я ругаюсь в адрес российского портала data.gov.ru, то могу объяснить это довольно просто. Можно посмотреть на него глазами любой из перечисленных ролей/групп пользователей и убедиться что для их задач он непригоден.
#opendata #users #thoughts #data
Forwarded from Ivan Begtin (Ivan Begtin)
Как обмениваться большими файлами не привлекая внимания санитаров без необходимости использовать облачные диски или аренды серверов? AltSendme инструмент по отправке данных через зашифрованное peer-to-peer соединение, представляет собой GUI приложение для Linux, Windows и Mac. Можно выбрать конкретный файл и после нажатия на "Start sharing" приложение создает длинны код/тикет который надо любым способом передать получателю и который после ввода этого кода в это же приложение у себя быстро и напрямую скачивает файл.
Лично у меня реакция на такое "почему это не я придумал?!" потому что инструмент простой и полезный.
Всё это с открытым кодом, использует p2p прокотолы iroh у которых также есть аналогичная утилита SendMe для командной строки, также с открытым кодом.
Этот инструмент не единственный, их становится больше, интересно когда появятся первые proxy/vpn инструменты такой же природы? А может они уже и есть.
#opensource #filetransfer #tools #datatools
Лично у меня реакция на такое "почему это не я придумал?!" потому что инструмент простой и полезный.
Всё это с открытым кодом, использует p2p прокотолы iroh у которых также есть аналогичная утилита SendMe для командной строки, также с открытым кодом.
Этот инструмент не единственный, их становится больше, интересно когда появятся первые proxy/vpn инструменты такой же природы? А может они уже и есть.
#opensource #filetransfer #tools #datatools
Forwarded from Ivan Begtin (Ivan Begtin)
State of AI большое свежее эмпирическое исследование от OpenRouter и a16z (Andreessen Horowitz) по тому как использовались 100 триллионов токенов.
Много разных интересных инсайтов, о том что модели ИИ в основном используют для программирования (это скорее особенность OpenRouter, но все равно важное наблюдение) и о взлете китайских открытых моделей, в первую очередь DeepSeek и о дальнейшем падении его доли по мере появления новых моделей.
В целом обзор отражает высокую динамику и быстрые изменения.
Что характерно, русский язык там есть, но у пользователей, он 3-й после английского и китайского по популярности, но это всего лишь ~2.5%, а вот российские ИИ модели даже не рассматриваются от игроков из США, Китая и Европы, что тоже логично потому что к OpenRouter'у, насколько я знаю, они не подключены.
#ai #readings
Много разных интересных инсайтов, о том что модели ИИ в основном используют для программирования (это скорее особенность OpenRouter, но все равно важное наблюдение) и о взлете китайских открытых моделей, в первую очередь DeepSeek и о дальнейшем падении его доли по мере появления новых моделей.
В целом обзор отражает высокую динамику и быстрые изменения.
Что характерно, русский язык там есть, но у пользователей, он 3-й после английского и китайского по популярности, но это всего лишь ~2.5%, а вот российские ИИ модели даже не рассматриваются от игроков из США, Китая и Европы, что тоже логично потому что к OpenRouter'у, насколько я знаю, они не подключены.
#ai #readings
Forwarded from Технограм
Воспользоваться обновлённой нейросетью, которая генерирует видео со звуком, не так просто — она доступна только в США и Канаде и только по приглашениям.
ZBN18R (сработает у первого человека). Найти код можно в одном из этих источников:
• На сайте formbiz.biz. Страница обновляется автоматически при наличии свободного кода.
• В комментариях в Telegram под тематическими публикациями.
• В соцсети X по запросам «Sora 2 invite» и «Sora 2 code».
• На Discord-сервере OpenAI.
• Треды на Reddit.
У вас должен быть аккаунт OpenAI (можно без подписки). Для активации заходим на сайт Sora через американский IP-адрес и находим пункт, который переключает на новую версию Sora. Вводим код приглашения. Готово.
Пользоваться Sora 2 можно и на сайте.
Если вы получили доступ, то поделитесь кодом в комментариях — создадим лесенку кодов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека программиста
Чип T2 в MacBook — это защита Apple от всего неродного, включая Linux. Но есть способ обойти все ловушки и получить Fedora с рабочим Wi-Fi, звуком и даже Touch Bar.
Главное — знать правильную последовательность действий. Наш автор Станислав Герасимов показывает на примере
🔹 Курс «Основы IT для непрограммистов»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека программиста
Мы вам — легковесный клиент Discord под названием Discordo
🔹 Курс «Основы IT для непрограммистов»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека программиста
КАК ВЫЙТИ ИЗ VIM: полный гайд 👩💻
🔹 Курс «Основы IT для непрограммистов»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
🐸 Библиотека программиста
killall vim
> Esc
> :wq или :x (сохранить и выйти)
> :q! (выйти без сохранения)
или
> Esc → ZZ (сохранить и выйти)
🔹 Курс «Основы IT для непрограммистов»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека программиста
Если вайбкодить, то по-взрослому 🥳
У Anthropic Academy есть бесплатный практический курс по использованию Claude Code для ускорения процесса разработки.
К концу гайда ты освоишь:
✔️ Использование основных инструментов Claude Code для работы с файлами, выполнения команд и анализа кода
✔️ Эффективное управление контекстом с помощью
✔️ Контроль хода диалога с помощью различных горячих клавиш и команд
✔️ Plan Mode и Thinking Mode для решения сложных задач, требующих глубокого анализа
🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
🐸 Библиотека программиста
У Anthropic Academy есть бесплатный практический курс по использованию Claude Code для ускорения процесса разработки.
К концу гайда ты освоишь:
/init, файлов Claude.md и упоминаний через @🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека программиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Код Дурова
Чат-бот «переехал» на модели семейства Alice AI, научился искать информацию в интернете и не только.
Подробности:
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenRouter выкатили огромное исследование: как реально используют LLM (анализ 100 трлн токенов) #habr
https://habr.com/ru/news/975226/
Tags: openrouter, research, llm, tokens, cost, usage, agents
https://habr.com/ru/news/975226/
Tags: openrouter, research, llm, tokens, cost, usage, agents
Хабр
OpenRouter выкатили огромное исследование: как реально используют LLM (анализ 100 трлн токенов)
В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, до ноября 2025 года). Ключевые выводы 👇 Open source закрепился на ~30% и...
5 причин, почему дома вы мерзнете зимой и дышите плесенью #habr
https://habr.com/ru/companies/tn/articles/975194/
Tags: технониколь, тепловизор, теплопотери, сквозняки в домах, мостики холода, холодно дома, плесень, фасад, ремонт дома, утеплитель
Author: A_Tsymbalyuk (ТЕХНОНИКОЛЬ)
https://habr.com/ru/companies/tn/articles/975194/
Tags: технониколь, тепловизор, теплопотери, сквозняки в домах, мостики холода, холодно дома, плесень, фасад, ремонт дома, утеплитель
Author: A_Tsymbalyuk (ТЕХНОНИКОЛЬ)
Хабр
Платите за отопление бешеные счета? Вот в чём подвох
Сижу в своей квартире. Горячий чай в руках, теплый свитер и вязанные носки. Кто-то скажет — уютная зима. А на деле — сквозняки. Батареи греют на полную, счета за отопление растут, а толку...
Что выбрать новичку для домашнего веб-сервера: Nginx, Caddy или Apache #habr
https://habr.com/ru/companies/ultravds/articles/972902/
Tags: ultravds, nginx, caddy, apache, веб-сервер
Author: ultra_vds (UltraVDS)
https://habr.com/ru/companies/ultravds/articles/972902/
Tags: ultravds, nginx, caddy, apache, веб-сервер
Author: ultra_vds (UltraVDS)
Хабр
Что выбрать новичку для домашнего веб-сервера: Nginx, Caddy или Apache
Каждый раз, когда в айтишных чатах всплывает тема веб-серверов, кто-то пишет: «Apache умер», «Nginx — наше всё», «за Caddy — будущее, просто попробуйте». В статье разберём, в каких случаях веб-сервер...
Поиск работы в Telegram: как автоматизировать рутину с помощью JobStalker #habr
https://habr.com/ru/articles/975272/
Tags: telegram, telegram bot, telegrambot, python, llm, llm-приложения, ollama, jobscheduler, job-scheduler, vacancy
Author: 10sorry
https://habr.com/ru/articles/975272/
Tags: telegram, telegram bot, telegrambot, python, llm, llm-приложения, ollama, jobscheduler, job-scheduler, vacancy
Author: 10sorry
Хабр
Поиск работы в Telegram: как автоматизировать рутину с помощью JobStalker
Поиск работы часто превращается в бесконечный скроллинг по Telegram-каналам: десятки уведомлений, тонны сообщений, чтение длинных описаний вакансий, попытки понять, подходит ли это тебе. А ведь...
Пишем меньше — делаем больше: зачем выносить всё в конфигурации #habr
https://habr.com/ru/companies/k2tech/articles/975278/
Tags: фреймфорки, nifi, arenadata prosperity, архитектура данных, пайплайн, инженерная инфраструктура
Author: KGoftenyuk (К2Тех)
https://habr.com/ru/companies/k2tech/articles/975278/
Tags: фреймфорки, nifi, arenadata prosperity, архитектура данных, пайплайн, инженерная инфраструктура
Author: KGoftenyuk (К2Тех)
Хабр
Пишем меньше — делаем больше: зачем выносить всё в конфигурации
У меня дома стоит Bluetooth-колонка в ванной. Руки там вечно мокрые и мыльные, поэтому включить звук дождя или музыку проще по событию, например, по голосовой команде. Конечно, можно поднять Home...
Бизнес-презентация за 5 минут: AI-сервис Сократик #habr
https://habr.com/ru/articles/975282/
Tags: презентация, презентация проекта, генерация текста, генерация данных, нейросети, ai, искусственный интеллект, powerpoint, microsoft excel
Author: taratorin
https://habr.com/ru/articles/975282/
Tags: презентация, презентация проекта, генерация текста, генерация данных, нейросети, ai, искусственный интеллект, powerpoint, microsoft excel
Author: taratorin
Хабр
Бизнес-презентация за 5 минут: AI-сервис Сократик
Привет, Хабр! Сколько времени вы тратите на подготовку еженедельного отчёта или презентации для руководства? Анализ данных в Excel, перенос данных в PowerPoint, подбор картинок к слайдам и...