Новая карта видеоконтента в России: что произошло с рекламой на YouTube, куда перешли пользователи и рекламные бюджеты #habr
https://habr.com/ru/companies/click/articles/952136/
Tags: youtube, вконтакте
Author: Clickru (Click.ru)
https://habr.com/ru/companies/click/articles/952136/
Tags: youtube, вконтакте
Author: Clickru (Click.ru)
InternLM представила модели CapRL-3B и CapRL-Eval-3B для генерации текста к изображениям #habr
https://habr.com/ru/companies/bothub/news/952036/
Tags: ии, нейросети, машинное+обучение, ai, qwen
https://habr.com/ru/companies/bothub/news/952036/
Tags: ии, нейросети, машинное+обучение, ai, qwen
Хабр
InternLM представила модели CapRL-3B и CapRL-Eval-3B для генерации текста к изображениям
Команда InternLM анонсировала две новые модели — CapRL-3B и CapRL-Eval-3B , предназначенные для создания текстовых подписей к изображениям. По точности работы они сопоставимы с гораздо более крупной...
Kandinsky Video Lite теперь open-source
«Сбер» выложил в открытый доступ модель для генерации видео.
По качеству работы она превосходит более крупные нейросети, включая оригинальную Sora, отметили в компании.
Ещё «Сбер» поделился Giga-Embeddings - на базе этой модели бизнес сможет строить RAG-системы для поиска по документам, аналитики данных и автоматизированной поддержки пользователей.
Подробнее:
↘️ rozetked.me/news/41840
...
«Сбер» выложил в открытый доступ модель для генерации видео.
По качеству работы она превосходит более крупные нейросети, включая оригинальную Sora, отметили в компании.
Ещё «Сбер» поделился Giga-Embeddings - на базе этой модели бизнес сможет строить RAG-системы для поиска по документам, аналитики данных и автоматизированной поддержки пользователей.
Подробнее:
↘️ rozetked.me/news/41840
...
rozetked.me
«Сбер» выложил в открытый доступ модель для генерации видео Kandinsky Video Lite
А также нейросеть для создания векторных представлений текста — Giga-Embeddings.
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто работает с данными на регулярной основе и любит командную строку:
- xan, the CSV magician - инструмент для манипуляции с CSV файлами от команды medialab французского SciencePo. Акценты на визуализацию в командной строке. Написан на Rust, открытая лицензия
- qsv - инструмент обработки CSV файлов с акцентом на производительность и подготовку данных для публикации на порталах открытых данных CKAN. Написан на Rust, открытая лицензия
- q - инструмент SQL запросов к текстовым файлам, например, CSV
- jq - инструмент запросов к JSON файлам
Я также создавал немало инструментов командной строки https://t.me/begtin/6557, но, каюсь, у всех из них есть явные недостатки в отсутствии документации.
Та часть жизни когда хочется больше программировать, а приходится проектировать продукты, писать документы, собеседовать людей и многое другое.
#data #tools #datatools
- xan, the CSV magician - инструмент для манипуляции с CSV файлами от команды medialab французского SciencePo. Акценты на визуализацию в командной строке. Написан на Rust, открытая лицензия
- qsv - инструмент обработки CSV файлов с акцентом на производительность и подготовку данных для публикации на порталах открытых данных CKAN. Написан на Rust, открытая лицензия
- q - инструмент SQL запросов к текстовым файлам, например, CSV
- jq - инструмент запросов к JSON файлам
Я также создавал немало инструментов командной строки https://t.me/begtin/6557, но, каюсь, у всех из них есть явные недостатки в отсутствии документации.
Та часть жизни когда хочется больше программировать, а приходится проектировать продукты, писать документы, собеседовать людей и многое другое.
#data #tools #datatools
Forwarded from Ivan Begtin (Ivan Begtin)
Apertus (лат. открытый) LLM - свежая открытая прозрачная многоязычная большая языковая модель из Швейцарии анонсированная как совместная разработка исследователей EPFL, ETH Zurich и CSCS. Модель опубликована на Hugging Face, доступна с открытым кодом, декларируется как прозрачная и этичная (обучена только на данных сайтов которые позволяют обучать ИИ) и декларируется поддержка более 1000 языков.
Эта модель создана как часть инициативы Swiss AI, демо Apertus доступно онлайн на publicai.co.
И, на закуску, технический отчет 0.1 о текущей версии модели Apertus. Там много интересного, мне бросилось в глаза наличие SwitzerlandQA, специализированного набора тестов по каждому из 26 кантонов Швейцарии по каждому из которых как минимум 200 вопросов и всего собрано 9,167 вопросов, с последующим их переводом на немецкий, французский, итальянский, романшский и английский языки.
#opensource #opendata #ai #switzerland
Эта модель создана как часть инициативы Swiss AI, демо Apertus доступно онлайн на publicai.co.
И, на закуску, технический отчет 0.1 о текущей версии модели Apertus. Там много интересного, мне бросилось в глаза наличие SwitzerlandQA, специализированного набора тестов по каждому из 26 кантонов Швейцарии по каждому из которых как минимум 200 вопросов и всего собрано 9,167 вопросов, с последующим их переводом на немецкий, французский, итальянский, романшский и английский языки.
#opensource #opendata #ai #switzerland
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных наборов данных датасет метаданными 40 миллионов репозиториев на Github github-repos-metadata-40M размещённый на HuggingFace. Создан в июле 2025 г., включает такие метаданные как название репозитория, уникальный код, описание, основной язык, код лицензии, число, размер, число наблюдаетелей, число форков, дату создания.
Создан на основе GHArchive - базы событий в Github.
С одной стороны полезный датасет, а с другой он позволяет считать только основные метрики по репозиториям.
Например, Github это, возможно, крупнейший архив не только кода, но и данных в мире и, с точки зрения наполнения Dateno, лично меня всегда интересовала возможность найти на Github'е репозитории используемыми для публикации наборов данных. Это не так просто, если быть честным. Это требует не базовых метаданных, а, как минимум, копии README.md и списка всех файлов в репозитории и классификационного механизма позволяющего определить тип репозитория: только код, данные, документация, гибрид и тд. Причём после первоначального анализа README.md и списка файлов может потребоваться заглянуть в дополнительные файлы чтобы собрать все метаданные необходимые для описания набора данных.
Но такой датасет на базе Github'а лично мне пока не попадался.
#opendata #datasets
Создан на основе GHArchive - базы событий в Github.
С одной стороны полезный датасет, а с другой он позволяет считать только основные метрики по репозиториям.
Например, Github это, возможно, крупнейший архив не только кода, но и данных в мире и, с точки зрения наполнения Dateno, лично меня всегда интересовала возможность найти на Github'е репозитории используемыми для публикации наборов данных. Это не так просто, если быть честным. Это требует не базовых метаданных, а, как минимум, копии README.md и списка всех файлов в репозитории и классификационного механизма позволяющего определить тип репозитория: только код, данные, документация, гибрид и тд. Причём после первоначального анализа README.md и списка файлов может потребоваться заглянуть в дополнительные файлы чтобы собрать все метаданные необходимые для описания набора данных.
Но такой датасет на базе Github'а лично мне пока не попадался.
#opendata #datasets
Forwarded from Ivan Begtin (Ivan Begtin)
Разные мысли вслух:
1. LLM'ки для кодинга пока плохо справляются с оптимизацией уже оптимизированного кода. Все мои попытки оптимизировать инструменты ориентированные на быстрый разбор данных приводят к тому что ИИ агенты дают множество как бы неплохих оптимизаций, но, ожидаемо, без серьёзного понимания контекста. Например, много лет назад я написал библиотеку для Python qddate которая заточена под быстрый парсинг дат, которая довольно интенсивно мной оптимизировалась под быстрый разбор дат в разных форматах в том числе "грязными хаками" вроде вкодированной идентификации потенциальных шаблонов. Все рекомендации от LLM сводились к введению разных форм кеширования без учёта природы и специфики данных. Итоговой оптимизации парсинга они не дают. Немного лучше становится когда природу данных и инструментов ты понимаешь и ставишь задачу в стиле "Оптимизируй код XXX используя инструменты YYY и/или ZZZ", но в целом проблема не в галлюцинациях, а в непонимании автоматическими инструментами природы задач под которые код должен быть оптимизирован.
2. Программирование тяжело сочетается со всеми прерывающими задачами. Это, конечно, совсем не новость, но сложно сочетать любую разработку и написание текстов и управленческую работу, равно как и работу руководителем проектов. Есть задачи качество которых измеряется в возможности непрерывной работы от 2 до 4 часов подряд. Даже при том что все свои активности связанные с выступлениями, лекциями, совещаниями я в последние годы сократил до минимума, но управление временем становится важнейшей необходимостью.
3. Хороший код != востребованный продукт. Хотя эти явления часто идут вместе, но синонимами не являются. Работая со множеством инструментов по обработке данных вижу как хорошие инструменты часто могут быть заменены эволюционно более сильными инструментами, даже при наличии хорошего кода. Например, DuckDB, по факту, значительно эффективнее большей части утилит работы с CSV файлами, а работа с CSV файлами куда менее эффективна чем работа с файлами в форматах вроде Parquet. Это касается, как минимум, инструментария работы с данными, но ими не ограничивается.
#thoughts
1. LLM'ки для кодинга пока плохо справляются с оптимизацией уже оптимизированного кода. Все мои попытки оптимизировать инструменты ориентированные на быстрый разбор данных приводят к тому что ИИ агенты дают множество как бы неплохих оптимизаций, но, ожидаемо, без серьёзного понимания контекста. Например, много лет назад я написал библиотеку для Python qddate которая заточена под быстрый парсинг дат, которая довольно интенсивно мной оптимизировалась под быстрый разбор дат в разных форматах в том числе "грязными хаками" вроде вкодированной идентификации потенциальных шаблонов. Все рекомендации от LLM сводились к введению разных форм кеширования без учёта природы и специфики данных. Итоговой оптимизации парсинга они не дают. Немного лучше становится когда природу данных и инструментов ты понимаешь и ставишь задачу в стиле "Оптимизируй код XXX используя инструменты YYY и/или ZZZ", но в целом проблема не в галлюцинациях, а в непонимании автоматическими инструментами природы задач под которые код должен быть оптимизирован.
2. Программирование тяжело сочетается со всеми прерывающими задачами. Это, конечно, совсем не новость, но сложно сочетать любую разработку и написание текстов и управленческую работу, равно как и работу руководителем проектов. Есть задачи качество которых измеряется в возможности непрерывной работы от 2 до 4 часов подряд. Даже при том что все свои активности связанные с выступлениями, лекциями, совещаниями я в последние годы сократил до минимума, но управление временем становится важнейшей необходимостью.
3. Хороший код != востребованный продукт. Хотя эти явления часто идут вместе, но синонимами не являются. Работая со множеством инструментов по обработке данных вижу как хорошие инструменты часто могут быть заменены эволюционно более сильными инструментами, даже при наличии хорошего кода. Например, DuckDB, по факту, значительно эффективнее большей части утилит работы с CSV файлами, а работа с CSV файлами куда менее эффективна чем работа с файлами в форматах вроде Parquet. Это касается, как минимум, инструментария работы с данными, но ими не ограничивается.
#thoughts
Forwarded from Ivan Begtin (Hovannes Begtin)
В качестве регулярных напоминаний в основе поисковика Dateno реестр почти всех существующих каталогов с данными. Этих каталогов много, более 10 тысяч и большая их часть - это каталоги геоданных, вторые по количеству - порталы открытых данных и далее научные репозитории, базы индикаторов и так далее.
Ценность этого репозитория не только в том что он помогает индексировать датасеты, но и в том что он позволяет понять национальным пр-вам и их уполномоченным органам какие данные можно было бы собирать на едином/центральном портале.
Кроме того этот реестр - это подсказка для тех кто ищет данные по своей стране и возможность находить, в том числе, те данные которые пока ещё не проиндексированы в Dateno.
#opendata #dateno #datasets #datadiscovery
Ценность этого репозитория не только в том что он помогает индексировать датасеты, но и в том что он позволяет понять национальным пр-вам и их уполномоченным органам какие данные можно было бы собирать на едином/центральном портале.
Кроме того этот реестр - это подсказка для тех кто ищет данные по своей стране и возможность находить, в том числе, те данные которые пока ещё не проиндексированы в Dateno.
#opendata #dateno #datasets #datadiscovery
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто любит исследовать данные, любопытный open source проект с непереводимым, но благозвучным названием huey который внутри использует DuckDB-WASM, а на вход разные дата файлы - parquet, csv, json и др. и позволяет их исследовать прямо в браузере. Можно отнести его к категории data exploration tool, их всё больше, все немного разные и безусловно иногда необходимые.
Из минусов:
- не поддерживает CSV файлы с кодировками отличными от utf8
- не всегда умеет распознавать структуру файлов
Из плюсов:
- всё локально в браузере
#opensource #datatools #duckdb
Из минусов:
- не поддерживает CSV файлы с кодировками отличными от utf8
- не всегда умеет распознавать структуру файлов
Из плюсов:
- всё локально в браузере
#opensource #datatools #duckdb
Forwarded from Ivan Begtin (Ivan Begtin)
Свежая научная статья как дополнительное подтверждение того что начинающие разработчики всё менее востребованы, а опытные разработчики востребованы всё более. В выводах в статье ещё есть упоминание о том что более всего это бьёт по выпускникам ВУЗов средней руки, а вот лучшие и наиболее слабые затрагивает в меньшей степени.
Всё это про рынок труда в США, конечно же.
#ai #jobs #it
Всё это про рынок труда в США, конечно же.
#ai #jobs #it
Forwarded from Ivan Begtin (Ivan Begtin)
GlobalBuildingAtlas набор данных по всем зданиям в мире, общим объёмом в 36 терабайт. Опубликован в апреле 2025 г. , доступен для полной выгрузки и как сервис WFS. Под лицензией CC-BY-NC 3.0 (свободное использование для некоммерческих целей)
#opendata #datasets #geodata
#opendata #datasets #geodata
Forwarded from Ivan Begtin (Ivan Begtin)
В Южной Корее правительство планирует в ближайшее время опубликовать 15 особо ценных наборов данных для обучения ИИ и корпоративной поддержки. Первые данные необходимы для обучения ИИ агентов, например, в области LegalTech, вторые для типовых задач решаемых корпорациями и для которых нужны государственные данные. Обещают безопасное открытое раскрытие данных с заменой персональных данных на синтетические.
Всего же в Южной Корее опубликовано более 100 тысяч наборов данных и открытых API на национальном портале www.data.go.kr
В Корее есть совершенно чёткий акцент на данные востребованные бизнесом и на коммуникацию с бизнесом заинтересованном в данных и этой стратегии там придерживаются довольно давно.
#opendata #korea #datasets
Всего же в Южной Корее опубликовано более 100 тысяч наборов данных и открытых API на национальном портале www.data.go.kr
В Корее есть совершенно чёткий акцент на данные востребованные бизнесом и на коммуникацию с бизнесом заинтересованном в данных и этой стратегии там придерживаются довольно давно.
#opendata #korea #datasets
Forwarded from Ivan Begtin (Ivan Begtin)
Perplexity анонсировали новое API для поиска https://www.perplexity.ai/hub/blog/introducing-the-perplexity-search-api надо потестить ибо больше API для поиска - это полезно и нужно.
#api #ai #websearch
#api #ai #websearch
Forwarded from Ivan Begtin (Ivan Begtin)
Полезный текст The End of the User Interface? о том что интерфейс чат-ботов и ИИ агентов сжирает все остальные интерфейсы пользователей и о будущем специалистов по UI/UX. Рассуждения полезны, а многочисленные ссылки на другие публикации ещё полезнее.
Я тоже размышлял на эту тему и мне такой подход к пользовательскому интерфейсу скорее не нравится. Хотя ИИ агенты умеет давать структурированные ответы, но не всегда работа через естественный язык удобнее чего-либо другого. К примеру, использование ИИ как персональных ассистентов удобно в одних задачах и неудобно в других. К, примеру, когда нужно описаться от конкретной рассылки в почте то можно использовать запрос естественным языком. А если надо отписаться от нескольких десятков и с ручным выбором рассылок, то естественный язык не годится.
Тут вопрос как скоро появятся динамический интерфейсы под разные задачи и насколько будут удобны они.
#thoughts #ui #ux
Я тоже размышлял на эту тему и мне такой подход к пользовательскому интерфейсу скорее не нравится. Хотя ИИ агенты умеет давать структурированные ответы, но не всегда работа через естественный язык удобнее чего-либо другого. К примеру, использование ИИ как персональных ассистентов удобно в одних задачах и неудобно в других. К, примеру, когда нужно описаться от конкретной рассылки в почте то можно использовать запрос естественным языком. А если надо отписаться от нескольких десятков и с ручным выбором рассылок, то естественный язык не годится.
Тут вопрос как скоро появятся динамический интерфейсы под разные задачи и насколько будут удобны они.
#thoughts #ui #ux
Forwarded from Ivan Begtin (Ivan Begtin)
Стартап с каталогами данных OpenDatSoft превратился на днях в компанию Huwise, а свой продукт теперь позиционируют как data product marketplace. Продукт у них довольно любопытный, структурированное храненилище данных с возможностью получения данных через API и в разнообразных форматах: JSON, CSV, Parquet, GeoJSON и др. Плюс довольно неплохой эксплорер данных с наглядным их просмотром и анализом. Часть внедрений этого каталога были внутрикорпоративные или в режиме компания + её партнёры, но не как каталоги открытых данных. Возможно они почувствовали что на корпоративном рынке денег больше и он выгоднее чем продолжать охватывать муниципалитеты и конкурировать за это с ArcGIS с их ArcGIS Hub.
В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.
#opendata #startups #datacatalogs
В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.
#opendata #startups #datacatalogs
Forwarded from Ivan Begtin (Ivan Begtin)
Sim, ещё один любопытный продукт оркестратор потоков данных со встроенной работой с промптами. Доступен под свободной лицензией Apache 2.0, имеет встроенное ИИ и сделан по архитектуре local-first и может использоваться без облачных сервисов, а для ИИ можно связать с Ollama.
Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.
#opensource #dataengineering #ai #datatools
Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.
#opensource #dataengineering #ai #datatools
Forwarded from Цифровой Журнал | IT, Neiroseti
Найден сервис, предоставляющий одноразовые номера — Receive SMS
Мобильные 12 стран на различных континентах, СМС-коды приходят прямо на сайт. Также есть временные электронные почты.
Почувствовать себя шпионом можно тут.
Мобильные 12 стран на различных континентах, СМС-коды приходят прямо на сайт. Также есть временные электронные почты.
Почувствовать себя шпионом можно тут.
Инфраструктура без боли: Kubernetes Security, GitOps, Kafka, Angie — что изучить в октябре #habr
https://habr.com/ru/companies/otus/articles/952128/
Tags: devops, k8s, it инфраструктура, безопасность Kubernetes, infrastructure as code, gitops, angie, linux, обучение в ит, онлайн-обучение
Author: MaxRokatansky (OTUS)
https://habr.com/ru/companies/otus/articles/952128/
Tags: devops, k8s, it инфраструктура, безопасность Kubernetes, infrastructure as code, gitops, angie, linux, обучение в ит, онлайн-обучение
Author: MaxRokatansky (OTUS)
Хабр
Инфраструктура без боли: Kubernetes Security, GitOps, Kafka, Angie — что изучить в октябре
Привет, Хабр. Это октябрьский дайджест по инфраструктуре и данным: безопасность Kubernetes, IaC и GitOps, Kafka и балансировка в Angie, Postgres 17/FDW, OpenSearch, файловые системы Linux и многое...
Увидел-указал-полетел: как управлять автономными дронами без обучения с нуля #habr
https://habr.com/ru/articles/952550/
Tags: ИИ, дроны
Author: andre_dataist
https://habr.com/ru/articles/952550/
Tags: ИИ, дроны
Author: andre_dataist
Хабр
Увидел-указал-полетел: как управлять автономными дронами без обучения с нуля
Навигация по текстовым инструкциям — давний вызов для автономных дронов. Традиционные алгоритмы на основе обучения с подкреплением требуют больших датасетов и плохо переносятся на новые домены....