Код в мешке
248 subscribers
9.02K photos
1.59K videos
2.11K files
42.3K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
ИИ-проекты съедают бюджеты, но не приносят ROI. Виновата технология? #habr
https://habr.com/ru/articles/951682/
Tags: управление проектами и командой, управление персоналом в it, эффективность, искусственный интеллект, стратегия развития, стратегия продвижения, стратегия личного развития, стратегия бизнеса, стратегическое планирование, стратегическое мышление
Author: SergiiKol
Новая карта видеоконтента в России: что произошло с рекламой на YouTube, куда перешли пользователи и рекламные бюджеты #habr
https://habr.com/ru/companies/click/articles/952136/
Tags: youtube, вконтакте
Author: Clickru (Click.ru)
Kandinsky Video Lite теперь open-source

«Сбер» выложил в открытый доступ модель для генерации видео.
По качеству работы она превосходит более крупные нейросети, включая оригинальную Sora, отметили в компании. 

Ещё «Сбер» поделился Giga-Embeddings - на базе этой модели бизнес сможет строить RAG-системы для поиска по документам, аналитики данных и автоматизированной поддержки пользователей. 

Подробнее:
↘️ rozetked.me/news/41840
...
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто работает с данными на регулярной основе и любит командную строку:
- xan, the CSV magician - инструмент для манипуляции с CSV файлами от команды medialab французского SciencePo. Акценты на визуализацию в командной строке. Написан на Rust, открытая лицензия
- qsv - инструмент обработки CSV файлов с акцентом на производительность и подготовку данных для публикации на порталах открытых данных CKAN. Написан на Rust, открытая лицензия
- q - инструмент SQL запросов к текстовым файлам, например, CSV
- jq - инструмент запросов к JSON файлам

Я также создавал немало инструментов командной строки https://t.me/begtin/6557, но, каюсь, у всех из них есть явные недостатки в отсутствии документации.

Та часть жизни когда хочется больше программировать, а приходится проектировать продукты, писать документы, собеседовать людей и многое другое.

#data #tools #datatools
Forwarded from Ivan Begtin (Ivan Begtin)
Apertus (лат. открытый) LLM - свежая открытая прозрачная многоязычная большая языковая модель из Швейцарии анонсированная как совместная разработка исследователей EPFL, ETH Zurich и CSCS. Модель опубликована на Hugging Face, доступна с открытым кодом, декларируется как прозрачная и этичная (обучена только на данных сайтов которые позволяют обучать ИИ) и декларируется поддержка более 1000 языков.

Эта модель создана как часть инициативы Swiss AI, демо Apertus доступно онлайн на publicai.co.

И, на закуску, технический отчет 0.1 о текущей версии модели Apertus. Там много интересного, мне бросилось в глаза наличие SwitzerlandQA, специализированного набора тестов по каждому из 26 кантонов Швейцарии по каждому из которых как минимум 200 вопросов и всего собрано 9,167 вопросов, с последующим их переводом на немецкий, французский, итальянский, романшский и английский языки.

#opensource #opendata #ai #switzerland
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных наборов данных датасет метаданными 40 миллионов репозиториев на Github github-repos-metadata-40M размещённый на HuggingFace. Создан в июле 2025 г., включает такие метаданные как название репозитория, уникальный код, описание, основной язык, код лицензии, число, размер, число наблюдаетелей, число форков, дату создания.

Создан на основе GHArchive - базы событий в Github.

С одной стороны полезный датасет, а с другой он позволяет считать только основные метрики по репозиториям.

Например, Github это, возможно, крупнейший архив не только кода, но и данных в мире и, с точки зрения наполнения Dateno, лично меня всегда интересовала возможность найти на Github'е репозитории используемыми для публикации наборов данных. Это не так просто, если быть честным. Это требует не базовых метаданных, а, как минимум, копии README.md и списка всех файлов в репозитории и классификационного механизма позволяющего определить тип репозитория: только код, данные, документация, гибрид и тд. Причём после первоначального анализа README.md и списка файлов может потребоваться заглянуть в дополнительные файлы чтобы собрать все метаданные необходимые для описания набора данных.

Но такой датасет на базе Github'а лично мне пока не попадался.

#opendata #datasets
Forwarded from Ivan Begtin (Ivan Begtin)
Разные мысли вслух:
1. LLM'ки для кодинга пока плохо справляются с оптимизацией уже оптимизированного кода. Все мои попытки оптимизировать инструменты ориентированные на быстрый разбор данных приводят к тому что ИИ агенты дают множество как бы неплохих оптимизаций, но, ожидаемо, без серьёзного понимания контекста. Например, много лет назад я написал библиотеку для Python qddate которая заточена под быстрый парсинг дат, которая довольно интенсивно мной оптимизировалась под быстрый разбор дат в разных форматах в том числе "грязными хаками" вроде вкодированной идентификации потенциальных шаблонов. Все рекомендации от LLM сводились к введению разных форм кеширования без учёта природы и специфики данных. Итоговой оптимизации парсинга они не дают. Немного лучше становится когда природу данных и инструментов ты понимаешь и ставишь задачу в стиле "Оптимизируй код XXX используя инструменты YYY и/или ZZZ", но в целом проблема не в галлюцинациях, а в непонимании автоматическими инструментами природы задач под которые код должен быть оптимизирован.
2. Программирование тяжело сочетается со всеми прерывающими задачами. Это, конечно, совсем не новость, но сложно сочетать любую разработку и написание текстов и управленческую работу, равно как и работу руководителем проектов. Есть задачи качество которых измеряется в возможности непрерывной работы от 2 до 4 часов подряд. Даже при том что все свои активности связанные с выступлениями, лекциями, совещаниями я в последние годы сократил до минимума, но управление временем становится важнейшей необходимостью.
3. Хороший код != востребованный продукт. Хотя эти явления часто идут вместе, но синонимами не являются. Работая со множеством инструментов по обработке данных вижу как хорошие инструменты часто могут быть заменены эволюционно более сильными инструментами, даже при наличии хорошего кода. Например, DuckDB, по факту, значительно эффективнее большей части утилит работы с CSV файлами, а работа с CSV файлами куда менее эффективна чем работа с файлами в форматах вроде Parquet. Это касается, как минимум, инструментария работы с данными, но ими не ограничивается.

#thoughts