Код в мешке
249 subscribers
8.94K photos
1.58K videos
2.11K files
42.1K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
Forwarded from Типичный программист
Раз уж заговорили про Open Source: вот сайт для поиска открытых аналогов закрытых инструментов

Выбираете нужный инструмент — и получаете подборку альтернатив с описанием, отсортированную в топик, который строится исходя из звёзд, форков и активности репозитория. Ну или можно просто полистать категории и найти что-то интересное.

Ресурс свежий, но проекты пополняются каждый день. Так что забираем в сохранёнки 👍

#инструменты #полезности
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто интересуется тема приватность и AI с точки зрения управления, юридических нюансов в первую очередь, курс AI Governance 2.0 про Регулирование и комплаенс ИИ-систем стартует завтра: в составе 9 преподавателей, 3 менторов, 1 куратора и 16 слушателей.

Я там тоже преподаю и рекомендую курс для всех кто интересуется темой.

#privacy #ai #education #studies
Forwarded from Ivan Begtin (Ivan Begtin)
В контексте цифровой архивации большой вопрос для меня лично, надо ли архивировать ресурсы Радио Свобода и Голос Америки и других недавно закрытых институтов и НКО?

Довод против - почти наверняка их должны архивировать многочисленные инициативы по архивации в США. Вокруг тех же научных и климатических данных там сейчас больше десятка инициативных групп. И тот же Интернет Архив наверняка их архивирует, хотя и вряд ли целиком.

Довод за - это значимые ресурсы, вне зависимости от политических убеждений кого бы то ни было и есть вероятность что даже если это проекты с финансированием в США, маловероятно что там основные заинтересованные в его сохранении.

Есть над чем подумать, но долго думать не получится, высока вероятность скорого закрытия.

P.S. А я напомню что мы ведём проект Национального цифрового архива ruarxive.org и у него есть свой телеграм канал

#digitalpreservation #webarchives
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:

AI & Science

- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.

Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.

Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).

Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/

#opendata #opensource #openaccess #ai #science #government #data
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто пользуется или планирует пользоваться DuckDB я закинул в рассылку подборку ограничений и особенностей применения из личного опыта.

На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.

#duckdb #rdbms #datatools
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто работает с CSV файлами, неплохой и даже немного смешной текст A love letter to the CSV format [1] где автор рассуждает и расхваливает преимущества CSV формата для данных и аргументы его неплохи, но... лично мне недостатки не перевешивают. На его 9 пунктов я могу пару десятков пунктов написать о недостатках CSV, но плюсы тоже есть, чего уж тут скрывать. И, правильнее сказать что не один автор, а авторы, создатели утилиты xan, the CSV magician [2] для обработки CSV файлов.

Утилита эта является переписанной и переработой утилиты xsv [3] и позволяет вытворять самое разное с CSV файлами, включая визуализации, параллельную обработку, просмотр с командной строки и ещё многое другое.

Хороший инструмент, у него только один недостаток, он работает только с CSV файлами😂

Для тех кто любит командную строку и CSV формат - незаменимая штука.

Ссылки:
[1] https://github.com/medialab/xan/blob/master/docs/LOVE_LETTER.md
[2] https://github.com/medialab/xan
[3] https://github.com/BurntSushi/xsv

#opensource #data #datatools
@chatppgbot

Представлен первый AI-бот для работы с PostgreSQL на естественном языке

В основе ChatPPG — собственная LLM‑модель, созданная на базе open‑source модели от Alibaba.
Для работы также развёрнут GPU‑сервер, установленный в российском дата‑центре.
ChatPPG проходит стадию тестовой эксплуатации.

Чтобы присоединиться к тестированию:
• Перейдите в Telegram‑бот
• Задайте вопрос или опишите задачу, например: «Как настроить репликацию?» или «Напиши 10 причин, почему стоит перейти с Oracle на Postgres Pro».
• Оставьте обратную связь в боте через кнопку «Feedback».

...
Читать далее:
↘️ https://habr.com/ru/news/895110/

Полная функциональность будет доступна на официальном сайте:
↘️ https://postgrespro.ru/


Читайте также:

Уже через год мы будем общаться с базами данных по-русски
↘️ https://habr.com/ru/companies/postgrespro/articles/895436/

Шпаргалка по PostgreSQL
↘️ https://khashtamov.com/ru/postgresql-cheatsheet/

Рекомендации при работе с PostgreSQL
↘️ https://habr.com/ru/articles/794839/
...
В ядро Linux добавлена поддержка работы в качестве хост-системы для Hyper-V

В состав кодовой базы ядра Linux, на основе которой формируется выпуск 6.15, принято изменение, добавляющее возможность использования Linux в качестве корневого окружения (Dom0. root partition) для гипервизора Hyper-V (Microsoft Hypervisor). Хост-окружение отвечает за управление гипервизором, организацию запуска гостевых систем, выделение ресурсов и обеспечение взаимодействия виртуальных машин с оборудованием. Управления гипервизором в Linux осуществляется через устройство /dev/mshv. Кроме того, в том же наборе патчей для виртуальных машин, использующих Hyper-V, добавлена возможность отключения на лету отдельных процессорных ядер (CPU offlining).
↘️ https://www.opennet.ru/opennews/art.shtml?num=62959
🖥 Репозиторий: Seekr — универсальный набор инструментов для OSINT

Seekr — этот инструмент объединяет функции ведения заметок и OSINT. Его можно использовать вместе с другими существующими инструментами.

— Этот инструмент включает в себя ключевые функции:
1. Рабочий стол
2. База данных для целей OSINT
3. Интеграция и адаптация множества популярных OSINT-инструментов
4. GitHub для отправки по электронной почте
5. Учётные карточки для каждого человека в базе данных
6. Обнаружение аккаунтов, интеграция с карточками аккаунтов
7. Предустановленные часто используемые поля в базе данных

Ссылка на GitHub (https://github.com/seekr-osint/seekr/tree/main)

#OSINT
@hackernews_lib
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Репозиторий: DataSurgeon — многофункциональный инструмент

DataSurgeon (ds) — это универсальный инструмент, созданный для реагирования на инциденты, тестирования на проникновение и решения задач CTF.

— Этот инструмент позволяет извлекать различные виды конфиденциальной информации, включая электронные почты, номера телефонов, хеши, кредитные карты, URL-адреса, IP-адреса, MAC-адреса, записи SRV DNS и многое другое.

Ссылка на GitHub (https://github.com/Drew-Alleman/DataSurgeon)

#OSINT #CTF #Pentest #Mail #IP #BugBounty
@hackernews_lib
🖥 Репозиторий: GoSearch — эффективный и надежный OSINT

GoSearch — это современный инструмент с открытым исходным кодом, созданный для поиска цифровых следов пользователей в интернете.

— Этот инструмент предназначен для того, чтобы предоставить простой и эффективный способ проверки присутствия человека в интернете, выявления его цифрового следа и, в некоторых случаях, даже получения информации о компрометированных данных, связанных с его профилем.

Ссылка на Github (https://github.com/ibnaleem/gosearch)

#OSINT
@hackernews_lib
Forwarded from Типичный программист
This media is not supported in your browser
VIEW IN TELEGRAM
Browser-use: бесплатный инструмент, который позволяет скинуть на ИИ рутинные задачи в браузере

Просто устанавливаете, вежливо скармливаете API-ключ от нейросети (лучше всего подходит GPT-4o) и скидываете на ИИ все нудные задачи, которые лень делать самому.

Например, на демо: парень попросил прочитать его резюме, найти релевантные вакансии, сохранить их в файл, а позже начать оставлять на них отклики.

Репо тулзы с 50к ⭐️ | Документация

#инструменты
Forwarded from BritLab
Как автоматизированно извлекать текст из видео на YouTube?

Знакомо: нашёл на YouTube ролики, в которых есть тонна полезной информации, а тратить часы на просмотр — нет времени?

В 2018 году появился проект youtube-transcript-api (GitHub) — Python-модуль, который за пару секунд извлекает субтитры из видео.

Но есть нюансы:
⚠️ Требует сетевого доступа к YouTube (может не работать в некоторых странах)
⚠️ Использует неофициальное API
Вот что пишет создатель проекта:
Этот код использует недокументированную часть API YouTube, которая вызывается веб-клиентом YouTube. Поэтому нет гарантии, что он не перестанет работать завтра, если они изменят то, как все работает. Однако я сделаю все возможное, чтобы все заработало как можно скорее, если это произойдет. Так что если он перестанет работать, дайте мне знать!


Как использовать?

1️⃣ Установить библиотеку youtube-transcript-api (PYPI)
2️⃣ Взять ID интересующего видео (поддается автоматизации)
3️⃣ Запустить скрипт (📖 официальная документация)

#BritLab #YouTube #Subtitles #Transcription #Python #Automation
Forwarded from BritLab
Как на самом деле подделывают голос?

Каждую неделю появляются новости о мошенниках, которые с помощью подделанного голоса крадут деньги. Но если спросить: «Как именно они это делают?», в СМИ чаще всего встречаются общие фразы вроде «используют ИИ». [1] [2] [3] [4]

Многих устраивает такой ответ, но давайте все-таки разберемся, как именно происходит эта "подделка".

История из жизни
В 2022 году, на 5-м курсе, я писал научно-исследовательскую работу (НИР) на тему «Атаки на систему верификации диктора по голосу».

Мне дали экспериментальную систему верификации диктора по голосу (СВДГ), и задача была проста: сгенерировать образцы аудио, которые обманут эту систему.

После долгих поисков я наткнулся на проект DiffVC [5] — реализацию диффузионной модели для преобразования голоса. Этот код выложили в открытый доступ буквально за несколько дней до начала моей работы, что было особенно ценно, так как тогда это была действительно передовая технология.

Как это работает (если упростить)?
1️⃣ Берем два аудиофайла:
Голос А (человек 1 говорит фразу X)
Голос B (человек 2 говорит фразу Y)
2️⃣ Подаем их в модель
3️⃣ На выходе получаем аудио, где человек 1 говорит фразу Y голосом человека 2.

Генерация одной записи занимала ~10 секунд (на слабом железе), а качество было почти неотличимо от оригинала — никакого «робоголоса» или шумов.

Эксперимент
Я сгенерировал несколько образцов и прогнал их через СВДГ. Результат:
💥 21,7% успешных атак (из 2256 тестов).

До этого (из предыдущих научных работ, которые я изучал) другие методы давали максимум 5% успешных атак. Для меня это был шок — стало ясно, что подделка голоса скоро станет массовой.

Таким образом, аудио и видео по умолчанию уже нельзя считать достоверными, а способы их подделки с каждым годом сильно дешевеют и довольно просты в реализации.

P.S. Если кому-то интересно, то текст работы закинул в комментарии (титульник, реферат и оглавление удалил).

#ИнформационнаяБезопасность #Кибербезопасность #Deepfake #VoiceCloning #ИИ #Мошенничество #Технологии #Фишинг #НИР #СВДГ
Please open Telegram to view this post
VIEW IN TELEGRAM