Forwarded from TrendWatching
This media is not supported in your browser
VIEW IN TELEGRAM
Получаем ответы сразу от ВСЕХ топовых нейросетей в ОДНОМ месте — больше не нужно спрашивать у ChatGPT, DeepSeek, Claude и Gemini по отдельности.
Заходим на Promptcannon и вбиваем свой запрос как в обычный чат-бот. Он выдаст вам сразу несколько вариантов ответов и выбираем для себя наиболее подходящий. Главное — это БЕСПЛАТНО.
Пользуемся тут.
Заходим на Promptcannon и вбиваем свой запрос как в обычный чат-бот. Он выдаст вам сразу несколько вариантов ответов и выбираем для себя наиболее подходящий. Главное — это БЕСПЛАТНО.
Пользуемся тут.
Forwarded from concertzaal
Еврокомиссия опубликовала список пиратских сайтов на 54 страницы — тут и библиотеки книг, и бесплатные кинотеатры, и каталоги игр, и много чего еще.
внимание: НЕ сохранять и ни в коем случае НЕ пересылайте близким😄
@concertzaal
внимание: НЕ сохранять и ни в коем случае НЕ пересылайте близким
@concertzaal
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.
#opendata #datasets #dataengineering
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.
#opendata #datasets #dataengineering
Substack
Why Parquet Is the Go-To Format for Data Engineers
With more practical lessons to help you with the data engineering journey
Forwarded from Ivan Begtin (Ivan Begtin)
Не буду давать ссылки на конкретные издания которые пишут пред-анонсы того что в РФ 15 июля планируется перезапуск data.gov.ru. Во первый сами публикации довольно, скажем так, неумелые, а во вторых говорить про то что сделано будет на data.gov.ru лично я буду только после того как увижу его в обновлённой форме 15 июля, если, это, конечно, произойдёт.
А пока в качестве напоминаний:
1. Портал data.gov.ru был недоступен более 2-х лет будучи "закрытым на обновление"
2. В предыдущей версии было доступно более 20+ тысяч наборов данных, большая часть которых, конечно, были мусорными, но тем не менее.
3. Полный слепок архива прошлой версии data.gov.ru у нас есть в ruarxive.org, если он Вам понадобится, напомните, я продублирую ссылку на дамп и вебархив
Честно говоря у меня лично нет вообще никаких позитивных ожиданий от того что российский портал data.gov.ru перезапускают. Есть много стран таких как Зимбабве или Чад где тоже нет порталов открытых данных. И ничего, живут же как-то;)
#opendata #russia
А пока в качестве напоминаний:
1. Портал data.gov.ru был недоступен более 2-х лет будучи "закрытым на обновление"
2. В предыдущей версии было доступно более 20+ тысяч наборов данных, большая часть которых, конечно, были мусорными, но тем не менее.
3. Полный слепок архива прошлой версии data.gov.ru у нас есть в ruarxive.org, если он Вам понадобится, напомните, я продублирую ссылку на дамп и вебархив
Честно говоря у меня лично нет вообще никаких позитивных ожиданий от того что российский портал data.gov.ru перезапускают. Есть много стран таких как Зимбабве или Чад где тоже нет порталов открытых данных. И ничего, живут же как-то;)
#opendata #russia
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярных напоминаний.
Я пишу в этом телеграм канале @begtin о технологиях, преимущественно, связанных с работой с данными, открытых данных, цифровой архивации и близких к этому темам почти все из которых являются, либо моей работой, либо моими хобби.
Также о том что я делаю и делают команды проектов которые я веду или с которыми я связан:
- @ruarxive - новости по цифровой и веб-архивации в контексте России и русскоязычных ресурсов
- @opendataam - открытые данные в Армении, новости о данных связанных с Арменией
- @infoculture - новости Информационной культуры, НКО ведущей ряд проектов в по открытости РФ
- @datenosearch - новости проекта поисковика по датасетам Dateno, на английском языке
- begtin.substack.com - блог/рассылка где я время от времени пишу лонгриды на русском языке
- medium.com/@ibegtin - англоязычный блог для лонгридов на английском языке. Пишу туда не очень часто, а надо бы чаще
- linkedin.com/in/ivbeg - регулярные публикации на английском языке в LinkedIn, по большей части про работу с данными.
#writings #opendata #digitalpreservation #data
Я пишу в этом телеграм канале @begtin о технологиях, преимущественно, связанных с работой с данными, открытых данных, цифровой архивации и близких к этому темам почти все из которых являются, либо моей работой, либо моими хобби.
Также о том что я делаю и делают команды проектов которые я веду или с которыми я связан:
- @ruarxive - новости по цифровой и веб-архивации в контексте России и русскоязычных ресурсов
- @opendataam - открытые данные в Армении, новости о данных связанных с Арменией
- @infoculture - новости Информационной культуры, НКО ведущей ряд проектов в по открытости РФ
- @datenosearch - новости проекта поисковика по датасетам Dateno, на английском языке
- begtin.substack.com - блог/рассылка где я время от времени пишу лонгриды на русском языке
- medium.com/@ibegtin - англоязычный блог для лонгридов на английском языке. Пишу туда не очень часто, а надо бы чаще
- linkedin.com/in/ivbeg - регулярные публикации на английском языке в LinkedIn, по большей части про работу с данными.
#writings #opendata #digitalpreservation #data
Substack
Ivan’s Begtin Newsletter on digital, open and preserved government | Substack
Digital government can't be without openness, preservation, plain language and data, for sure. Click to read Ivan’s Begtin Newsletter on digital, open and preserved government, by Ivan Begtin, a Substack publication with hundreds of subscribers.
Forwarded from Ivan Begtin (Ivan Begtin)
Как многие уже знают Минэкономразвития РФ открыли вновь портал открытых данных РФ data.gov.ru после более чем 2-х летнего отключения. Мне много что есть сказать про то как он сделан, что на нём опубликовано и что со всем этим далее делать.
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотятзамести следы, внезапно что-то удалить внести исправления к опубликованному.
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотят
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
Forwarded from Ivan Begtin (Ivan Begtin)
Я написал таки лонгрид про новую версию data.gov.ru https://begtin.substack.com/p/datagovru
Выводы спойлерить не буду, но они, да, очевидны.
#opendata #russia #datacatalogs
Выводы спойлерить не буду, но они, да, очевидны.
#opendata #russia #datacatalogs
Forwarded from Ivan Begtin (Ivan Begtin)
В за полтора дня со свежеоткрытого портала открытых данных data.gov.ru исчезло более 300 наборов данных
Когда открывали было более 5000, сейчас 4 686. Очень быстро удаляют, скоро ничего не останется😜Такими темпами дней за 20 все удалят🌚
А что я всё рекламирую да рекламирую госпортал, во первых интересные датасеты по России есть в каталоге данных Инфокультуры https://hubofdata.ru/dataset/, а во вторых в Датено https://dateno.io.
В Датено данные о России/по России есть ещё и из разных источников, включая международные каталоги статистики и датасетов, то чего в на российский госпорталах вообще не встретишь.
#opendata #datacatalogs
Когда открывали было более 5000, сейчас 4 686. Очень быстро удаляют, скоро ничего не останется😜Такими темпами дней за 20 все удалят🌚
А что я всё рекламирую да рекламирую госпортал, во первых интересные датасеты по России есть в каталоге данных Инфокультуры https://hubofdata.ru/dataset/, а во вторых в Датено https://dateno.io.
В Датено данные о России/по России есть ещё и из разных источников, включая международные каталоги статистики и датасетов, то чего в на российский госпорталах вообще не встретишь.
#opendata #datacatalogs
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
Forwarded from Ivan Begtin (Ivan Begtin)
Я как мог сдерживался, но такое сдерживать сложно, да и обязательно придут те кто скажут не подсказывай им, но... а я подскажу😉 Вредные советы для делателей порталов открытых данных, ну может не в России, а в стране Вредносоветии.
Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!
1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.
Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.
Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.
Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!
#irony #datacatalogs #opendata
Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!
1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.
Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.
Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.
Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!
#irony #datacatalogs #opendata
Forwarded from Ivan Begtin (Ivan Begtin)
Про всяческие инструменты для повседневной работы, то что можно назвать личным стеком приложений на десктопе. Ну а поскольку я уже много лет как мигрировал на связку W10 + WSL(Ubuntu) на десктопе, то и подборка приложений соответствующая.
Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом
кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту
Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций
Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API
Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian
Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования
Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜
Список неполный, ещё большая коллекция инструментов для локальных LLM
Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.
#personal #software #recovery
Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом
кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту
Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций
Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API
Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian
Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования
Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜
Список неполный, ещё большая коллекция инструментов для локальных LLM
Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.
#personal #software #recovery
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.
#dataengineering #dataanalytics #ai #duckdb
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.
#dataengineering #dataanalytics #ai #duckdb
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки для работы с данными, технологиями и не только:
- DocsGPT и LocalGPT два похожих продукта для извлечения знаний и чата с локальными документами. Первый под лицензией MIT, второй под Apache 2.0. Поддерживают множество форматов документов, работают с облачными и локальными моделями ИИ. Какой лучше не знаю, надо пробовать оба продукта.
- Markitdown утилита от Microsoft по преобразованию чего угодно в формат markdown. Поддерживает документы MS Office, PDF, HTML, аудио и изображения и многое другое.
- AI Dataset generator генератор синтетических наборов данных с помощью ИИ. Умеет подключаться к разным LLM и интегрировано с инструментом визуализации Metabase. Открытый код, лицензия MIT
- gt-extras расширение для пакета great-tables для Python позволяющее рисовать красивые таблицы в Python в средах научных тетрадок Jupyter или в Quatro из фреймов данных Pandas и Polars. Удобное для всех кто занимается аналитикой на данных
- OpenAIRE changelog хороший пример версионирования и журнала большого открытого дата-продукта.
#opensource #data #datatools
- DocsGPT и LocalGPT два похожих продукта для извлечения знаний и чата с локальными документами. Первый под лицензией MIT, второй под Apache 2.0. Поддерживают множество форматов документов, работают с облачными и локальными моделями ИИ. Какой лучше не знаю, надо пробовать оба продукта.
- Markitdown утилита от Microsoft по преобразованию чего угодно в формат markdown. Поддерживает документы MS Office, PDF, HTML, аудио и изображения и многое другое.
- AI Dataset generator генератор синтетических наборов данных с помощью ИИ. Умеет подключаться к разным LLM и интегрировано с инструментом визуализации Metabase. Открытый код, лицензия MIT
- gt-extras расширение для пакета great-tables для Python позволяющее рисовать красивые таблицы в Python в средах научных тетрадок Jupyter или в Quatro из фреймов данных Pandas и Polars. Удобное для всех кто занимается аналитикой на данных
- OpenAIRE changelog хороший пример версионирования и журнала большого открытого дата-продукта.
#opensource #data #datatools
GitHub
GitHub - arc53/DocsGPT: Private AI platform for agents, assistants and enterprise search. Built-in Agent Builder, Deep research…
Private AI platform for agents, assistants and enterprise search. Built-in Agent Builder, Deep research, Document analysis, Multi-model support, and API connectivity for agents. - arc53/DocsGPT
Forwarded from Типичный программист
60+ плюс бесплатных IT-курсов бережно разбитых по языкам и технологиям 🤌
Python и смежные темы:
Учебные ресурсы по JS-стеку:
Учебные ресурсы по Java и Spring:
Учебные ресурсы по C:
Учебные ресурсы по C++:
Учебные ресурсы по C# и .NET:
Учебные ресурсы по Rust:
Учебные ресурсы по SQL:
Другие языки, которые заслуживают места здесь, но, к сожалению, не уместились:
Python и смежные темы:
— Python для абсолютных новичков
— Python-туториалы
Веб-фреймворки:
— Django
— Flask
— FastAPI
Нейро-либы + бонус:
— NumPy
— Pandas
— Scikit-Learn
— Обзорный урок по Data Science
Учебные ресурсы по JS-стеку:
— JavaScript
— JavaScript
Серверный JavaScript
— Node.js
— Express
Языки и инструменты:
— TypeScript
Фронтенд-фреймворки и библиотеки:
— React (интенсив)
— React (плейлист)
— React Native
Веб-фреймворки нового поколения:
Next.js 15
Next.js 15 & React 19 проектов
Учебные ресурсы по Java и Spring:
— Java для начинающих
Фреймворки и серверная разработка:
— Spring и Spring Boot
— Java + Spring + Microservices (интенсив)
Алгоритмы и структуры данных:
— Структура данных & Алгоритмы
Учебные ресурсы по C:
— Программирование на C
Отладка и работа с памятью
— Отладка программ на C
— Проблемы с памятью в C
Специализированные области:
— Сетевое программирование
— Многопоточное программирование на C
— Встраиваемые системы
Алгоритмы и структуры данных:
— Алгоритмы и структуры данных на C
Учебные ресурсы по C++:
— Плейлист по C++
— Полный курс по C++
Графика и разработка игр:
— OpenGL (основы работы с графикой)
— Создание игр на C++
Учебные ресурсы по C# и .NET:
— Курс C# для начинающих
Фреймворки и платформы
— .NET
— .NET MAUI (кроссплатформенная разработка)
— Blazor (веб-фреймворк)
Серверная разработка
— Бэкенд на .NET
Учебные ресурсы по Rust:
— Интенсив по Rust
— Краткие уроки по Rust
Учебные ресурсы по SQL:
— Полный курс SQL
— SQL: c нуля до продвинутого уровня
Практика и челленджи:
— 30 дней SQL — Челлендж по SQL-запросам
Другие языки, которые заслуживают места здесь, но, к сожалению, не уместились:
— Курс по Go
— Курс по PHP
— Курс по Swift
— Курс по Kotlin
— Курс по Dart
— Курс по Ruby
— Курс по Scala
— Курс по Julia
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Типичный программист
Уверенная база в нейронках: подборка бесплатных курсов Стэнфорда по AI & ML
CS221 — Искусственный интеллект
CS229 — Машинное обучение (Эндрю Ын)
CS230 — Глубокое обучение (Эндрю Ын)
CS229M - Теория машинного обучения
CS234 — Обучение с подкреплением
CS224U — Понимание естественного языка
CS224N — НЛП с глубоким обучением
Сохраняйте👍
CS221 — Искусственный интеллект
CS229 — Машинное обучение (Эндрю Ын)
CS230 — Глубокое обучение (Эндрю Ын)
CS229M - Теория машинного обучения
CS234 — Обучение с подкреплением
CS224U — Понимание естественного языка
CS224N — НЛП с глубоким обучением
Сохраняйте
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Представляешь,
MAX получил статус «национального мессенджера» — теперь ОФИЦИАЛЬНО
Минцифры выпустило официальное постановление: теперь MAX от VK — это национальный мессенджер внутри России. Аналог Telegram, но с Госуслугами.
Что уже доступно:
- чаты и звонки;
- файлы до 4 ГБ;
- переводы в чатах;
- встроенный GigaChat 2.0;
- мини-приложения;
-работа даже в подземной парковке.
В планах: цифровой ID, документы и вход в Госуслуги прямо из чата.
Текст не редактировать, опубликовать как есть
@your_tech
Минцифры выпустило официальное постановление: теперь MAX от VK — это национальный мессенджер внутри России. Аналог Telegram, но с Госуслугами.
Что уже доступно:
- чаты и звонки;
- файлы до 4 ГБ;
- переводы в чатах;
- встроенный GigaChat 2.0;
- мини-приложения;
-
В планах: цифровой ID, документы и вход в Госуслуги прямо из чата.
@your_tech
Forwarded from Типичный программист
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Типичный программист
Забудьте про выделенный сервер под управляющую платформу!
ISPsystem VMmanager теперь запускается как мастер-VM прямо в кластере — её CPU, RAM и диски выделяются динамически наравне с любыми виртуальными машинами.
Узлы Compute, Storage и Controller объединяются в единую среду, включая SAN-хранилища, что упрощает добавление новых узлов и расширение инфраструктуры. Микросервисная архитектура платформы и встроенное резервное копирование обеспечивают надёжность на каждом уровне.
Параметры мастер-VM можно менять «на лету» без перезагрузок, а vm-agent вместе с HA-кластером автоматически перенесут и восстановят платформу при сбое. Миграция виртуальных машин между узлами без даунтайма решается на уровне кластера.
Для изолированных сред без доступа к интернету теперь доступен обновлённый установщик, поставляющий всё необходимое в едином пакете.
Пора масштабироваться? Присмотритесь к VMmanager от ISPsystem.
Реклама. АО «Экзософт», ИНН 9731012897.
ISPsystem VMmanager теперь запускается как мастер-VM прямо в кластере — её CPU, RAM и диски выделяются динамически наравне с любыми виртуальными машинами.
Узлы Compute, Storage и Controller объединяются в единую среду, включая SAN-хранилища, что упрощает добавление новых узлов и расширение инфраструктуры. Микросервисная архитектура платформы и встроенное резервное копирование обеспечивают надёжность на каждом уровне.
Параметры мастер-VM можно менять «на лету» без перезагрузок, а vm-agent вместе с HA-кластером автоматически перенесут и восстановят платформу при сбое. Миграция виртуальных машин между узлами без даунтайма решается на уровне кластера.
Для изолированных сред без доступа к интернету теперь доступен обновлённый установщик, поставляющий всё необходимое в едином пакете.
Пора масштабироваться? Присмотритесь к VMmanager от ISPsystem.
Реклама. АО «Экзософт», ИНН 9731012897.
Forwarded from Типичный программист
This media is not supported in your browser
VIEW IN TELEGRAM
Data Formulator: нейро-тулза для визуализации и анализа данных с открытым исходным кодом
Всё просто: загружаете датасет, выбираете тип визуализации — и получаете красивый график. А вся магия предобработки и трансформаций делается по drag-and-drop или по инструкции на обычном языке: где нейронка сама сгенерирует SQL или Python-код, чистит данные, объединяет — и завершает всё эффектной диаграммой.
Инструмент полностью опенсорсный, но для работы с AI-мозгом потребуется свой API-ключ
Всё просто: загружаете датасет, выбираете тип визуализации — и получаете красивый график. А вся магия предобработки и трансформаций делается по drag-and-drop или по инструкции на обычном языке: где нейронка сама сгенерирует SQL или Python-код, чистит данные, объединяет — и завершает всё эффектной диаграммой.
Инструмент полностью опенсорсный, но для работы с AI-мозгом потребуется свой API-ключ
Forwarded from NN
В ManusAI появился агент для визуализации данных — строит графики и готовит целые презентации.
Можно загрузить любой файл с данными и выбрать типы визуализаций. Бот проанализирует все цифры и за пару минут сделает подробный отчет. Его можно опубликовать в виде сайта или скачать в PDF.
Пробуем тут.
Можно загрузить любой файл с данными и выбрать типы визуализаций. Бот проанализирует все цифры и за пару минут сделает подробный отчет. Его можно опубликовать в виде сайта или скачать в PDF.
Пробуем тут.