Дата-Утренник
301 subscribers
11 photos
3 videos
15 links
Канал про интересное IT
Находки, библиотеки, слабоосвещенные темы и полезные материалы.

Автор - @Cucu_LaPraline
Download Telegram
Ограничения искусственного интеллекта

OpenAI считают (и заявляли в дискуссиях с правительствами), что запуск процесса тренировки подобных моделей должен сопровождаться сообщением о нём государству и/или регулятору. [2023]

Если вы думаете, что только сейчас начали стандартизировать искусственный интеллект, то вы сильно ошибаетесь.

Вот пример:

The AI Methods, Capabilities and Criticality Grid [2021]

Документ, который описывает возможное применение искусственного интеллекта в бизнесе и его последствия. Это своего рода переводчик с языка программистов на язык бизнеса, который поможет понять, что можно ожидать от разработки и какие преимущества она может принести.

Несколько других интересных событий:

ИИ системы могут получать патенты в соответствии с австралийским патентным законодательством [2021]

Апелляционный суд США окончательно разрешил собирать публичные данные в Интернете [2022]

@data_morning

Также стоит упомянуть историю с Copilot, где разработчики жаловались на то, что модель просто повторяет их код без изменений. Новости об этом были актуальны недавно, но последний апдейт по этой теме был 4 ноября 2022.
👍6
Tweets for Stocks

Вы наверняка слышали о том, как сообщения известных личностей могут повлиять на цены акций. Нашел проект, в котором решили проверить существует ли зависимость между твитами и изменением цен на акции.

Для этого они использовали несколько моделей, включая catboost, tr roberta и naive bayes. Наилучший результат на классификации (повышение/понижение цены) составил 0,58.

@data_morning

В репозитории есть все ноутбуки.

Страница проекта
👍9
Multilingual databricks dolly 15k

Набор из 15 000 высококачественных пар запросов/ответов (инструкций), созданных людьми и предназначенных для настройки больших языковых моделей. Может применяться в коммерции.

Сделал параллельный корпус на 6 языков (Russian, English, Kazakh, Spanish, Italian, French) из исходного databricks-dolly-15k. Всего около 90к строк.

Ждем Dolly v2 для русского.

@data_morning

Данные на Kaggle
Попробовать Dolly v2
🔥8👍1💩1
ML Model Watermarking

SAP сделали инструмент для защиты моделей машинного обучения путем добавления водяных знаков (в веса модели) на основных фреймворках: Scikit-learn, PyTorch, HuggingFace.

Добавление водяных знаков не сильно влияет на точность модели, но позволяет доказать ее владение и предотвратить несанкционированное использование.

@data_morning

github
🔥10🌚2👍1🤔1
Confusion Matrix

Вероятно вы сталкивались с ней, когда изучали метрики классификации. Считать таблицу приходится крайне редко, но бывает необходимо во время собеседований.

Задача решается просто, когда мы работаем с бинарной классификацией - легко запомнить 4 случая. Но как считать матрицу, когда у нас N лейблов?

Не советую запоминать картинку как FN - строка или FP - колонка. Порешайте, потупите, но осознайте.

Сам я понял это примерно так:

Выбираем класс (пусть будет Boat)
Смотрим на советующие колонку и строку
TP - мы верно предсказали
FP - мы предсказали Boat, хотя должны что-то другое
FN - мы предсказываем что-то другое, хотя лейбл Boat
TN - все, что не попало в TP, FP, FN

Теперь нам известны значения для класса Boat.

@data_morning

Про Confusion Matrix и micro, macro усреднение (очень понравилась статья, есть примеры и иллюстрации)
👍6
🥋Парсинг кода

👉 tree-hugger - надстройка над tree-sitter (абстрактное синтаксическое дерево) для Python, PHP, Java, JavaScript, C++.

Основной плюс этого API - запуск из питона. Часто парсеры пишутся и запускаются из под одного языка (Условный парсер Go написан на Go). Это накладывает некоторые ограничения, когда приходится работать с несколькими ЯП.

🔥 Библиотека адаптирована под датамайнинг из открытых репозиториев и позволяет добавлять другие языки.

@data_morning

Github
🔥71
Fonetika

👉Библиотека позволяет представить варианты написания одного слова как последовательность букв и цифр, может измерять расстояние между фонемами.

корован -> 3090208
караван -> 3090208
К0р0ван -> 3090208
километр -> 30708049
кoрован -> 3090208 (первая 'o' - латиница)

🔥Кейс - проверка никнейма на запрещенные слова

@data_morning

Github
🔥16👍1🤯1
👉Streamsync

Достойный аналог Streamlit для деплоя Big Data приложений.

🔥Плюсы: разделение концепции UI и бизнес-логики, многократный прирост скорости за счет сокетов, скрипты запускаются только раз.

Основная проблема Streamlit - любое действие на странице требует полный прогон всего кода. Вас не спасет кеширование - если данные весят несколько гигов, то на любое действие пользователя придется создавать копию данных в памяти, а это медленно. Часто интерфейс просто отваливается.

Проект основан на Vue js, но запускается в питоне. Есть большинство необходимых компонентов. Однозначно стоит попробовать.

@data_morning

Live demo <- можно потыкать
Github
🔥10
👀 Распознавание патологий глаза

👉 FLAIR
- моделька по типу клипа для распознавания 96-и классов патологий глаза. Обучена на 37 датасетах. Показывает высокие результаты при zero-shot подходе с "расшифровками" медицинских абревиатур. Для каждой аббревиатуры есть таблица с полным названием и 1-5 коротких экспертных описаний. Для анализа требуется изображение глаза в высоком разрешении.

@data_morning

Project Page | Paper | Code | Colab
👍9🤩1
Сморите что нашел

👉DragDiffusion - модель, способная редактировать изображения на основе точек, заданных юзером. Есть примеры использования, руководство по настройке и запуску модели.

@data_morning

github
примеры
🔥5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🧹Scrapper

Инструмент для парсинга страниц с JS.

Работает в докере, можно обращаться по апи, сложнее детектируется как бот, может парсить в режиме просмотра (только текст), может использовать прокси и многое другое.

@data_morning

Github
👍9
MLC LLM

*Machine Learning Compilation for Large Language Models

🔥Коротко: движок, который помогает деплоить ваши модели под Android, IOS, Windows, Linux, Mac и Web Browser

Больше всего меня заинтересовал WebGPU - можно переложить часть вычислений на пользователя, чтобы разгрузить сервер. Особенно актуально для чат-ботов или небольших приложений, для которых хост с гпу - оверкилл.

@data_morning

Сайт
Github
👍6🔥3🥰1
🔥 Подборка интересных проектов:

Text Embeddings Inference (HF) - production ready деплой классификационных моделей (внутри докер, grpc, динамический батчинг). По тестам чутка быстрее onnx.
^ [github]

AnomalyCLIP - клип для детекция аномалий (аварий, нападений) в видео. По факту обычная классификация, но выглядит прикольно.
^ [github]

PokemonRedExperiments - обучили RL на 2D игре про покемонов. Возможно получиться поймать их всех.
^ [github]

С новогодним настроением, ваш @data_morning
🔥6