Дата-Утренник

Ограничения искусственного интеллекта

OpenAI считают (и заявляли в дискуссиях с правительствами), что запуск процесса тренировки подобных моделей должен сопровождаться сообщением о нём государству и/или регулятору. [2023]

Если вы думаете, что только сейчас начали стандартизировать искусственный интеллект, то вы сильно ошибаетесь.

Вот пример:

The AI Methods, Capabilities and Criticality Grid [2021]

Документ, который описывает возможное применение искусственного интеллекта в бизнесе и его последствия. Это своего рода переводчик с языка программистов на язык бизнеса, который поможет понять, что можно ожидать от разработки и какие преимущества она может принести.

Несколько других интересных событий:

ИИ системы могут получать патенты в соответствии с австралийским патентным законодательством [2021]

Апелляционный суд США окончательно разрешил собирать публичные данные в Интернете [2022]

@data_morning

Также стоит упомянуть историю с Copilot, где разработчики жаловались на то, что модель просто повторяет их код без изменений. Новости об этом были актуальны недавно, но последний апдейт по этой теме был 4 ноября 2022.

👍6

5.04K views13:40

Дата-Утренник

Tweets for Stocks

Вы наверняка слышали о том, как сообщения известных личностей могут повлиять на цены акций. Нашел проект, в котором решили проверить существует ли зависимость между твитами и изменением цен на акции.

Для этого они использовали несколько моделей, включая catboost, tr roberta и naive bayes. Наилучший результат на классификации (повышение/понижение цены) составил 0,58.

@data_morning

В репозитории есть все ноутбуки.

Страница проекта

👍9

6.09K viewsМаксим Герасимов, edited 15:25

Дата-Утренник

Multilingual databricks dolly 15k

Набор из 15 000 высококачественных пар запросов/ответов (инструкций), созданных людьми и предназначенных для настройки больших языковых моделей. Может применяться в коммерции.

Сделал параллельный корпус на 6 языков (Russian, English, Kazakh, Spanish, Italian, French) из исходного databricks-dolly-15k. Всего около 90к строк.

Ждем Dolly v2 для русского.

@data_morning

Данные на Kaggle
Попробовать Dolly v2

🔥8👍1💩1

1.05K viewsМаксим Герасимов, 17:49

Дата-Утренник

ML Model Watermarking

SAP сделали инструмент для защиты моделей машинного обучения путем добавления водяных знаков (в веса модели) на основных фреймворках: Scikit-learn, PyTorch, HuggingFace.

Добавление водяных знаков не сильно влияет на точность модели, но позволяет доказать ее владение и предотвратить несанкционированное использование.

@data_morning

github

🔥10🌚2👍1🤔1

7.45K viewsМаксим Герасимов, edited 19:44

Дата-Утренник

Confusion Matrix

Вероятно вы сталкивались с ней, когда изучали метрики классификации. Считать таблицу приходится крайне редко, но бывает необходимо во время собеседований.

Задача решается просто, когда мы работаем с бинарной классификацией - легко запомнить 4 случая. Но как считать матрицу, когда у нас N лейблов?

Не советую запоминать картинку как FN - строка или FP - колонка. Порешайте, потупите, но осознайте.

Сам я понял это примерно так:

Выбираем класс (пусть будет Boat)
Смотрим на советующие колонку и строку
TP - мы верно предсказали
FP - мы предсказали Boat, хотя должны что-то другое
FN - мы предсказываем что-то другое, хотя лейбл Boat
TN - все, что не попало в TP, FP, FN

Теперь нам известны значения для класса Boat.

@data_morning

Про Confusion Matrix и micro, macro усреднение (очень понравилась статья, есть примеры и иллюстрации)

👍6

832 viewsМаксим Герасимов, 19:50

Дата-Утренник

🥋Парсинг кода

👉 tree-hugger - надстройка над tree-sitter (абстрактное синтаксическое дерево) для Python, PHP, Java, JavaScript, C++.

Основной плюс этого API - запуск из питона. Часто парсеры пишутся и запускаются из под одного языка (Условный парсер Go написан на Go). Это накладывает некоторые ограничения, когда приходится работать с несколькими ЯП.

🔥 Библиотека адаптирована под датамайнинг из открытых репозиториев и позволяет добавлять другие языки.

@data_morning

Github

🔥7❤1

1.74K viewsМаксим Герасимов, 19:24

Дата-Утренник

Fonetika

👉Библиотека позволяет представить варианты написания одного слова как последовательность букв и цифр, может измерять расстояние между фонемами.

корован -> 3090208
караван -> 3090208
К0р0ван -> 3090208
километр -> 30708049
кoрован -> 3090208 (первая 'o' - латиница)

🔥Кейс - проверка никнейма на запрещенные слова

@data_morning

Github

🔥16👍1🤯1

5.46K viewsМаксим Герасимов, edited 17:34

Дата-Утренник

👉Streamsync

Достойный аналог Streamlit для деплоя Big Data приложений.

🔥Плюсы: разделение концепции UI и бизнес-логики, многократный прирост скорости за счет сокетов, скрипты запускаются только раз.

Основная проблема Streamlit - любое действие на странице требует полный прогон всего кода. Вас не спасет кеширование - если данные весят несколько гигов, то на любое действие пользователя придется создавать копию данных в памяти, а это медленно. Часто интерфейс просто отваливается.

Проект основан на Vue js, но запускается в питоне. Есть большинство необходимых компонентов. Однозначно стоит попробовать.

@data_morning

Live demo <- можно потыкать
Github

🔥10

1.36K viewsМаксим Герасимов, 16:26

Дата-Утренник

👀 Распознавание патологий глаза

👉 FLAIR - моделька по типу клипа для распознавания 96-и классов патологий глаза. Обучена на 37 датасетах. Показывает высокие результаты при zero-shot подходе с "расшифровками" медицинских абревиатур. Для каждой аббревиатуры есть таблица с полным названием и 1-5 коротких экспертных описаний. Для анализа требуется изображение глаза в высоком разрешении.

@data_morning

Project Page | Paper | Code | Colab

👍9🤩1

8.38K viewsМаксим Герасимов, 16:39

Дата-Утренник

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Сморите что нашел

👉DragDiffusion - модель, способная редактировать изображения на основе точек, заданных юзером. Есть примеры использования, руководство по настройке и запуску модели.

@data_morning

github
примеры

🔥5👍3

6.93K viewsМаксим Герасимов, 17:20

Дата-Утренник

This media is not supported in your browser

VIEW IN TELEGRAM

🧹Scrapper

Инструмент для парсинга страниц с JS.

Работает в докере, можно обращаться по апи, сложнее детектируется как бот, может парсить в режиме просмотра (только текст), может использовать прокси и многое другое.

@data_morning

Github

👍9

13.2K viewsМаксим Герасимов, edited 14:47

Дата-Утренник

MLC LLM

*Machine Learning Compilation for Large Language Models

🔥Коротко: движок, который помогает деплоить ваши модели под Android, IOS, Windows, Linux, Mac и Web Browser

Больше всего меня заинтересовал WebGPU - можно переложить часть вычислений на пользователя, чтобы разгрузить сервер. Особенно актуально для чат-ботов или небольших приложений, для которых хост с гпу - оверкилл.

@data_morning

Сайт
Github

👍6🔥3🥰1

1.81K viewsМаксим Герасимов, edited 06:59

Дата-Утренник

🔥 Подборка интересных проектов:

Text Embeddings Inference (HF) - production ready деплой классификационных моделей (внутри докер, grpc, динамический батчинг). По тестам чутка быстрее onnx.
^ [github]

AnomalyCLIP - клип для детекция аномалий (аварий, нападений) в видео. По факту обычная классификация, но выглядит прикольно.
^ [github]

PokemonRedExperiments - обучили RL на 2D игре про покемонов. Возможно получиться поймать их всех.
^ [github]

С новогодним настроением, ваш @data_morning

🔥6

1.88K viewsМаксим Герасимов, edited 21:51

About

Blog

Apps

Platform