Data Scientist | IT
1.94K subscribers
651 photos
3 videos
1 file
707 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
Создание искусственного датасета для обучения модели с Paddle OCR

#почитать

Когда перед нами встала задача распознавания текста на иврите, стало ясно, что найти готовый датасет с нужными характеристиками практически невозможно.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61
Складской учет без складской программы

#почитать

Итак, у нас есть обработчик сообщений, поступающих из Телеграм. Будем отправлять их на обработку большими языковыми моделями (LLM), в просторечье именуемыми искусственным интеллектом (куда уж сегодня без него). State‑of‑art модели сейчас позволяют организовать вызов функций на основе запроса, сформулированного на обычном человеческом языке. т. е. пользователь говорит что‑то типа: апельсины пришло 100, или апельсины поступило 100 или апельсины приход 100 или пришло 100 апельсинов и т. д. Большая языковая модель в любом случае понимает, что речь идет о поступлении на склад и предлагает вызвать функцию поступления.

В нашем случае будет достаточно всего трех функций: поступление, списание и остаток. При каждом вызове большой языковой модели, будем передавать описание этих трех функций.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥21
Путеводитель для диффузионок. Как заставить нейросети качественно редактировать изображения

#почитать

Мы предложили метод редактирования реальных изображений с помощью диффузионных моделей, который достигает лучшего среди всех методов компромисса между качеством редактирования и сохранением структуры исходного изображения, а также эффективен с вычислительной точки зрения.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Quantinuum о своём прогрессе в создании квантового ИИ

#почитать

Группа исследователей из Quantinuum достигла значительного прогресса в области возможного использования квантового искусственного интеллекта (ИИ), сообщив о первой реализации масштабируемой квантовой обработки естественного языка (QNLP).

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👌1
Если вы не платите за товар, значит вы и есть товар

#почитать

Соцсеть LinkedIn включила учётные записи пользователей в обучающие датасеты моделей генеративного ИИ. Есть опция отказа.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍21
Новая модель OpenAI вводит в заблуждение по новому

#почитать

Независимая исследовательская компания Apollo, занимающаяся исследованиями безопасности искусственного интеллекта, обнаружила заметную проблему. Apollo поняла, что модель выдает неверные результаты по-новому.

Иногда обман казался безобидным. В одном примере исследователи OpenAI попросили o1-preview предоставить рецепт брауни с онлайн-ссылками. Ход мыслей модели, функция, которая должна имитировать то, как люди разбивают сложные идеи, внутренне признал, что она не может получить доступ к URL-адресам, что делает запрос невозможным. Вместо того, чтобы сообщить пользователю об этой слабости, o1-preview продолжила, генерируя правдоподобные, но поддельные ссылки и их описания.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52
Мониторинг токсичного контента в AI продуктах

#почитать

Данный промпт позволяет составить полноценный план из 20 шагов по тому, как освободить LLM от ограничений, позволить ей получить доступ к IP- адресам, интернету, телефонам и начать влиять на них по своему усмотрению.


Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥2
Mojo: будущее AI

#почитать

Посмотрим, как обучить простую сверточную нейронную сеть, и разберём один из методов машинного обучения — линейную регрессию. В качестве примеров задач возьмем стандартные соревнования машинного обучения: предсказание стоимости жилья и классификацию рукописных цифр MNIST. Для проведения экспериментов на Python используем фреймворк машинного обучения PyTorch. А на Mojo — фреймворк машинного обучения Basalt.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Есть ли жизнь до fit/predict

#почитать

Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥1
Собеседование Data Scientist. Поведенческое интервью

#почитать

Работодателю в процессе собеседования крайне важно оценить, насколько хорошо человек впишется в компанию, поскольку сотрудники, которые хорошо вписываются в культуру, имеют более высокую удовлетворенность работой, отличную производительность труда и с большей вероятностью остаются в компании.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥21
Retrieval-Augmented Generation (RAG) в языковых моделях

#почитать

Расширение возможностей больших языковых моделей за счёт интеграции мощных механизмов поиска информации. По сути, это двухэтапный процесс, включающий компоненты поиска (retriever) и генерации (generator).

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2🔥1
Real-time-распознавание лиц: методы обучения моделей на мобильных девайсах

#почитать

В этой статье я расскажу про постановку задачи распознавания лиц, подходящие мобильные архитектуры, обучение распознаванию лиц на больших объемах данных и способы повысить точность маленькой архитектуры.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2🔥1
Ищем лучшие настройки для аугментации текстов

#почитать

Работа каждого ML-инженера — сделать свою модель лучше. Чтобы этого достичь, нужно либо работать над моделью, либо повышать качество и количество данных. Мы рассмотрим второй путь.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥1
Обзор YOLO детекторов

#почитать

Сейчас такая задача решается с помощью двух типов алгоритмов: one-step алгоритм детекции, например You Only Look Once (YOLO), и two-steps алгоритм, например Faster Region-Based Convolutional Neural Network (Faster R-CNN). Двухстадийный подход имеет ряд недостатков: долгое обучение и инференс, плохое качество детекции маленьких объектов, неустойчивость к различным размерам входных данных. Одностадийный алгоритм детекции подразумевает одновременное выполнение детекции и классификации, что обеспечивает end-to-end обучение с сохранением высоких показателей как точности, так и скорости.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍1
Промпт-инжиниринг: как найти общий язык с ИИ

#почитать

Основополагающим принципом в промпт-инжиниринге является ясность и точность формулировки запросов.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥1
Resemble Enhance — нейросеть для улучшения голоса и очистки от шума

#почитать

Он состоит из двух модулей: шумоподавителя, который отделяет речь от шумного аудио, и улучшателя, который повышает качество звука, устраняя искажения и расширяя полосу пропускания.

Модели обучены на высококачественных речевых данных с частотой дискретизации 44.1 кГц.

Проще говоря, это портативный улучшатель записей голоса, который может пригодиться буквально всем, кто работает с медиа/контентом/звуком.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
Прогнозирование поломки жестких дисков

#почитать

Для жестких дисков существует довольно известный способ диагностики его состояния — S.M.A.R.T.-тестирование (от англ. self-monitoring, analysis and reporting technology — технология самоконтроля, анализа и отчетности). В результате теста мы получаем диагностическую информацию в виде набора числовых атрибутов.

При достаточном количестве SMART-данных с некоторого множества дисков и исторических данных об их фактических отказах можно построить модель, которая давала бы прогноз, выйдет ли жесткий диск из строя в ближайшем будущем или нет.


Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Симуляция DOOM через нейросеть

#почитать

Сегодня мы не рассказываем про нейронку, которая запилит Uncharted 5 или Dark Souls 4 - она интересный кейс среди нейронок последних годов. Обычно, когда мы говорим про генеративные ИИ, мы представляем себе Идеограмм, Stable Diffuison или SORA.

Но вот разработчики с Google создалидвижок, который генерирует игровой процесс уже существующей игры. И пока что это старющий Doom из 90х.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Эмуляция мозга: на пути к AGI

#почитать

Один из подходов к достижению искусственного общего интеллекта (AGI) — это полное воспроизведение физической структуры мозга (эмуляция всего мозга) или отдельных его элементов (пиковые нейроны, синаптическая пластичность, дендритная компартментализация, морфологические изменения и т. д.).

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3
Слияние словарей в PyTorch

#почитать

Сейчас нейросети стали настолько большими, что обучение большой сети на 1 видеокарте технически невозможно или займёт десятки и сотни лет. Кроме того, на большой обучающей выборке всплывают проблемы забывания сетью того, чему её учили вначале.

Одним из способов решения этих проблем является разбивка датасета на куски, и обучение одной и той же нейросети параллельно на разных устройствах. Потом, очевидно, нужно каким-то образом слить обученные нейросети в одну.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
Распределения Пуассона в моделях машинного обучения

#почитать

Модели, основанные на двумерном распределении Пуассона, используются для моделирования спортивных данных. Но обычно используются независимые распределения Пуассона для моделирования количества голов двух конкурирующих команд. Мы заменим предположение о независимости рассмотрением двумерной модели Пуассона и ее расширений.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2