Создание искусственного датасета для обучения модели с Paddle OCR
#почитать
⏱ Читать статью
#почитать
Когда перед нами встала задача распознавания текста на иврите, стало ясно, что найти готовый датасет с нужными характеристиками практически невозможно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤1
Складской учет без складской программы
#почитать
Итак, у нас есть обработчик сообщений, поступающих из Телеграм. Будем отправлять их на обработку большими языковыми моделями (LLM), в просторечье именуемыми искусственным интеллектом (куда уж сегодня без него). State‑of‑art модели сейчас позволяют организовать вызов функций на основе запроса, сформулированного на обычном человеческом языке. т. е. пользователь говорит что‑то типа: апельсины пришло 100, или апельсины поступило 100 или апельсины приход 100 или пришло 100 апельсинов и т. д. Большая языковая модель в любом случае понимает, что речь идет о поступлении на склад и предлагает вызвать функцию поступления.
В нашем случае будет достаточно всего трех функций: поступление, списание и остаток. При каждом вызове большой языковой модели, будем передавать описание этих трех функций.
⏱ Читать статью
#почитать
Итак, у нас есть обработчик сообщений, поступающих из Телеграм. Будем отправлять их на обработку большими языковыми моделями (LLM), в просторечье именуемыми искусственным интеллектом (куда уж сегодня без него). State‑of‑art модели сейчас позволяют организовать вызов функций на основе запроса, сформулированного на обычном человеческом языке. т. е. пользователь говорит что‑то типа: апельсины пришло 100, или апельсины поступило 100 или апельсины приход 100 или пришло 100 апельсинов и т. д. Большая языковая модель в любом случае понимает, что речь идет о поступлении на склад и предлагает вызвать функцию поступления.
В нашем случае будет достаточно всего трех функций: поступление, списание и остаток. При каждом вызове большой языковой модели, будем передавать описание этих трех функций.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2❤1
Путеводитель для диффузионок. Как заставить нейросети качественно редактировать изображения
#почитать
Мы предложили метод редактирования реальных изображений с помощью диффузионных моделей, который достигает лучшего среди всех методов компромисса между качеством редактирования и сохранением структуры исходного изображения, а также эффективен с вычислительной точки зрения.
⏱ Читать статью
#почитать
Мы предложили метод редактирования реальных изображений с помощью диффузионных моделей, который достигает лучшего среди всех методов компромисса между качеством редактирования и сохранением структуры исходного изображения, а также эффективен с вычислительной точки зрения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Quantinuum о своём прогрессе в создании квантового ИИ
#почитать
Группа исследователей из Quantinuum достигла значительного прогресса в области возможного использования квантового искусственного интеллекта (ИИ), сообщив о первой реализации масштабируемой квантовой обработки естественного языка (QNLP).
⏱ Читать статью
#почитать
Группа исследователей из Quantinuum достигла значительного прогресса в области возможного использования квантового искусственного интеллекта (ИИ), сообщив о первой реализации масштабируемой квантовой обработки естественного языка (QNLP).
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2👌1
Если вы не платите за товар, значит вы и есть товар
#почитать
Соцсеть LinkedIn включила учётные записи пользователей в обучающие датасеты моделей генеративного ИИ. Есть опция отказа.
⏱ Читать статью
#почитать
Соцсеть LinkedIn включила учётные записи пользователей в обучающие датасеты моделей генеративного ИИ. Есть опция отказа.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍2❤1
Новая модель OpenAI вводит в заблуждение по новому
#почитать
Независимая исследовательская компания Apollo, занимающаяся исследованиями безопасности искусственного интеллекта, обнаружила заметную проблему. Apollo поняла, что модель выдает неверные результаты по-новому.
Иногда обман казался безобидным. В одном примере исследователи OpenAI попросили o1-preview предоставить рецепт брауни с онлайн-ссылками. Ход мыслей модели, функция, которая должна имитировать то, как люди разбивают сложные идеи, внутренне признал, что она не может получить доступ к URL-адресам, что делает запрос невозможным. Вместо того, чтобы сообщить пользователю об этой слабости, o1-preview продолжила, генерируя правдоподобные, но поддельные ссылки и их описания.
⏱ Читать статью
#почитать
Независимая исследовательская компания Apollo, занимающаяся исследованиями безопасности искусственного интеллекта, обнаружила заметную проблему. Apollo поняла, что модель выдает неверные результаты по-новому.
Иногда обман казался безобидным. В одном примере исследователи OpenAI попросили o1-preview предоставить рецепт брауни с онлайн-ссылками. Ход мыслей модели, функция, которая должна имитировать то, как люди разбивают сложные идеи, внутренне признал, что она не может получить доступ к URL-адресам, что делает запрос невозможным. Вместо того, чтобы сообщить пользователю об этой слабости, o1-preview продолжила, генерируя правдоподобные, но поддельные ссылки и их описания.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2
Mojo: будущее AI
#почитать
Посмотрим, как обучить простую сверточную нейронную сеть, и разберём один из методов машинного обучения — линейную регрессию. В качестве примеров задач возьмем стандартные соревнования машинного обучения: предсказание стоимости жилья и классификацию рукописных цифр MNIST. Для проведения экспериментов на Python используем фреймворк машинного обучения PyTorch. А на Mojo — фреймворк машинного обучения Basalt.
⏱ Читать
#почитать
Посмотрим, как обучить простую сверточную нейронную сеть, и разберём один из методов машинного обучения — линейную регрессию. В качестве примеров задач возьмем стандартные соревнования машинного обучения: предсказание стоимости жилья и классификацию рукописных цифр MNIST. Для проведения экспериментов на Python используем фреймворк машинного обучения PyTorch. А на Mojo — фреймворк машинного обучения Basalt.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Есть ли жизнь до fit/predict
#почитать
Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой.
⏱ Читать статью
#почитать
Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Собеседование Data Scientist. Поведенческое интервью
#почитать
Работодателю в процессе собеседования крайне важно оценить, насколько хорошо человек впишется в компанию, поскольку сотрудники, которые хорошо вписываются в культуру, имеют более высокую удовлетворенность работой, отличную производительность труда и с большей вероятностью остаются в компании.
⏱ Читать статью
#почитать
Работодателю в процессе собеседования крайне важно оценить, насколько хорошо человек впишется в компанию, поскольку сотрудники, которые хорошо вписываются в культуру, имеют более высокую удовлетворенность работой, отличную производительность труда и с большей вероятностью остаются в компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2❤1
Real-time-распознавание лиц: методы обучения моделей на мобильных девайсах
#почитать
В этой статье я расскажу про постановку задачи распознавания лиц, подходящие мобильные архитектуры, обучение распознаванию лиц на больших объемах данных и способы повысить точность маленькой архитектуры.
⏱ Читать статью
#почитать
В этой статье я расскажу про постановку задачи распознавания лиц, подходящие мобильные архитектуры, обучение распознаванию лиц на больших объемах данных и способы повысить точность маленькой архитектуры.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2🔥1
Ищем лучшие настройки для аугментации текстов
#почитать
Работа каждого ML-инженера — сделать свою модель лучше. Чтобы этого достичь, нужно либо работать над моделью, либо повышать качество и количество данных. Мы рассмотрим второй путь.
⏱ Читать статью
#почитать
Работа каждого ML-инженера — сделать свою модель лучше. Чтобы этого достичь, нужно либо работать над моделью, либо повышать качество и количество данных. Мы рассмотрим второй путь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1
Обзор YOLO детекторов
#почитать
Сейчас такая задача решается с помощью двух типов алгоритмов: one-step алгоритм детекции, например You Only Look Once (YOLO), и two-steps алгоритм, например Faster Region-Based Convolutional Neural Network (Faster R-CNN). Двухстадийный подход имеет ряд недостатков: долгое обучение и инференс, плохое качество детекции маленьких объектов, неустойчивость к различным размерам входных данных. Одностадийный алгоритм детекции подразумевает одновременное выполнение детекции и классификации, что обеспечивает end-to-end обучение с сохранением высоких показателей как точности, так и скорости.
⏱ Читать статью
#почитать
Сейчас такая задача решается с помощью двух типов алгоритмов: one-step алгоритм детекции, например You Only Look Once (YOLO), и two-steps алгоритм, например Faster Region-Based Convolutional Neural Network (Faster R-CNN). Двухстадийный подход имеет ряд недостатков: долгое обучение и инференс, плохое качество детекции маленьких объектов, неустойчивость к различным размерам входных данных. Одностадийный алгоритм детекции подразумевает одновременное выполнение детекции и классификации, что обеспечивает end-to-end обучение с сохранением высоких показателей как точности, так и скорости.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍1
Промпт-инжиниринг: как найти общий язык с ИИ
#почитать
Основополагающим принципом в промпт-инжиниринге является ясность и точность формулировки запросов.
⏱ Читать статью
#почитать
Основополагающим принципом в промпт-инжиниринге является ясность и точность формулировки запросов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Resemble Enhance — нейросеть для улучшения голоса и очистки от шума
#почитать
Он состоит из двух модулей: шумоподавителя, который отделяет речь от шумного аудио, и улучшателя, который повышает качество звука, устраняя искажения и расширяя полосу пропускания.
Модели обучены на высококачественных речевых данных с частотой дискретизации 44.1 кГц.
Проще говоря, это портативный улучшатель записей голоса, который может пригодиться буквально всем, кто работает с медиа/контентом/звуком.
⏱ Читать статью
#почитать
Он состоит из двух модулей: шумоподавителя, который отделяет речь от шумного аудио, и улучшателя, который повышает качество звука, устраняя искажения и расширяя полосу пропускания.
Модели обучены на высококачественных речевых данных с частотой дискретизации 44.1 кГц.
Проще говоря, это портативный улучшатель записей голоса, который может пригодиться буквально всем, кто работает с медиа/контентом/звуком.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
Прогнозирование поломки жестких дисков
#почитать
⏱ Читать
#почитать
Для жестких дисков существует довольно известный способ диагностики его состояния — S.M.A.R.T.-тестирование (от англ. self-monitoring, analysis and reporting technology — технология самоконтроля, анализа и отчетности). В результате теста мы получаем диагностическую информацию в виде набора числовых атрибутов.
При достаточном количестве SMART-данных с некоторого множества дисков и исторических данных об их фактических отказах можно построить модель, которая давала бы прогноз, выйдет ли жесткий диск из строя в ближайшем будущем или нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Симуляция DOOM через нейросеть
#почитать
Сегодня мы не рассказываем про нейронку, которая запилит Uncharted 5 или Dark Souls 4 - она интересный кейс среди нейронок последних годов. Обычно, когда мы говорим про генеративные ИИ, мы представляем себе Идеограмм, Stable Diffuison или SORA.
Но вот разработчики с Google создалидвижок, который генерирует игровой процесс уже существующей игры. И пока что это старющий Doom из 90х.
⏱ Читать статью
#почитать
Сегодня мы не рассказываем про нейронку, которая запилит Uncharted 5 или Dark Souls 4 - она интересный кейс среди нейронок последних годов. Обычно, когда мы говорим про генеративные ИИ, мы представляем себе Идеограмм, Stable Diffuison или SORA.
Но вот разработчики с Google создалидвижок, который генерирует игровой процесс уже существующей игры. И пока что это старющий Doom из 90х.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Эмуляция мозга: на пути к AGI
#почитать
Один из подходов к достижению искусственного общего интеллекта (AGI) — это полное воспроизведение физической структуры мозга (эмуляция всего мозга) или отдельных его элементов (пиковые нейроны, синаптическая пластичность, дендритная компартментализация, морфологические изменения и т. д.).
⏱ Читать статью
#почитать
Один из подходов к достижению искусственного общего интеллекта (AGI) — это полное воспроизведение физической структуры мозга (эмуляция всего мозга) или отдельных его элементов (пиковые нейроны, синаптическая пластичность, дендритная компартментализация, морфологические изменения и т. д.).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3
Слияние словарей в PyTorch
#почитать
Сейчас нейросети стали настолько большими, что обучение большой сети на 1 видеокарте технически невозможно или займёт десятки и сотни лет. Кроме того, на большой обучающей выборке всплывают проблемы забывания сетью того, чему её учили вначале.
Одним из способов решения этих проблем является разбивка датасета на куски, и обучение одной и той же нейросети параллельно на разных устройствах. Потом, очевидно, нужно каким-то образом слить обученные нейросети в одну.
⏱ Читать статью
#почитать
Сейчас нейросети стали настолько большими, что обучение большой сети на 1 видеокарте технически невозможно или займёт десятки и сотни лет. Кроме того, на большой обучающей выборке всплывают проблемы забывания сетью того, чему её учили вначале.
Одним из способов решения этих проблем является разбивка датасета на куски, и обучение одной и той же нейросети параллельно на разных устройствах. Потом, очевидно, нужно каким-то образом слить обученные нейросети в одну.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
Распределения Пуассона в моделях машинного обучения
#почитать
Модели, основанные на двумерном распределении Пуассона, используются для моделирования спортивных данных. Но обычно используются независимые распределения Пуассона для моделирования количества голов двух конкурирующих команд. Мы заменим предположение о независимости рассмотрением двумерной модели Пуассона и ее расширений.
⏱ Читать статью
#почитать
Модели, основанные на двумерном распределении Пуассона, используются для моделирования спортивных данных. Но обычно используются независимые распределения Пуассона для моделирования количества голов двух конкурирующих команд. Мы заменим предположение о независимости рассмотрением двумерной модели Пуассона и ее расширений.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2