Machinelearning

📌Исследование различных типов связей между датасетами для улучшения их поиска.

В исследовании, опубликованном к International Semantic Web Conference, Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска и использования данных, учитывая их сложные взаимоотношения.

Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами:

🟢

Поиск. Огромное количество данных в сети затрудняет поиск нужных датасетов.

🟢

Оценка достоверности. В отличие от научных публикаций, датасеты редко проходят рецензирование, поэтому пользователям приходится полагаться на метаданные для оценки их надежности.

🟢

Цитирование. Корректное цитирование требует наличия постоянных идентификаторов, метаданных и точного описания происхождения данных.

🟢

Курирование: Курирование включает сбор, организацию и поддержку датасетов из разных источников, а для этого кураторам необходимо понимать связи между ними.

Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие).

Для автоматического определения отношений между датасетами применяли 4 метода:

🟠Извлечение отношений из schema.org.
Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах.

🟠Эвристический подход.
Набор правил, разработанных для каждого типа отношений.

🟠Градиентный бустинг деревьев решений (GBDT).
Метод машинного обучения, основанный на классификации.

🟠Модель T5.
Генеративная модель, также используемая для классификации.

Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже молодец показал схожие результаты.

Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами.

🟡

Статья в блоге

🟡

Arxiv

🟡

Поиск по датасетам

@ai_machinelearning_big_data

#AI #ML #Google #Datasets #Search

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥55❤9👍7👏1

12.5K views09:19

Machinelearning

🌟 10 лет нейросетей в Поиске Яндекса: от первых экспериментов до Нейро

В декабре 2014 года началась эпоха нейросетей в поисковике Яндекса: разработчики впервые применили их для поиска похожих изображений. За эти 10 лет технологии прошли впечатляющую эволюцию, изменив то, как мы ищем информацию каждый день.

2015 год принёс первый серьёзный прорыв: нейросети научились оценивать релевантность самой картинки запросу, а не только окружающего текста. Это стало началом большого пути.

Ключевые этапы эволюции:

🟠2016-2017: "Палех" и "Королёв" - нейросети научились понимать смысл текстов для лучшего поиска.

🟠2020: YATI - трансформер, принесший рекордные улучшения в качестве ранжирования.

🟠2024: Технология Нейро объединила весь опыт работы с текстом и изображениями, позволив поиску суммаризировать результаты и работать с комбинированными запросами.

⚠️ Технологии, начавшиеся как отдельные эксперименты, за десятилетие эволюционировали в единую систему умного поиска, которой мы пользуемся каждый день.

🟡

Статья

@ai_machinelearning_big_data

#AI #ML #Search

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27🔥24❤13

7.44K views10:40

Machinelearning

🔥

Awesome MCP Servers

Тщательно отобранный список (Awesome List) с MCP серверами (Model Control Plane Servers).

✔️

Что такое MCP серверы?
MCP серверы являются микросервисами, которые могут быть использованы LLM для выполнения вашей задачи.
По сути это мост между LLM и внешним миром: сайтами, базами данных, файлами и сервисами и тд.

Коллекция из 300+ MCP-серверов для ИИ-агентов 100% oпенсорс.!

Здесь можно найти платины на все случаи жизни:

•Автоматизация Браузера
• Облачные Платформы
• Командная Строка
• Коммуникации
• Базы данных
• Инструменты Разработчика
• Файловые Системы
• Финансы
• Игры
• Службы определения местоположения
• Маркетинг
• Мониторинг
• Поиск
• Спорт
• Путешествия И Транспорт
• Другие инструменты и интеграций

🟡

Github

@ai_machinelearning_big_data

#mcp #ai #agents #awesome

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍55🔥12❤8🥰5

18.4K viewsedited 14:39

Machinelearning

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

ReZero — маленькая модель, которая никогда не сдаётся

🧠 ReZero — это LLM на базе Llama 3.2B, обученная не просто находить ответы, а упорно искать лучший.

🔁 Вместо того чтобы оптимизировать на скорость или recall, ReZero обучается пробовать снова и снова, пока не найдёт правильный ответ.

Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом.

Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы.

Обучается с помощью RL — формируя привычку "не сдаваться".

🔜

Github

🔜

Модель

@ai_machinelearning_big_data

#LLM #Search #RL #AI #Meta #ReZero #NeverGiveUp #Llama3

Please open Telegram to view this post

VIEW IN TELEGRAM

👍87🔥33❤16🤣14

21K viewsedited 16:39

About

Blog

Apps

Platform