194K subscribers
3.56K photos
543 videos
17 files
4.3K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
📌Исследование различных типов связей между датасетами для улучшения их поиска.

В исследовании, опубликованном к International Semantic Web Conference, Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска и использования данных, учитывая их сложные взаимоотношения.

Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами:

🟢Поиск. Огромное количество данных в сети затрудняет поиск нужных датасетов.

🟢Оценка достоверности. В отличие от научных публикаций, датасеты редко проходят рецензирование, поэтому пользователям приходится полагаться на метаданные для оценки их надежности.

🟢Цитирование. Корректное цитирование требует наличия постоянных идентификаторов, метаданных и точного описания происхождения данных.

🟢Курирование: Курирование включает сбор, организацию и поддержку датасетов из разных источников, а для этого кураторам необходимо понимать связи между ними.

Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие).

Для автоматического определения отношений между датасетами применяли 4 метода:

🟠Извлечение отношений из schema.org.
Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах.

🟠Эвристический подход.
Набор правил, разработанных для каждого типа отношений.

🟠Градиентный бустинг деревьев решений (GBDT).
Метод машинного обучения, основанный на классификации.

🟠Модель T5.
Генеративная модель, также используемая для классификации.

Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже молодец показал схожие результаты.

Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами.


🟡Статья в блоге
🟡Arxiv
🟡Поиск по датасетам


@ai_machinelearning_big_data

#AI #ML #Google #Datasets #Search
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 10 лет нейросетей в Поиске Яндекса: от первых экспериментов до Нейро

В декабре 2014 года началась эпоха нейросетей в поисковике Яндекса: разработчики впервые применили их для поиска похожих изображений. За эти 10 лет технологии прошли впечатляющую эволюцию, изменив то, как мы ищем информацию каждый день.

2015 год принёс первый серьёзный прорыв: нейросети научились оценивать релевантность самой картинки запросу, а не только окружающего текста. Это стало началом большого пути.

Ключевые этапы эволюции:

🟠2016-2017: "Палех" и "Королёв" - нейросети научились понимать смысл текстов для лучшего поиска.

🟠2020: YATI - трансформер, принесший рекордные улучшения в качестве ранжирования.

🟠2024: Технология Нейро объединила весь опыт работы с текстом и изображениями, позволив поиску суммаризировать результаты и работать с комбинированными запросами.

⚠️ Технологии, начавшиеся как отдельные эксперименты, за десятилетие эволюционировали в единую систему умного поиска, которой мы пользуемся каждый день.

🟡Статья

@ai_machinelearning_big_data

#AI #ML #Search
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Awesome MCP Servers

Тщательно отобранный список (Awesome List) с MCP серверами (Model Control Plane Servers).

✔️ Что такое MCP серверы?
MCP серверы являются микросервисами, которые могут быть использованы LLM для выполнения вашей задачи.
По сути это мост между LLM и внешним миром: сайтами, базами данных, файлами и сервисами и тд.

Коллекция из 300+ MCP-серверов для ИИ-агентов 100% oпенсорс.!

Здесь можно найти платины на все случаи жизни:

Автоматизация Браузера
Облачные Платформы
Командная Строка
Коммуникации
Базы данных
Инструменты Разработчика
Файловые Системы
Финансы
Игры
Службы определения местоположения
Маркетинг
Мониторинг
Поиск
Спорт
Путешествия И Транспорт
Другие инструменты и интеграций

🟡Github

@ai_machinelearning_big_data


#mcp #ai #agents #awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ReZero — маленькая модель, которая никогда не сдаётся

🧠 ReZero — это LLM на базе Llama 3.2B, обученная не просто находить ответы, а упорно искать лучший.

🔁 Вместо того чтобы оптимизировать на скорость или recall, ReZero обучается пробовать снова и снова, пока не найдёт правильный ответ.

Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом.

Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы.

Обучается с помощью RL — формируя привычку "не сдаваться".


🔜Github
🔜 Модель

@ai_machinelearning_big_data


#LLM #Search #RL #AI #Meta #ReZero #NeverGiveUp #Llama3
Please open Telegram to view this post
VIEW IN TELEGRAM