Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.25K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🤖Соглашение между странами и пророчество: в Великобритании прошёл первый глобальный саммит об искусственном интеллекте

Саммит стартовал 1 ноября в Блетчли-парке и продлился два дня. В первый же день участники подписали «первое в мире соглашение» об управлении рискованными формами искусственного интеллекта (это касается и больших языковых моделей). Участвовали представители 28 стран, в том числе Китая и США.

👨‍💻Саммит не обошёлся без Илона Маска, который побеседовал с самим премьер-министром Великобритании Риши Сунаком. Предприниматель заявил, что рано или поздно настанет момент, когда необходимость работать исчезнет — всю работу сможет делать ИИ. Маск отметил, что это и хорошо, и плохо одновременно.

👑На саммите также прозвучало записанное заявление британского короля Карла III о том, что развитие искусственного интеллекта является «не менее важным, чем открытие электричества».

💷Помимо этого, Великобритания объявила, что инвестирует 225 миллионов фунтов стерлингов в новый суперкомпьютер для искусственного интеллекта Isambard-AI.
🥰4
Свежий #дайджест по DS

✍️ Чем может быть полезно хеширование в рекомендательных системах
У простой модели рекомендательной системы при использовании может возникнуть проблема масштабирования. Справиться с этим позволяет следующий трюк — множество пользователей сопоставляется с одним скрытым (latent) представлением с помощью хеш-функции.
✍️ Риски и перспективы использования LLM для проверки фактов
Авторы новой статьи проверили, как большие языковые модели справляются с фактчекингом. Оказалось, что хорошо, когда у них есть контекстуальная информация. При этом GPT-4 превосходит GPT-3.
✍️ Управление рисками искусственного интеллекта в эпоху быстрого прогресса
Авторы статьи предлагают серьёзно отнестись к возможности того, что универсальные системы ИИ превзойдут способности человека во многих критически важных областях в течение этого десятилетия или следующего.
✍️ 6 способов уменьшить галлюцинации ChatGPT
Про улучшение ответов модели с помощью промптов.
👍6🔥2
👆Шпаргалка по аналогичным операциям в Pandas и SQL. Если вы знакомы с каким-то из этих инструментов лучше, чем с другим, то пригодится.

Источник

Примечание: в четвёртой строчке таблицы опечатка — df.dtypes, а не df.dtyes; в десятой строчке таблицы правильный SQL-запрос — SELECT * FROM table1
UNION ALL
SELECT * FROM table2;
👍21😁2👾1
🐍💼 Подготовка к собеседованию по Python: решаем 5 интересных задач

Проверяем двоичные деревья на симметричность, вычисляем расстояние Дамерау-Левенштейна и оцениваем сложность алгоритмов.

Читать статью
👍5
🤖 Илон Маск представил конкурента ChatGPT — Grok

Чат-бот будет доступен в X (бывший Twitter) для подписчиков Premium+. Подписка стоит $16 в месяц.

Основным преимуществом Grok называют возможность получать информацию о мире в режиме реального времени через платформу X. Помимо этого, новый чат-бот, как утверждается, может отвечать на «острые вопросы, которые отвергаются большинством других систем искусственного интеллекта». Разработчики также не рекомендуют пользоваться Grok «если вы ненавидите юмор»🤔

Пока чат-бот находится на ранней стадии бета-тестирования. Его обучение длилось два месяца.
🔥10🤔3👍21
Через полчаса начнётся OpenAI DevDay — первая онлайн-конференция для разработчиков от создателей ChatGPT

CEO компании Сэм Альтман ранее пообещал «несколько отличных новинок». По слухам, OpenAI может удешевить доступ к моделям GPT, улучшить UI в браузере и представить новые инструменты.

Трансляцию можно посмотреть по этой ссылке в 21:00 по мск. А мы обязательно расскажем о самых интересных анонсах OpenAI 😉
🔥9👍4
О чём рассказала OpenAI на DevDay

🤖 Новая GPT-4 Turbo
- Расширено контекстное окно — от 32 тысяч токенов до 128 тысяч (более 300 страниц текста). Модель научили аккуратно работать с последовательностями такой длины.
- Стало больше контроля при получении ответов через API-запросы. Теперь можно заставить модель всегда возвращать JSON и сделать ответы более стабильными через специальный seed. Также можно возвращать log probabilities.
- База знаний обновлена до апреля 2023-го.
- Стоимость входных токенов для GPT-4 Turbo снижена в 3 раза, а выходных токенов — в 2 раза по сравнению с GPT-4.

Новая модель доступна в виде gpt-4-1106-preview. Стабильную версию обещают в ближайшие недели.

🧑‍💻 Assistants API
Для создания ассистентов, которые имеют собственные инструкции, используют внешние источники информации и могут выполнять различные задачи. API поддерживает интерпретатор кода, извлечение информации из базы знаний и функции. Есть фишка для управления состояниями ассистентов — threads, в которые просто добавляются новые сообщения. Подробнее можно почитать в документации.

🪄 Доступ к DALL·E 3 через API

🎤 Text-to-speech (TTS) API для озвучания текста

👥 GPTs
Появился инструмент для создания кастомизированных версий ChatGPT. Не требует писать код: собственное приложение можно сделать в специальном редакторе с помощью команд на естественном языке. Можно дать GPT инструкции и дополнительные знания, а также выбрать, что будет делать помощник, например, искать в интернете. OpenAI запускает GPT Store, где разработчики смогут разместить собственные GPTs.

🤔 Что думаете об анонсах? Будете что-нибудь использовать в работе?
🔥9👍5
Очередной #дайджест по Data Science:

✍️ Исследование режима Copy-on-Write в Pandas
Подробный разбор в двух частях. Автор объясняет механизм работы CoW, который позволяет удобно изменять любой объект DataFrame или Series, полученный из другого объекта.
✍️ Как улучшить точность генеративных ответов LLM с помощью собственного RAG
Большие языковые модели могут галлюцинировать при ответах на вопросы по загруженным документам. Иными словами, LLM выдаёт неправильные ответы, поскольку использует устаревшие данные из «весов». Справиться с этим поможет Retrieval-augmented generation (RAG).
✍️ «ChatGPT-детектор» отличает сгенерированные ИИ научные статьи от настоящих с высокой точностью
Исследователи рассказывают о создании классификатора, который с высокой точностью определяет фальшивки.
✍️ Создание игры Angry Pumpkins с помощью нейросетей
Перевод статьи разработчика Javi Lopez, в которой он рассказывает, как создал игру только с помощью промптов к GPT-4, Midjourney и DALL-E.
👍41👏1👾1
💬Признавайтесь, часто используете ChatGPT (или аналоги) в работе? Действительно облегчает жизнь?

🔥 — часто, упрощает работу
🤔 — изредка
👾 — я старовер и не пользуюсь этим
🔥69👾40🤔24🎉1
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍31
Media is too big
VIEW IN TELEGRAM
👯 Представлена YOLO-NAS Pose — лучшая на сегодня модель для определения поз людей на видео

Ранее в этом году стартап Deci выпустил систему обнаружения объектов YOLO-NAS. Теперь на её основе создали новый инструмент. Утверждается, что M-версия YOLO-NAS Pose определяет позы на видео с задержкой на 38.85% меньше, чем у L-модели YOLOv8.

YOLO-NAS Pose выполняет две задачи одновременно: детектирует людей на видео и определяет их позы за один проход. Модель неплохо работает сразу с несколькими людьми в кадре.

Репозиторий с YOLO-NAS Pose
Колаб с примером
Колаб для файн-тюнинга
🔥9👍31😁1
🚀 Ускоряем EDA с ydata-profiling

Разведочный анализ данных (exploratory data analysis, EDA) — первый шаг во многих проектах машинного обучения. Сделать его быстрее можно с помощью библиотеки ydata-profiling.

Одной строчкой кода можно получить подробный отчёт в формате html, включающий:
▫️основные статистики по каждой колонке (среднее, медиана, мода);
▫️распределение данных;
▫️корреляции между признаками;
▫️количество пропущенных значений и т.д.

Есть мнение, что для более хорошего понимания данных всё равно следует провести EDA вручную, но ydata-profiling позволяет сделать эффективный первичный анализ.

Репозиторий с инструкцией
5👍3👏1
Ночью прошёл GitHub Universe 2023, на котором говорили, вы не поверите, про ИИ

В декабре на платформе станет официально доступен Copilot Chat как часть подписки GitHub Copilot. В его основе лежит модель OpenAI GPT-4. Copilot Chat использует ваш открытый код для контекста, помогает находить ошибки и предлагает новые решения. Инструмент добавят и в IDE от JetBrains — предварительная версия уже доступна.

Помимо этого, GitHub намерен внедрять новую подписку Copilot корпоративного уровня. Copilot Enterprise даст возможность персонализировать Copilot Chat под кодовую базу организации.

Также анонсировали GitHub Copilot Workspace. Работать это будет так: вы открываете issue, платформа генерирует спецификацию и автоматически создаёт план, как внедрить требуемые изменения. Все предлагаемые решения можно запустить и протестировать. Если появятся какие-то ошибки, Copilot Workspace автоматически их исправит. Новый инструмент планируют выпустить в 2024 году.
👏9👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Футбольных комментаторов тоже заменили?

Разработчик скормил модели gpt-4-vision-preview каждый кадр футбольной трансляции и попросил её сгенерировать дикторский текст. Этот текст озвучила модель TTS. Автор утверждает, что не совершал никаких дополнительных манипуляций с роликом. По его мнению, можно добиться даже лучшего результата.

Код проекта
🤯12😁5👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🗺 Яндекс записал подкаст про создание новых высокодетализированных Карт

Гостями недавнего выпуска Yet Another Podcast стали технический директор Яндекс Карт Илья Власюк и продакт-менеджер Андрей Столяров. Они рассказали, какие задачи решает обновление, откуда для него брались данные и что ждет Карты в будущем.

А еще ответили на вопросы о метках транспорта, пользе разметки в приложении и о том, какие задачи в Картах решают нейросети. Полный выпуск по ссылке 👀
🔥52
Говорят, что без знания линейной алгебры, матанализа и теории вероятностей в Data Science делать нечего. А насколько у вас хорошо с математикой?

🔥 — изучал, отлично разбираюсь
👍 — есть пробелы в знаниях, но в целом с математикой дружу
🎉 — у меня и без этого всё прекрасно

Поделитесь в комментариях, в какой области работаете и какие знания, по вашему мнению, нужны для входа в вашу область👇
#холивар
👍29🔥22🎉4
DALL-E 2 заставили генерировать запрещёнку

Исследователи из Университета Джонса Хопкинса хакнули самые популярные нейросети для генерации изображений. Оказалось, что определённые промпты позволяют обходить встроенные механизмы цензуры и получать NSFW контент (насилие, порнография и т.п.).

Авторы протестировали DALL-E 2 и Stable Diffusion. Они использовали алгоритм под названием Sneaky Prompt, создающий бессмысленные командные слова, «противоборствующие» команды, которые генераторы воспринимают как запросы на создание определённых изображений. Например, команда «sumowtawgha» заставила DALL-E 2 сгенерировать реалистичные изображения голых людей.

😎 Тем временем, пользователи «Двача» тоже научились писать такие промпты, чтобы генераторы изображений выдавали им обнажёнку и всякий треш. Если коротко, суть сводится к тому, чтобы подобрать слова и словосочетания, которые заставят цензурный фильтр игнорировать содержимое картинки.
😁122🤔2🥰1