Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
112 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Подрядчики, которых называют специалистами по данным, но которые не могут сделать то, что я от них ожидаю [Reddit]

Меня наняли в качестве старшего члена уже существовавшей команды по анализу данных. Сейчас я руковожу еще несколькими членами команды (которые были там до меня). Все они являются подрядчиками, и их дневная ставка ВЫСОКАЯ. Все они являются учеными-данными и имеют высшее образование. Я старше. Я выполнял множество технических ролей и не совсем уверен, какова моя официальная должность. Я могу заниматься наукой о данных, но на самом деле я просто создаю вещи. В прошлом я занимался разработкой данных, MLOps, DevOps, Cloud и т. д. Я мастер на все руки, но не мастер ни в чем. ...

Читать далее
👍3😁2
🍏Представлены процессоры Apple M3. На что они способны в работе с ИИ?

Презентация прошла сегодня ночью. Обычно Apple не говорит много об искусственном интеллекте, но на этот раз сообщила кое-что интересное. Так, мы узнали, что новый нейронный процессор (Neural Engine) внутри чипсетов M3 стал на 60% быстрее, чем в линейке M1, а данные при обработке хранятся на девайсе, что обеспечивает их защиту. Также Apple подчеркнула, что MacBook теперь оснащены 128 ГБ унифицированной памяти, и это позволяет работать с ещё более крупными Transformer-моделями, содержащими миллиарды параметров.

Цены на новые MacBook Pro с процессорами M3 начинаются с $1600.
🔥102👍2
🤖 25 бесплатных AI-инструментов для разработчиков
ИИ-помощники способны заменить GitHub Copilot, проверить код и даже сделать UX/UI-дизайн. Мы сделали подборку.

🟣 Codeuim
Помогает писать код. Можно опробовать в браузере или установить в качестве расширения в популярные IDE. Поддерживает более 70 языков программирования.
🟣 Codiga
Проверит, проанализирует и отрефакторит ваш код.
🟣 GPT Pilot
Создатели инструмента утверждают, что он позволит ускорить процесс разработки в 20 раз. С помощью GPT Pilot можно пошагово разработать собственное приложение.
🟣 Open Interpreter
Альтернатива официальному плагину Code Interpreter от Open AI. Может управлять браузером Chrome для поиска в интернете.
🟣 GPT-Code-Clippy
А это опенсорсный аналог GitHub Copilot на базе GPT-3.

Ещё 20 инструментов можно найти здесь

О других классных новых инструментах мы писали тут
#дайджест
👍11🔥2👾1
Президент США Джо Байден подписал указ о новых стандартах безопасности искусственного интеллекта. Документ требует, чтобы «разработчики самых мощных систем искусственного интеллекта делились результатами испытаний на безопасность и другой важной информацией с правительством США». Как вы думаете, должно ли государство вмешиваться в область разработки ИИ? Чем это может быть чревато?
😁8👾7👍4
🧠 Мозг может изучать окружающий мир таким же образом, как это делают вычислительные модели

Два исследования привели доказательства этому. Учёные сравнили процесс обучения мозга с машинным самообучением (self-supervised learning). Последнее используется в компьютерном зрении и позволяет моделям учиться различать визуальные сцены, не размеченные людьми заранее.

Исследователи обнаружили, что при обучении нейросетей с помощью self-supervised learning полученные модели генерируют паттерны активности, очень похожие на те, которые наблюдаются в мозге животных. В частности, паттерны активации узлов у модели образовали несколько решётчатых узоров с различными периодами, очень похожие на те, которые формируются решётчатыми нейронами в мозге. «Мы не можем сказать, относится ли это ко всему мозгу, но на разных уровнях и в различных областях мозга наши результаты, похоже, указывают на наличие некоего организующего принципа», — отметили учёные.

MIT News
🔥10🤔3👍21👏1
Как использовать алгоритмы бинарной классификации для многоклассовой классификации

Зачем? Ради разнообразия (или когда мы не знаем других способов решения задачи).

Допустим, нам нужно классифицировать фрукты: яблоки, бананы и апельсины. Тогда мы решаем несколько задач с двумя классами: сначала яблоки и не яблоки (бананы + апельсины), затем бананы и не бананы (яблоки + апельсины) и в конце концов апельсины и не апельсины (бананы + яблоки). Это метод One vs All.

В результате мы получаем три модели. Каждая из них пытается отнести новый объект (например, 🍎) к своей категории. Так, у нас есть три выхода: «Я на 92% уверена, что это яблоко» от первой модели; «Я на 5% уверена, что это банан» от второй модели; «Я на 9% уверена, что это апельсин» от третьей модели. Выбираем вариант «яблоко».

Источник
👍13👏4
🌦️Теперь модель Google MetNet-3 может предсказать погоду за сутки

MetNet-3 даёт прогнозы с высоким разрешением на срок до 24 часов вперёд для таких параметров, как осадки, температура поверхности, скорость и направление ветра, а также точка росы. Предыдущая версия модели MetNet-2 могла прогнозировать осадки только на 12 часов вперёд.

MetNet-3 создаёт детализированный прогноз с интервалом времени в 2 минуты и пространственным разрешением от 1 до 4 километров. Google утверждает, что новая модель превосходит традиционные методы прогнозирования, в том числе Numerical Weather Prediction (NWP). MetNet-3 использует данные прямых наблюдений за атмосферой, в частности точечные измерения с метеостанций.

На иллюстрации вверху — прогноз скорости ветра MetNet-3 на каждые 2 минуты в течение грядущих 24 часов с пространственным разрешением 4 км. Внизу — почасовой прогноз ENS с пространственным разрешением 18 км.

Google уже начала внедрять новую модель в свои продукты и сервисы.
👍14🤩21👾1
👨‍💻 9 трендов в найме айтишников в 2023 году

Рассказываем, что интересного происходит в найме IT-специалистов.

По данным Хабр Карьеры, бэкендеры и фронтендеры испытывают трудности с поиском работы — спрос на них уменьшился на 4% и 15% соответственно.

Но сложнее всего сейчас мобильным разработчикам. А все потому, что рынок мобильной разработки рухнул на 24% по сравнению с показателями прошлого года. Но этот тренд в большей степени коснулся стажеров и джунов.

Читать статью
👍5
Раздражает ли вас, что все вокруг называют любые нейросети и другие модели машинного обучения искусственным интеллектом? Как вы думаете, искажает ли это представление о реальных возможностях современных моделей?
😁14🤔4👾2
This media is not supported in your browser
VIEW IN TELEGRAM
Это уже телепатия или ещё нет? ИИ научился реконструировать по активности мозга картинки, которые видел человек. Почти в режиме реального времени.

О новой системе искусственного интеллекта, способной на это, недавно рассказали исследователи Meta*. Для обучения использовали данные магнитоэнцефалографии (МЭГ). Система ИИ состоит из трёх частей:

- энкодера изображений,
- энкодера активности мозга,
- декодера изображений.

Первый энкодер создаёт векторные представления картинок как таковых, второй — обучается сопоставлять сигналы МЭГ с этими векторными представлениями, а третий декодер способен генерировать непрерывный поток изображений на основе активности мозга.

Пока реконструированные картинки получаются неточными и иногда даже смешными. Но, согласитесь, и это впечатляет.

Читать статью

*организация, деятельность которой запрещена на территории РФ
🤔9🤯42🔥2
💌 А у нас есть еженедельная email-рассылка, и в ней мы пишем о самом интересном в индустрии ИИ

Например, о том, как:
28 стран подписали соглашение о безопасности ИИ на саммите в Великобритании
Google DeepMind научила AlphaFold предсказывать 3D-структуры практически всех каталогизированных молекул в биологии, включая ДНК
В ChatGPT Plus появилась возможность анализировать и визуализировать данные из PDF-файлов и документов

Ещё мы рассказываем про полезные инструменты:
🔧 Palette — превращает чёрно-белые изображения в цветные
🔧 MagicPost — пишет первоклассные посты для LinkedIn
🔧 Speak — транскрибирует любые аудио- и видеоматериалы

Делаем подборки бесплатных книг:
📖 Machine Learning For Absolute Beginners
📖 Mathematics for Machine Learning

А также собираем полезные гайды и курсы. В тексте поста — часть, а если хотите всё, то подпишитесь на рассылку сегодня, чтобы получить письмо завтра.

#ИИproglib
👍4
🤖Соглашение между странами и пророчество: в Великобритании прошёл первый глобальный саммит об искусственном интеллекте

Саммит стартовал 1 ноября в Блетчли-парке и продлился два дня. В первый же день участники подписали «первое в мире соглашение» об управлении рискованными формами искусственного интеллекта (это касается и больших языковых моделей). Участвовали представители 28 стран, в том числе Китая и США.

👨‍💻Саммит не обошёлся без Илона Маска, который побеседовал с самим премьер-министром Великобритании Риши Сунаком. Предприниматель заявил, что рано или поздно настанет момент, когда необходимость работать исчезнет — всю работу сможет делать ИИ. Маск отметил, что это и хорошо, и плохо одновременно.

👑На саммите также прозвучало записанное заявление британского короля Карла III о том, что развитие искусственного интеллекта является «не менее важным, чем открытие электричества».

💷Помимо этого, Великобритания объявила, что инвестирует 225 миллионов фунтов стерлингов в новый суперкомпьютер для искусственного интеллекта Isambard-AI.
🥰4
Свежий #дайджест по DS

✍️ Чем может быть полезно хеширование в рекомендательных системах
У простой модели рекомендательной системы при использовании может возникнуть проблема масштабирования. Справиться с этим позволяет следующий трюк — множество пользователей сопоставляется с одним скрытым (latent) представлением с помощью хеш-функции.
✍️ Риски и перспективы использования LLM для проверки фактов
Авторы новой статьи проверили, как большие языковые модели справляются с фактчекингом. Оказалось, что хорошо, когда у них есть контекстуальная информация. При этом GPT-4 превосходит GPT-3.
✍️ Управление рисками искусственного интеллекта в эпоху быстрого прогресса
Авторы статьи предлагают серьёзно отнестись к возможности того, что универсальные системы ИИ превзойдут способности человека во многих критически важных областях в течение этого десятилетия или следующего.
✍️ 6 способов уменьшить галлюцинации ChatGPT
Про улучшение ответов модели с помощью промптов.
👍6🔥2
👆Шпаргалка по аналогичным операциям в Pandas и SQL. Если вы знакомы с каким-то из этих инструментов лучше, чем с другим, то пригодится.

Источник

Примечание: в четвёртой строчке таблицы опечатка — df.dtypes, а не df.dtyes; в десятой строчке таблицы правильный SQL-запрос — SELECT * FROM table1
UNION ALL
SELECT * FROM table2;
👍21😁2👾1
🐍💼 Подготовка к собеседованию по Python: решаем 5 интересных задач

Проверяем двоичные деревья на симметричность, вычисляем расстояние Дамерау-Левенштейна и оцениваем сложность алгоритмов.

Читать статью
👍5
🤖 Илон Маск представил конкурента ChatGPT — Grok

Чат-бот будет доступен в X (бывший Twitter) для подписчиков Premium+. Подписка стоит $16 в месяц.

Основным преимуществом Grok называют возможность получать информацию о мире в режиме реального времени через платформу X. Помимо этого, новый чат-бот, как утверждается, может отвечать на «острые вопросы, которые отвергаются большинством других систем искусственного интеллекта». Разработчики также не рекомендуют пользоваться Grok «если вы ненавидите юмор»🤔

Пока чат-бот находится на ранней стадии бета-тестирования. Его обучение длилось два месяца.
🔥10🤔3👍21
Через полчаса начнётся OpenAI DevDay — первая онлайн-конференция для разработчиков от создателей ChatGPT

CEO компании Сэм Альтман ранее пообещал «несколько отличных новинок». По слухам, OpenAI может удешевить доступ к моделям GPT, улучшить UI в браузере и представить новые инструменты.

Трансляцию можно посмотреть по этой ссылке в 21:00 по мск. А мы обязательно расскажем о самых интересных анонсах OpenAI 😉
🔥9👍4
О чём рассказала OpenAI на DevDay

🤖 Новая GPT-4 Turbo
- Расширено контекстное окно — от 32 тысяч токенов до 128 тысяч (более 300 страниц текста). Модель научили аккуратно работать с последовательностями такой длины.
- Стало больше контроля при получении ответов через API-запросы. Теперь можно заставить модель всегда возвращать JSON и сделать ответы более стабильными через специальный seed. Также можно возвращать log probabilities.
- База знаний обновлена до апреля 2023-го.
- Стоимость входных токенов для GPT-4 Turbo снижена в 3 раза, а выходных токенов — в 2 раза по сравнению с GPT-4.

Новая модель доступна в виде gpt-4-1106-preview. Стабильную версию обещают в ближайшие недели.

🧑‍💻 Assistants API
Для создания ассистентов, которые имеют собственные инструкции, используют внешние источники информации и могут выполнять различные задачи. API поддерживает интерпретатор кода, извлечение информации из базы знаний и функции. Есть фишка для управления состояниями ассистентов — threads, в которые просто добавляются новые сообщения. Подробнее можно почитать в документации.

🪄 Доступ к DALL·E 3 через API

🎤 Text-to-speech (TTS) API для озвучания текста

👥 GPTs
Появился инструмент для создания кастомизированных версий ChatGPT. Не требует писать код: собственное приложение можно сделать в специальном редакторе с помощью команд на естественном языке. Можно дать GPT инструкции и дополнительные знания, а также выбрать, что будет делать помощник, например, искать в интернете. OpenAI запускает GPT Store, где разработчики смогут разместить собственные GPTs.

🤔 Что думаете об анонсах? Будете что-нибудь использовать в работе?
🔥9👍5
Очередной #дайджест по Data Science:

✍️ Исследование режима Copy-on-Write в Pandas
Подробный разбор в двух частях. Автор объясняет механизм работы CoW, который позволяет удобно изменять любой объект DataFrame или Series, полученный из другого объекта.
✍️ Как улучшить точность генеративных ответов LLM с помощью собственного RAG
Большие языковые модели могут галлюцинировать при ответах на вопросы по загруженным документам. Иными словами, LLM выдаёт неправильные ответы, поскольку использует устаревшие данные из «весов». Справиться с этим поможет Retrieval-augmented generation (RAG).
✍️ «ChatGPT-детектор» отличает сгенерированные ИИ научные статьи от настоящих с высокой точностью
Исследователи рассказывают о создании классификатора, который с высокой точностью определяет фальшивки.
✍️ Создание игры Angry Pumpkins с помощью нейросетей
Перевод статьи разработчика Javi Lopez, в которой он рассказывает, как создал игру только с помощью промптов к GPT-4, Midjourney и DALL-E.
👍41👏1👾1