Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.25K photos
112 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Привет, друзья! 👋

Мы готовим статью о том, как эффективно изучать программирование, и хотим услышать ваше мнение! 🤓💻 Поделитесь своим опытом, и самые полезные советы войдут в нашу публикацию.
Какой совет вы бы дали начинающим программистам? 💡
Поделитесь своими мыслями в комментариях!
👍2
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
This media is not supported in your browser
VIEW IN TELEGRAM
👀 NBtools — инструмент для мониторинга запущенных Jupyter Notebooks

🔘Основной утилитой является nbstat, которая отображает использование ресурсов для каждого процесса.
🔘Также есть следующие инструменты: pylint_notebook для проверки кода на ошибки и exec_notebook для программного выполнения notebooks.
🔘Кроме того, доступны функции для управления GPU и предотвращения ошибок, связанных с их использованием.

🔗 Ссылка на документацию проекта
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
📊 ТОП-10 необходимых для специалиста по Big Data навыков

Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.

✍️ Big Data — это термин, используемый для обозначения значительного объема как структурированных, так и неструктурированных данных, который слишком велик для обработки традиционными методами.

👉 Читать все подробности в статье
👍3
🎓 Infinity-MM — мультимодальный датасет, который позволяет эффективно обучать модели

Исследователи собрали набор данных инструкций, состоящий из десятков миллионов образцов. Благодаря фильтрации и удалению дубликатов, этот датасет отличается высоким качеством и разнообразием.

✔️Авторы уже обучили на Infinity-MM маленькую модель Aquila-VL-2B, которая в итоге показала лучший результат в мультимодальном бенчмарке MMStar.

🔗 Ссылка на датасет на Hugging Face
🔗 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
📊 Data Formulator — фреймворк от Microsoft для создания богатых визуализаций

🔹Позволяет преобразовывать данные и визуализировать их итеративно с помощью ИИ;
🔹Доступен прямо в GitHub Codespaces;
🔹Позволяет комбинировать командные интерфейсы и текстовые подсказки, чтобы задавать параметры графиков.

🔗 Ссылка на репозиторий
👍4
🎅 Какой подарок вы бы хотели на НГ? Пишите в комментариях👇

Да, начинать готовиться к Новому году никогда не рано😉

#интерактив
This media is not supported in your browser
VIEW IN TELEGRAM
🔑 Теперь API-ключи Gemini автоматически импортируются в Colab из Google AI Studio

🔸Импорт есть во вкладке Secrets;
🔸Экспорт есть в Google AI Studio, когда кликаешь на «Get code» и «Open in Colab».
5👍2
📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных

Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель в статье по ссылке.

🔗 Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
2
👆 История о том, как PhD по статистике работу искал

На Reddit пользователь рассказал, как искал работу в DS. У него не было опыта работы, но зато была докторская степень по статистике, полученная в известном частном университете США.

👀 Он подал 40 заявок на различные позиции, из которых:

▪️22 остались без ответа (обозначены как Ghosted),
▪️15 были отклонены,
▪️2 отозваны самим кандидатом,
▪️1 завершилась предложением о работе, которое было принято.
9😢8👾2
🤫 ШАД: как начать свой путь

Забираем полезную информацию для тех, кто только начал свой путь:

➡️ Лазейки через магистратуры
Например, в УрФУ абитуриенты, не прошедшие в ШАД, могут учиться по траектории «Анализ данных», и при хороших оценках с первого семестра быть зачисленными в ШАД.

➡️ Сетап с преподавателем
Многие преподы ШАДа ведут занятия в других вузах и иногда ищут студентов. Можно связаться с заведующим кафедрой, где числится ваш потенциальный «наставник», попроситься как вольный слушатель или даже рассчитывать на неформальное зачисление.

➡️ Филиалы ШАДа
У ШАДа есть отделения в СПб, Минске, Новосибирске и других городах, где конкурс немного легче, чем в Москве. Формат экзаменов схож, но с более мягкими проходными баллами. Онлайн-лекции и некоторые занятия проводят местные преподаватели.

➡️ Магистратура по современным компьютерным наукам
Программа от ВШЭ и Яндекса — фактически два года учёбы в ШАД с отсрочкой. Поступление: экзамен с задачами, как на первом этапе отбора в ШАД, плюс часовое собеседование по математике, алгоритмам и мотивации. Портфолио с проектами — большой плюс.

➡️ Фаст трек для Яндексов
Годовая программа для сотрудников Яндекса: закрываешь 4 предмета, пишешь мотивационное письмо и получаешь диплом ШАДа с доступом к инфраструктуре. Задания по прошлому опыту берутся из вступительных для магистратуры СКН.

Хочу быстро освоить математику для ШАД. Какой курс порекомендуете?
🔵 Математика для Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤔2🤩1
✖️🔢 latexify — библиотека для красивого вывода формул

Вот основные функции:

▪️компилирует код Python или AST в формат LaTeX
▪️предоставляет классы для IPython для красивого отображения формул.

🔗 Ссылка на репозиторий
👍183