О том, как технически устроена перепись в этом году: https://habr.com/ru/company/rostelecom/blog/585524/
#data
#data
Хабр
Чек-лист переписчика: как устроена цифровая инфраструктура Всероссийской переписи населения
Всем привет! С 15 октября по 14 ноября 2021 года в России проходит Всероссийская перепись населения, цифровым партнером которой выступает Ростелеком. Главным нововведением для жителей России станет...
Лёгкое чтение на вечер: в Германии испытывают электрическое шоссе
Расположенные над дорогой провода обеспечивают грузовики электричеством на участке дороги югу от Франкфурта протяжённостью 5 километров. Это позволяет испытать идею электрических шоссе на практике и реальных грузовиках.
Короткий рассказ, как это происходит на практике: https://habr.com/ru/post/586158/
#электроника
Расположенные над дорогой провода обеспечивают грузовики электричеством на участке дороги югу от Франкфурта протяжённостью 5 километров. Это позволяет испытать идею электрических шоссе на практике и реальных грузовиках.
Короткий рассказ, как это происходит на практике: https://habr.com/ru/post/586158/
#электроника
Хабр
В Германии испытывают электрическое шоссе
Теоретически, электрифицированное шоссе – это наиболее эффективный способ избавиться от выхлопа грузовиков. Мешают этому политические проблемы. Расположенные над дорогой провода обеспечивают...
Арифметическая прогрессия: задача из детства Короля математики
Коллеги из Библиотеки программиста в октябре попросили подготовить сценарий для видеоролика. Сценарий в итоге мы урезали — не вместился в нужный в тайминг. Поделюсь полной версией в формате статьи.
Нужно было рассказать интересное про арифметическую прогрессию. Сперва я заупрямился — тема простая и для школьников. Но вспомнил популярную байку про школьную задачу Гаусса и решил посмотреть, что получится. В общем, побаловался LaTeX-набором в Notion и даже кое-что проиллюстрировал. Держите:
https://leomatyushkin.notion.site/2fa9aa1779864f09a9bd9b123690d04e
#математика #статьи #гаусс
Коллеги из Библиотеки программиста в октябре попросили подготовить сценарий для видеоролика. Сценарий в итоге мы урезали — не вместился в нужный в тайминг. Поделюсь полной версией в формате статьи.
Нужно было рассказать интересное про арифметическую прогрессию. Сперва я заупрямился — тема простая и для школьников. Но вспомнил популярную байку про школьную задачу Гаусса и решил посмотреть, что получится. В общем, побаловался LaTeX-набором в Notion и даже кое-что проиллюстрировал. Держите:
https://leomatyushkin.notion.site/2fa9aa1779864f09a9bd9b123690d04e
#математика #статьи #гаусс
Leo on Notion
Арифметическая прогрессия: задача из детства Короля математики
В феврале 1855 года в английском графстве Девоншир после ночи обильного снегопада на снегу появились «следы дьявола».
🖼 Доделал четвёртый модуль курса «Статьи для IT». Новые уроки посвятил иллюстрациям. Рассказал, как готовить схемы, диаграммы, качественные скриншоты и ясные таблицы. Отдельная глава о том, как иллюстрировать идеи с помощью программного кода.
✨ Астрологи объявили неделю знаний. Количество студентов курса удвоилось, теперь нас 235. Присоединяйтесь и вы, отвечаю на все комментарии: https://stepik.org/101672
✨ Астрологи объявили неделю знаний. Количество студентов курса удвоилось, теперь нас 235. Присоединяйтесь и вы, отвечаю на все комментарии: https://stepik.org/101672
Stepik: online education
Статьи для IT: как объяснять и распространять значимые идеи
Для тех, кто любит качественные IT-публикации и хочет научиться интересно писать о программировании и собственных IT-проектах
Команда Silero выпустила сервис для бесплатного распознавания аудиофайла в текст до 60 мин и 100 Мб: https://audio-v-text.silero.ai/
Пока нет расстановки знаков препинания, но есть поддержка русского, английского, немецкого испанского. Обсуждение на Хабре: https://habr.com/ru/post/587512/
#natural_language_processing #nlp #audio_to_text
Пока нет расстановки знаков препинания, но есть поддержка русского, английского, немецкого испанского. Обсуждение на Хабре: https://habr.com/ru/post/587512/
#natural_language_processing #nlp #audio_to_text
Хабр
Бесплатное распознавание речи для всех желающих
Бесплатное Распознавание Речи Для Всех Желающих Как Пользоваться Идея Сервиса Текущие Ограничения Безопасность и Использование Данных Бесплатное распознавание речи для всех желающих После относительно...
Сергей Аверкиев собрал отличную подборку книг по популярной лингвистике: https://habr.com/ru/post/587710/. Книжки про сами языки, конструирование и изучение языков, этимологию и особенности перевода. Пример хорошей обложки поста — видно, что мнение взято не из воздуха и сами книги у автора, по крайней мере, есть.
На мой взгляд, всё это очень занятное чтение для всех любителей обработки естественного языка. Для удобства приведу здесь список книг, который перенес в свой список чтения. За подробностями смотрите пост Сергея.
— Гастон Доррен. Лингво. Языковой пейзаж Европы
— Гастон Доррен. Вавилон. Вокруг света за двадцать языков
— Кронгауз М., Пиперски А. и Сомин А. Сто языков
— Дмитрий Казаков. Человек языкатый
— Александр Пиперски. Конструирование языков
— Дэвид Питерсон. Искусство создания языков
— Н. Келли и Й. Цетше. Тонкости перевода
— Дэвид Бэллос. Что за рыбка в вашем ухе
— Гай Дойчер. Сквозь зеркало языка
— Владимир Плунгян. Почему языки такие разные (эту читал сам — трудно, но интересно)
— Николай Шанский. Лингвистические детективы
— С. Монахов и Д. Чердаков. Глазарий языка
Еще в посте книги по отдельным языкам, но это уже специфичное.
#natural_language_processing #лингвистика
На мой взгляд, всё это очень занятное чтение для всех любителей обработки естественного языка. Для удобства приведу здесь список книг, который перенес в свой список чтения. За подробностями смотрите пост Сергея.
— Гастон Доррен. Лингво. Языковой пейзаж Европы
— Гастон Доррен. Вавилон. Вокруг света за двадцать языков
— Кронгауз М., Пиперски А. и Сомин А. Сто языков
— Дмитрий Казаков. Человек языкатый
— Александр Пиперски. Конструирование языков
— Дэвид Питерсон. Искусство создания языков
— Н. Келли и Й. Цетше. Тонкости перевода
— Дэвид Бэллос. Что за рыбка в вашем ухе
— Гай Дойчер. Сквозь зеркало языка
— Владимир Плунгян. Почему языки такие разные (эту читал сам — трудно, но интересно)
— Николай Шанский. Лингвистические детективы
— С. Монахов и Д. Чердаков. Глазарий языка
Еще в посте книги по отдельным языкам, но это уже специфичное.
#natural_language_processing #лингвистика
Хабр
Популярная лингвистика. Книги про языки, которые мне нравятся
Наш телеграм канал 14.11.2021 — Upd 7. В японский язык добавил Путь бесхвостой птички Адиля Талышханова (Shinrin), в английский — The Mother Tongue — English And How It Got That Way Билла Брайсона (...
Андрей Степнов рассказал о применении машинного обучения в сейсмологии: https://habr.com/ru/post/587690/
Это часть научной работы Андрея, вот репозиторий на GitHub c данными и Jupyter-блокнотами: https://github.com/jamm1985/seismo-performer
#сейсмология #сейсмографы #cnn #глубокое_обучение
Это часть научной работы Андрея, вот репозиторий на GitHub c данными и Jupyter-блокнотами: https://github.com/jamm1985/seismo-performer
#сейсмология #сейсмографы #cnn #глубокое_обучение
Хабр
Машинное обучение в сейсмологии
Землетрясение M6.1 на Севере Сахалина https://eqalert.ru/#/events/QgpAn7OW Все хотя бы раз слышали про землетрясения. Это опасное природное явление которое может привести к разрушению зданий,...
N+1 совместно с Яндексом запустили онлайн-журнал ТЕХНО https://techno.yandex.ru/. Тыры-пыры, выходит раз в месяц, каждый выпуск рассказывает про одну современную технологию: как появилась, где уже используют и как еще можно применить.
Что интересно лично мне: первый выпуск посвящён языковым моделям. Главный лонгрид: https://techno.yandex.ru/longreads/algorithm.
→ Что понравилось: попытка рассказать историю более-менее живым языком. К сожалению, не могу сказать, что вышло очень уж увлекательно, но хотя бы понятно и достаточно полно.
→ Что не понравилось: на каждой странице слово «Яндекс» и YaLM упоминается с десяток раз и больше. Ясно, что компанией сделано многое и нужно это продвигать. Но мне-читателю хватило бы отдельной статьи конкретно по достижениям компании — такой формат был бы куда приятнее.
#natural_language_processing
Что интересно лично мне: первый выпуск посвящён языковым моделям. Главный лонгрид: https://techno.yandex.ru/longreads/algorithm.
→ Что понравилось: попытка рассказать историю более-менее живым языком. К сожалению, не могу сказать, что вышло очень уж увлекательно, но хотя бы понятно и достаточно полно.
→ Что не понравилось: на каждой странице слово «Яндекс» и YaLM упоминается с десяток раз и больше. Ясно, что компанией сделано многое и нужно это продвигать. Но мне-читателю хватило бы отдельной статьи конкретно по достижениям компании — такой формат был бы куда приятнее.
#natural_language_processing
Онлайн-журнал ТЕХНО
ТЕХНО — Журнал Яндекса о технологиях
Рассказываем о технологическом прогрессе простыми словами и красивыми картинками
Луи Бушар пополняет репозиторий-список прорывных статей по ИИ этого года, с видеообзорами, сокращенными версиями и программным кодом: https://github.com/louisfb01/best_AI_papers_2021
#data_science #research #papers #научные_публикации #репозитории
#data_science #research #papers #научные_публикации #репозитории
GitHub
GitHub - louisfb01/best_AI_papers_2021: A curated list of the latest breakthroughs in AI (in 2021) by release date with a clear…
A curated list of the latest breakthroughs in AI (in 2021) by release date with a clear video explanation, link to a more in-depth article, and code. - louisfb01/best_AI_papers_2021
Продолжаю издавать курс «Статьи для IT». В прошлых модулях мы обсудили, как собрать, отредактировать и проиллюстрировать текст. Но подготовить текст мало — надо донести его до читателей. В новом модуле рассказываю о распространении статей: где публиковаться, как формировать сообщество и взаимодействовать с читателями.
Курс бесплатный, отвечаю на все комментарии, уже записались 335 студентов: https://stepik.org/101672
#статьи_для_it #курсы
Курс бесплатный, отвечаю на все комментарии, уже записались 335 студентов: https://stepik.org/101672
#статьи_для_it #курсы
Stepik: online education
Статьи для IT: как объяснять и распространять значимые идеи
Для тех, кто любит качественные IT-публикации и хочет научиться интересно писать о программировании и собственных IT-проектах
Прочитал статью @roman-gorb «Нейросеть, способная объяснить себе задачу: P-tuning для YaLM» https://habr.com/ru/company/yandex/blog/588214/. Ниже мой краткий конспект.
Есть метод обучения Few-shot. Он позволяет без дообучения решать задачи ОЕЯ. Например, сгенерировать по тексту сокращенный вариант (задача суммаризации новостей, отзывов и книг). Для этого используется предобученная модель, которая доучивается на небольшом количестве данных. Так как данных мало, сигнал получается шумным: нейросеть додумывает куски текста, не имеющие отношения к подводке, или повторяет отдельные фразы.
Есть уточнение этой модели, называемое P-tuning. Формулировка задачи та же. И там, и там мы работаем не с самими текстами, а с их векторными представлениями — эмбеддингами. Но в случае P-tuning модель нагло оптимизирует эмбеддинг текста так, чтобы итоговая задача решалась лучше. То есть вместо статичных векторов используют обучаемые. Эмбеддинги моделируют, используя LSTM и MLP. Фактически делают adversarial attack на часть входного текста в NLP-модель. Идея предложена в статье с arXiv: https://arxiv.org/pdf/2103.10385.pdf
P-tuning обеспечивает лучшее качество, чем Few-shot, и обычно не производит артефакты, присущие последнему. В бенчмарке Russian SuperGLUE https://russiansuperglue.com/leaderboard/2 модель заняла 3 место, обогнав single-model-методы, а также более дорогостоящие finetuning-модели.
#natural_language_processing #нейросети
Есть метод обучения Few-shot. Он позволяет без дообучения решать задачи ОЕЯ. Например, сгенерировать по тексту сокращенный вариант (задача суммаризации новостей, отзывов и книг). Для этого используется предобученная модель, которая доучивается на небольшом количестве данных. Так как данных мало, сигнал получается шумным: нейросеть додумывает куски текста, не имеющие отношения к подводке, или повторяет отдельные фразы.
Есть уточнение этой модели, называемое P-tuning. Формулировка задачи та же. И там, и там мы работаем не с самими текстами, а с их векторными представлениями — эмбеддингами. Но в случае P-tuning модель нагло оптимизирует эмбеддинг текста так, чтобы итоговая задача решалась лучше. То есть вместо статичных векторов используют обучаемые. Эмбеддинги моделируют, используя LSTM и MLP. Фактически делают adversarial attack на часть входного текста в NLP-модель. Идея предложена в статье с arXiv: https://arxiv.org/pdf/2103.10385.pdf
P-tuning обеспечивает лучшее качество, чем Few-shot, и обычно не производит артефакты, присущие последнему. В бенчмарке Russian SuperGLUE https://russiansuperglue.com/leaderboard/2 модель заняла 3 место, обогнав single-model-методы, а также более дорогостоящие finetuning-модели.
#natural_language_processing #нейросети
Добавил несколько ссылок на бесплатные книжки по Deep Learning и общему Machine Learning в любимый читателями репозиторий https://github.com/matyushkin/ds
Не стесняйтесь делать пул-реквесты и обмениваться идеями через телеграм-чат https://t.me/matyushkin_chat или в комментариях вк-группы. Хочется обмена идеями между всеми, но большинство ребят до сих пор пишут только в личные сообщения.
#data_science
Не стесняйтесь делать пул-реквесты и обмениваться идеями через телеграм-чат https://t.me/matyushkin_chat или в комментариях вк-группы. Хочется обмена идеями между всеми, но большинство ребят до сих пор пишут только в личные сообщения.
#data_science
Хорошую идею для создания сервиса предложил на Хабре песочный пользователь lfwsmrp в статье «Метод анализа вакансий с HR-агрегаторов» https://habr.com/ru/post/588478/
Фактически в инструктивном ключе описан способ получения моды по вакансиям, когда указаны широкие интвервалы «от» и «до» или не указана одна из границ.
#анализ_данных_без_machine_learning #зарплаты
Фактически в инструктивном ключе описан способ получения моды по вакансиям, когда указаны широкие интвервалы «от» и «до» или не указана одна из границ.
#анализ_данных_без_machine_learning #зарплаты
Хабр
Сколько ты стоишь? Метод анализа вакансий с HR-агрегаторов
Вводная Конечно, когда мы решаемся сменить работу, мы исходим из своих личных побуждений и мотиваций; и очевидно, что увеличение своего материального положения — не последняя из причин. Но при ответе...
Несколько книг по компьютерному (машинному) зрению, которые полезны независимо от выбора языка и без приложения глубокого обучения. На годы выпуска можно не смотреть, в них описаны концептуальные нестареющие вещи.
— Шапиро Л., Стокман Дж. Компьютерное зрение. 2015 (основные аспекты алгоритмического распознавания образов: базовый анализ изображений, фильтрация, цвет, текстура, восприятие движения и трехмерных сцен; алгоритмы даны на псевдокоде; качественный перевод Богуславского, достойные иллюстрации)
— Гонсалес Р. Вудс Р. Цифровая обработка изображений. 2012 (введение в основные понятия и методы цифровой обработки изображений, большое количество примеров и иллюстраций, упраженния)
— Клетте Р. Компьютерное зрение: теория и алгоритмы. 2019 (обработка и анализ изображений, сегментация, реконструкция, обнаружение объектов; есть цветные иллюстрации, упражнения, нужно владеть математическим аппаратом)
— Justin Solomon. Numerical Algorithms. Methods for Computer Vision, Machine learning and Graphics. 2015 (очень емкое при этом практичное введение в те части линейной алгебры, оптимизационных методов, матанализа и дифференциальных, которые пригождаются в компьютерном зрении и машинном обучении)
— Szeliski R. Computer Vision: Algorithms and Applications. 2010 (обработка, сегментация, выравнивание, движение, вычислительная фотография, 3D-реконструкция, рендеринг, детектирование)
— Hartley R. Zisserman A. Multiple View Geometry in Computer Vision. 2004. (о работе с объектами, распознаваемыми с разных точек наблюдения)
Другие примеры в репозитории https://github.com/matyushkin/ds
Если знаете другие хорошие примеры, напишите.
#computer_vision #books
— Шапиро Л., Стокман Дж. Компьютерное зрение. 2015 (основные аспекты алгоритмического распознавания образов: базовый анализ изображений, фильтрация, цвет, текстура, восприятие движения и трехмерных сцен; алгоритмы даны на псевдокоде; качественный перевод Богуславского, достойные иллюстрации)
— Гонсалес Р. Вудс Р. Цифровая обработка изображений. 2012 (введение в основные понятия и методы цифровой обработки изображений, большое количество примеров и иллюстраций, упраженния)
— Клетте Р. Компьютерное зрение: теория и алгоритмы. 2019 (обработка и анализ изображений, сегментация, реконструкция, обнаружение объектов; есть цветные иллюстрации, упражнения, нужно владеть математическим аппаратом)
— Justin Solomon. Numerical Algorithms. Methods for Computer Vision, Machine learning and Graphics. 2015 (очень емкое при этом практичное введение в те части линейной алгебры, оптимизационных методов, матанализа и дифференциальных, которые пригождаются в компьютерном зрении и машинном обучении)
— Szeliski R. Computer Vision: Algorithms and Applications. 2010 (обработка, сегментация, выравнивание, движение, вычислительная фотография, 3D-реконструкция, рендеринг, детектирование)
— Hartley R. Zisserman A. Multiple View Geometry in Computer Vision. 2004. (о работе с объектами, распознаваемыми с разных точек наблюдения)
Другие примеры в репозитории https://github.com/matyushkin/ds
Если знаете другие хорошие примеры, напишите.
#computer_vision #books
Алексей Алексеев рассказал и показал (на PyTorch) окрашивание изображений по свежей публикации с arXiv: Color2Embed: Fast Exemplar-Based Image Colorization using Color Embeddings. Метод очень похож на модифицированный алгоритм StyleGAN с интересными подходами к уменьшению переобучения.
Главный результат: высокая скорость работы. Алексей выдвигает практичную гипотезу, что использование несколько картинок-источников цвета может улучшить качество результата.
Если хотите сразу перейти к делу и попробовать собственные картинки, открывайте блокнот в Google Colab: https://colab.research.google.com/drive/1Xyq-kuTWzvoQH4r7d5C7YN7sVe19pUv0#scrollTo=6Nm25AlJzmyn
Сама статья Алексея: https://habr.com/ru/company/ntechlab/blog/586122/
#deep_learning #images
Главный результат: высокая скорость работы. Алексей выдвигает практичную гипотезу, что использование несколько картинок-источников цвета может улучшить качество результата.
Если хотите сразу перейти к делу и попробовать собственные картинки, открывайте блокнот в Google Colab: https://colab.research.google.com/drive/1Xyq-kuTWzvoQH4r7d5C7YN7sVe19pUv0#scrollTo=6Nm25AlJzmyn
Сама статья Алексея: https://habr.com/ru/company/ntechlab/blog/586122/
#deep_learning #images
Люблю, когда программирование сталкивается с реальным миром, дизайном и всяческими жизненными деталями. У Тинькофф вышел занятный пост о метриках, которые использовались для обновления интерфейса банкоматов: https://habr.com/ru/company/tinkoff/blog/588410/
#банкоматы #design
#банкоматы #design
Хабр
На какие метрики мы смотрели, обновляя интерфейс банкоматов
Зачем вообще в 2021 году заниматься банкоматами? Кажется, что уже все кто только можно перешли на безнал. Но на самом деле количество пользователей банкоматов Тинькофф растет, причем быстрее, чем...
Айрана Монгуш описала свой трек по изучению Data Science: https://habr.com/ru/post/589765/
Всё по делу.
#data_science #courses
Всё по делу.
#data_science #courses
На Хабре перевели прошлогоднюю статью Тристана Хэнди о стеках данных (продуктах для Big Data) : https://habr.com/ru/post/590511/
Будет полезно, если вы слышали о MPP, Resshift, KSQL.
#базыданных
Будет полезно, если вы слышали о MPP, Resshift, KSQL.
#базыданных