✍🏻 Выпустили третий модуль курса «Статьи для IT». Модуль посвящен авторской редактуре. Рассказываем, как выбирать правильные слова, перекраивать предложения и абзацы так, чтобы текст было приятно читать.
📈 На курс за две недели записалось 120 человек. Не стесняйтесь писать комментарии под степами: и критические, и одобрительные. Начало обсуждения — хороший стимул для других, чтобы включиться в дискуссию. Активность учащихся поможет быстрее запросить у Степика возможность выдавать сертификаты.
Если что-то удобнее обсудить не в комментариях, а лично — пишите мне в личные сообщения вк, я открыт для диалога.
Ссылка на курс: https://stepik.org/101672
#курсы #статьи_для_it
📈 На курс за две недели записалось 120 человек. Не стесняйтесь писать комментарии под степами: и критические, и одобрительные. Начало обсуждения — хороший стимул для других, чтобы включиться в дискуссию. Активность учащихся поможет быстрее запросить у Степика возможность выдавать сертификаты.
Если что-то удобнее обсудить не в комментариях, а лично — пишите мне в личные сообщения вк, я открыт для диалога.
Ссылка на курс: https://stepik.org/101672
#курсы #статьи_для_it
Stepik: online education
Статьи для IT: как объяснять и распространять значимые идеи
Для тех, кто любит качественные IT-публикации и хочет научиться интересно писать о программировании и собственных IT-проектах
Открыл для себя опенсорсный проект Дока — https://doka.guide/.
Команда энтузиастов пишет добрый справочник о веб-технологиях.
Поиск выдает содержательные и занятные статьи.
Буду рад узнать ещё о подобных справочник — пишите в комментарии.
#web #resource
Команда энтузиастов пишет добрый справочник о веб-технологиях.
Поиск выдает содержательные и занятные статьи.
Буду рад узнать ещё о подобных справочник — пишите в комментарии.
#web #resource
Дарина Деменьтева из лаборатории Skoltech NKP рассказала на Хабре о методах «детоксификации» текстов для русского языка. Похоже на старый вопрос обработки естественного языка о восприятии иронии. Интересна и сама статья, и комментарии под ней.
https://habr.com/ru/company/ru_mts/blog/585804/
#natural_language_processing
https://habr.com/ru/company/ru_mts/blog/585804/
#natural_language_processing
Хабр
Методы детоксификации текстов для русского языка
ВНИМАНИЕ! В статье есть примеры текстов, содержащие мат и грубые выражения. Мы ни в коем случае не хотим оскорбить наших читателей, все подобные тексты приведены лишь в научных целях в качестве...
На Хабре вышел занятный перевод с научными источниками о том, как наш мозг взаимодействует с неприятными запахами.
https://habr.com/ru/company/ua-hosting/blog/585994/
#brain
https://habr.com/ru/company/ua-hosting/blog/585994/
#brain
Хабр
Чем воняет: как мозг реагирует на неприятные запахи
Несмотря на то, что зрение считается основным источником сенсорной информации, нюх остается не менее важным. Окружающая среда наполнена запахами, каждый из которых несет в себе определенную...
О том, как технически устроена перепись в этом году: https://habr.com/ru/company/rostelecom/blog/585524/
#data
#data
Хабр
Чек-лист переписчика: как устроена цифровая инфраструктура Всероссийской переписи населения
Всем привет! С 15 октября по 14 ноября 2021 года в России проходит Всероссийская перепись населения, цифровым партнером которой выступает Ростелеком. Главным нововведением для жителей России станет...
Лёгкое чтение на вечер: в Германии испытывают электрическое шоссе
Расположенные над дорогой провода обеспечивают грузовики электричеством на участке дороги югу от Франкфурта протяжённостью 5 километров. Это позволяет испытать идею электрических шоссе на практике и реальных грузовиках.
Короткий рассказ, как это происходит на практике: https://habr.com/ru/post/586158/
#электроника
Расположенные над дорогой провода обеспечивают грузовики электричеством на участке дороги югу от Франкфурта протяжённостью 5 километров. Это позволяет испытать идею электрических шоссе на практике и реальных грузовиках.
Короткий рассказ, как это происходит на практике: https://habr.com/ru/post/586158/
#электроника
Хабр
В Германии испытывают электрическое шоссе
Теоретически, электрифицированное шоссе – это наиболее эффективный способ избавиться от выхлопа грузовиков. Мешают этому политические проблемы. Расположенные над дорогой провода обеспечивают...
Арифметическая прогрессия: задача из детства Короля математики
Коллеги из Библиотеки программиста в октябре попросили подготовить сценарий для видеоролика. Сценарий в итоге мы урезали — не вместился в нужный в тайминг. Поделюсь полной версией в формате статьи.
Нужно было рассказать интересное про арифметическую прогрессию. Сперва я заупрямился — тема простая и для школьников. Но вспомнил популярную байку про школьную задачу Гаусса и решил посмотреть, что получится. В общем, побаловался LaTeX-набором в Notion и даже кое-что проиллюстрировал. Держите:
https://leomatyushkin.notion.site/2fa9aa1779864f09a9bd9b123690d04e
#математика #статьи #гаусс
Коллеги из Библиотеки программиста в октябре попросили подготовить сценарий для видеоролика. Сценарий в итоге мы урезали — не вместился в нужный в тайминг. Поделюсь полной версией в формате статьи.
Нужно было рассказать интересное про арифметическую прогрессию. Сперва я заупрямился — тема простая и для школьников. Но вспомнил популярную байку про школьную задачу Гаусса и решил посмотреть, что получится. В общем, побаловался LaTeX-набором в Notion и даже кое-что проиллюстрировал. Держите:
https://leomatyushkin.notion.site/2fa9aa1779864f09a9bd9b123690d04e
#математика #статьи #гаусс
Leo on Notion
Арифметическая прогрессия: задача из детства Короля математики
В феврале 1855 года в английском графстве Девоншир после ночи обильного снегопада на снегу появились «следы дьявола».
🖼 Доделал четвёртый модуль курса «Статьи для IT». Новые уроки посвятил иллюстрациям. Рассказал, как готовить схемы, диаграммы, качественные скриншоты и ясные таблицы. Отдельная глава о том, как иллюстрировать идеи с помощью программного кода.
✨ Астрологи объявили неделю знаний. Количество студентов курса удвоилось, теперь нас 235. Присоединяйтесь и вы, отвечаю на все комментарии: https://stepik.org/101672
✨ Астрологи объявили неделю знаний. Количество студентов курса удвоилось, теперь нас 235. Присоединяйтесь и вы, отвечаю на все комментарии: https://stepik.org/101672
Stepik: online education
Статьи для IT: как объяснять и распространять значимые идеи
Для тех, кто любит качественные IT-публикации и хочет научиться интересно писать о программировании и собственных IT-проектах
Команда Silero выпустила сервис для бесплатного распознавания аудиофайла в текст до 60 мин и 100 Мб: https://audio-v-text.silero.ai/
Пока нет расстановки знаков препинания, но есть поддержка русского, английского, немецкого испанского. Обсуждение на Хабре: https://habr.com/ru/post/587512/
#natural_language_processing #nlp #audio_to_text
Пока нет расстановки знаков препинания, но есть поддержка русского, английского, немецкого испанского. Обсуждение на Хабре: https://habr.com/ru/post/587512/
#natural_language_processing #nlp #audio_to_text
Хабр
Бесплатное распознавание речи для всех желающих
Бесплатное Распознавание Речи Для Всех Желающих Как Пользоваться Идея Сервиса Текущие Ограничения Безопасность и Использование Данных Бесплатное распознавание речи для всех желающих После относительно...
Сергей Аверкиев собрал отличную подборку книг по популярной лингвистике: https://habr.com/ru/post/587710/. Книжки про сами языки, конструирование и изучение языков, этимологию и особенности перевода. Пример хорошей обложки поста — видно, что мнение взято не из воздуха и сами книги у автора, по крайней мере, есть.
На мой взгляд, всё это очень занятное чтение для всех любителей обработки естественного языка. Для удобства приведу здесь список книг, который перенес в свой список чтения. За подробностями смотрите пост Сергея.
— Гастон Доррен. Лингво. Языковой пейзаж Европы
— Гастон Доррен. Вавилон. Вокруг света за двадцать языков
— Кронгауз М., Пиперски А. и Сомин А. Сто языков
— Дмитрий Казаков. Человек языкатый
— Александр Пиперски. Конструирование языков
— Дэвид Питерсон. Искусство создания языков
— Н. Келли и Й. Цетше. Тонкости перевода
— Дэвид Бэллос. Что за рыбка в вашем ухе
— Гай Дойчер. Сквозь зеркало языка
— Владимир Плунгян. Почему языки такие разные (эту читал сам — трудно, но интересно)
— Николай Шанский. Лингвистические детективы
— С. Монахов и Д. Чердаков. Глазарий языка
Еще в посте книги по отдельным языкам, но это уже специфичное.
#natural_language_processing #лингвистика
На мой взгляд, всё это очень занятное чтение для всех любителей обработки естественного языка. Для удобства приведу здесь список книг, который перенес в свой список чтения. За подробностями смотрите пост Сергея.
— Гастон Доррен. Лингво. Языковой пейзаж Европы
— Гастон Доррен. Вавилон. Вокруг света за двадцать языков
— Кронгауз М., Пиперски А. и Сомин А. Сто языков
— Дмитрий Казаков. Человек языкатый
— Александр Пиперски. Конструирование языков
— Дэвид Питерсон. Искусство создания языков
— Н. Келли и Й. Цетше. Тонкости перевода
— Дэвид Бэллос. Что за рыбка в вашем ухе
— Гай Дойчер. Сквозь зеркало языка
— Владимир Плунгян. Почему языки такие разные (эту читал сам — трудно, но интересно)
— Николай Шанский. Лингвистические детективы
— С. Монахов и Д. Чердаков. Глазарий языка
Еще в посте книги по отдельным языкам, но это уже специфичное.
#natural_language_processing #лингвистика
Хабр
Популярная лингвистика. Книги про языки, которые мне нравятся
Наш телеграм канал 14.11.2021 — Upd 7. В японский язык добавил Путь бесхвостой птички Адиля Талышханова (Shinrin), в английский — The Mother Tongue — English And How It Got That Way Билла Брайсона (...
Андрей Степнов рассказал о применении машинного обучения в сейсмологии: https://habr.com/ru/post/587690/
Это часть научной работы Андрея, вот репозиторий на GitHub c данными и Jupyter-блокнотами: https://github.com/jamm1985/seismo-performer
#сейсмология #сейсмографы #cnn #глубокое_обучение
Это часть научной работы Андрея, вот репозиторий на GitHub c данными и Jupyter-блокнотами: https://github.com/jamm1985/seismo-performer
#сейсмология #сейсмографы #cnn #глубокое_обучение
Хабр
Машинное обучение в сейсмологии
Землетрясение M6.1 на Севере Сахалина https://eqalert.ru/#/events/QgpAn7OW Все хотя бы раз слышали про землетрясения. Это опасное природное явление которое может привести к разрушению зданий,...
N+1 совместно с Яндексом запустили онлайн-журнал ТЕХНО https://techno.yandex.ru/. Тыры-пыры, выходит раз в месяц, каждый выпуск рассказывает про одну современную технологию: как появилась, где уже используют и как еще можно применить.
Что интересно лично мне: первый выпуск посвящён языковым моделям. Главный лонгрид: https://techno.yandex.ru/longreads/algorithm.
→ Что понравилось: попытка рассказать историю более-менее живым языком. К сожалению, не могу сказать, что вышло очень уж увлекательно, но хотя бы понятно и достаточно полно.
→ Что не понравилось: на каждой странице слово «Яндекс» и YaLM упоминается с десяток раз и больше. Ясно, что компанией сделано многое и нужно это продвигать. Но мне-читателю хватило бы отдельной статьи конкретно по достижениям компании — такой формат был бы куда приятнее.
#natural_language_processing
Что интересно лично мне: первый выпуск посвящён языковым моделям. Главный лонгрид: https://techno.yandex.ru/longreads/algorithm.
→ Что понравилось: попытка рассказать историю более-менее живым языком. К сожалению, не могу сказать, что вышло очень уж увлекательно, но хотя бы понятно и достаточно полно.
→ Что не понравилось: на каждой странице слово «Яндекс» и YaLM упоминается с десяток раз и больше. Ясно, что компанией сделано многое и нужно это продвигать. Но мне-читателю хватило бы отдельной статьи конкретно по достижениям компании — такой формат был бы куда приятнее.
#natural_language_processing
Онлайн-журнал ТЕХНО
ТЕХНО — Журнал Яндекса о технологиях
Рассказываем о технологическом прогрессе простыми словами и красивыми картинками
Луи Бушар пополняет репозиторий-список прорывных статей по ИИ этого года, с видеообзорами, сокращенными версиями и программным кодом: https://github.com/louisfb01/best_AI_papers_2021
#data_science #research #papers #научные_публикации #репозитории
#data_science #research #papers #научные_публикации #репозитории
GitHub
GitHub - louisfb01/best_AI_papers_2021: A curated list of the latest breakthroughs in AI (in 2021) by release date with a clear…
A curated list of the latest breakthroughs in AI (in 2021) by release date with a clear video explanation, link to a more in-depth article, and code. - louisfb01/best_AI_papers_2021
Продолжаю издавать курс «Статьи для IT». В прошлых модулях мы обсудили, как собрать, отредактировать и проиллюстрировать текст. Но подготовить текст мало — надо донести его до читателей. В новом модуле рассказываю о распространении статей: где публиковаться, как формировать сообщество и взаимодействовать с читателями.
Курс бесплатный, отвечаю на все комментарии, уже записались 335 студентов: https://stepik.org/101672
#статьи_для_it #курсы
Курс бесплатный, отвечаю на все комментарии, уже записались 335 студентов: https://stepik.org/101672
#статьи_для_it #курсы
Stepik: online education
Статьи для IT: как объяснять и распространять значимые идеи
Для тех, кто любит качественные IT-публикации и хочет научиться интересно писать о программировании и собственных IT-проектах
Прочитал статью @roman-gorb «Нейросеть, способная объяснить себе задачу: P-tuning для YaLM» https://habr.com/ru/company/yandex/blog/588214/. Ниже мой краткий конспект.
Есть метод обучения Few-shot. Он позволяет без дообучения решать задачи ОЕЯ. Например, сгенерировать по тексту сокращенный вариант (задача суммаризации новостей, отзывов и книг). Для этого используется предобученная модель, которая доучивается на небольшом количестве данных. Так как данных мало, сигнал получается шумным: нейросеть додумывает куски текста, не имеющие отношения к подводке, или повторяет отдельные фразы.
Есть уточнение этой модели, называемое P-tuning. Формулировка задачи та же. И там, и там мы работаем не с самими текстами, а с их векторными представлениями — эмбеддингами. Но в случае P-tuning модель нагло оптимизирует эмбеддинг текста так, чтобы итоговая задача решалась лучше. То есть вместо статичных векторов используют обучаемые. Эмбеддинги моделируют, используя LSTM и MLP. Фактически делают adversarial attack на часть входного текста в NLP-модель. Идея предложена в статье с arXiv: https://arxiv.org/pdf/2103.10385.pdf
P-tuning обеспечивает лучшее качество, чем Few-shot, и обычно не производит артефакты, присущие последнему. В бенчмарке Russian SuperGLUE https://russiansuperglue.com/leaderboard/2 модель заняла 3 место, обогнав single-model-методы, а также более дорогостоящие finetuning-модели.
#natural_language_processing #нейросети
Есть метод обучения Few-shot. Он позволяет без дообучения решать задачи ОЕЯ. Например, сгенерировать по тексту сокращенный вариант (задача суммаризации новостей, отзывов и книг). Для этого используется предобученная модель, которая доучивается на небольшом количестве данных. Так как данных мало, сигнал получается шумным: нейросеть додумывает куски текста, не имеющие отношения к подводке, или повторяет отдельные фразы.
Есть уточнение этой модели, называемое P-tuning. Формулировка задачи та же. И там, и там мы работаем не с самими текстами, а с их векторными представлениями — эмбеддингами. Но в случае P-tuning модель нагло оптимизирует эмбеддинг текста так, чтобы итоговая задача решалась лучше. То есть вместо статичных векторов используют обучаемые. Эмбеддинги моделируют, используя LSTM и MLP. Фактически делают adversarial attack на часть входного текста в NLP-модель. Идея предложена в статье с arXiv: https://arxiv.org/pdf/2103.10385.pdf
P-tuning обеспечивает лучшее качество, чем Few-shot, и обычно не производит артефакты, присущие последнему. В бенчмарке Russian SuperGLUE https://russiansuperglue.com/leaderboard/2 модель заняла 3 место, обогнав single-model-методы, а также более дорогостоящие finetuning-модели.
#natural_language_processing #нейросети
Добавил несколько ссылок на бесплатные книжки по Deep Learning и общему Machine Learning в любимый читателями репозиторий https://github.com/matyushkin/ds
Не стесняйтесь делать пул-реквесты и обмениваться идеями через телеграм-чат https://t.me/matyushkin_chat или в комментариях вк-группы. Хочется обмена идеями между всеми, но большинство ребят до сих пор пишут только в личные сообщения.
#data_science
Не стесняйтесь делать пул-реквесты и обмениваться идеями через телеграм-чат https://t.me/matyushkin_chat или в комментариях вк-группы. Хочется обмена идеями между всеми, но большинство ребят до сих пор пишут только в личные сообщения.
#data_science
Хорошую идею для создания сервиса предложил на Хабре песочный пользователь lfwsmrp в статье «Метод анализа вакансий с HR-агрегаторов» https://habr.com/ru/post/588478/
Фактически в инструктивном ключе описан способ получения моды по вакансиям, когда указаны широкие интвервалы «от» и «до» или не указана одна из границ.
#анализ_данных_без_machine_learning #зарплаты
Фактически в инструктивном ключе описан способ получения моды по вакансиям, когда указаны широкие интвервалы «от» и «до» или не указана одна из границ.
#анализ_данных_без_machine_learning #зарплаты
Хабр
Сколько ты стоишь? Метод анализа вакансий с HR-агрегаторов
Вводная Конечно, когда мы решаемся сменить работу, мы исходим из своих личных побуждений и мотиваций; и очевидно, что увеличение своего материального положения — не последняя из причин. Но при ответе...
Несколько книг по компьютерному (машинному) зрению, которые полезны независимо от выбора языка и без приложения глубокого обучения. На годы выпуска можно не смотреть, в них описаны концептуальные нестареющие вещи.
— Шапиро Л., Стокман Дж. Компьютерное зрение. 2015 (основные аспекты алгоритмического распознавания образов: базовый анализ изображений, фильтрация, цвет, текстура, восприятие движения и трехмерных сцен; алгоритмы даны на псевдокоде; качественный перевод Богуславского, достойные иллюстрации)
— Гонсалес Р. Вудс Р. Цифровая обработка изображений. 2012 (введение в основные понятия и методы цифровой обработки изображений, большое количество примеров и иллюстраций, упраженния)
— Клетте Р. Компьютерное зрение: теория и алгоритмы. 2019 (обработка и анализ изображений, сегментация, реконструкция, обнаружение объектов; есть цветные иллюстрации, упражнения, нужно владеть математическим аппаратом)
— Justin Solomon. Numerical Algorithms. Methods for Computer Vision, Machine learning and Graphics. 2015 (очень емкое при этом практичное введение в те части линейной алгебры, оптимизационных методов, матанализа и дифференциальных, которые пригождаются в компьютерном зрении и машинном обучении)
— Szeliski R. Computer Vision: Algorithms and Applications. 2010 (обработка, сегментация, выравнивание, движение, вычислительная фотография, 3D-реконструкция, рендеринг, детектирование)
— Hartley R. Zisserman A. Multiple View Geometry in Computer Vision. 2004. (о работе с объектами, распознаваемыми с разных точек наблюдения)
Другие примеры в репозитории https://github.com/matyushkin/ds
Если знаете другие хорошие примеры, напишите.
#computer_vision #books
— Шапиро Л., Стокман Дж. Компьютерное зрение. 2015 (основные аспекты алгоритмического распознавания образов: базовый анализ изображений, фильтрация, цвет, текстура, восприятие движения и трехмерных сцен; алгоритмы даны на псевдокоде; качественный перевод Богуславского, достойные иллюстрации)
— Гонсалес Р. Вудс Р. Цифровая обработка изображений. 2012 (введение в основные понятия и методы цифровой обработки изображений, большое количество примеров и иллюстраций, упраженния)
— Клетте Р. Компьютерное зрение: теория и алгоритмы. 2019 (обработка и анализ изображений, сегментация, реконструкция, обнаружение объектов; есть цветные иллюстрации, упражнения, нужно владеть математическим аппаратом)
— Justin Solomon. Numerical Algorithms. Methods for Computer Vision, Machine learning and Graphics. 2015 (очень емкое при этом практичное введение в те части линейной алгебры, оптимизационных методов, матанализа и дифференциальных, которые пригождаются в компьютерном зрении и машинном обучении)
— Szeliski R. Computer Vision: Algorithms and Applications. 2010 (обработка, сегментация, выравнивание, движение, вычислительная фотография, 3D-реконструкция, рендеринг, детектирование)
— Hartley R. Zisserman A. Multiple View Geometry in Computer Vision. 2004. (о работе с объектами, распознаваемыми с разных точек наблюдения)
Другие примеры в репозитории https://github.com/matyushkin/ds
Если знаете другие хорошие примеры, напишите.
#computer_vision #books