Обфускация данных для тестов производительности
Пользователи ClickHouse знают, что его главное преимущество — высокая скорость обработки аналитических запросов. Но как мы можем выдвигать такие утверждения? Это должно подтверждаться тестами производительности, которым можно доверять. О них мы сегодня и поговорим.
Такие тесты мы начали проводить в 2013 году, задолго до того, как продукт стал доступным в опенсорсе. Как и сейчас, тогда нас больше всего интересовала скорость работы данных сервиса Яндекс.Метрика. Мы уже хранили данные в ClickHouse с января 2009 года. Часть данных записывалась в базу с 2012 года, а часть — была переконвертирована из OLAPServer и Metrage — структур данных, которые использовались в Яндекс.Метрике раньше. Поэтому для тестов мы взяли первое попавшееся подмножество из 1 миллиарда данных о просмотрах страниц. Запросов в Метрике ещё не было, и мы придумали запросы, больше всего интересные нам самим (всевозможные виды фильтрации, агрегации и сортировки).
ClickHouse тестировался в сравнении с похожими системами, например, Vertica и MonetDB. Для честности тестирования его проводил сотрудник, который до этого не был разработчиком ClickHouse, а частные случаи в коде не оптимизировались до получения результатов. Похожим образом мы получили набор данных и для функциональных тестов.
После того, как ClickHouse вышел в опенсорс в 2016 году, к тестам стало больше вопросов.
https://habr.com/ru/company/yandex/blog/457354/
🔗 Обфускация данных для тестов производительности
Пользователи ClickHouse знают, что его главное преимущество — высокая скорость обработки аналитических запросов. Но как мы можем выдвигать такие утверждения? Это...
Пользователи ClickHouse знают, что его главное преимущество — высокая скорость обработки аналитических запросов. Но как мы можем выдвигать такие утверждения? Это должно подтверждаться тестами производительности, которым можно доверять. О них мы сегодня и поговорим.
Такие тесты мы начали проводить в 2013 году, задолго до того, как продукт стал доступным в опенсорсе. Как и сейчас, тогда нас больше всего интересовала скорость работы данных сервиса Яндекс.Метрика. Мы уже хранили данные в ClickHouse с января 2009 года. Часть данных записывалась в базу с 2012 года, а часть — была переконвертирована из OLAPServer и Metrage — структур данных, которые использовались в Яндекс.Метрике раньше. Поэтому для тестов мы взяли первое попавшееся подмножество из 1 миллиарда данных о просмотрах страниц. Запросов в Метрике ещё не было, и мы придумали запросы, больше всего интересные нам самим (всевозможные виды фильтрации, агрегации и сортировки).
ClickHouse тестировался в сравнении с похожими системами, например, Vertica и MonetDB. Для честности тестирования его проводил сотрудник, который до этого не был разработчиком ClickHouse, а частные случаи в коде не оптимизировались до получения результатов. Похожим образом мы получили набор данных и для функциональных тестов.
После того, как ClickHouse вышел в опенсорс в 2016 году, к тестам стало больше вопросов.
https://habr.com/ru/company/yandex/blog/457354/
🔗 Обфускация данных для тестов производительности
Пользователи ClickHouse знают, что его главное преимущество — высокая скорость обработки аналитических запросов. Но как мы можем выдвигать такие утверждения? Это...
Хабр
Обфускация данных для тестов производительности
Пользователи ClickHouse знают, что его главное преимущество — высокая скорость обработки аналитических запросов. Но как мы можем выдвигать такие утверждения? Это должно подтверждаться тестами...
PyTorch
🔗 PyTorch
An open source deep learning platform that provides a seamless path from research prototyping to production deployment.
🔗 PyTorch
An open source deep learning platform that provides a seamless path from research prototyping to production deployment.
PyTorch
ResNext WSL
import torch
model = torch.hub.load('facebookresearch/WSL-Images', 'resnext101_32x8d_wsl')
# or
# model = torch.hub.load('facebookresearch/WSL-Images', 'resnext101_32x16d_wsl')
# or
# model = torch.hub.load('facebookresearch/WSL-Images', 'resnext101_32x32d_wsl')…
model = torch.hub.load('facebookresearch/WSL-Images', 'resnext101_32x8d_wsl')
# or
# model = torch.hub.load('facebookresearch/WSL-Images', 'resnext101_32x16d_wsl')
# or
# model = torch.hub.load('facebookresearch/WSL-Images', 'resnext101_32x32d_wsl')…
Вакансия: Data Scientist в команду Financial Crime Russia
Компания: Revolut Россия
Город: Москва
Вилка: гибкая, по результатам собеседования, компенсация кэш + опционы
О компании: Мы одна из самый быстрорастущих финтех компаний в мире (https://www.revolut.com/), по сути строим глобальный онлайн-банк без границ. Уже работаем на территории всего Евросоюза и Австралии. Недавно пробили 5 млн пользователей по миру. В планах на этот год запуск в России, США, Канаде, Сингапуре и Японии.
Что делать: Под запуск в России набираем выделенную команду Financial Crime - разработка моделей для выявления сомнительных финансовых операций, анализ изображений ID документов на подделки и много другого очень интересного. Много инструментов уже разработаны на глобальном уровне, нужна будет адаптация и развертывание в российском бэке + написание специфичных моделей под Россию.
Формальное описание вакансии тут:
https://www.revolut.com/careers/location/moscow#data-scientist-f5b9776f-5975-42a1-b8ba-787c27ff2843
🔗 Your Digital Banking Alternative | Revolut
A world beyond banking - a secure, mobile-based current account that allows you to hold, exchange and transfer without fees in 29 different currencies.
Компания: Revolut Россия
Город: Москва
Вилка: гибкая, по результатам собеседования, компенсация кэш + опционы
О компании: Мы одна из самый быстрорастущих финтех компаний в мире (https://www.revolut.com/), по сути строим глобальный онлайн-банк без границ. Уже работаем на территории всего Евросоюза и Австралии. Недавно пробили 5 млн пользователей по миру. В планах на этот год запуск в России, США, Канаде, Сингапуре и Японии.
Что делать: Под запуск в России набираем выделенную команду Financial Crime - разработка моделей для выявления сомнительных финансовых операций, анализ изображений ID документов на подделки и много другого очень интересного. Много инструментов уже разработаны на глобальном уровне, нужна будет адаптация и развертывание в российском бэке + написание специфичных моделей под Россию.
Формальное описание вакансии тут:
https://www.revolut.com/careers/location/moscow#data-scientist-f5b9776f-5975-42a1-b8ba-787c27ff2843
🔗 Your Digital Banking Alternative | Revolut
A world beyond banking - a secure, mobile-based current account that allows you to hold, exchange and transfer without fees in 29 different currencies.
Revolut
Revolut | All-in-one finance app for your money | Revolut United Kingdom
Join 60+ million customers globally using Revolut to send money to 160+ countries, hold up-to 36 currencies in app, spend in 150+ currencies, and manage their money.
🎥 When Deep Learning meets Production - Nadav Goldin - PyCon Israel 2019
👁 1 раз ⏳ 1286 сек.
👁 1 раз ⏳ 1286 сек.
When Deep Learning meets Production - Nadav Goldin - PyCon Israel 2019
Vk
When Deep Learning meets Production - Nadav Goldin - PyCon Israel 2019
🎥 Building text classifiers with Deep Learning frameworks - Inbal Horev - PyCon Israel 2019
👁 1 раз ⏳ 1200 сек.
👁 1 раз ⏳ 1200 сек.
Building text classifiers with state-of-the-art Deep Learning frameworks - Inbal Horev - PyCon Israel 2019
Vk
Building text classifiers with Deep Learning frameworks - Inbal Horev - PyCon Israel 2019
Building text classifiers with state-of-the-art Deep Learning frameworks - Inbal Horev - PyCon Israel 2019
🎥 Что такое bias-variance tradeoff? Погружение в свёрточные нейронные сети. Часть 5.
👁 2 раз ⏳ 850 сек.
👁 2 раз ⏳ 850 сек.
⚡⚡⚡ Введение в свёрточные нейронные сети (Convolutional Neural Networks)
Вводная часть к 5 главе курса.
- Что такое bias?
- Что такое variance?
- Что такое bias-variance tradeoff?
- 4 этапа "развития" обучающей модели (от необученной модели до переобученной)
- Почем именно компромисс и между чем?
- Что занимает 90% времени специалиста по машинному обучению?
💡 Меня интересуют следующие темы, а значит про них ты здесь и найдёшь больше всего информации:
- Технологии (разработка, программное обеспечение, МЛ,
Vk
Что такое bias-variance tradeoff? Погружение в свёрточные нейронные сети. Часть 5.
⚡⚡⚡ Введение в свёрточные нейронные сети (Convolutional Neural Networks)
Вводная часть к 5 главе курса.
- Что такое bias?
- Что такое variance?
- Что такое bias-variance tradeoff?
- 4 этапа "развития" обучающей модели (от необученной модели до переобученной)…
Вводная часть к 5 главе курса.
- Что такое bias?
- Что такое variance?
- Что такое bias-variance tradeoff?
- 4 этапа "развития" обучающей модели (от необученной модели до переобученной)…
Can Machine Learning Read Chest X-rays like Radiologists?
🔗 Can Machine Learning Read Chest X-rays like Radiologists?
Using adversarial networks to achieve human-level performance for chest x-ray organ segmentation
🔗 Can Machine Learning Read Chest X-rays like Radiologists?
Using adversarial networks to achieve human-level performance for chest x-ray organ segmentation
Towards Data Science
Can Machine Learning Read Chest X-rays like Radiologists?
Using adversarial networks to achieve human-level performance for chest x-ray organ segmentation
Deep dive into Catboost functionalities for model interpretation
🔗 Deep dive into Catboost functionalities for model interpretation
Do we really understand what happens inside ML models we build? Let’s explore.
🔗 Deep dive into Catboost functionalities for model interpretation
Do we really understand what happens inside ML models we build? Let’s explore.
Towards Data Science
Deep Dive into Catboost Functionalities for Model Interpretation
Do we really understand what happens inside ML models we build? Let’s explore.
🎥 Hidde Hovenkamp: SHAP and Beyond | PyData Amsterdam 2019
👁 1 раз ⏳ 1905 сек.
👁 1 раз ⏳ 1905 сек.
Single-image super-resolution (ISR) addresses the problem of reconstructing high-resolution images given their low-resolution (LR) counterparts. ISR finds use in various computer vision applications: from security and surveillance imaging, satellite imaging, medical imaging to object recognition. This ill-posed problem has multiple solutions for any LR input. Deep learning approaches, specifically convolutional neural networks (CNN) have proven to be able to achieve better results than the classic interpola
Vk
Hidde Hovenkamp: SHAP and Beyond | PyData Amsterdam 2019
Single-image super-resolution (ISR) addresses the problem of reconstructing high-resolution images given their low-resolution (LR) counterparts. ISR finds use in various computer vision applications: from security and surveillance imaging, satellite imaging…
🎥 Sebenz.ai: Alex Conway | PyData Amsterdam 2019
👁 1 раз ⏳ 1349 сек.
👁 1 раз ⏳ 1349 сек.
Sebenza means "work" in isiXhosa and isiZulu, two popular languages in South Africa. Our mission is to create 1 million jobs in Africa. There is 28% unemployment in South Africa right now. Most of those people have a smartphone and they all have free time.
Sebenz.ai has 2 parts: 1. A machine learning (ML) labeling game that creates jobs for people in Africa who earn money on their phones by labeling training data for ML models 2. An interface where customers upload their own unlabelled data and we train a
Vk
Sebenz.ai: Alex Conway | PyData Amsterdam 2019
Sebenza means "work" in isiXhosa and isiZulu, two popular languages in South Africa. Our mission is to create 1 million jobs in Africa. There is 28% unemployment in South Africa right now. Most of those people have a smartphone and they all have free time.…
Neural Networks for Music Generation
🔗 Neural Networks for Music Generation
Can we reproduce artists’ creativity through AI?
🔗 Neural Networks for Music Generation
Can we reproduce artists’ creativity through AI?
Towards Data Science
Neural Networks for Music Generation
Can we reproduce artists’ creativity through AI?
Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение
Представляю вашему вниманию перевод статьи «Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение» о том, как искусственный интеллект применяется для создания музыки. Автор не использует нейронные сети для генерации музыки, а подходит к задаче, исходя из знания теории музыки, на основе мелодии и гармонии. Другой особенностью статьи является метод сравнения музыкальных произведений на основе матриц самоподобия. Такой подход, конечно, не является исчерпывающим, но он полезен как промежуточный шаг для генерации качественной музыки методами машинного обучения.
https://habr.com/ru/company/lanit/blog/455742/
🔗 Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение
Представляю вашему вниманию перевод статьи «Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение» о том, как искусственный интелл...
Представляю вашему вниманию перевод статьи «Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение» о том, как искусственный интеллект применяется для создания музыки. Автор не использует нейронные сети для генерации музыки, а подходит к задаче, исходя из знания теории музыки, на основе мелодии и гармонии. Другой особенностью статьи является метод сравнения музыкальных произведений на основе матриц самоподобия. Такой подход, конечно, не является исчерпывающим, но он полезен как промежуточный шаг для генерации качественной музыки методами машинного обучения.
https://habr.com/ru/company/lanit/blog/455742/
🔗 Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение
Представляю вашему вниманию перевод статьи «Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение» о том, как искусственный интелл...
Хабр
Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение
Представляю вашему вниманию перевод статьи «Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение» о том, как искусственный интеллект применяется для создания музыки....
Нейронные сети
Наш телеграм канал - tglink.me/ai_machinelearning_big_data
Нейронные сети 1 Введение
Нейронные сети 2 Немного биологии
Нейронные сети 3 В целом об искусственной нейронной сети 1
Нейронные сети 4 Искусственный нейрон
Нейронные сети 5 Структура нейронной сети
Нейронные сети 6 Нюансы работы нейронной сети
Нейронные сети 7 Обучение сети
Нейронные сети 8 Технология обучения сети Часть 1
Нейронные сети 9 Технология обучения сети Часть 2
Нейронные сети 10 Работа одного нейрона
#ии #Нейронныесети
🎥 Нейронные сети 10 Работа одного нейрона
👁 3348 раз ⏳ 1003 сек.
🎥 Нейронные сети 9 Технология обучения сети Часть 2
👁 1510 раз ⏳ 905 сек.
🎥 Нейронные сети 8 Технология обучения сети Часть 1
👁 1246 раз ⏳ 1367 сек.
🎥 Нейронные сети 7 Обучение сети
👁 1260 раз ⏳ 1077 сек.
🎥 Нейронные сети 6 Нюансы работы нейронной сети
👁 1362 раз ⏳ 1396 сек.
🎥 Нейронные сети 5 Структура нейронной сети
👁 1709 раз ⏳ 905 сек.
🎥 Нейронные сети 4 Искусственный нейрон
👁 1999 раз ⏳ 601 сек.
🎥 Нейронные сети 2 Немного биологии
👁 2862 раз ⏳ 488 сек.
🎥 Нейронные сети 3 В целом об искусственной нейронной сети 1
👁 2724 раз ⏳ 535 сек.
🎥 Нейронные сети 1 Введение
👁 6407 раз ⏳ 509 сек.
Наш телеграм канал - tglink.me/ai_machinelearning_big_data
Нейронные сети 1 Введение
Нейронные сети 2 Немного биологии
Нейронные сети 3 В целом об искусственной нейронной сети 1
Нейронные сети 4 Искусственный нейрон
Нейронные сети 5 Структура нейронной сети
Нейронные сети 6 Нюансы работы нейронной сети
Нейронные сети 7 Обучение сети
Нейронные сети 8 Технология обучения сети Часть 1
Нейронные сети 9 Технология обучения сети Часть 2
Нейронные сети 10 Работа одного нейрона
#ии #Нейронныесети
🎥 Нейронные сети 10 Работа одного нейрона
👁 3348 раз ⏳ 1003 сек.
🎥 Нейронные сети 9 Технология обучения сети Часть 2
👁 1510 раз ⏳ 905 сек.
🎥 Нейронные сети 8 Технология обучения сети Часть 1
👁 1246 раз ⏳ 1367 сек.
🎥 Нейронные сети 7 Обучение сети
👁 1260 раз ⏳ 1077 сек.
🎥 Нейронные сети 6 Нюансы работы нейронной сети
👁 1362 раз ⏳ 1396 сек.
🎥 Нейронные сети 5 Структура нейронной сети
👁 1709 раз ⏳ 905 сек.
🎥 Нейронные сети 4 Искусственный нейрон
👁 1999 раз ⏳ 601 сек.
🎥 Нейронные сети 2 Немного биологии
👁 2862 раз ⏳ 488 сек.
🎥 Нейронные сети 3 В целом об искусственной нейронной сети 1
👁 2724 раз ⏳ 535 сек.
Видео взято с https://www.youtube.com/channel/UC5dqkmvoovlmFsFZ3ACAVTw
🎥 Нейронные сети 1 Введение
👁 6407 раз ⏳ 509 сек.
Видео взято с канала https://www.youtube.com/channel/UC5dqkmvoovlmFsFZ3ACAVTw
🎥 Machine Learning Software Engineering
👁 1 раз ⏳ 1010 сек.
👁 1 раз ⏳ 1010 сек.
Machine learning is the next generation of software engineering, and this means we need a start a cultural shift towards data scientists becoming active and productive participants in the software engineering process. A key part of this is reducing the friction for data scientists to think about coding “non-interactively” and building models and behavioural tests that can run as part of a DevOps pipeline.
Praneet Solanki from the Azure CAT team has been building out a reference architecture for this patte
Vk
Machine Learning Software Engineering
Machine learning is the next generation of software engineering, and this means we need a start a cultural shift towards data scientists becoming active and productive participants in the software engineering process. A key part of this is reducing the friction…
🎥 Credit Card Fraud Detection using Machine Learning from Kaggle
👁 1 раз ⏳ 1114 сек.
👁 1 раз ⏳ 1114 сек.
The Credit Card Fraud Detection Problem includes modeling past credit card transactions with the knowledge of the ones that turned out to be fraud. This model is then used to identify whether a new transaction is fraudulent or not.
Github Url: https://github.com/krishnaik06/Credit-Card-Fraudlent
Data Science Interview Question playlist: https://www.youtube.com/watch?v=820Qr4BH0YM&list=PLZoTAELRMXVPkl7oRvzyNnyj1HS4wt2K-
Data Science Projects playlist: https://www.youtube.com/watch?v=5Txi0nHIe0o&list=PLZoT
Vk
Credit Card Fraud Detection using Machine Learning from Kaggle
The Credit Card Fraud Detection Problem includes modeling past credit card transactions with the knowledge of the ones that turned out to be fraud. This model is then used to identify whether a new transaction is fraudulent or not.
Github Url: https://g…
Github Url: https://g…
🎥 PyMC3 — Bayesian Statistical Modelling in Python / PyDaCon
👁 1 раз ⏳ 1832 сек.
👁 1 раз ⏳ 1832 сек.
22 июня Mail.ru Group прошел совместный митап с организаторами конференции PyCon Russia.
Вас ждут 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup.
«PyMC3 — Bayesian Statistical Modelling in Python»
Максим Кочуров, PyMC Dev / Samsung AI / Skoltech
Байесовская статистика в последнее время стала обсуждаться в контексте глубокого обучения. К сожалению, это скрывает главное ее преимущество по сравнению со станд
Vk
PyMC3 — Bayesian Statistical Modelling in Python / PyDaCon
22 июня Mail.ru Group прошел совместный митап с организаторами конференции PyCon Russia.
Вас ждут 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup.
«PyMC3…
Вас ждут 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup.
«PyMC3…
🎥 CVPR 2019 Oral Session 2-1C: Motion & Biometrics
👁 1 раз ⏳ 5709 сек.
👁 1 раз ⏳ 5709 сек.
0:00 Learning Optical Flow with Occlusion Hallucination Pengpeng Liu (The Chinese University of Hong Kong)*; Michael Lyu (The Chinese University of Hong Kong); Irwin King (The Chinese University of Hong Kong); Jia Xu (Tencent AI Lab)
5:10 Taking a Deeper Look at the Inverse Compositional Algorithm Zhaoyang Lv (GEORGIA TECH)*; Frank Dellaert (Georgia Tech); James Rehg (Georgia Institute of Technology); Andreas Geiger (MPI-IS and University of Tuebingen)
10:10 Deeper and Wider Siamese Networks for Real-Time
Vk
CVPR 2019 Oral Session 2-1C: Motion & Biometrics
0:00 Learning Optical Flow with Occlusion Hallucination Pengpeng Liu (The Chinese University of Hong Kong)*; Michael Lyu (The Chinese University of Hong Kong); Irwin King (The Chinese University of Hong Kong); Jia Xu (Tencent AI Lab)
5:10 Taking a Deeper…
5:10 Taking a Deeper…
Innovations in Graph Representation Learning
http://ai.googleblog.com/2019/06/innovations-in-graph-representation.html
🔗 Innovations in Graph Representation Learning
Posted by Alessandro Epasto, Senior Research Scientist and Bryan Perozzi, Senior Research Scientist, Graph Mining Team Relational data r...
http://ai.googleblog.com/2019/06/innovations-in-graph-representation.html
🔗 Innovations in Graph Representation Learning
Posted by Alessandro Epasto, Senior Research Scientist and Bryan Perozzi, Senior Research Scientist, Graph Mining Team Relational data r...
blog.research.google
Innovations in Graph Representation Learning
🎥 Оформление пайплайна в NLP проекте / PyDaCon
👁 1 раз ⏳ 1970 сек.
👁 1 раз ⏳ 1970 сек.
22 июня Mail.ru Group прошел совместный митап с организаторами конференции PyCon Russia.
Вас ждут 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup.
«Оформление пайплайна в NLP проекте»
Виталий Радченко, Data Scientist, YouScan
Сейчас многие компании решают разные NLP-задачи (классификация, чат-боты, кластеризация, вопросное-ответные системы и др.) и с накоплением опыта стали вырабатываться наиболее эффект
Vk
Оформление пайплайна в NLP проекте / PyDaCon
22 июня Mail.ru Group прошел совместный митап с организаторами конференции PyCon Russia.
Вас ждут 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup.
«Оформление…
Вас ждут 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup.
«Оформление…
Exploring New York City water tank inspection data.
🔗 Exploring New York City water tank inspection data.
My approach to exploring, analyzing and visualizing real estate data using Python and Plotly.
🔗 Exploring New York City water tank inspection data.
My approach to exploring, analyzing and visualizing real estate data using Python and Plotly.
Towards Data Science
Exploring New York City water tank inspection data.
My approach to exploring, analyzing and visualizing real estate data using Python and Plotly.