🚨10 artigos que todo cientista de dados deveria ler 🚨
Há muitos artigos sobre Ciência de Dados na web, mas encontrar os mais importantes é um desafio. Aqui listo 10 artigos que recomendo fortemente a leitura.
1 - What are the most important statistical ideas of the past 50 years?, Gelman et al, Journal of the American Statistical, 2021
https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081
2 - Statistical modeling: The two cultures, L Breiman - Statistical science, 2001
https://projecteuclid.org/journals/statistical-science/volume-16/issue-3/Statistical-Modeling--The-Two-Cultures-with-comments-and-a/10.1214/ss/1009213726.full
3 - The Deluge of Spurious Correlations in Big Data, CS Calude, G Longo, Foundations of science, 2017
https://hal.science/hal-01380626/file/BigData-Calude-LongoAug21.pdf
4 - Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, Greenland et al., European journal of epidemiology, 2016
https://link.springer.com/article/10.1007/s10654-016-0149-3
5 - A few useful things to know about machine learning, P. Domingos, Communications of the ACM, 2012
https://dl.acm.org/doi/pdf/10.1145/2347736.2347755
6 - Bootstrap Confidence Intervals, T. J. DiCiccio and B. Efron, Statistical Science, 1996
https://projecteuclid.org/journals/statistical-science/volume-11/issue-3/Bootstrap-confidence-intervals/10.1214/ss/1032280214.full
7 - Understanding neural networks as statistical tools, Warner and Misra, The american statistician, 1996
https://www.tandfonline.com/doi/abs/10.1080/00031305.1996.10473554
8 - A high-bias, low-variance introduction to Machine Learning for physicists, Mehta et al, Physics Reports, 20190627
https://arxiv.org/abs/1803.08823
9 - Principal component analysis: A natural approach to data exploration, Silva et al, ACM Computing Surveys, 2021.
https://arxiv.org/abs/1804.02502
10 - Bayesian statistics and modelling, Rens van de Schoot et al., Nature Reviews, 2021.
https://www.nature.com/articles/s43586-020-00001-2
Obs: Para aqueles que tem dificuldades com a língua inglesa, sugiro usar:
https://translate.google.com
Não é perfeito, mas pode ajudar.
Há muitos artigos sobre Ciência de Dados na web, mas encontrar os mais importantes é um desafio. Aqui listo 10 artigos que recomendo fortemente a leitura.
1 - What are the most important statistical ideas of the past 50 years?, Gelman et al, Journal of the American Statistical, 2021
https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081
2 - Statistical modeling: The two cultures, L Breiman - Statistical science, 2001
https://projecteuclid.org/journals/statistical-science/volume-16/issue-3/Statistical-Modeling--The-Two-Cultures-with-comments-and-a/10.1214/ss/1009213726.full
3 - The Deluge of Spurious Correlations in Big Data, CS Calude, G Longo, Foundations of science, 2017
https://hal.science/hal-01380626/file/BigData-Calude-LongoAug21.pdf
4 - Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, Greenland et al., European journal of epidemiology, 2016
https://link.springer.com/article/10.1007/s10654-016-0149-3
5 - A few useful things to know about machine learning, P. Domingos, Communications of the ACM, 2012
https://dl.acm.org/doi/pdf/10.1145/2347736.2347755
6 - Bootstrap Confidence Intervals, T. J. DiCiccio and B. Efron, Statistical Science, 1996
https://projecteuclid.org/journals/statistical-science/volume-11/issue-3/Bootstrap-confidence-intervals/10.1214/ss/1032280214.full
7 - Understanding neural networks as statistical tools, Warner and Misra, The american statistician, 1996
https://www.tandfonline.com/doi/abs/10.1080/00031305.1996.10473554
8 - A high-bias, low-variance introduction to Machine Learning for physicists, Mehta et al, Physics Reports, 20190627
https://arxiv.org/abs/1803.08823
9 - Principal component analysis: A natural approach to data exploration, Silva et al, ACM Computing Surveys, 2021.
https://arxiv.org/abs/1804.02502
10 - Bayesian statistics and modelling, Rens van de Schoot et al., Nature Reviews, 2021.
https://www.nature.com/articles/s43586-020-00001-2
Obs: Para aqueles que tem dificuldades com a língua inglesa, sugiro usar:
https://translate.google.com
Não é perfeito, mas pode ajudar.
Taylor & Francis
What are the Most Important Statistical Ideas of the Past 50 Years?
We review the most important statistical ideas of the past half century, which we categorize as: counterfactual causal inference, bootstrapping and simulation-based inference, overparameterized mod...
❤24💯3👏2👍1
O curso de IA da USP está online:
https://www.youtube.com/playlist?list=PL4w4yEaOWuOY-Ke-SON7F-xLUr4JXoXM4
https://www.youtube.com/playlist?list=PL4w4yEaOWuOY-Ke-SON7F-xLUr4JXoXM4
❤17👍8
Site interessante para aprender conceitos de estatística online. É possível carregar dados no formato csv e executar as análises:
https://www.estimationstats.com/#/
https://www.estimationstats.com/#/
❤15👍3⚡1
Livros, vídeos e cursos para entender inferência Bayesiana
📚 Books:
* Bayesian Methods for Hackers (How to implement models in Python)
https://lnkd.in/drxvT_gv
* An Introduction to Bayesian Thinking
https://lnkd.in/dhWYGU-4
* Bayesian Modeling and Computation in Python
https://lnkd.in/dEcuawEX
📺 Videos:
* Bayes' theorem, the geometry of changing beliefs
https://lnkd.in/d9-P_idU
* The Bayesian Trap
https://lnkd.in/d-zaWsdb
* Bayesian statistics made simple - PyCon 2016
https://lnkd.in/dEJWnrf3
* A visual guide to Bayesian thinking
https://lnkd.in/d6szUv4C
👨🎓 Courses:
* Bayesian Statistics
https://lnkd.in/dTGk9mrN
* Bayesian Statistics: From Concept to Data Analysis
https://lnkd.in/dcUCVi_F
* Introduction to Bayesian Statistics Using R
https://lnkd.in/dHUN-K45
🇧🇷 Para quem não tem nenhum conhecimento sobre o pensamento Bayesiano, recomendo o livro de Steven Pinker, Racionalidade, capítulos 4 e 5:
https://amzn.to/3JBUIqT
📚 Books:
* Bayesian Methods for Hackers (How to implement models in Python)
https://lnkd.in/drxvT_gv
* An Introduction to Bayesian Thinking
https://lnkd.in/dhWYGU-4
* Bayesian Modeling and Computation in Python
https://lnkd.in/dEcuawEX
📺 Videos:
* Bayes' theorem, the geometry of changing beliefs
https://lnkd.in/d9-P_idU
* The Bayesian Trap
https://lnkd.in/d-zaWsdb
* Bayesian statistics made simple - PyCon 2016
https://lnkd.in/dEJWnrf3
* A visual guide to Bayesian thinking
https://lnkd.in/d6szUv4C
👨🎓 Courses:
* Bayesian Statistics
https://lnkd.in/dTGk9mrN
* Bayesian Statistics: From Concept to Data Analysis
https://lnkd.in/dcUCVi_F
* Introduction to Bayesian Statistics Using R
https://lnkd.in/dHUN-K45
🇧🇷 Para quem não tem nenhum conhecimento sobre o pensamento Bayesiano, recomendo o livro de Steven Pinker, Racionalidade, capítulos 4 e 5:
https://amzn.to/3JBUIqT
❤8💯2👍1
🚨Curso de Ciência de Dados. As inscrições se encerram hoje (05/05/24):
A Escola Nacional de Ciências Estatísticas (ENCE) do Instituto Brasileiro de Geografia e Estatística (IBGE) está com inscrições abertas até 05 de maio para o curso de extensão Introdução à Ciência de Dados, turma de 2024. Gratuito, o curso é voltado para quem busca entender os fundamentos e a aplicabilidade da ciência de dados no mundo real.
https://agenciadenoticias.ibge.gov.br/agencia-noticias/2012-agencia-de-noticias/noticias/39831-ence-abre-inscricoes-para-o-curso-introducao-a-ciencia-de-dados
A Escola Nacional de Ciências Estatísticas (ENCE) do Instituto Brasileiro de Geografia e Estatística (IBGE) está com inscrições abertas até 05 de maio para o curso de extensão Introdução à Ciência de Dados, turma de 2024. Gratuito, o curso é voltado para quem busca entender os fundamentos e a aplicabilidade da ciência de dados no mundo real.
https://agenciadenoticias.ibge.gov.br/agencia-noticias/2012-agencia-de-noticias/noticias/39831-ence-abre-inscricoes-para-o-curso-introducao-a-ciencia-de-dados
Agência de Notícias - IBGE
ENCE abre inscrições para o curso Introdução à Ciência de Dados | Agência de Notícias
A Escola Nacional de Ciências Estatísticas (ENCE) do Instituto Brasileiro de Geografia e Estatística (IBGE) está com...
❤3👍2
Apresentar os resultados é sempre um desafio. Nesse site há centenas de gráficos que podem ser feitos em Python.
https://www.python-graph-gallery.com/
https://www.python-graph-gallery.com/
The Python Graph Gallery
Python Graph Gallery
The Python Graph Gallery displays hundreds of charts made with Python, always with explanation and reproduciible code
❤19👍2👏1
🚨13 Cursos gratuitos sobre Ciência de Dados oferecidos pelo Governo Federal: 👇👇👇
* Estatística
https://www.escolavirtual.gov.br/curso/96
* Aprendendo com Python
https://www.escolavirtual.gov.br/curso/629/
* Análise de Dados em Linguagem R
https://www.escolavirtual.gov.br/curso/325
* Inteligência Artificial Generativa
https://www.escolavirtual.gov.br/curso/1091
* Big Data em Apoio à Tomada de Decisão
https://www.escolavirtual.gov.br/curso/800
* Estatística para Análise de Dados na Administração Pública
https://www.escolavirtual.gov.br/curso/930
* Visualização de Dados Aplicada à Transformação Digital
https://www.escolavirtual.gov.br/curso/802
* Storytelling com Dados para Comunicação Profissional de Sucesso
https://www.escolavirtual.gov.br/curso/815
* Aplicação do Power BI para Aprimoramento da Gestão
https://www.escolavirtual.gov.br/curso/840
* Governança de Dados na Transformação Digital
https://www.escolavirtual.gov.br/curso/536
* Governança de Dados
https://www.escolavirtual.gov.br/curso/270
* Introdução ao Excel
https://www.escolavirtual.gov.br/curso/459
* Fundamentos da Lei Geral de Proteção de Dados
https://www.escolavirtual.gov.br/curso/603
* Estatística
https://www.escolavirtual.gov.br/curso/96
* Aprendendo com Python
https://www.escolavirtual.gov.br/curso/629/
* Análise de Dados em Linguagem R
https://www.escolavirtual.gov.br/curso/325
* Inteligência Artificial Generativa
https://www.escolavirtual.gov.br/curso/1091
* Big Data em Apoio à Tomada de Decisão
https://www.escolavirtual.gov.br/curso/800
* Estatística para Análise de Dados na Administração Pública
https://www.escolavirtual.gov.br/curso/930
* Visualização de Dados Aplicada à Transformação Digital
https://www.escolavirtual.gov.br/curso/802
* Storytelling com Dados para Comunicação Profissional de Sucesso
https://www.escolavirtual.gov.br/curso/815
* Aplicação do Power BI para Aprimoramento da Gestão
https://www.escolavirtual.gov.br/curso/840
* Governança de Dados na Transformação Digital
https://www.escolavirtual.gov.br/curso/536
* Governança de Dados
https://www.escolavirtual.gov.br/curso/270
* Introdução ao Excel
https://www.escolavirtual.gov.br/curso/459
* Fundamentos da Lei Geral de Proteção de Dados
https://www.escolavirtual.gov.br/curso/603
❤12👏9⚡3
Para quem estiver em São Carlos, teremos um workshop nos dias 21 e 22 de maio. O evento é gratuito e aberto a todos os interessados. Será no anfiteatro Fernão Rodrigues Germano, do ICMC-USP.
https://cemeai.icmc.usp.br/workshop-ira-aprimorar-estudos-em-redes-complexas-e-ciencia-de-dados/
https://cemeai.icmc.usp.br/workshop-ira-aprimorar-estudos-em-redes-complexas-e-ciencia-de-dados/
❤4
Curso de Séries Temporais no Coursera, gratuito:
https://www.coursera.org/learn/practical-time-series-analysis
https://www.coursera.org/learn/practical-time-series-analysis
❤14👍2💯1
Canal interessante com vídeos sobre diversas linguagens de programação. É possível colocar legendas em português:
https://www.youtube.com/@BroCodez/playlists
https://www.youtube.com/@BroCodez/playlists
❤8👍5
🚨Matemática para Machine Learning: Livro com vídeos: 👇
📘Livro: https://skim.math.msstate.edu/LectureNotes/Machine_Learning_Lecture.pdf
🎞Vídeos: https://www.youtube.com/@mathtalent
📘Livro: https://skim.math.msstate.edu/LectureNotes/Machine_Learning_Lecture.pdf
🎞Vídeos: https://www.youtube.com/@mathtalent
❤13👍6
🚨Biblioteca interessante para processamento de séries temporais em Python. 🐍
sktime is a library for time series analysis in Python. It provides a unified interface for multiple time series learning tasks. Currently, this includes time series classification, regression, clustering, annotation, and forecasting. It comes with time series algorithms and scikit-learn compatible tools to build, tune and validate time series models.
https://github.com/sktime/sktime
sktime is a library for time series analysis in Python. It provides a unified interface for multiple time series learning tasks. Currently, this includes time series classification, regression, clustering, annotation, and forecasting. It comes with time series algorithms and scikit-learn compatible tools to build, tune and validate time series models.
https://github.com/sktime/sktime
GitHub
GitHub - sktime/sktime: A unified framework for machine learning with time series
A unified framework for machine learning with time series - sktime/sktime
❤8👍3🤔1
🚨 Séries temporais: Livro, cursos, tutoriais, pacotes
Um dos tipos de dados mais importantes, mas desconhecido por muitos cientistas de dados, são as séries temporais. Há vários recursos para aprender sobre o seu processamento na web. Segue uma lista de materiais.
📚 Books (online):
* Forecasting: Principles and Practice
https://otexts.com/fpp3/
* Time Series Analysis and Its Applications
http://www.stat.ucla.edu/~frederic/415/S23/tsa4.pdf
* Forecasting in Economics, Business, Finance and Beyond
https://www.sas.upenn.edu/~fdiebold/Teaching221/Forecasting.pdf
* Time Series for Macroeconomics and Finance
https://lnkd.in/dBB9QCWR
🎓 Courses;
* Practical Time Series Analysis
https://www.coursera.org/learn/practical-time-series-analysis/home/week/1
* Bayesian Statistics: Time Series Analysis
https://www.coursera.org/programs/universidade-de-sao-paulo-br-on-coursera-mvxtw/learn/bayesian-statistics-time-series-analysis?source=search
* Introduction to Predictive Modeling
https://www.coursera.org/programs/universidade-de-sao-paulo-br-on-coursera-mvxtw/learn/introduction-to-predictive-modeling?source=search
* SP18: Time Series Analysis
https://learning.edx.org/course/course-v1:GTx+ISYE6402x+1T2018/home
👨🏫 Tutorials:
* ARIMA and SARIMAX models with Python
https://cienciadedatos.net/documentos/py51-arima-sarimax-models-python.html
* Skforecast: time series forecasting with Python and Scikit-learn
https://colab.research.google.com/drive/1X1DJF4pZlklIt5srQnyTYoyFVLunr_OQ#scrollTo=vvBIDvXfFyTF
📈 Packages:
* Darts
https://unit8co.github.io/darts/
* PyTorch Forecasting
https://github.com/jdb78/pytorch-forecasting
* Prophet:
https://facebook.github.io/prophet/
* Auto_TS:
https://github.com/AutoViML/Auto_TS
* ETNA:
https://github.com/tinkoff-ai/etna
* Kats:
https://github.com/facebookresearch/Kats
* Merlion:
https://github.com/salesforce/Merlion
* Pycaret:
https://github.com/pycaret/pycaret
* Sktime:
https://github.com/sktime/sktime
Um dos tipos de dados mais importantes, mas desconhecido por muitos cientistas de dados, são as séries temporais. Há vários recursos para aprender sobre o seu processamento na web. Segue uma lista de materiais.
📚 Books (online):
* Forecasting: Principles and Practice
https://otexts.com/fpp3/
* Time Series Analysis and Its Applications
http://www.stat.ucla.edu/~frederic/415/S23/tsa4.pdf
* Forecasting in Economics, Business, Finance and Beyond
https://www.sas.upenn.edu/~fdiebold/Teaching221/Forecasting.pdf
* Time Series for Macroeconomics and Finance
https://lnkd.in/dBB9QCWR
🎓 Courses;
* Practical Time Series Analysis
https://www.coursera.org/learn/practical-time-series-analysis/home/week/1
* Bayesian Statistics: Time Series Analysis
https://www.coursera.org/programs/universidade-de-sao-paulo-br-on-coursera-mvxtw/learn/bayesian-statistics-time-series-analysis?source=search
* Introduction to Predictive Modeling
https://www.coursera.org/programs/universidade-de-sao-paulo-br-on-coursera-mvxtw/learn/introduction-to-predictive-modeling?source=search
* SP18: Time Series Analysis
https://learning.edx.org/course/course-v1:GTx+ISYE6402x+1T2018/home
👨🏫 Tutorials:
* ARIMA and SARIMAX models with Python
https://cienciadedatos.net/documentos/py51-arima-sarimax-models-python.html
* Skforecast: time series forecasting with Python and Scikit-learn
https://colab.research.google.com/drive/1X1DJF4pZlklIt5srQnyTYoyFVLunr_OQ#scrollTo=vvBIDvXfFyTF
📈 Packages:
* Darts
https://unit8co.github.io/darts/
* PyTorch Forecasting
https://github.com/jdb78/pytorch-forecasting
* Prophet:
https://facebook.github.io/prophet/
* Auto_TS:
https://github.com/AutoViML/Auto_TS
* ETNA:
https://github.com/tinkoff-ai/etna
* Kats:
https://github.com/facebookresearch/Kats
* Merlion:
https://github.com/salesforce/Merlion
* Pycaret:
https://github.com/pycaret/pycaret
* Sktime:
https://github.com/sktime/sktime
Otexts
Forecasting: Principles and Practice (3rd ed)
3rd edition
❤16👏5👍2
time-series-python.pdf
15.3 MB
Dois artigos importantes para aprender sobre séries temporais:
📑 A Basic Time Series Forecasting Course with Python 🐍
https://lnkd.in/dhqX3mS9
📑 Forecast evaluation for data scientists: common pitfalls and best practices
https://lnkd.in/ds3eEbxD
📑 A Basic Time Series Forecasting Course with Python 🐍
https://lnkd.in/dhqX3mS9
📑 Forecast evaluation for data scientists: common pitfalls and best practices
https://lnkd.in/ds3eEbxD
❤8🥰3👏2💯1
Edital de Abertura SME 060 abstract.pdf
242.7 KB
🚨Oportunidade: Concurso para professor na USP - São Carlos, em Ciência de Dados 🎓
Inscrições abertas até 11.07.2024.
🏛 Concurso Público para provimento de 01 (um) cargo de Professor Doutor, Ref. MS-3, em Regime de Dedicação Integral à Docência e à Pesquisa (RDIDP), para o Departamento de Matemática Aplicada e Estatística. A área de conhecimento é hashtag#Cienciadedados, nas especialidades Ciência de dados e Otimização.
O candidat@ deve escolher uma das áreas para fazer as provas.
Inscrições abertas até 11.07.2024.
🏛 Concurso Público para provimento de 01 (um) cargo de Professor Doutor, Ref. MS-3, em Regime de Dedicação Integral à Docência e à Pesquisa (RDIDP), para o Departamento de Matemática Aplicada e Estatística. A área de conhecimento é hashtag#Cienciadedados, nas especialidades Ciência de dados e Otimização.
O candidat@ deve escolher uma das áreas para fazer as provas.
❤4👍1
5 Cursos de Python gratuitos na Coursera:
🐍 Crash Course on Python
https://www.coursera.org/learn/python-crash-course
🐍 Python for Data Science, AI & Development
https://www.coursera.org/learn/python-for-applied-data-science-ai
🐍 Get Started with Python
https://www.coursera.org/learn/get-started-with-python
🐍 Python Basics
https://www.coursera.org/learn/python-basics
🐍 Data Analysis with Python
https://www.coursera.org/learn/data-analysis-with-python
🐍 Crash Course on Python
https://www.coursera.org/learn/python-crash-course
🐍 Python for Data Science, AI & Development
https://www.coursera.org/learn/python-for-applied-data-science-ai
🐍 Get Started with Python
https://www.coursera.org/learn/get-started-with-python
🐍 Python Basics
https://www.coursera.org/learn/python-basics
🐍 Data Analysis with Python
https://www.coursera.org/learn/data-analysis-with-python
Coursera
Crash Course on Python
Offered by Google. This course is designed to teach you ... Enroll for free.
❤4👍2
🚨Curso gratuito oferecido pela USP: (5 mil vagas!) 👇
"Construção de website utilizando tecnologia Google: o primeiro site a gente nunca esquece"
- transmissão pelo YouTube
- realização: 28 de agosto (14h30min - 17h30min)
Inscrições até 27/08/2024
link para inscrição: https://uspdigital.usp.br/apolo/inscricaoPublicaFormTurmaListar?codund=74&codcurceu=740400052&codedicurceu=24002&numseqofeedi=1&oriins=W
Programa:
https://uspdigital.usp.br/apolo/apoListarCursoNome?nom_curso=google&nomeAreaConhecimento=&submit=buscar
"Construção de website utilizando tecnologia Google: o primeiro site a gente nunca esquece"
- transmissão pelo YouTube
- realização: 28 de agosto (14h30min - 17h30min)
Inscrições até 27/08/2024
link para inscrição: https://uspdigital.usp.br/apolo/inscricaoPublicaFormTurmaListar?codund=74&codcurceu=740400052&codedicurceu=24002&numseqofeedi=1&oriins=W
Programa:
https://uspdigital.usp.br/apolo/apoListarCursoNome?nom_curso=google&nomeAreaConhecimento=&submit=buscar
❤3👍3
Um dos principais desafios na Ciência de Dados é o desbalanceamento dos dados. Por exemplo, em bases de dados de instituições financeiras, apenas uma pequena parcela dos usuários comete fraudes. Para lidar com o desbalanceamento, existem diversas técnicas disponíveis. A seguir, apresentamos uma lista de materiais úteis:
📚 Book: Machine Learning for Imbalanced Data
https://lnkd.in/devmVFi3
📑 Papers:
🔴 Learning from Imbalanced Data
https://lnkd.in/dMPp-kGj
🔴 A Survey of Predictive Modeling on Imbalanced Domains
https://lnkd.in/dqbCDkAQ
🔴 A Systematic Review on Imbalanced Data Challenges in Machine Learning: Applications and Solutions
https://lnkd.in/dp2Pwmzi
💻 Library:
imbalanced-learn https://lnkd.in/d_pHc5hB
📚 Book: Machine Learning for Imbalanced Data
https://lnkd.in/devmVFi3
📑 Papers:
🔴 Learning from Imbalanced Data
https://lnkd.in/dMPp-kGj
🔴 A Survey of Predictive Modeling on Imbalanced Domains
https://lnkd.in/dqbCDkAQ
🔴 A Systematic Review on Imbalanced Data Challenges in Machine Learning: Applications and Solutions
https://lnkd.in/dp2Pwmzi
💻 Library:
imbalanced-learn https://lnkd.in/d_pHc5hB
❤13👍4
Esses são os artigos sobre dados desbalanceados que citei acima. 👇
👍3