Ciência de Dados Complexos
4.7K subscribers
223 photos
118 files
1.16K links
Canal sobre Ciência de Dados e IA, onde divulgamos livros, tutoriais, cursos, palestras e muito mais. Tudo gratuito. Gerenciado pelo prof. Francisco Rodrigues (USP). Aulas online sobre Estatística e CD no Youtube: https://youtube.com/franciscorodrigues
Download Telegram
7💯2👍1
🚨10 artigos que todo cientista de dados deveria ler 🚨
Há muitos artigos sobre Ciência de Dados na web, mas encontrar os mais importantes é um desafio. Aqui listo 10 artigos que recomendo fortemente a leitura.

1 - What are the most important statistical ideas of the past 50 years?, Gelman et al, Journal of the American Statistical, 2021
https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081

2 - Statistical modeling: The two cultures, L Breiman - Statistical science, 2001
https://projecteuclid.org/journals/statistical-science/volume-16/issue-3/Statistical-Modeling--The-Two-Cultures-with-comments-and-a/10.1214/ss/1009213726.full

3 - The Deluge of Spurious Correlations in Big Data, CS Calude, G Longo, Foundations of science, 2017
https://hal.science/hal-01380626/file/BigData-Calude-LongoAug21.pdf

4 - Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, Greenland et al., European journal of epidemiology, 2016
https://link.springer.com/article/10.1007/s10654-016-0149-3

5 - A few useful things to know about machine learning, P. Domingos, Communications of the ACM, 2012
https://dl.acm.org/doi/pdf/10.1145/2347736.2347755

6 - Bootstrap Confidence Intervals, T. J. DiCiccio and B. Efron, Statistical Science, 1996
https://projecteuclid.org/journals/statistical-science/volume-11/issue-3/Bootstrap-confidence-intervals/10.1214/ss/1032280214.full

7 - Understanding neural networks as statistical tools, Warner and Misra, The american statistician, 1996
https://www.tandfonline.com/doi/abs/10.1080/00031305.1996.10473554

8 - A high-bias, low-variance introduction to Machine Learning for physicists, Mehta et al, Physics Reports, 20190627
https://arxiv.org/abs/1803.08823

9 - Principal component analysis: A natural approach to data exploration, Silva et al, ACM Computing Surveys, 2021.
https://arxiv.org/abs/1804.02502

10 - Bayesian statistics and modelling, Rens van de Schoot et al., Nature Reviews, 2021.
https://www.nature.com/articles/s43586-020-00001-2

Obs: Para aqueles que tem dificuldades com a língua inglesa, sugiro usar:
https://translate.google.com
Não é perfeito, mas pode ajudar.
24💯3👏2👍1
17👍8
Site interessante para aprender conceitos de estatística online. É possível carregar dados no formato csv e executar as análises:
https://www.estimationstats.com/#/
15👍31
Livros, vídeos e cursos para entender inferência Bayesiana

📚 Books:
* Bayesian Methods for Hackers (How to implement models in Python)
https://lnkd.in/drxvT_gv

* An Introduction to Bayesian Thinking
https://lnkd.in/dhWYGU-4

* Bayesian Modeling and Computation in Python
https://lnkd.in/dEcuawEX

📺 Videos:
* Bayes' theorem, the geometry of changing beliefs
https://lnkd.in/d9-P_idU

* The Bayesian Trap
https://lnkd.in/d-zaWsdb

* Bayesian statistics made simple - PyCon 2016
https://lnkd.in/dEJWnrf3

* A visual guide to Bayesian thinking
https://lnkd.in/d6szUv4C

👨‍🎓 Courses:
* Bayesian Statistics
https://lnkd.in/dTGk9mrN

* Bayesian Statistics: From Concept to Data Analysis
https://lnkd.in/dcUCVi_F

* Introduction to Bayesian Statistics Using R
https://lnkd.in/dHUN-K45

🇧🇷 Para quem não tem nenhum conhecimento sobre o pensamento Bayesiano, recomendo o livro de Steven Pinker, Racionalidade, capítulos 4 e 5:
https://amzn.to/3JBUIqT
8💯2👍1
🚨Curso de Ciência de Dados. As inscrições se encerram hoje (05/05/24):

A Escola Nacional de Ciências Estatísticas (ENCE) do Instituto Brasileiro de Geografia e Estatística (IBGE) está com inscrições abertas até 05 de maio para o curso de extensão Introdução à Ciência de Dados, turma de 2024. Gratuito, o curso é voltado para quem busca entender os fundamentos e a aplicabilidade da ciência de dados no mundo real.
https://agenciadenoticias.ibge.gov.br/agencia-noticias/2012-agencia-de-noticias/noticias/39831-ence-abre-inscricoes-para-o-curso-introducao-a-ciencia-de-dados
3👍2
Apresentar os resultados é sempre um desafio. Nesse site há centenas de gráficos que podem ser feitos em Python.
https://www.python-graph-gallery.com/
19👍2👏1
🚨13 Cursos gratuitos sobre Ciência de Dados oferecidos pelo Governo Federal: 👇👇👇

* Estatística
https://www.escolavirtual.gov.br/curso/96

* Aprendendo com Python
https://www.escolavirtual.gov.br/curso/629/

* Análise de Dados em Linguagem R
https://www.escolavirtual.gov.br/curso/325

* Inteligência Artificial Generativa
https://www.escolavirtual.gov.br/curso/1091

* Big Data em Apoio à Tomada de Decisão
https://www.escolavirtual.gov.br/curso/800

* Estatística para Análise de Dados na Administração Pública
https://www.escolavirtual.gov.br/curso/930

* Visualização de Dados Aplicada à Transformação Digital
https://www.escolavirtual.gov.br/curso/802

* Storytelling com Dados para Comunicação Profissional de Sucesso
https://www.escolavirtual.gov.br/curso/815

* Aplicação do Power BI para Aprimoramento da Gestão
https://www.escolavirtual.gov.br/curso/840

* Governança de Dados na Transformação Digital
https://www.escolavirtual.gov.br/curso/536

* Governança de Dados
https://www.escolavirtual.gov.br/curso/270

* Introdução ao Excel
https://www.escolavirtual.gov.br/curso/459

* Fundamentos da Lei Geral de Proteção de Dados
https://www.escolavirtual.gov.br/curso/603
12👏93
Para quem estiver em São Carlos, teremos um workshop nos dias 21 e 22 de maio. O evento é gratuito e aberto a todos os interessados. Será no anfiteatro Fernão Rodrigues Germano, do ICMC-USP.

https://cemeai.icmc.usp.br/workshop-ira-aprimorar-estudos-em-redes-complexas-e-ciencia-de-dados/
4
Curso de Séries Temporais no Coursera, gratuito:
https://www.coursera.org/learn/practical-time-series-analysis
14👍2💯1
Canal interessante com vídeos sobre diversas linguagens de programação. É possível colocar legendas em português:
https://www.youtube.com/@BroCodez/playlists
8👍5
🚨Matemática para Machine Learning: Livro com vídeos: 👇
📘Livro: https://skim.math.msstate.edu/LectureNotes/Machine_Learning_Lecture.pdf
🎞Vídeos: https://www.youtube.com/@mathtalent
13👍6
🚨Biblioteca interessante para processamento de séries temporais em Python. 🐍

sktime is a library for time series analysis in Python. It provides a unified interface for multiple time series learning tasks. Currently, this includes time series classification, regression, clustering, annotation, and forecasting. It comes with time series algorithms and scikit-learn compatible tools to build, tune and validate time series models.

https://github.com/sktime/sktime
8👍3🤔1
🚨 Séries temporais: Livro, cursos, tutoriais, pacotes

Um dos tipos de dados mais importantes, mas desconhecido por muitos cientistas de dados, são as séries temporais. Há vários recursos para aprender sobre o seu processamento na web. Segue uma lista de materiais.

📚 Books (online):
* Forecasting: Principles and Practice
https://otexts.com/fpp3/

* Time Series Analysis and Its Applications
http://www.stat.ucla.edu/~frederic/415/S23/tsa4.pdf

* Forecasting in Economics, Business, Finance and Beyond
https://www.sas.upenn.edu/~fdiebold/Teaching221/Forecasting.pdf

* Time Series for Macroeconomics and Finance
https://lnkd.in/dBB9QCWR


🎓 Courses;
* Practical Time Series Analysis
https://www.coursera.org/learn/practical-time-series-analysis/home/week/1

* Bayesian Statistics: Time Series Analysis
https://www.coursera.org/programs/universidade-de-sao-paulo-br-on-coursera-mvxtw/learn/bayesian-statistics-time-series-analysis?source=search

* Introduction to Predictive Modeling
https://www.coursera.org/programs/universidade-de-sao-paulo-br-on-coursera-mvxtw/learn/introduction-to-predictive-modeling?source=search

* SP18: Time Series Analysis
https://learning.edx.org/course/course-v1:GTx+ISYE6402x+1T2018/home

👨‍🏫 Tutorials:
* ARIMA and SARIMAX models with Python
https://cienciadedatos.net/documentos/py51-arima-sarimax-models-python.html

* Skforecast: time series forecasting with Python and Scikit-learn
https://colab.research.google.com/drive/1X1DJF4pZlklIt5srQnyTYoyFVLunr_OQ#scrollTo=vvBIDvXfFyTF

📈 Packages:
* Darts
https://unit8co.github.io/darts/

* PyTorch Forecasting
https://github.com/jdb78/pytorch-forecasting

* Prophet:
https://facebook.github.io/prophet/

* Auto_TS:
https://github.com/AutoViML/Auto_TS

* ETNA:
https://github.com/tinkoff-ai/etna

* Kats:
https://github.com/facebookresearch/Kats

* Merlion:
https://github.com/salesforce/Merlion

* Pycaret:
https://github.com/pycaret/pycaret

* Sktime:
https://github.com/sktime/sktime
16👏5👍2
time-series-python.pdf
15.3 MB
Dois artigos importantes para aprender sobre séries temporais:

📑 A Basic Time Series Forecasting Course with Python 🐍
https://lnkd.in/dhqX3mS9

📑 Forecast evaluation for data scientists: common pitfalls and best practices
https://lnkd.in/ds3eEbxD
8🥰3👏2💯1
Pacote para classificação de séries temporais:
https://pyts.readthedocs.io/en/stable/
5👍4
Edital de Abertura SME 060 abstract.pdf
242.7 KB
🚨Oportunidade: Concurso para professor na USP - São Carlos, em Ciência de Dados 🎓
Inscrições abertas até 11.07.2024.

🏛 Concurso Público para provimento de 01 (um) cargo de Professor Doutor, Ref. MS-3, em Regime de Dedicação Integral à Docência e à Pesquisa (RDIDP), para o Departamento de Matemática Aplicada e Estatística. A área de conhecimento é hashtag#Cienciadedados, nas especialidades Ciência de dados e Otimização.

O candidat@ deve escolher uma das áreas para fazer as provas.
4👍1
🚨Curso gratuito oferecido pela USP: (5 mil vagas!) 👇

"Construção de website utilizando tecnologia Google: o primeiro site a gente nunca esquece"

- transmissão pelo YouTube
- realização: 28 de agosto (14h30min - 17h30min)

Inscrições até 27/08/2024
link para inscrição: https://uspdigital.usp.br/apolo/inscricaoPublicaFormTurmaListar?codund=74&codcurceu=740400052&codedicurceu=24002&numseqofeedi=1&oriins=W

Programa:
https://uspdigital.usp.br/apolo/apoListarCursoNome?nom_curso=google&nomeAreaConhecimento=&submit=buscar
3👍3
Um dos principais desafios na Ciência de Dados é o desbalanceamento dos dados. Por exemplo, em bases de dados de instituições financeiras, apenas uma pequena parcela dos usuários comete fraudes. Para lidar com o desbalanceamento, existem diversas técnicas disponíveis. A seguir, apresentamos uma lista de materiais úteis:

📚 Book: Machine Learning for Imbalanced Data
https://lnkd.in/devmVFi3

📑 Papers:
🔴 Learning from Imbalanced Data
https://lnkd.in/dMPp-kGj

🔴 A Survey of Predictive Modeling on Imbalanced Domains
https://lnkd.in/dqbCDkAQ

🔴 A Systematic Review on Imbalanced Data Challenges in Machine Learning: Applications and Solutions
https://lnkd.in/dp2Pwmzi

💻 Library:
imbalanced-learn https://lnkd.in/d_pHc5hB
13👍4
Esses são os artigos sobre dados desbalanceados que citei acima. 👇
👍3