Ciência de Dados Complexos
4.7K subscribers
223 photos
118 files
1.16K links
Canal sobre Ciência de Dados e IA, onde divulgamos livros, tutoriais, cursos, palestras e muito mais. Tudo gratuito. Gerenciado pelo prof. Francisco Rodrigues (USP). Aulas online sobre Estatística e CD no Youtube: https://youtube.com/franciscorodrigues
Download Telegram
Este artigo faz uma boa revisão sobre Transformers e descreve algumas das principais arquiteturas.

Transformer models: an introduction and catalog

https://arxiv.org/abs/2302.07730
👍6
Uma das grandes barreiras para estudar Ciência de Dados é formada pela parte matemática. No entanto, não é necessário conhecer a fundo os conceitos, mas ter uma intuição e conhecer as principais ferramentas. Uma delas é cálculo diferencial e integral. Esse post mostra como ter uma boa intuição sobre derivadas e integrais no Python:

https://machinelearningmastery.com/calculus-for-machine-learning-7-day-mini-course/

Essas aulas da Univesp também permitem uma excelente introdução a esses conceitos:

https://www.youtube.com/playlist?list=PLxI8Can9yAHcXiEq9tNy7oYOMhuYYdRrP
17
A plataforma Kaggle é uma das melhores opções para se aprender e praticar Ciência de Dados. Atualmente, são disponibilizadas mais de 200k bases de dados. Recomendo ver as soluções que são apresentadas para os mais diversos problemas, desde regressão até deep learning.

https://www.kaggle.com
8👍7
A terceira versão do livro "Forecasting: Principles and Practice" está disponível. Agora com vídeos associados às aulas. Para quem programa em R, é uma ótima opção, pois os códigos estão disponíveis nessa linguagem. No entanto, mesmo para quem não programa em R, é possível acompanhar o conteúdo e fazer a implementação em Python, por exemplo.
https://otexts.com/fpp3/
9👍3💯3
Linha do tempo com a história da inteligência artificial. Muito interessante:
https://thehistoryof.ai/
👍64
Livro online bastante completo sobre deep learning: https://udlbook.github.io/udlbook/
8👍4
Aprendizado por reforço é uma área fundamental da Ciência de Dados e vem guiando muitos dos algoritmos mais modernos. Esse livro é uma ótima referência sobre o assunto. Está disponível em pdf online: http://incompleteideas.net/book/the-book.html
12👏3👍2
ICTP-SAIFR_APS.pdf
335.6 KB
Evento gratuito e online para quem tiver interesse em sistemas complexos.

March 21: 19:00-21:00 (online) Network Dynamics and Synchronization

https://www.ictp-saifr.org/apsmarch23/
👏3
O raciocínio Bayesiano é fundamental em Ciência de Dados. No entanto, estudar livros de estatística, sobre inferência Bayesiana, pode ser bastante desencorajador. O ideal é sempre considerar livros que apresentem o raciocínio Bayesiano, mas com ênfase nas tarefas de classificação ou regressão. Após esse primeiro contato, o leitor pode sempre recorrer os livros mais específicos, mas é sempre bom começar com algo aplicado. Esse livro, disponível online é uma ótima referência para estudar métodos Bayesianos baseados em grafos.

http://web4.cs.ucl.ac.uk/staff/D.Barber/pmwiki/pmwiki.php?n=Brml.Online
👏12👍6
Predição de séries temporais é uma área extremamente importante de Ciência de Dados. No entanto, encontrar material de qualidade na internet não é fácil. Essa é uma excelente aula que mostra como usar o método XGBoost para predizer séries temporais. É possível colocar a legenda em Português.

https://www.youtube.com/watch?v=vV12dGe_Fho&list=PL7f0Gy2DLA9kR-Gl32DOjSZ2qIoaHNknP&index=111&t=305s&ab_channel=RobMulla
9👍1
2108.02497.pdf
1.9 MB
Erros em Ciência de Dados podem comprometer os resultados e inviabilizar projetos. Nesse artigo são descritos os principais erros que podem ser cometidos na análise de dados. São descritas cinco fases do processo de aprendizagem da máquina: o que fazer antes da construção de modelos, como construir modelos de forma confiável, como avaliar robustamente modelos, como comparar modelos de forma justa, e como publicar os resultados.

How to avoid machine learning pitfalls: a guide for academic researchers

Link: https://arxiv.org/abs/2108.02497
13👏1
Para quem trabalha com dados urbanos, esse é um excelente livro. É possível não apenas estudar o conteúdo, mas também reproduzir os códigos desenvolvidos na linguagem R:

https://ipeagit.github.io/intro_access_book/en/index.en.html
👍62
Para quem tem interesse em Bioinformática, essa é uma excelente sequência de vídeos. Um curso completo que ensina a usar as principais ferramentas, como a BLAST. Alguns exemplos estão em Python:
Introductory Bioinformatics
https://www.youtube.com/playlist?list=PLRbOsyrFi8C4ZKSPRuL9DnCw-xuQlyVXz
14
s43586-022-00184-w.pdf
3.5 MB
Análise dos componentes principais (PCA) é uma das principais técnicas para redução de dimensionalidade em Ciência de Dados. Essa técnica permite-nos projetar os dados em um espaço de menor dimensão, onde o primeiro eixo é o de maior variação nos dados, o segundo é o segundo de maior variação perpendicular ao primeiro e assim sucessivamente. O resultado da projeção é um conjunto de dados onde os atributos são não-correlacionados (não independentes!). Essa é uma excelente revisão e tutorial sobre PCA.
6👍1
Para quem trabalha com R, esse curso parece muito interessante:
An Introduction to R - for beginners and Biologists
https://www.youtube.com/playlist?list=PLRbOsyrFi8C6p6txwl57Gjr5_ZBKzO-qh
👏4👍1