Ciência de Dados Complexos
4.7K subscribers
223 photos
118 files
1.16K links
Canal sobre Ciência de Dados e IA, onde divulgamos livros, tutoriais, cursos, palestras e muito mais. Tudo gratuito. Gerenciado pelo prof. Francisco Rodrigues (USP). Aulas online sobre Estatística e CD no Youtube: https://youtube.com/franciscorodrigues
Download Telegram
A plataforma Kaggle é uma das melhores opções para se aprender e praticar Ciência de Dados. Atualmente, são disponibilizadas mais de 200k bases de dados. Recomendo ver as soluções que são apresentadas para os mais diversos problemas, desde regressão até deep learning.

https://www.kaggle.com
8👍7
A terceira versão do livro "Forecasting: Principles and Practice" está disponível. Agora com vídeos associados às aulas. Para quem programa em R, é uma ótima opção, pois os códigos estão disponíveis nessa linguagem. No entanto, mesmo para quem não programa em R, é possível acompanhar o conteúdo e fazer a implementação em Python, por exemplo.
https://otexts.com/fpp3/
9👍3💯3
Linha do tempo com a história da inteligência artificial. Muito interessante:
https://thehistoryof.ai/
👍64
Livro online bastante completo sobre deep learning: https://udlbook.github.io/udlbook/
8👍4
Aprendizado por reforço é uma área fundamental da Ciência de Dados e vem guiando muitos dos algoritmos mais modernos. Esse livro é uma ótima referência sobre o assunto. Está disponível em pdf online: http://incompleteideas.net/book/the-book.html
12👏3👍2
ICTP-SAIFR_APS.pdf
335.6 KB
Evento gratuito e online para quem tiver interesse em sistemas complexos.

March 21: 19:00-21:00 (online) Network Dynamics and Synchronization

https://www.ictp-saifr.org/apsmarch23/
👏3
O raciocínio Bayesiano é fundamental em Ciência de Dados. No entanto, estudar livros de estatística, sobre inferência Bayesiana, pode ser bastante desencorajador. O ideal é sempre considerar livros que apresentem o raciocínio Bayesiano, mas com ênfase nas tarefas de classificação ou regressão. Após esse primeiro contato, o leitor pode sempre recorrer os livros mais específicos, mas é sempre bom começar com algo aplicado. Esse livro, disponível online é uma ótima referência para estudar métodos Bayesianos baseados em grafos.

http://web4.cs.ucl.ac.uk/staff/D.Barber/pmwiki/pmwiki.php?n=Brml.Online
👏12👍6
Predição de séries temporais é uma área extremamente importante de Ciência de Dados. No entanto, encontrar material de qualidade na internet não é fácil. Essa é uma excelente aula que mostra como usar o método XGBoost para predizer séries temporais. É possível colocar a legenda em Português.

https://www.youtube.com/watch?v=vV12dGe_Fho&list=PL7f0Gy2DLA9kR-Gl32DOjSZ2qIoaHNknP&index=111&t=305s&ab_channel=RobMulla
9👍1
2108.02497.pdf
1.9 MB
Erros em Ciência de Dados podem comprometer os resultados e inviabilizar projetos. Nesse artigo são descritos os principais erros que podem ser cometidos na análise de dados. São descritas cinco fases do processo de aprendizagem da máquina: o que fazer antes da construção de modelos, como construir modelos de forma confiável, como avaliar robustamente modelos, como comparar modelos de forma justa, e como publicar os resultados.

How to avoid machine learning pitfalls: a guide for academic researchers

Link: https://arxiv.org/abs/2108.02497
13👏1
Para quem trabalha com dados urbanos, esse é um excelente livro. É possível não apenas estudar o conteúdo, mas também reproduzir os códigos desenvolvidos na linguagem R:

https://ipeagit.github.io/intro_access_book/en/index.en.html
👍62
Para quem tem interesse em Bioinformática, essa é uma excelente sequência de vídeos. Um curso completo que ensina a usar as principais ferramentas, como a BLAST. Alguns exemplos estão em Python:
Introductory Bioinformatics
https://www.youtube.com/playlist?list=PLRbOsyrFi8C4ZKSPRuL9DnCw-xuQlyVXz
14
s43586-022-00184-w.pdf
3.5 MB
Análise dos componentes principais (PCA) é uma das principais técnicas para redução de dimensionalidade em Ciência de Dados. Essa técnica permite-nos projetar os dados em um espaço de menor dimensão, onde o primeiro eixo é o de maior variação nos dados, o segundo é o segundo de maior variação perpendicular ao primeiro e assim sucessivamente. O resultado da projeção é um conjunto de dados onde os atributos são não-correlacionados (não independentes!). Essa é uma excelente revisão e tutorial sobre PCA.
6👍1
Para quem trabalha com R, esse curso parece muito interessante:
An Introduction to R - for beginners and Biologists
https://www.youtube.com/playlist?list=PLRbOsyrFi8C6p6txwl57Gjr5_ZBKzO-qh
👏4👍1
ChatGPT terá alguns plugins.
- suporte para navegação e recuperação de informação da internet
- um intérprete de código Python que ajuda com problemas matemáticos, análise de dados, visualização, e muito mais.
- um plugin de recuperação de código aberto que lhe permite aproveitar as suas fontes de dados, tais como arquivos e notas.
- plugins de terceiros tais como Wolfram, OpenTable, Instacart, e muito mais.

https://openai.com/blog/chatgpt-plugins
7👏41
Livro sobre aprendizado por reforço disponível na internet:
Reinforcement Learning: An Introduction

http://incompleteideas.net/book/the-book.html
👍41👏1