Minicursos
Aprendizagem e Inferência Causal: Um Guia Prático


Neste minicurso, adotaremos uma abordagem prática para apresentar os conceitos fundamentais para inferência causal a partir de dados observacionais, demonstrando como diferentes técnicas nessa área podem expandir as possibilidades de inferência, indo além da identificação de associações estatísticas (inferências do nível 1), avançando para explicações dos processos de decisão, incluindo a identificação tanto efeitos de intervenções quanto contrafactuais (inferências dos níveis 2 e 3, respectivamente). Entre as técnicas que exploraremos estão os algoritmos de aprendizado de estrutura causal, capazes de identificar, ao menos parcialmente, relações de causa efeito entre variáveis. Discutiremos, em particular, o algoritmo Fast Causal Inference (FCI), que se destaca pelo seu rigor metodológico e pela menor dependência de suposições não realistas em comparação com outros métodos de descoberta causal. Notavelmente, o FCI é capaz de corretamente identificar relações causais, mesmo na presença de confundimento latente e viés de seleção. No entanto, assume-se que há um teste estatístico adequado disponível para a identificação das relações de independência condicional entre as variáveis aleatórias envolvidas. Neste contexto, discutiremos os desafios e possíveis soluções para aplicações que envolvem variáveis heterogêneas (quantitativas, categóricas, de contagem, etc.), avaliações longitudinais e a presença de dados faltantes. Além de algoritmos de aprendizado causal, também discutiremos técnicas para identificabilidade e estimação dos efeitos, apresentando um pipeline de inferência causal inteiramente baseado em dados observacionais.
Palavras-chave: inferência causal, aprendizado de estrutura causal, dados longitudinais, dados heterogêneos, dados faltantes, variabilidade do risco de malária.
Obtenção de dados geoespaciais e integração com modelos de machine learning


O curso oferece uma introdução aos princípios fundamentais da teoria do geoprocessamento e dos Sistemas de Informações Geográficas (SIG). Serão abordadas as principais bases de dados geoespaciais ambientais, além da aplicabilidade, importância e desafios na utilização desses dados em diferentes contextos. Os alunos aprenderão a obter e manipular dados geoespaciais de maneira eficaz, combinando habilidades de manipulação de dados e programação para realizar análises robustas. As técnicas apresentadas serão aplicáveis em áreas como monitoramento ambiental, planejamento territorial, gestão de recursos naturais, estudos de mudanças climáticas, análise de padrões espaciais e modelagem de cenários futuros, promovendo uma visão integrada para tomada de decisões em contextos científicos e de gestão ambiental. Portanto, objetiva-se introduzir os conceitos iniciais referente a coleta de dados geoespaciais das principais bases de dados, envolvendo a aquisição de dados, organização e integração de dados e visualização utilizando linguagem de programação R. A abordagem adotada busca equilibrar teoria e prática, proporcionando uma compreensão abrangente e aplicada dos métodos de coleta e análise de dados.
Palavras-chave: Geoestatística; Análise espacial; Machine Learning; Análise de dados.
Machine-Learning for Handling Imbalanced Data: Multi-Class Classification, Anomaly Detection, and Accuracy Metrics in R

This short course provides a comprehensive introduction to handling imbalanced data in machine learning, a critical challenge in fields like fraud detection, medical diagnosis, and anomaly detection. Participants will explore effective techniques to address class imbalance, focusing on resampling methods (both oversampling and undersampling), weighted classification, and multi-class classification strategies. The course will also cover anomaly detection approaches for rare event prediction, such as Local Outlier Factors, Isolation Forests, Angle-Based Outlier Detectors and Minimum Covariance Determinants, as well as performance metrics tailored for imbalanced datasets, such as Precision-Recall curves, F1 score, and AUC. Through hands-on case studies and examples in R, attendees will gain practical experience in implementing these techniques and evaluating model performance in real-world scenarios. The course is designed for data scientists and analysts seeking to build robust predictive models when faced with skewed data distributions, offering insights into both theory and practical applications.
Keywords: Imbalanced data, anomaly detection, classification, AUC, F1-scores, Precision-Recall curves, machine learning.