Minicursos

Aprendizagem e Inferência Causal: Um Guia Prático

Adèle Helena Ribeiro​

Universidade de Münster, Alemanha
Minicurrículo

Júlia Maria Pavan Soler

IME-USP
Minicurrículo
Neste minicurso, adotaremos uma abordagem prática para apresentar os conceitos fundamentais para inferência causal a partir de dados observacionais, demonstrando como diferentes técnicas nessa área podem expandir as possibilidades de inferência, indo além da identificação de associações estatísticas (inferências do nível 1), avançando para explicações dos processos de decisão, incluindo a identificação tanto efeitos de intervenções quanto contrafactuais (inferências dos níveis 2 e 3, respectivamente). Entre as técnicas que exploraremos estão os algoritmos de aprendizado de estrutura causal, capazes de identificar, ao menos parcialmente, relações de causa  efeito entre variáveis. Discutiremos, em particular, o algoritmo Fast Causal Inference (FCI), que se destaca pelo seu rigor metodológico e pela menor dependência de suposições não realistas em comparação com outros métodos de descoberta causal. Notavelmente, o FCI é capaz de corretamente identificar relações causais, mesmo na presença de confundimento latente e viés de seleção. No entanto, assume-se que há um teste estatístico adequado disponível para a identificação das relações de independência condicional entre as variáveis aleatórias envolvidas. Neste contexto, discutiremos os desafios e possíveis soluções para aplicações que envolvem variáveis heterogêneas (quantitativas, categóricas, de contagem, etc.), avaliações longitudinais e a presença de dados faltantes. Além de algoritmos de aprendizado causal, também discutiremos técnicas para identificabilidade e estimação dos efeitos, apresentando um pipeline de inferência causal inteiramente baseado em dados observacionais.

Palavras-chave: inferência causal, aprendizado de estrutura causal, dados longitudinais, dados heterogêneos, dados faltantes, variabilidade do risco de malária.

Obtenção de dados geoespaciais e integração com modelos de machine learning

Deoclecio Jardim Amorim

USP
Minicurrículo

Maria Gabriella da Silva Araújo

USP
Minicurrículo
O curso oferece uma introdução aos princípios fundamentais da teoria do geoprocessamento e dos Sistemas de Informações Geográficas (SIG). Serão abordadas as  principais bases de dados geoespaciais ambientais, além da aplicabilidade, importância e  desafios na utilização desses dados em diferentes contextos. Os alunos aprenderão a obter  e manipular dados geoespaciais de maneira eficaz, combinando habilidades de  manipulação de dados e programação para realizar análises robustas. As técnicas  apresentadas serão aplicáveis em áreas como monitoramento ambiental, planejamento  territorial, gestão de recursos naturais, estudos de mudanças climáticas, análise de padrões  espaciais e modelagem de cenários futuros, promovendo uma visão integrada para tomada  de decisões em contextos científicos e de gestão ambiental. Portanto, objetiva-se introduzir  os conceitos iniciais referente a coleta de dados geoespaciais das principais bases de  dados, envolvendo a aquisição de dados, organização e integração de dados e visualização  utilizando linguagem de programação R. A abordagem adotada busca equilibrar teoria e  prática, proporcionando uma compreensão abrangente e aplicada dos métodos de coleta e  análise de dados.  

Palavras-chave: Geoestatística; Análise espacial; Machine Learning; Análise de dados.

Machine-Learning for Handling Imbalanced Data: Multi-Class Classification, Anomaly Detection, and Accuracy Metrics in R

Niamh Mimnagh

Maynooth University, Ireland
Minicurrículo
This short course provides a comprehensive introduction to handling imbalanced data in machine learning, a critical challenge in fields like fraud detection, medical diagnosis, and anomaly detection. Participants will explore effective techniques to address class imbalance, focusing on resampling methods (both oversampling and undersampling), weighted classification, and multi-class classification strategies. The course will also cover anomaly detection approaches for rare event prediction, such as Local Outlier Factors, Isolation Forests, Angle-Based Outlier Detectors and Minimum Covariance Determinants, as well as performance metrics tailored for imbalanced datasets, such as Precision-Recall curves, F1 score, and AUC. Through hands-on case studies and examples in R, attendees will gain practical experience in implementing these techniques and evaluating model performance in real-world scenarios. The course is designed for data scientists and analysts seeking to build robust predictive models when faced with skewed data distributions, offering insights into both theory and practical applications.

Keywords: Imbalanced data, anomaly detection, classification, AUC, F1-scores, Precision-Recall curves, machine learning.

Adèle Helena Ribeiro​

Philipps-Universität Marburg, Germany

Dra. Adèle H. Ribeiro é pesquisadora no Instituto de Informática Médica da Universidade de Münster, Alemanha. Ela possui Bacharelado em Matemática Aplicada e Computacional, além de Mestrado e Doutorado em Ciência da Computação, todos pelo Instituto de Matemática e Estatística (IME) da Universidade de São Paulo (USP), Brasil. Durante o doutorado, realizou um estágio de pesquisa no Departamento de Neurociência da Princeton University. Após seu doutoramento, trabalhou como pós-doutoranda no Instituto do Coração (InCor) da USP, no Brasil, e no Causal AI Lab da Columbia University, nos Estados Unidos. Sua pesquisa aborda desafios fundamentais em inferência causal e contrafactual, com o objetivo de facilitar e tornar mais robusta a aplicação prática dessas ferramentas, contribuindo para o avanço do conhecimento científico e a melhoria dos processos de tomada de decisão. Mais informações sobre seu trabalho estão disponíveis em sua página: https://adele.github.io/.

Currículo Lattes

Júlia Maria Pavan Soler

IME-USP

Profa. Dra. Júlia M. P. Soler é professora associada no Instituto de Matemática e Estatística (IME) da Universidade de São Paulo (USP), Brasil, desde 1995, dedicando-se integralmente ao ensino e à pesquisa em Estatística. Seu trabalho concentra-se no entendimento de dados multi-ômicos, com foco no desenvolvimento e na aplicação de ferramentas estatísticas e de bioinformática. Dada a natureza multifatorial dos desafios nesta área e às altas demandas computacionais, seus principais interesses incluem metodologias multivariadas para redução de dimensionalidade, integração de dados heterogêneos e aprendizado de estruturas causais entre variáveis, especialmente em cenários com dependência entre observações e alta dimensionalidade. Além de ser orientadora nos programas de pós-graduação em Estatística e Bioinformática do IME-USP, participa de diferentes projetos colaborativos com o InCor-USP, a Faculdade de Saúde Pública da USP, a Mayo Clinic (Rochester, EUA) e o Instituto de Informática Médica da Universidade de Münster (Alemanha).

Resumo completo


Apesar dos avanços notáveis no aprendizado de máquina e na inteligência artificial e tarefas de reconhecimento de padrões e classificação, a maioria desses métodos ainda enfrenta limitações significativas em fornecer explicações causais para suas decisões e comportamentos.  Além disso, essas técnicas frequentemente não conseguem lidar adequadamente com vieses presentes nos dados, como aqueles decorrentes de variáveis de confusão, do processo de coleta ou até mesmo das decisões históricas e estruturais da sociedade. Sem uma clara compreensão dessas influências, interpretações e tomadas de decisões baseadas nesses modelos podem levar à perpetuação de vieses, distorções nos resultados e até à adoção de soluções ineficazes ou injustas, reforçando preconceitos e desigualdades existentes. Uma abordagem bem fundamentada para superar essas limitações é a adoção de inferência causal. Neste minicurso, adotaremos uma abordagem prática para apresentar os conceitos fundamentais para inferência causal a partir de dados observacionais, demonstrando como diferentes técnicas nessa área podem expandir as possibilidades de inferência, indo além da identificação de associações estatísticas (inferências do nível 1), avançando para explicações dos processos de decisão, incluindo a identificação tanto efeitos de intervenções quanto contrafactuais (inferências dos níveis 2 e 3, respectivamente). Entre as técnicas que exploraremos estão os algoritmos de aprendizado de estrutura causal, capazes de identificar, ao menos parcialmente, relações de causa efeito entre variáveis. Discutiremos, em particular, o algoritmo Fast Causal Inference (FCI) [2], que se destaca pelo seu rigor metodológico e pela menor dependência de suposições não realistas em comparação com outros métodos de descoberta causal. Notavelmente, o FCI é capaz de corretamente identificar relações causais, mesmo na presença de confundimento latente e viés de seleção. No entanto, assume-se que há um teste estatístico adequado disponível para a identificação das relações de independência condicional entre as variáveis aleatórias envolvidas. Neste contexto, discutiremos os desafios e possíveis soluções para aplicações que envolvem variáveis heterogêneas (quantitativas, categóricas, de contagem, etc.), avaliações longitudinais e a presença de dados faltantes. Além de algoritmos de aprendizado causal, também discutiremos técnicas para identificabilidade e estimação dos efeitos, apresentando um pipeline de inferência causal inteiramente baseado em dados observacionais. As metodologias abordadas serão amplamente discutidas e avaliadas por meio de implementações computacionais e estatísticas. Serão fornecidos recursos, principalmente do R, e dados longitudinais e heterogêneos, simulados de forma realista e inspirados na estrutura dos dados extraídos do projeto temático da FAPESP #2017/05125-7, intitulado “Variação individual no risco de malária: causas e consequências em populações amazônicas”, com o objetivo de motivar e ilustrar os conceitos discutidos.

Palavras-chave: inferência causal, aprendizado de estrutura causal, dados longitudinais, dados heterogêneos, dados faltantes, variabilidade do risco de malária.

Com qual(is) ODS o minicurso proposto se relaciona?


Este minicurso está relacionado com o ODS 10 (“Redução das desigualdades) e o ODS 13 (“Ação contra a mudança global do clima”).   Métodos de inferência causal são fundamentais para a compreensão de questões factuais relevantes e para a formulação de decisões mais informadas e eficazes, dado que permitem explicar a natureza causal ou espúria das associações observadas nos  dados. Pesquisadores e analistas de dados, ao se apropriarem dessas ferramentas e entenderem como aplicá-las, podem contribuir para com o processo de tomada de decisões em diferentes áreas críticas como saúde pública, educação e justiça social,  promovendo mudanças significativas e positivas na sociedade. Dentro desse contexto, o minicurso ilustra os possíveis desafios encontrados em análises de dados com estruturas específicas e envolvendo múltiplas fontes de confundimento. Em particular, trabalharemos com dados simulados, inspirados no estudo de malária do projeto  temático da FAPESP #2017/05125-7, que tem como foco a identificação de fatores associados ao risco individual. Os resultados dessas análises ilustram o potencial das  metodologias causais. Ao revelar diferentes fatores ambientais, climáticos, socioeconômicos, genéticos e de estilo de vida que contribuem diretamente no risco de malária, é possível desenvolver políticas e intervenções para prevenção, controle, diagnóstico e tratamento, não só mais efetivas no nível de saúde pública, mas também  destinadas a grupos de diferentes riscos, assim minimizando desigualdades.

Sumário/programa


Este minicurso cobrirá os seguintes tópicos:  
  1. Introdução aos conceitos fundamentais em causalidade: desenho do estudo, confundimento, aleatorização, três níveis de inferência de Pearl, modelo causal estrutural, diagrama causal, independência condicional, classes de equivalência de Markov. 
  2. Aprendizado de estrutura causal: visão geral dos tipos de algoritmos, discussão detalhada do algoritmo FCI e suas variações e uso de diferentes tipos de testes de independência condicional adequados para dados heterogêneos, longitudinais e na  presença de observações faltantes.  
  3. Identificabilidade e estimação de efeitos: visão geral dos critérios gráficos de identificabilidade (critério backdoor e critério generalizado de ajuste) e introdução ao algoritmo ID para classes de equivalência de Markov.
  4. Análise causal usando dados simulados, inspirados na estrutura dos dados extraídos do projeto temático da FAPESP #2017/05125-7. Além dos dados, serão fornecidos códigos em R para a realização das análises. 

Público-alvo


Este é um curso introdutório em inferência causal a partir de dados observacionais,  formulado para alunos e pesquisadores de diferentes áreas e com conhecimento básico de estatística e programação em R, que gostariam de aprofundar o conhecimento  em aprendizagem de causalidade.

Deoclecio Jardim Amorim

USP

Professor Doutor de Ciência de Dados Agroambientais do Centro de Energia Nuclear na Agricultura (CENA) da Universidade de São Paulo (USP). Graduação em Agronomia pela UFMA em 2016, com Mestrado em Agricultura pela UNESP em 2019. Doutorado em Estatística e Experimentação Agronômica pela ESALQ/USP concluído em 2023. No período de 2021 a 2022, desempenhou função de orientador no MBA em Data Science & Analytics da ESALQ/USP, trabalhando em diversas temáticas na área de Ciência de Dados. Suas principais competências incluem o design e análise de experimentos, regressão não linear, modelos lineares generalizados, modelos mistos e métodos estatísticos multivariados, aprendizado de máquina e desenvolvimento de pacotes R.

Currículo Lattes

Maria Gabriella da Silva Araújo

USP

Graduação em Engenheira Ambiental formada pela Universidade Federal Rural da Amazônia (UFRA), com mestrado e doutorado em Ciências, na área de Ecologia Aplicada, pela Universidade de São Paulo (USP). Trajetória acadêmica e profissional marcada pela atuação em hidrobiogeoquímica de ambientes aquáticos tropicais, especialmente na Amazônia. Experiência em pesquisas sobre dinâmica de carbono e gases de efeito estufa em sistemas aquáticos e no uso de isótopos estáveis como ferramentas analíticas para estudos ecológicos e forenses. Mais recentemente aprimorando competências em programação, análise de dados, estatística e geoprocessamento, com foco em geoestatística.

Currículo Lattes

Resumo completo


O curso oferece uma introdução aos princípios fundamentais da teoria do geoprocessamento e dos Sistemas de Informações Geográficas (SIG). Serão abordadas as  principais bases de dados geoespaciais ambientais, além da aplicabilidade, importância e  desafios na utilização desses dados em diferentes contextos. Os alunos aprenderão a obter  e manipular dados geoespaciais de maneira eficaz, combinando habilidades de  manipulação de dados e programação para realizar análises robustas. As técnicas  apresentadas serão aplicáveis em áreas como monitoramento ambiental, planejamento  territorial, gestão de recursos naturais, estudos de mudanças climáticas, análise de padrões  espaciais e modelagem de cenários futuros, promovendo uma visão integrada para tomada  de decisões em contextos científicos e de gestão ambiental. Portanto, objetiva-se introduzir  os conceitos iniciais referente a coleta de dados geoespaciais das principais bases de  dados, envolvendo a aquisição de dados, organização e integração de dados e visualização  utilizando linguagem de programação R. A abordagem adotada busca equilibrar teoria e  prática, proporcionando uma compreensão abrangente e aplicada dos métodos de coleta e  análise de dados.  

Palavras-chave: Geoestatística; Análise espacial; Machine Learning; Análise de dados

Com qual(is) ODS o minicurso proposto se relaciona?


Este minicurso está relacionado com o ODS 13 (“Ação contra a mudança global do clima”), o ODS 14 (“Vida na água”) e o ODS 15 (“Vida terrestre”). O minicurso está diretamente relacionado aos ODS citadas, pois promove a capacitação na obtenção e interpretação de dados ambientais, ferramentas fundamentais para subsidiar  processos decisórios informados e efetivos. Esses dados são essenciais para: 
  • ODS 13 (Ação contra a mudança global do clima): Monitorar e entender os impactos das mudanças climáticas, apoiar estratégias de mitigação e adaptação, e orientar políticas públicas voltadas para a redução dos impactos climáticos.
  • ODS 14 (Vida na água): Avaliar a qualidade e a sustentabilidade de ecossistemas aquáticos, contribuindo para a proteção da biodiversidade marinha e a gestão responsável de recursos hídricos.
  • ODS 15 (Vida terrestre): Mapear e monitorar a saúde de ecossistemas terrestres,  permitindo a implementação de medidas de conservação, restauração e uso sustentável da biodiversidade.
Dessa forma, o minicurso reforça a integração entre o conhecimento científico e ações práticas, fornecendo subsídios técnicos para a conservação de ecossistemas e o enfrentamento de desafios ambientais globais, fundamentais para o alcance das metas desses ODS.

Sumário/programa


Este minicurso cobrirá os seguintes tópicos:  
  1. Definições; 
  2. Dados geoespaciais; 
  3. Pacotes R; 
  4. Wordclim; 
  5. Extração de dados; 
  6. Estudo de caso; 
  7. Prática; 
  8. Ferramentas: QGIS; 
  9. Ferramentas: R.

Público-alvo


Este curso é voltado para estudantes de graduação, pós-graduação e pesquisadores nas áreas de Estatística, Ciências Agronômicas e Ambientais que possuam conhecimento básico em análise de dados e que desejam aprimorar suas habilidades em geoprocessamento e linguagens de programação.

Niamh Mimnagh

Maynooth University, Ireland

Niamh Mimnagh is a researcher specialising in disease modelling and predictive analytics, with a particular focus on improving health outcomes in Irish cattle populations. During their PhD, they developed innovative methods for estimating animal population sizes, leveraging extensions to the N-mixture model to account for the complexities of real-world ecological systems, such as imperfect detection and environmental variability. They are passionate about applying advanced statistical techniques and machine learning methods to solve real-world problems in agriculture and wildlife conservation.

Website pessoal

Resumo completo


This short course provides a comprehensive introduction to handling imbalanced data in machine learning, a critical challenge in fields like fraud detection, medical diagnosis, and anomaly detection. Participants will explore effective techniques to address class imbalance, focusing on resampling methods (both oversampling and undersampling), weighted classification, and multi-class classification strategies. The course will also cover anomaly detection approaches for rare event prediction, such as Local Outlier Factors, Isolation Forests, Angle-Based Outlier Detectors and Minimum Covariance Determinants, as well as performance metrics tailored for imbalanced datasets, such as Precision-Recall curves, F1 score, and AUC. Through hands-on case studies and examples in R, attendees will gain practical experience in implementing these techniques and evaluating model performance in real-world scenarios. The course is designed for data scientists and analysts seeking to build robust predictive models when faced with skewed data distributions, offering insights into both theory and practical applications.

Keywords: Imbalanced data, anomaly detection, classification, AUC, F1-scores, Precision-Recall curves, machine learning

Com qual(is) ODS o minicurso proposto se relaciona?


This short course is related to SDG 3 (“Good health and well-being”), SDG 9 (“Industry, Innovation, and Infrastructure”), SDG 11 (“Sustainable Cities and Communities”), SDG 13 (“Climate Action”), SDG 15 (“Life on Land”) and SDG 16 (“Peace, Justice, and Strong Institutions”).
  • SDG 3: Predictive models and anomaly detection techniques are commonly used in healthcare for tasks such as early disease detection, predicting outbreaks, and improving diagnostics. For example, anomaly detection can identify rare but critical medical conditions or help manage imbalanced healthcare datasets.
  • SDG 9: Machine learning methods like multi-class classifiers and anomaly detection are vital for fostering innovation in industries such as manufacturing (e.g., detecting defects), transportation (e.g., anomaly detection in logistics), and infrastructure (e.g., monitoring structural integrity).
  • SDG 11: Anomaly detection is used in urban systems for monitoring air quality, managing traffic, and detecting energy consumption patterns, which are essential for building sustainable cities.
  • SDG 13: Machine learning helps us to monitor and predict environmental changes, detect anomalies in climate data, and classify weather patterns. Analysing imbalanced datasets (e.g., rare climate events) is critical for accurate predictions and timely action.
  • SDG 15: Classification techniques Applied to ecological and environmental data help in promoting sustainable use of ecosystems and foster biodiversity (e.g., data on endangered species, camera trap images).
  • SDG 16: Anomaly detection is used in cybersecurity to detect fraud, corruption, and irregularities in governance systems. Multi-class classifiers can help categorise risk levels in conflict zones or detect anomalies in justice systems data.

Sumário/programa


  1. Understanding Imbalanced Data
    • Definition and challenges.
    • Examples of imbalanced datasets in real-world applications.
    • Impact on predictive modeling and evaluation metrics.
  2. Overview of Techniques to Handle Imbalanced Data
    • Resampling strategies: oversampling, undersampling, and synthetic data generation (e.g., SMOTE).
    • Algorithmic techniques: cost-sensitive learning and ensemble methods
  3. Key Concepts in Multi-Class Classification
    • Differences between binary and multi-class problems.
    • One-vs-All and One-vs-One strategies.
  4. Algorithms for Multi-Class Classification
    • Random Forest, Gradient Boosting Machines (e.g., XGBoost), and Support Vector Machines.
    • Handling imbalance within these algorithms.
  5. Practical Example in R
    • Walkthrough of a multi-class classification problem.
    • Dataset preparation, feature engineering, and resampling.
    • Model training using caret or tidymodels.
  6. Understanding Anomaly Detection
    • What constitutes an anomaly?
    • Application areas: fraud detection, manufacturing defects, disease identification.
  7. Methods for Anomaly Detection
    • Statistical methods: Z-score and IQR-based detection.
    • Machine learning approaches: Isolation Forest, Local Outlier Factor (LOF), autoencoders, Angle-based outlier detectors (ABOD), Mahalanobis Distance, Minimum Covariance Determinants.
  8. Practical Example in R
    • Using the isotree package for Isolation Forest.
    • Evaluating anomaly detection results: Precision, Recall, F1-score.
  9. Challenges with Traditional Prediction Metrics
    • Limitations of accuracy and the need for alternative metrics.
  10.  Metrics for Imbalanced Data
    • Precision, Recall, F1-score, and their multi-class generalisations.
    • Area Under the ROC Curve (AUC) and Precision-Recall Curve.
  11.  Choosing the Right Metric
    • Aligning metrics with the problem’s goals (e.g., high recall for medical diagnostics).
  12.  Practical Example in R
    • Calculating and visualising metrics for imbalanced datasets.
    • Comparing models using cross-validation and appropriate metrics.
  13.  Conclusion and Q&A
    • Recap of Key Points.
    • Resources for Further Learning (books, papers, R packages).

Público-alvo


This short course is designed for students in their 3rd/4th year of an undergraduate degree in Statistics and for postgraduates in related areas.