Comunicação Orais
Estimação por máxima verossimilhança em modelos espaciais lineares mistos generalizados baseada na aproximação de Laplace
- Segunda-feira, 04/08
- 14:00 - 14:20
Autores
Caio Gomes Alves
O trabalho apresenta uma abordagem computacional para estimação de parâmetros em Modelos Espaciais Lineares Mistos Generalizados (SGLMMs) utilizando a aproximação de Laplace, como alternativa a métodos tradicionais baseados em MCMC, que são computacionalmente intensivos e possuem desafios de convergência. O estudo foi desenvolvido em R, com funções adaptadas para simplificar a sintaxe e otimizar o ajuste de modelos para dados não-gaussianos, como contagens e proporções georreferenciadas.
Foram realizados estudos de simulação para avaliar propriedades dos estimadores, como não-viés e consistência, sob diferentes condições (tamanho amostral, funções de correlação espacial e regiões amostrais). Os resultados mostraram que a aproximação de Laplace é computacionalmente mais eficiente que MCMC (sob condições de regularidade), com estimativas comparáveis e menor tempo de execução.
A aplicação a dados reais (contagem de ervas daninhas e sondagens geotécnicas) demonstrou a eficácia do método, permitindo predições espaciais precisas e seleção de modelos via verossimilhança.
Palavras-chave: Geoestatística; Modelos Mistos; Aproximação de Laplace; Verossimilhança; Estatística Espacial.
D-Valor: comparação e aplicação para dados massivos
- Segunda-feira, 04/08
- 14:20 - 14:40
Autores
Jefferson Caponero
Este trabalho traz uma discussão sobre o uso do p-valor nos testes de significância da hipótese nula e as questões relacionadas à sua interpretação. Foram avaliadas críticas à abordagem dos p-valores e os desafios específicos ao usar o p-valor para dados massivos. Com alternativa, se avaliou aplicação do d-valor em testes de hipóteses. O d-valor é uma métrica estatística proposta Demidenko focando na probabilidade de que uma observação de um grupo seja maior que uma de outro grupo (controle). Essa métrica é especialmente útil em áreas onde a interpretação prática da magnitude do efeito é mais relevante do que a significância estatística. Simulações realizadas indicaram que, em populações com distribuição normal e gama, o tamanho da amostra tem um impacto pouco significante no d-valor. Foram ainda abordados os desafios associados ao uso em análises estatísticas de dados massivos reais. Assim, aplicou-se o d-valor a amostras aleatórias do conjunto de dados formado pelo Censo da Educação Superior Brasileira do ano de 2019, avaliando categorias como: gênero, turno, auxílio financeiro, modalidade de ensino, grau acadêmico e desempenho territorial, destacando diferenças estatisticamente significativas entre essas categorias. O d-valor demonstrou estabilidade nos resultados, com uma distribuição normal e pouco sensível ao tamanho da amostra. Esse estudo revelou informações significativas sobre o ensino superior nacional. Os dados demonstram que em todas as categorias estudadas a diferença entre o grupo de referência e demais alunos foi ínfima e que a diferença de desempenho entre os estados brasileiros é no máximo pequena.
Palavras-chave: D-Valor; P-Valor; Dados Massivos; Teste de Hipóteses; Censo da Educação Superior Brasileira.
Avaliação aprimorada da capacidade do processo por meio de modelagem semiparamétrica por partes
- Segunda-feira, 04/08
- 14:40 - 15:00
Autores
Vinícius da Costa Soares Paulo Henrique Ferreira da Silva
Os modelos por partes (piecewise models) têm ganhado popularidade como uma ferramenta útil em confiabilidade e monitoramento/controle da qualidade, especialmente quando os dados do processo não seguem uma distribuição normal. Neste estudo são desenvolvidos estimadores de máxima verossimilhança (EMVs) para os índices de capabilidade do processo Cpk, Cpm, C∗ pm e Cpmk, usando um modelo semiparamétrico. Para remover o viés nos EMVs com tamanhos de amostra pequenos, é proposta uma abordagem de correção de viés (bias-correction approach). Além disso, o método proposto é estendido para situações em que os pontos de quebra (changepoints) na função de densidade são desconhecidos. Para estimar os parâmetros do modelo de forma eficiente, é utilizado o método de máxima verossimilhança perfilada. O estudo de simulação revelou que o método sugerido produz estimativas com baixo viés e erro quadrático médio. Por fim, são fornecidas três aplicações a dados reais, a fim de demonstrar a superioridade do procedimento proposto em relação aos existentes.
Palavras-chave: Índice de capabilidade do processo; método de correção de viés; modelo de ponto de quebra; modelo exponencial por partes.
New Generalized Autoregressive Score and Regression Models
- Segunda-feira, 04/08
- 14:00 - 14:20
Autores
Fernando José Monteiro de Araújo Renata Rojas Guerra Fernando Arturo Peña-Ramírez
This work proposes new dynamic models that combine the unit gamma (UG) and Burr XII (BXII) conditional distributions with the generalized autoregressive score (GAS) framework, referred to as UG-GAS and BXII-GAS. These proposals aim to enhance the understanding of stochastic behavior and improve the forecasting of hydro-environmental indicators. To model time-dependent effects, dynamic structures such as GAS models provide a useful framework, allowing for the update of time-varying parameters based on past observations and the weighted score function. The estimation of GAS models is performed via conditional maximum likelihood, and a Monte Carlo simulation study is conducted to assess the estimators’ performance. The proposed UG-GAS and BXII-GAS models are applied to real data on capacity factors in wind power plants and river flow rates in hydroelectric plants, respectively. In addition, we also propose a new quantile regression model based on a reparameterization of the unit ratio-Weibull (URW) distribution. We define a systematic structure for two parameters of the distribution: one representing the quantiles of the URW and the other corresponding to the shape parameter. The estimation of the regression model parameters is carried out using the maximum likelihood method, and its performance is evaluated through Monte Carlo simulations and an application to mortality rates. The results illustrate the model’s usefulness in understanding and quantifying the effects of economic, social, demographic, and public health variables on the quantiles of the COVID-19 mortality rate in Latin American countries.
Palavras-chave: Generalized autoregressive score models; Hydro-environmental indicators; Monte Carlo simulation; Mortality rates; Quantile regression.
Identificação do Efeito Causal no Modelo de Medição com Variáveis Latentes
- Segunda-feira, 04/08
- 14:20 - 14:40
Autores
Michelle P.V. Passos Marcelo M. Taddeo Leila D.A.F. Amorim
A análise de mediação causal baseada em respostas potenciais (contrafactuais) tem sido amplamente utilizada para decompor o efeito causal de uma intervenção sobre desfechos em diversas áreas, especialmente na epidemiologia e nas ciências sociais. Os métodos mais conhecidos se baseiam em variáveis contínuas, geralmente por meio de modelos lineares e mensuração sem erro. No entanto, em certos contextos, o mediador e/ou o desfecho podem ser variáveis latentes, caracterizadas via modelos de classes latentes. Assim, com a crescente disseminação de modelos de mediação com variáveis latentes, torna-se necessária a formalização das condições de identificação causal dos efeitos naturais direto e indireto, para garantir interpretação e estimação sem viés. Neste contexto, esta dissertação avalia o comportamento dos estimadores dos efeitos direto e indireto em modelos com variáveis latentes categóricas, via análise de classes latentes (LCA), em cenários com mediadores e/ou desfechos latentes. As metodologias para estimação dos efeitos natural indireto (NIE) e direto (NDE) são estendidas para variáveis latentes com mais de duas classes. Propõe se também a inclusão de escores de propensão em modelos marginais estruturais com variáveis latentes. Estudos de simulação de Monte Carlo avaliaram as propriedades dos métodos propostos sob diferentes cenários de violação das suposições. As metodologias são ilustradas com dados reais de duas aplicações na área da saúde. Os resultados destacam a importância dos critérios de identificação causal e oferecem insights relevantes para avanços metodológicos e futuros estudos.
Palavras-chave: Inferência Causal, Análise de Classes Latentes, Efeito Natural Indireto, Mediação Causal, Modelos Marginais Estruturais.
Delineamentos ótimos para modelos polinomiais fracionários
- Segunda-feira, 04/08
- 14:40 - 15:00
Autores
Samantha Navarro Janine Marcelo Andrade da Silva
A vasta aplicabilidade de modelos não lineares em diferentes contextos tem motivado o desenvolvimento de estudos para a definição de algoritmos envolvendo estas funções. Contudo, ainda existem poucos trabalhos realizados em cenários de delineamentos ótimos para modelos não lineares. A teoria de delineamentos de experimentos consiste em planejar o experimento e determinar a estimativa dos parâmetros de acordo com a função dada entre as variáveis de interesse. Para obter a máxima informação possível sobre os parâmetros, utilizam-se os delineamentos ótimos, com base em um determinado critério. Em funções com covariáveis contínuas, cujos comportamentos não são capturados por modelos polinomiais, o uso de polinômios fracionários, dado por um conjunto de potências usual mente utilizado, torna o ajuste mais flexível e de simples interpretação. Logo, o objetivo deste trabalho é estudar a teoria de delineamentos ótimos em modelos polinomiais fracionários a partir da construção de um algoritmo de troca das coordenadas da matriz de planejamento. Através do estudo das abordagens de delineamentos localmente ótimos e pseudo-Bayesianos considerando o critério D, o interesse é avaliar como a atribuição dos valores iniciais dos parâmetros e suas respectivas prioris podem influenciar no resultado do delineamento ótimo obtido a fim de garantir delineamentos mais eficientes. Além disso, deseja-se motivar a programação de algoritmos flexíveis a diferentes cenários que não estão implementados em pacotes usuais disponíveis em softwares para análises estatísticas.
Palavras-chave: Delineamentos ótimos; Polinômios fracionários; Algoritmo de troca por coordenada; Planejamento de experimentos.
Functional Data Analysis: Spatial Association of Curves and Irregular Spacing
- Segunda-feira, 04/08
- 14:00 - 14:20
Autores
Alvaro Alexander Burbano Moreno Vinícius Diniz Mayrink
Spatial Functional Data (SFD) analysis is an emerging statistical framework that combines Functional Data Analysis (FDA) and spatial dependency modeling. Unlike traditional statistical methods, which treat data as scalar values or vectors, SFD considers data as continuous functions, allowing for a more comprehensive understanding of their behavior and variability. This approach is well-suited for analyzing data collected over time, space, or any other continuous domain. SFD has found applications in various fields, including economics, finance, medicine, environmental science, and engineering. This thesis proposes new functional Gaussian models incorporating spatial dependence structures, focusing on irregularly spaced data and reflecting spatially correlated curves. The models are based on B-spline basis expansions and Bernstein Polynomials (BP) and utilize a Bayesian approach for estimating unknown quantities and parameters. The thesis explores the advantages and limitations of B-spline-based and BP-based models in capturing complex shapes and patterns while ensuring numerical stability. The main contributions of this work include the development of an innovative model designed for SFD using B-spline or BP structures, including a random effect to address associations between irregularly spaced observations, and a comprehensive simulation study to evaluate models’ performance under various scenarios. The thesis also presents two real applications related to levels of PM10 and Temperature in Mexico City, showcasing practical illustrations of the proposed models.
Palavras-chave: Functional Data Analysis; Spatial Dependency; Bayesian Statistics; Bernstein Polynomial; B-spline.
Multivariate modeling and linear and partially linear mixed models using scale mixtures of centered skew-normal distributions
- Segunda-feira, 04/08
- 14:20 - 14:40
Durante muito tempo, em Estatística, a abordagem padrão para a modelagem de dados univariados/multivariados era considerar alguma metodologia com a distribuição normal univariada/multivariada. No entanto, em muitos casos as distribuições associadas às variáveis de interesse podem apresentar assimetria e/ou caudas mais pesadas do que as da normal, fazendo com que esta distribuição seja inapropriada. Assim, introduzimos e exploramos as distribuições de mistura de escala da skew-normal centrada multivariada para contornar alguns problemas inferenciais e de interpretação apresentados por sua versão sob a parametrização usual. Além disso, motivados pelo Millennium Cohort Study, propomos um modelo linear misto com efeitos aleatórios seguindo uma mistura de escala da skew-normal centrada multivariada e erros seguindo uma mistura de escala da normal multivariada. Por fim, motivados pelo estudo da qualidade do ar na cidade de Vitória, Espírito Santo, Brasil, propomos um modelo misto aditivo parcialmente linear sob independência condicional com erros seguindo uma mistura de escala da distribuição skew-normal centrada univariada, considerando também os parâmetros de escala e assimetria variando no tempo. Para todas as metodologias propostas foram feitos estudos de simulação para avaliar a recuperação de parâmetros e outras características de interesse. Quando pertinente, análise residual, critérios de informação e análise de influência foram propostas. As análises de conjuntos de dados reais constataram que os novos modelos (distribuições) apresentaram melhores resultados, em termos de qualidade de ajuste e, consequentemente, conclusões, do que abordagens usuais da literatura, como os modelos baseados nas distribuições normal e skew-normal (sob a parametrização direta).
Palavras-chave: Modelos mistos; Modelagem multivariada; Misturas de escala; Skew-normal centrada; Modelos aditivos parcialmente lineares.
Essays on Cure Rate Models
- Segunda-feira, 04/08
- 14:40 - 15:00
Autores
Jeremias da Silva Leão Marcelo Bourguignon Pereira Diego Ignacio Gallardo Mateluna
This work focuses on cure fraction models in survival analysis, which are fundamental in applications where a significant portion of individuals never experience the event of interest, even when observed for long periods. These models assume a homogeneous population and incorporate an unobserved random variable to represent missing information. The study is divided into three chapters. The first chapter provides an introduction to cure rate models. The second chapter extends the cure fraction model by incorporating competitive causes within the Power Series class, assuming a mixture of two competing causes. This generalization includes several well-known models as special cases. Parameter estimation is performed using the maximum likelihood method, and an EM (Expectation-Maximization) algorithm is proposed. Monte Carlo simulations are conducted to evaluate asymptotic properties. The methodology is illustrated with real data from a population-based study of cutaneous melanoma cases diagnosed in São Paulo, Brazil. The third chapter introduces a new modeling approach where the number of competing causes follows a mixture of Poisson and Birnbaum-Saunders distributions. This approach generalizes existing models, with the promotion time model appearing as a limiting case. Statistical properties of the proposed model are analyzed, and parameter estimation is again performed using the maximum likelihood method with an EM algorithm. Monte Carlo experiments are conducted to assess asymptotic properties and the power of the likelihood ratio test. Finally, the methodology is applied to real data from a population-based study of breast cancer cases in São Paulo, Brazil.
Palavras-chave: Mixtures; Power series distribution, Poisson, Birnbaum-Saunders, competing causes; EM algorithm; Melanoma; Breast cancer.