Comunicação Orais

CO1 - Estatística Aplicada em Agronomia e Biologia

Autores
Elisângela Aparecida da Silva Lizzi           Marcus Vinicius da Silva Rodrigues            Sandriele Aparecida Noriler            Glaucia Maria Bressan            Admilton Gonçalves de Oliveira Junior

Este estudo investigou as relações filogenéticas de linhagens de Bacillus nitratireducens com abordagens estatísticas computacionais avançadas de modelos evolutivos usando inferência clássicabayesiana. Foram analisados 19 genomas (14 do GenBank e 5 inéditos) e sequências dos genes 16S rRNA (conservado) e gyrB (variável), com B. proteolyticus como grupo externo. Os modelos probabilísticos evolutivos de substituição como TN+F para gyrB; HKY para 16S rRNA e revelaram alta concordância entre as topologias geradas por genomas completos e genes concatenados, com apoio computacional do IQTree e MrBayes, com uso de estimadores de máxima verossimilhança e simulação de Monte Carlo em Cadeias de Markov. A análise demonstrou que todas as linhagens pertencem à mesma espécie, com valores de suporte robustos. O gene gyrB forneceu maior resolução filogenética intraespécie em comparação ao 16S rRNA, cuja baixa variabilidade limitou a discriminação de linhagens próximas. Os resultados destacam a eficácia de abordagens multi-locus combinando marcadores com distintas taxas evolutivas, com aplicações em taxonomia microbiana e biotecnologia. A robustez e concordância das análises filogenéticas usando inferência bayesiana baseada em simulações de MCMC mostrou uma análise conservadora para reconstruir as relações evolutivas entre as linhagens estudadas, em comparação e complemento com métodos evolutivos de inferência clássica. Conclui-se que esses resultados destacam como a integração de métodos estatísticos avançados, inferência clássica e bayesiana dentro do contexto da microbiologia, com marcadores genéticos complementares mostra a elucidação de relações evolutivas em Bacillus nitratireducens usando modelos probabilísticos evolutivos. 

Palavras-chave: Modelos probabilísticos evolutivos; Árvores Filogenéticas; Inferência Clássica e Bayesiana; Bacillus nitratireducens.

Autores
Tiago Olivoto           Carlos Eduardo Forcelini Assoni            Lalesca Dadam Gomes          Luiz Paulo da Silva         
Matheus Lopes Machado          Kenji da Cruz Konno          Isabela Martins Ghizoni          Maria Laura Faustino Monteiro          Kamilly Vitória Siqueira Tonet          Leonardo Talavera Campos          Analu Mantovani

A linhaça (Linum usitatissimum L.) é uma cultura de crescente interesse agronômico e funcional, com aplicações na alimentação humana, animal e na indústria. Apesar do seu potencial, a produção de linhaça no Brasil ainda é limitada, reflexo da escassez de cultivares adaptadas e do baixo investimento em pesquisa e desenvolvimento. Para contribuir com o avanço dessa cultura, o Núcleo de Estudos e Pesquisas em Experimentação e Melhoramento Vegetal (NEPEM) iniciou um programa de melhoramento genético de linhaça no litoral sul do Brasil. Neste trabalho, avaliouse a diversidade fenotípica e os componentes de variância de 40 genótipos oriundos de duas populações contrastantes (Dourada e Marrom), conduzidos em delineamento de blocos aumentados, utilizando a cultivar ST PIONEIRA como testemunha. Foram mensurados dez caracteres agronômicos, e as análises estatísticas foram realizadas por meio de modelos lineares mistos. As herdabilidades em sentido amplo (H²) variaram de 0,485 a 0,837, com valores elevados para altura de planta (H² = 0,837) e número de cápsulas (H² = 0,701), indicando bom potencial de resposta à seleção. A variância intra-genotípica foi próxima de zero para a maioria das características, refletindo boa uniformidade fenotípica. A análise de agrupamento evidenciou variabilidade genética, mesmo se tratando de um painel com genótipos avançados, subsidiando a escolha estratégica de genótipos para cruzamentos dirigidos, como G69, G93 e G145 (Dourada), e G72, G13, G29 e G4 (Marrom). Os resultados demonstram o potencial do programa em gerar cultivares superiores e adaptadas às condições brasileiras, contribuindo para o fortalecimento da cadeia produtiva da cultura no país. 

Palavras-chave: Linum usitatissimum L; alimento funcional; análise multivariada; melhoramento vegetal.

Autores
Carlos Eduardo Forcelini Assoni          Kamilly Siqueira Tonet         Lalesca Dadam Gomes         Luiz Paulo da Silva         Matheus Lopes Machado         Leonardo Talavera Campos         Analu Mantovani         Tiago Olivoto

O melhoramento genético da linhaça (Linum usitatissimum L.) é essencial para aumentar a resiliência das culturas frente à instabilidade climática e impulsionar a produção sustentável de grãos com elevado valor nutricional e comercial. Este estudo teve como objetivo aplicar o índice MGIDI (Multi-trait Genotype-Ideotype Distance Index) para a seleção de genótipos superiores com base em múltiplas características agronômicas. O experimento foi conduzido em Campos Novos (SC), em 2024, utilizando delineamento de blocos aumentados, com 41 genótipos (40 linhagens e uma testemunha comercial) de linhaça marrom e dourada. Foram mensuradas nove caracteres agronômicas, incluindo rendimento de grãos por planta e componentes de rendimento como número de grãos e cápsulas por planta. A seleção foi realizada com o índice MGIDI em dois cenários: com e sem atribuição de pesos (peso 5 para massa de grãos e 1 para as demais), adotando-se uma pressão de seleção de 25%. As análises foram realizadas no software R, utilizando os pacotes metan e tidyverse. Os resultados demonstraram que o MGIDI foi eficiente na identificação de genótipos superiores, sendo G13 (marrom) e G69D (dourada) os genótipos que se destacaram. O G29 foi selecionado apenas com pesos, indicando a importância da ponderação para priorizar características estratégicas. O G69D obteve o maior rendimento de grãos (5,69 g), superando a testemunha ST_PIONEIRA (4,16 g). Os maiores diferenciais de seleção foram observados para massa de grãos e massa de mil grãos, especialmente com pesos. Conclui-se que o uso do MGIDI, com ou sem ponderações, é uma ferramenta robusta e eficaz para apoiar decisões em programas de melhoramento da linhaça. 

Palavras-chave: MGIDI; Linum usitatissimum L.; melhoramento genético; seleção. 

Autores
Lucas Coelho da Silva      Luiz Alexandre Peternelli

Os índices de vegetação (IVs) são combinações matemáticas de duas ou mais bandas espectrais, RGB, RedEDGE e NIR. Dada a grande variedade de possíveis IVs, surge a necessidade de selecionar aqueles que estão mais associados à produtividade. O Variable Selection Using Random Forest (VSURF) utiliza uma estratégia de seleção baseada no algoritmo Random Forest (RF), empregando o método stepwise com base na importância das variáveis. Este estudo utiliza o algoritmo VSURF para selecionar os IVs em cada estádio fenológico da soja mais associados a produtividade e comparar o desempenho preditivo das variáveis selecionadas com todas as variáveis, pelo algoritmo da RF. O experimento foi conduzido em delineamento de blocos casualizados, com 297 parcelas, distribuídas em três blocos. Foram capturadas 11 imagens, aproximadamente uma vez por semana, ao longo do ciclo da soja, a partir das quais foram calculados 36 IVs. A validação dos modelos foi realizada por meio de validação cruzada em 10 etapas, utilizando acurácia e área sob a curva ROC (AUC) como métricas de avaliação. Entre as variáveis mais selecionadas, destacam – se o NIR, NGBDI, o SIPI e o TGI. O modelo com variáveis selecionadas obteve acurácia de 0, 63 e AUC de 0,67, comparado a 0,62 e 0,65 do modelo completo. A fase do início do enchimento dos grãos  apresentou o melhor desempenho preditivo, com acurácia de 0,72 e AUC de 0,79. O VSURF demonstrou – se eficaz na seleção de variáveis, uma vez que manteve o desempenho preditivo semelhante ao modelo completo. 

Palavras-chave: classificação; curva ROC; multiespectral; Random Forest; sensoriamento remoto.

Autores
Marckis Lyandro Farias de Lima

O objetivo deste estudo foi avaliar a digestibilidade da dieta de éguas no terço final da gestação, alimentadas exclusivamente com forragem, e a utilização de fita de pesagem e equações da literatura para estimar o peso corporal. O experimento foi realizado na Universidade Federal da Paraíba, utilizando quatro éguas alimentadas com feno de capim-Tifton 85. O ensaio de digestibilidade durou cinco dias, e as fezes foram coletadas em dois turnos diários. O peso das éguas foi aferido semanalmente com balança comercial, fita métrica e equações, utilizando medidas biométricas (circunferência torácica, comprimento corporal, altura na cernelha, entre outras). A análise estatística incluiu testes de normalidade, homogeneidade de variâncias, e comparação dos dados com o teste de Kruskal-Wallis. O consumo de matéria seca foi, em média, de 1,57% do peso vivo, e a digestibilidade da matéria seca do feno foi de 56,18%. Os resultados mostraram que os métodos alternativos de pesagem diferem estatisticamente do peso real, mas ainda são úteis considerando sua praticidade e custo. A digestibilidade do feno foi considerada satisfatória e não impactou negativamente o desempenho das éguas. Conclui-se que, embora os métodos alternativos não sejam tão precisos quanto a balança, a fita métrica e as equações podem ser opções viáveis para estimar o peso de éguas gestantes, desde que aplicados com correções apropriadas.

Palavras-chave: equinos; gestante; morfometria; ganho de peso; condição corporal.

Autores
Cristiano Ferraz           João Eudes M. M. Torres

Brasil é um país com tradição centenária em Censos Agropecuários, realizados usualmente a cada dez anos, desde 1920. No entanto, é fato que entre censos, não existe ainda uma Pesquisa Nacional Agropecuária (PNAgro) que forneça informações sustentadas por um método probabilístico de amostragem. Estudos metodológicos de viabilidade e eficiência para uma PNAgro podem tender a adotar uma estratégia herdada da tradição exitosa brasileira de pesquisas domiciliares, à exemplo da PNADC, cujo foco está na identificação de estabelecimentos agropecuários a partir de endereços. Neste trabalho, uma estratégia distinta é apresentada, recomendada pela FAO – Organização das Nações Unidas para a Agricultura e Combate a Fome, com foco na identificação pelo monitoramento de uso do solo. As principais vantagens desta estratégia são discutidas, e uma proposta de planejamento amostral que a utiliza, baseada no uso de um cadastro de área de segmento quadrado, é investigada. Os resultados de um estudo de simulação computacional preliminar, com base em informações do Censo Agropecuário de 2017 para o município de Sorriso -MT, são apresentados. Os números observados, em conjunto com a experiência prática de outros países que já adotam a estratégia, dão suporte a viabilidade da proposta para o Brasil. 

Palavras-chave: Cadastro de área; Segmentos quadrados ponderados; Cadastro duplo.

CO2 - Modelos de Regressão, MLG e modelos não lineares

Autores
João Victor Bastos de Freitas             Caio Lucidius Naberezny Azevedo

For binary regression, the use of symmetric link functions is not appropriate when we have evidence that the probability of success increases at a different rate than decreases. In these cases, the use of link functions based on the cumulative distribution function of a skewed and heavy-tailed distribution can be useful. The most popular choice is some scale mixtures of skew-normal distributions. This family of distributions can have some identifiability problems caused by the so-called direct parameterization. To circumvent this problem, in this paper we proposed link functions based on the scale mixtures of skew-normal distributions under the centered parameterization. Also, in binary modelling with skewed link functions, we may have another identifiability problem caused by the presence of the intercept and skewness parameters. Furthermore, we proposed to fix the sign of the skewness parameter, which is a new perspective in the literature to deal with the identifiability problem in skewed link functions. Bayesian inference using MCMC algorithms and residual analysis are developed. Simulation studies are carried out to evaluate the performance of the model. The methodology is applied to a heart disease data

Keywords: Binary regression; Scale mixtures of skew-normal distributions; Centered parameterization; Bayesian inference; Skewed link functions.

Autores
Matheus Oliveira de Castro       Caio Lucidius Naberezny Azevedo      Juvêncio Santos Nobre

Quantile regression (QR) models offer an interesting alternative compared with ordinary regression models for the response mean. Besides allowing a more appropriate characterization of the response distribution, the former is less sensitive to outlying observations than the latter. Indeed, the QR models allow modeling other characteristics of the response distribution, such as the lower and/or upper tails. However, in the presence of outlying observations, the estimates can still be affected. In this context, a robust quantile regression model for bounded responses is developed, considering the Kumaraswamy Rectangular (KR) distribution. The KR model corresponds to a finite mixture structure similar to the Beta Rectangular distribution. That is, the KR distribution has heavier tails compared to the Kumaraswamy model. Indeed, we show that the correspondent KR quantile regression model is more robust and flexible than the usual Kumaraswamy one. Bayesian inference, which includes parameter estimation, model fit assessment, model comparison, and influence analysis, is developed through a hybrid-based MCMC approach. To link both conditional and marginal quantiles in terms of a regression structure, a twostep estimation algorithm under a Bayesian approach is proposed to obtain samples from the posterior distributions. Our proposal showed to be robust against outlying observations related to the response without adding too much complexity to the estimation process. Its performance is validated through three simulation studies, highlighting its accuracy and flexibility. Finally, we apply the proposed model to two real datasets involving socio-economic indicators in Brazil, demonstrating its practical utility and comparative advantages over existing alternatives.

Keywords: Kumaraswamy Rectangular; Double bounded response; Bayesian inference; MCMC algorithms; Latent variables.

Autores
Vinicius Mayrink            Wagner Barreto-Souza           Alexandre B. Simas

Beta regression is widely used for modeling continuous bounded data, with few competitors offering similar flexibility. The normalized inverse-Gaussian (N-IG) process, a Bayesian alternative to the Dirichlet process, has attracted growing interest; however, its univariate distribution remains largely unexplored in the context of classical inference. This study introduces bessel regression, based on the univariate N-IG, as a novel alternative to the beta regression model. Parameter estimation is performed via an EM algorithm, and inference procedures are outlined. We propose a practical model selection criterion to distinguish between bessel and beta regressions. Additionally, we present the R package bbreg for fitting both models, which includes tools for assessing model adequacy and selection. A simulation study evaluates performance under model misspecification, and an empirical example illustrates the comparison between bessel and beta regressions using bbreg. The first author acknowledges research support from CNPq, CAPES, and FAPEMIG. 

Keywords: beta regression; EM algorithm; normalised inverse-Gaussian distribution; misspecification; model selection. 

Autores
Keyliane Travassos            Larissa A. Matos              Fernanda L. Schumacher

Linear mixed models are often used to analyze studies with repeated measurements over time, where the data present a correlation between observations of the same individual. However, one of the main challenges in using these models is correctly defining the covariance structure associated with error and random effects. In this context, we obtain the sandwich variance estimator as a robust alternative to estimate the standard error in the scale mixture of skew-normal linear mixed models. We present the definition of the estimator, its derivation for this model, and its practical implementation. In addition, through simulation studies, we evaluate its performance in different scenarios, demonstrating its ability to provide reliable inferences even when the model or the covariance structure is misspecified. 

Keywords: sandwich variance estimator; linear mixed-effects model; scale mixture of skew-normal distributions.

Autores
Emerson Antonio Rocha Pazeto             Poliano Bastos da Cruz              Alessandro José Queiroz Sarnaglia              Fabio Alexander Fajardo Molinares

Nos últimos anos, o setor público brasileiro tem passado por transformações relevantes sob o ponto de vista da transparência e compliance. Por isso, os gastos públicos cada vez mais têm sido objeto de interesse da sociedade. Este trabalho focou na análise estatística de processos licitatórios, mais especificamente na discriminação não supervisionada entre processos “eficientes” e “ineficientes”. Foi utilizado como indicador de ineficiência o número de aditivos contratuais. Após a coleta e preparação dos dados, foram identificadas evidências de sobredispersão e excesso de zeros. A fim de resolver esse problema, propôs-se um modelo de Misturas de Regressões Binomiais Negativas, o qual foi ajustado com a aplicação do algoritmo EM. Esse algoritmo tornou o modelo capaz de classificar as observações em dois grupos com as características desejadas. Com o fito de mostrar a efetividade do modelo, foram realizadas comparações com modelos de regressões Poisson, Binomial Negativa, Poisson Inflada de Zeros e Binomial Negativa Inflada de Zeros. Os resultados mostraram que o modelo proposto se ajustou satisfatoriamente aos dados e apresentou o melhor desempenho associado à parcimônia em termos do Critério de Informação Bayesiano. Esse resultado torna-se interessante na medida que o modelo proposto tem potencial de se transformar em uma ferramenta de gestão pública capaz de identificar probabilidades de um processo ser “ineficiente” antes mesmo de ser contratado 

Palavras-chave: Aditivos, Ineficiência, Regressões, Classificação não Supervisionada, processos de contratações ineficientes, Infladas de Zeros, Binomial Negativa, Poisson, Algoritmo Expectation-Maximization.

Autores
Silvia M. Freitas            Poliano Bastos da Cruz              Lida Fallah             Clarice G.B. Demétrio             John Hinde

We consider discrete mortality data for groups of individuals observed over time. The fitting cumulative mortality curves as a function of time involves the longitudinal modelling of the multinomial response. Typically, such data exhibit greater variation than predicted by the multinomial distribution (overdispersion). To model the extra-multinomial variation, we consider a Dirichlet-multinomial model, a random intercept model and a random intercept and slope model. We construct asymptotic and robust covariance matrix estimators for the regression parameter standard errors. Applying these models to a specific insect bioassay of the fungus Beauveria bassiana, we note some simple relationships in the results and explore why these are simply a consequence of the data structure. Fitted models are used to make inferences on the effectiveness and consistency of different isolates of the fungus to provide recommendations for its use as a biological control in the field. 

Keywords: Dirichlet-multinomial; Extra-multinomial variation; Generalized esti mating equations; Generalized linear models; Random effects models.

CO3 - Análise de Sobrevivência

Autores
Valdemiro Piedade Vigas            Edwin M. M. Ortega;  Gauss M. Cordeiro           Giovani L. Silva          
Paulo
C. dos Santos Junior

A escolha do mecanismo de censura é muito importante quando se analisa dados de sobrevivência, pois, em algumas situações práticas, existe dependência entre os tempos de falha e de censura, o que contraria a suposição de censura não-informativa. O presente trabalho propõe uma regressão para dados censurados na presença de censura informativa, com base na família de distribuições odd log-logística generalizada. O modelo proposto se baseia na suposição de que os tempos de falha e de censura são condicionalmente independentes, dado um termo de fragilidade. A escolha da família odd log-logística generalizada para os tempos de falha e de censura é justificada pelo fato de estender algumas distribuições já consolidadas na área de sobrevivência e, simultaneamente, por oferecer grande flexibilidade na modelagem de dados práticos, além da capacidade de representar diversas formas da função de risco, incluindo a bimodal. O método de máxima verossimilhança é utilizado para estimar os parâmetros do modelo. Para diferentes configurações de parâmetros e tamanhos amostrais, são realizadas simulações com o objetivo de analisar o comportamento das estimativas de máxima verossimilhança. Aplicação a um conjunto de dados reais ilustra a utilidade do modelo proposto.

Palavras-chave: Censura informativa; Distribuição odd log-logística generalizada; Fragilidade; Modelo de regressão.

Autores
Katy Rocio Cruz Molina              Joaquín Martínez-Minaya               Danilo Alvares               Vera Tomazella

Os modelos de sobrevivência com a presença do termo de fragilidade são ferramentas essenciais para capturar a heterogeneidade não observada entre indivíduos em estudos clínicos e epidemiológicos. Propõe-se um modelo de sobrevivência Bayesiano em que a fragilidade discreta é modelada utilizando a versão Hurdle da distribuição de série de potência zero-modificada (HSPZM).  A distribuição HSPMZ é estruturada de forma a permitir que um dos parâmetros modele a proporção de indivíduos imunes ao risco, frequentemente interpretada como a fração de cura, enquanto outro parâmetro captura a heterogeneidade na suscetibilidade entre os indivíduos. Essa capacidade combinada confere ao modelo a flexibilidade necessária para representar realisticamente cenários com ou sem fração de cura. Para a estimação dos parâmetros, adotou-se uma metodologia Bayesiana, que possibilita a incorporação de conhecimento prévio e fornece inferências robustas, especialmente útil em amostras de tamanho limitado. Como aplicação prática, o modelo proposto foi ajustado a dados de sobrevivência de pacientes com câncer de pulmão. Este é um cenário clinicamente relevante, onde a variabilidade individual influencia significativamente a progressão da doença e a resposta ao tratamento. Os resultados indicam que a abordagem proposta oferece um ajuste superior aos dados em comparação aos modelos de fragilidade convencionais, além de permitir uma interpretação mais refinada do impacto da heterogeneidade na trajetória de sobrevivência dos pacientes. 

Palavras-chave: Câncer de pulmão; Distribuição HSPZM; Inferência Bayesiana; Modelo de fragilidade discreta.

Autores
 Jonathan K. J. Vasquez                 Vera Tomazella              Pedro Rafael D. Marinho 

Este estudo propõe um modelo de regressão para análise de sobrevivência incorporando fragilidade discreta com base na distribuição Waring, combinada com um mecanismo de ativação aleatória. Identificar as causas primárias de eventos críticos continua sendo um desafio significativo, particularmente em cenários com etiologia multifatorial. A distribuição Waring fornece uma estrutura robusta para capturar a heterogeneidade dos fatores de risco e modelar a fração de cura de forma mais realista. No modelo proposto, o número de causas latentes segue uma distribuição Waring, enquanto os tempos de ativação dessas causas são modelados usando uma distribuição Weibull. A influência da ativação aleatória é examinada em termos de como ela afeta a dispersão distribucional e captura fontes internas e externas de variabilidade, frequentemente negligenciadas em modelos tradicionais. A abordagem metodológica se baseia em estudos anteriores enfatizando a importância da ativação na modelagem da taxa de cura. O desempenho do modelo será avaliado por meio de um estudo de simulação de Monte Carlo para explorar suas propriedades inferenciais em vários cenários. Além disso, a aplicabilidade prática da metodologia proposta será ilustrada por meio de uma aplicação a dados reais sobre pacientes com câncer de melanoma, destacando sua flexibilidade e capacidade de capturar estruturas de risco complexas. As descobertas ressaltam o potencial da distribuição de Waring em contextos biomédicos, contribuindo para o avanço de técnicas modernas em análise de sobrevivência. 

Palavras-chave: Modelo de Fragilidade, Distribuição de Waring, Análise de Sobrevivência, Causas de Risco, Esquemas de Ativação Aleatória, Fração de Cura.

Autores
Maurício dos Anjos da Silva             Marciel Lelis Duarte           Nerilson Terra Santos           Sebastião Martins Filho

O desmatamento é um problema mundial relacionado a diversos fatores ecológicos, climáticos e socioeconômicos. O presente trabalho objetivou analisar o efeito de variáveis socioeconômicas e ambientais no desmatamento no sul do Amazonas, por meio da aplicação de métodos de análise de sobrevivência e análise espacial. Além disso, é igualmente relevante inserir a dependência espacial dos dados no modelo e avaliar o efeito aleatório espacial associado a cada grupo de área analisado. Em primeira análise, o tempo até o desmatamento em cada unidade de área foi estimado por meio do método não paramétrico de Kaplan Meier, considerando o nível de cada covariável para análise separadamente. Posteriormente, todas as covariáveis foram inseridas na análise, para uma avaliação em conjunto. A dependência espacial observada nos dados de desmatamento foi modelada por meio do modelo ICAR, considerando uma matriz de vizinhanças que captura a dependência espacial dos dados. Os efeitos espaciais associados a cada  grupo foram inseridos no modelo de fragilidade, com o intuito de capturar a dependência espacial. As variáveis unidades de conservação, terras indígenas e pastagem foram significativas e demonstraram uma importância maior para explicar o desmatamento na região. A magnitude dos efeitos aleatórios mostraram que regiões que fazem fronteira ao arco do desmatamento possuem um maior tempo esperado associado ao desmatamento e ligados a fatores não observados, não mensurados nos dados. Dessa maneira, os modelos de fragilidade são adequados para a modelagem do desmatamento. 

Palavras-chave: Modelos de fragilidade compartilhada; Modelagem Bayesiana; Modelo ICAR; Análise de vizinhança; Floresta Amazônica.

Autores
Rafael Toledo Costa de Almeida             Giovana Oliveira Silva              Edleide de Brito

Em análise de sobrevivência, geralmente o interesse está no tempo até a ocorrência de um evento, porém existem situações que o interesse está em mais de um evento e, além disso, a ocorrência de um dos eventos impede que os demais eventos aconteçam. Nesta situação, usa-se modelos que consideram a presença de eventos competitivos. Inicialmente, considerou-se eventos competitivos, dados censurados e modelo de regressão a partir da distribuição Weibull Generalizada. No estudo de simulação conduzido para diferentes combinações de valores dos parâmetros, tamanhos amostrais e percentuais de censura, observou-se que as estimativas obtidas por máxima verossimilhança apresentavam variâncias elevadas. Diante desse resultado, optou-se pelo modelo com restrição na distribuição de probabilidade. Adicionalmente, o bom desempenho deste modelo restrito foi verificado por meio de um novo estudo de simulação nos diversos cenários citados. Os resultados indicam que o modelo restrito apresentou estimativas precisas e com menor variância, com melhora significativa à medida que o tamanho da amostra aumenta. Testes de hipóteses para verificar a significância dos coeficientes de regressão foram aplicados utilizando a distribuição assintótica dos estimadores de máxima verossimilhança. Com o propósito de analisar a adequabilidade do modelo restrito, foi usado o resíduo quantile. Por fim, a metodologia foi aplicada ao conjunto de dados que trata da duração do vínculo empregatício de empresas privadas de Simões Filho (Bahia), em 2021, sendo tomado como eventos competitivos demissão e desligamento sem justa causa. 

Palavras-chave: Análise de Sobrevivência; Distribuição Weibull Generalizada; Evento competitivos; Resíduos; Simulação.

Autores
Natan Hilario da Silva             Adriano Kamimura Suzuki               Vicente Garibay Cancho               Josemar Rodrigues              Narayanaswamy Balakrishnan

Neste trabalho, generalizamos a aplicação dos modelos de cura por tempo de promoção para a inclusão de variáveis não estruturadas por meio de uma rede neural. Consideramos que o número de riscos competitivos segue uma distribuição Série de Potências Modificada, que generaliza distribuições como Poisson, Binomial Negativa, Poisson generalizada restrita, entre outras. A estimação é feita por meio do algoritmo EM. Estudos de simulação avaliam a convergência do modelo e a qualidade das métricas consideradas. Propomos uma nova métrica para a seleção de modelos de cura. Uma aplicação é feita utilizando tempos até o diagnóstico de pacientes de Alzheimer, flexibilizando modelos pré-existentes. 

Palavras-chave: análise de sobrevivência; modelos de cura; redes neurais; variáveis não-estruturadas; algoritmo EM.

CO4 - Séries Temporais, Análise espacial e Análise espaço-temporal

Autores
Nicoly Rodrigues da Costa            Paulo Emilio Costa Santos 

Este estudo visa modelar e prever os desembarques mensais do Katsuwonus pelamis (bonito-listrado) no Oceano Atlântico, utilizando modelos de séries temporais do tipo SARIMA e abordagens híbridas com redes neurais artificiais (RNA). Foram utilizados os dados da Tarefa II da ICCAT (International Commission for the Conservation of Atlantic Tunas), que organiza informações pesqueiras por espécie, mês, país, tipo de isca e local de pesca, segmentadas em quatro quadrantes espaciais (Q1 a Q4). Inicialmente foram ajustados modelos SARIMA para captura de componentes lineares da série temporal. Após avaliar os resíduos, e com o objetivo de captar padrões não lineares residuais, ajustou-se modelos híbridos SARIMA + RNA. A previsão final do modelo híbrido resulta da soma das previsões de ambas as etapas. Foram ajustados modelos individualmente para cada um dos quadrantes do Atlântico. A seguir, os desempenhos dos modelos foram avaliados por meio das métricas MAPE, MSE e MAE: Q1 e Q4 tiveram melhor desempenho com o SARIMA, Q2 e Q3 tiveram melhor desempenho com o modelo híbrido. Com base nos melhores modelos de cada quadrante, foi realizada a previsão dos desembarques para os 12 meses subsequentes. As previsões demonstraram boa aderência à tendência recente dos dados históricos, com variações notáveis entre quadrantes Q2 e Q4, que apresentaram maior volume e variabilidade. A abordagem híbrida mostrou-se promissora, especialmente quando havia sinais de não linearidade residual, o que é um diferencial em relação ao SARIMA. Essa flexibilidade evidencia a importância de avaliar múltiplas abordagens em problemas com diferentes padrões temporais e estruturais. 

Palavras-chave: Séries temporais; atuns; SARIMA; modelos híbridos; seleção de modelo.

Autores
Rafaela Rodrigues            Helena Mouriño              Valderio Anselmo Reisen 

Phytoplankton play a vital role in aquatic ecosystems, serving as a primary food source for a wide range of marine organisms. However, excessive nutrient input can lead to harmful algal blooms that produce toxic compounds, posing risks to marine birds, mammals, and humans. Among these, diatoms of the genus Pseudo-nitzschia are particularly concerning due to their ability to produce domoic acid—a potent neurotoxin responsible for outbreaks of Amnesic Shellfish Poisoning worldwide. Understanding the seasonal and spatial dynamics of Pseudo-nitzschia blooms is therefore essential for evaluating their ecological and public health impacts. This study analyzes weekly water samples collected in Cascais (Lisbon Bay) from June 2001 to May 2005 to determine Pseudo-nitzschia spp. concentrations. While previous research employed a Zero-Inflated Generalized Poisson Regression Model to characterize Pseudo-nitzschia variability and assess the influence of environmental factors such as sea surface temperature and upwelling indices, the present study extends the analysis by incorporating Generalized Autoregressive Conditional Heteroscedasticity (GARCH) models to capture time-series volatility. 

Keywords: Pseudo-nitzschia; Time series of counts; Overdispersion; Zero-Inflated Generalized Poisson distribution; GARCH models.

Autores
Renata Rojas Guerra       María Agustina Gonzalez

This work proposes a new generalized autoregressive score (GAS) model based on the Unit-Lindley distribution for modeling the Normalized Difference Vegetation Index (NDVI) curve throughout the soybean growth cycle. The NDVI is a widely used remote sensing indicator of vegetation health, with values naturally bounded between –1 and 1, making double-bounded continuous distributions particularly suitable for modeling its dynamics. The Unit-Lindley distribution is a one-parameter model for double-bounded random variables. One of its main advantages is the possibility of reparameterization in terms of the mean, enabling a flexible yet interpretable way to model the conditional expectation of NDVI over time. Another advantage of considering this distribution under the GAS framework is its parsimony when compared with the beta distribution, which is the most commonly used double-bounded GAS model in the literature. Parameters are estimated via conditional maximum likelihood, and a Monte Carlo simulation study is conducted to evaluate estimator performance in finite samples. The model’s predictive ability is assessed using MODIS satellite-derived real NDVI data from soybean fields in southern Córdoba, Argentina. This approach offers a novel contribution to the analysis of double-bounded time series, with practical applications in environmental monitoring and precision agriculture.

Keywords: double-bounded random variables; Generalized Autoregressive Score models; remote sensing; time series analysis; unit distributions; unit-Lindley distribution.

Autores
Alex Monito Nhancololo            Airlane Alencar Pereira               Giovani Festa Paludo            Katerine Zuniga          
 
André Silvestre Cuinica              Welson Antônio de Oliveira              Gean Damaceno               Elias Sabe                
Valderine  Ferreira             Minelda Arao Lhone             João Domingos Scalon

Since 2017, Mozambique’s Cabo Delgado province has experienced sustained insurgent violence. While the exploitation of mineral resources is frequently cited as a primary driver, this study challenges such oversimplified narratives through a spatio-temporal analysis spanning 2017–2024. By integrating Armed Conflict Location and Event Data with demographic variables from the U.S. Census International Database, the study employs Spatial Autoregressive with Autoregressive Disturbances and Geographically Weighted Regression models. These are combined with Generalized Autoregressive Moving Average forecasts to identify associated factors and project fatality trends through 2030. Results reveal that 76.9% of fatalities cluster near strategic resource hubs such as Palma’s gas projects, Balama’s graphite mines, and Mocímboa da Praia’s deep-water port, as well as in artisanal gold mining areas (Muidumbe and Nangade), coastal zones, and international borders. The Spatial Lag of X model (AIC: 8750.19) highlights border dynamics: Nampula border districts exhibit 36.2% lower fatality rates, while spillover effects amplify risks near internal borders and the Tanzanian border. Non-state armed groups including the Dyck Advisory Group, Islamic State Mozambique, and Southern African Development Community forces—demonstrate significantly higher fatality rates compared to Rwandan forces. Population growth correlates with increased fatalities, though socio-demographic factors, such as a higher female-to-male ratio, marginally attenuate this effect. Forecasts suggest declining post-2024 fatalities, signaling potential stabilization; however, biases from political underreporting necessitate caution.

Keywords: Armed conflict in northern Mozambique; fatality rate modeling;  SARAR; GARMA; Impacts of state and non-state armed forces in Cabo Delgado.

Autores
Alvaro Alexander Burbano Moreno

This study presents a Bayesian hierarchical model for analyzing spatially correlated functional data and handling irregularly spaced observations. The model uses Bernstein polynomial (BP) bases combined with autoregressive random effects, allowing for nuanced modeling of spatial correlations between sites and dependencies of observations within curves. Moreover, the proposed procedure introduces a distinct structure for the random effect component compared to previous works. Simulation studies conducted under various challenging scenarios verify the model’s robustness, demonstrating its capacity to accurately recover spatially dependent curves and predict observations at unmonitored locations. The model’s performance is further supported by its application to real-world data, specifically PM10 particulate matter measurements from a monitoring network in Mexico City. This application is of practical importance, as particles can penetrate the respiratory system and aggravate various health conditions. The model effectively predicts concentrations at unmonitored sites, with uncertainty estimates that reflect spatial variability across the domain. This new methodology provides a flexible framework for the FDA in spatial contexts and addresses challenges in analyzing irregular domains with potential applications in environmental monitoring. 

Keywords: Bayesian Hierarchical Modeling; Spatial Functional Data; Irregular Sampling; Bernstein Polynomials.

Autores
Francisco Gustavo-Silva              Cristele Chevalier               Marine Laval              Luc Courtrai               Alex Costa de Silva               Jacques Descloitres              Yamina Aimene              Adan Salazar               Audrey Minghelli               Vincent Vantrepotte               Paulo Duarte-Neto

This study proposes an innovative approach to analyzing aggregations of Sargassum spp. in the Western Mid-Atlantic Region (WCWA) using multifractal analysis of segmented images from the OLCI sensor of the Sentinel-3 satellite. Using products from the SargAlert project, classified into presence or absence of Sargassum, the methodology applied multifractal analysis to 289 image partitions to extract parameters such as dominant singularity (α0), spectrum asymmetry (f(Δα)), spectrum width (Δα) and lacunarity (Λ). The spatial distribution of these parameters made it possible to identify distinct morphological patterns associated with the density and organization of the aggregations. The results showed that the parameter α0 correlates with the amount of cover, while negative values of f(Δα) were associated with dense, spiral structures, possibly ocean vortices. The analysis also revealed morphologically coherent groupings such as absence of algae (SN), low density (QSN), dispersed distribution (SD), intense agglomeration (PREV), and spiral structures (VRT). The detection of VRT groups highlighted the multiscale complexity of these formations and their association with multiple oceanographic processes, such as turbulence and detachment of algal masses. This work contributes to advancing methods for the detection and spatial interpretation of Sargassum aggregations, offering new metrics for understanding ocean dynamics and mitigation strategies. 

Keywords: Dominant singularity; Vortices; Ocean dynamics; Central-West Atlantic.

CO5 - Métodos estatísticos em Agronomia e Biologia

Autores
Verônica Manhães Saint’Clair                Marciel Lelis Duarte               Sebastião Martins Filho

A proteção de cultivares assegura direitos de propriedade intelectual sobre novas variedades vegetais por meio do Certificado de Proteção de Cultivar. No entanto, eventos como renúncia, cancelamento e anulação podem encerrar essa proteção antes do prazo legal, configurando um cenário de riscos competitivos. Esta pesquisa investiga como as características do titular (instituição pública, setor privado e parcerias) e do cultivar (presença de transgenia e tipo de cultura), influenciam a duração do certificado. Foram analisadas 3421 proteções obtidas da plataforma CultivarWeb do Ministério da Agricultura, Pecuária e Abastecimento, entre 1997 e 2024. O evento de interesse (expiração por prazo) e os eventos competitivos (renúncia, cancelamento e anulação da proteção) foram analisados por meio do modelo de Fine-Gray. Os resultados indicaram que cultivares transgênicas apresentam menor incidência tanto de expiração quanto dos eventos competitivos. Proteções do setor privado têm menor incidência de expiração, mas com maior propensão à renúncia, cancelamento e anulação. Cultivares ornamentais registraram as maiores incidências de renúncia, independentemente do ciclo da cultura. Dessa forma, conclui-se que características do titular e da cultivar impactam a duração da proteção e que o modelo de Fine-Gray se mostra promissor para modelar a duração do certificado de proteção de cultivares. 

Palavras-chave: dados censurados; modelo de Fine-Gray; propriedade intelectual.

Autores
Sara Silvério         Marciel Lelis Duarte          Carla Regina Guimarães Brighenti        Lausanne Soraya de Almeida         Sebastião Martins Filho 

Devido à presença de dados censurados nos ensaios de germinação, métodos convencionais de análise de dados podem não ser a escolha mais apropriada. Uma alternativa é a aplicação da análise de sobrevivência. Entretanto, em alguns casos, o momento exato da germinação não é conhecido, pois as observações ocorrem em intervalos de tempo, caracterizando censura intervalar. Neste trabalho, foram utilizados dois conjuntos de dados distintos sobre a germinação de sementes de pitaia (Hylocereus spp.) com o objetivo de exemplificar e avaliar a aplicação de diferentes abordagens na análise de sobrevivência intervalar paramétrica, não paramétrica e semiparamétrica. O primeiro conjunto referese a um experimento que analisou o efeito de diferentes temperaturas sobre sementes armazenadas por 12, 13 e 14 meses. O segundo envolveu a germinação de sementes armazenadas por diferentes períodos, em dois ambientes: câmara fria e condições ambiente. A partir dos resultados obtidos com a abordagem não paramétrica, a 15 ºC a germinação foi significativamente inferior e diminuiu com o aumento do tempo de armazenamento. Na análise paramétrica a interação entre tempo e local de armazenamento foi significativa (-0,1593), indicando que a câmara fria reduz o impacto do tempo de armazenamento nas sementes, em comparação com as condições ambiente. Na análise semiparamétrica a razão de taxas de falha de aproximadamente 1,174 (exp(0,16)) indica que, a cada mês adicional de armazenamento, o risco de germinação das sementes aumenta aproximadamente 17,4% quando as sementes são armazenadas em câmara fria. Os métodos utilizados mostraram-se valiosos para analisar a germinação das sementes com censura intervalar. 

Palavras-chave: Hylocereus spp; armazenamento; temperatura; análise de sobrevivência.

Autores
Hozana Francielle do Nascimento Borges            Luiz Antonio Martinelli           Paulo José Duarte Neto          
Antonio Samuel Alves da Silva           Francisco Gustavo da Silva

Este estudo investigou a aplicação do Support Vector Machine (SVM) como classificador para a determinação da origem geográfica de amostras de maconha (Cannabis sativa), combinando técnicas de aprendizado de máquina com análise de isótopos estáveis. Foram testados quatro kernels do SVM: linear, sigmoide, polinomial e radial, com tamanhos de amostra variando de 50 a 500. O kernel sigmoide, com tamanho de amostra 50, apresentou o melhor desempenho, alcançando uma acurácia de 0,79. Além disso, foram calculadas métricas como Precisão Média, Recall Médio, F1-Score Médio, Desvio Padrão (SD) da Acurácia, e intervalos de confiança (inferior e superior) para avaliar a robustez do modelo. O kernel sigmoide destacou-se não apenas pela acurácia, mas também por valores elevados de Precisão Média, Recall Médio e F1-Score Médio, com baixo desvio padrão e intervalos de confiança consistentes. Conclui-se que o SVM com kernel sigmoide é uma abordagem eficaz e confiável para a classificação da origem geográfica de amostras de maconha, sendo uma ferramenta promissora para aplicações forenses e científicas. 

Palavras-chave: Análise isotópica; Aprendizado de Máquina; Cannabis; Biomas.

Autores
Idemauro Antonio Rodrigues de Lara            Gabriel Rodrigues Palma           Victor José Bon           Carolina Reigada           Rafael de Andrade Moral

O percevejo marrom Euschistus heros é uma das pragas potenciais da cultura da soja. Neste trabalho, apresenta-se um estudo experimental desenvolvido para avaliar as mudanças comportamentais dos parasitoides de acordo com a qualidade dos hospedeiros, ou seja, quando previamente parasitados ou não, bem como os efeitos do parasitismo prévio dos ovos do Euschistus heros na taxa de parasitismo das espécies Trissolcus basalis e Telenomus podisi. Assim, foram implementados modelos markovianos multi-estados para modelar sucessivamente a escolha dos ovos (não parasitados, parasitados por T. podisi e parasitados por T. basalis) e o comportamento condicional dada a escolha (caminhar, tamborilar, ovipositar ou marcar). Neste trabalho, enfatizamos a contribuição metodológica de transições duplas devido a dois estágios sucessivos de respostas ao longo do tempo. A metodologia estatística é baseada em processos estocásticos de tempo contínuo e no procedimento de máxima verossimilhança. Usando o modelo de Cox e assumindo um processo estacionário, verificou-se que o efeito do tratamento foi significativo para a escolha, indicando que as duas espécies de parasitoides têm padrões de escolha diferentes. Numa segunda etapa, os resultados também mostraram a influência da espécie no comportamento condicional, especialmente, que o agente T.podisi evita a competição intraespecífica. O método estatístico usado contribuiu para seleção do melhor agente de controle biológico da praga da soja, que é uma prática da agricultura sustentável e ecologicamente correta.

Palavras-chave: Telenomus podisi; Trissolcus basalis; comportamento de forrageamento; controle do percevejo marrom, processos estocásticos.

Autores
Gabriel Edson Sousa da Silva          Louiziane Ribeiro Carvalho          Joel Augusto Muniz           Edilson Marcelino Silva

Este estudo avaliou o acúmulo de nitrogênio em plantas de chicória sob diferentes formas de cultivo, utilizando modelos não lineares. A chicória é uma hortaliça importante, rica em inulina, com potencial para a saúde humana. O nitrogênio é um nutriente essencial para o crescimento das plantas, influenciando diretamente a fotossíntese e o desenvolvimento. Modelos não lineares, como Logístico, Gompertz e Von Bertalanffy, foram utilizados para analisar o acúmulo de nitrogênio ao longo do tempo. O experimento foi conduzido com duas cultivares de chicória, com e sem cobertura de tecido de polipropileno. Os resultados indicaram que o modelo Logístico foi o mais adequado para descrever o acúmulo de nitrogênio na maioria das cultivares. Não houve diferença significativa no acúmulo máximo de nitrogênio entre as cultivares, mas houve diferença no ponto de inflexão entre a cultivar AF-218 coberta e a crespa descoberta. 

Palavras-chave: Chicória; Macronutrientes; Modelos não lineares; Acúmulo de nitrogênio; Polipropileno.

Autores
Felipe Augusto Fernandes

As curvas de crescimento de animais, em geral, possuem formato de “S”, conhecidas também como curvas sigmoidais. Este tipo de curva é bem ajustada por modelos de regressão não linear, dentre eles o de von Bertalanffy que tem sido muito aplicado em diversas áreas, sendo apresentado na literatura por meio de diferentes parametrizações, que na prática, pode além de complicar seu entendimento, afetar as medidas de não linearidade e as inferências sobre os parâmetros. Para quantificar a não linearidade presente em um modelo Bates e Watts utilizaram um conceito geométrico de curvatura. O objetivo deste trabalho foi desenvolver analiticamente três parametrizações do modelo não linear de von Bertalanffy, referente à sua não linearidade, as implicações nas inferências e estabelecer relações entre os parâmetros nas diferentes formas de expressar os modelos. Estas parametrizações foram ajustadas à dados de crescimento de ovinos. Para cada parametrização foram calculadas as medidas de curvatura intrínseca e paramétrica descritas por Bates e Watts. A escolha da parametrização afeta as medidas de não linearidade, consequentemente, influencia na confiabilidade e nas inferências sobre os parâmetros estimados. As formas mais utilizadas na literatura apresentaram os maiores afastamentos da linearidade, evidenciando a importância de se analisar estas medidas em qualquer estudo sobre curva de crescimento. Deve ser utilizada a parametrização na qual a estimativa de b representa a abscissa do ponto de inflexão por apresentar menores desvios de linearidade e interpretação biológica direta para todos os parâmetros. 

Palavras-chave: Interpretação biológica; medidas de curvatura; regressão não linear; reparametrizações

CO6 - Estatística Aplicada à Saúde e ao Meio Ambiente

Autores
Beatriz Milz          Sandra Momm          Gabriel Machado Araujo 

A pandemia de COVID-19 evidenciou desigualdades socioespaciais profundas, sobretudo em grandes centros urbanos como São Paulo. O projeto “Impacto da COVID-19 no modo de vida, mobilidade e acessibilidade dos grupos marginalizados” (ICOLMA) investiga os impactos da COVID-19 na mobilidade de grupos marginalizados em três cidades: São Paulo (Brasil), Cidade do Cabo (África do Sul) e Dortmund (Alemanha). Neste projeto, utilizamos o software Maptionnaire para aplicar um questionário baseado em mapas (map-based survey). Esta comunicação oral tem como objetivo apresentar os desafios enfrentados na preparação e análise dos dados geográficos, enfatizando a importância da linguagem R para garantir a reprodutibilidade da análise dos dados. Serão apresentados desafios nos processos de validação, limpeza e integração dos dados, com destaque para as estratégias de correção de inconsistências nas coordenadas geográficas e a unificação de informações oriundas de múltiplos arquivos. Em seguida, detalharemos a aplicação de técnicas de análise geoespacial, como o cálculo de distâncias entre residências e pontos de atividade coletados. Também apresentaremos o dashboard interno em Shiny, desenvolvido com o objetivo de facilitar a exploração dos dados e a visualização dos resultados, além de facilitar a identificação de possíveis erros de coleta. As lições aprendidas durante este processo oferecem importantes contribuições metodológicas, servindo de referencial para futuras pesquisas que utilizam questionários baseados em mapas. 

Palavras-chave: map-based survey, mobilidade urbana, COVID-19, grupos marginalizados. 

Autores
Eduardo V. Moraes          Magda C. Pires          Guilherme F. Nascimento          Leonardo C. D. Rocha          Marcos A. Gonçalves          Unaí Tupinambas          Milena S. Marcolino

COVID-19 vaccines effectively prevent infection and hospitalization. This study aimed to compare the clinical characteristics and outcomes of vaccinated and unvaccinated COVID-19 in hospital patients using advanced statistical methods: propensity score analyses, covariate adjustment and feature importance by permutation. The retrospective cohort included adult COVID-19 patients admitted from March 2021 to August 2022 from 27 hospitals across five Brazilian states during the Delta and Omicron waves. From the 3,188 patients, 1,963 (61.6%) were unvaccinated and 1,225 (38.4%) were fully vaccinated. Among these, 558 vaccinated individuals were matched with 558 unvaccinated ones. Vaccinated patients had lower rates of mortality (19.4% vs. 33.3%), invasive mechanical ventilation (IMV-18.3% vs. 34.6%), noninvasive mechanical ventilation (NIMV-10.6% vs. 22.0%), intensive care unit admission (ICU-32.0% vs. 44.1%) vasoactive drug use (21.1% vs. 32.6%), dialysis (8.2% vs. 14.7%) hospital length of stay (7.0 vs. 9.0 days), and thromboembolic events (3.9% vs.7.7%), p<0.05 for all. Risk-adjusted multivariate analysis demonstrated a significant inverse association between vaccination and in-hospital mortality (adjusted odds ratio [aOR] = 0.42, 95% confidence interval [CI]: 0.31-0.56; p < 0.001) as well as IMV (aOR = 0.40, 95% CI: 0.30-0.53; p < 0.001). These results were consistent in all analyses, including feature importance by permutation. In conclusion, vaccinated patients admitted to hospital with COVID-19 had significantly lower mortality and other severe outcomes than unvaccinated ones during the Delta and Omicron waves. These findings have important implications for public health strategies and support the critical importance of vaccination efforts, particularly in low-income countries, where vaccination coverage remains suboptimal.

Keywords: COVID-19; vaccine; severe illness; propensity score; machine learning

Autores
Louiziane Ribeiro Carvalho         Valdeline de Paula Mequelino Ferreira           Maria Vitória Neves           Thelma Sáfadi           Joel Augusto Muniz

A sífilis é uma infecção crônica e sistêmica, de distribuição global, transmitida entre humanos. Apesar da redução na sua prevalência com o uso da penicilina, observa-se um aumento nos casos, especialmente de sífilis congênita. A sífilis congênita é provocada pela bactéria espiroqueta Treponema pallidum ocorrendo por via transplacentária e também durante o parto e a amamentação se houver contato com lesões maternas. O objetivo do estudo foi analisar e fazer previsão da série dos casos de sífilis congênita em Minas Gerais. Trata-se de um estudo de séries temporais considerando para análise o estado de Minas Gerais, a partir do número de casos de sífilis congênita e de nascidos vivos (NV), registrados entre 2007 e 2024. Calculou-se as taxas de incidência da doença expressa como o número de casos por 1000 NV por ano. Ajustou-se o modelo para a série e foi feita a previsão para o período de julho de 2024 a dezembro de 2025. No período de janeiro de 2007 a junho de 2024, foram notificados 22.464 casos de sífilis congênita. A taxa de incidência variou entre 0,69/1000 NV em 2007 a 9,71/1000 NV em 2023. Observou-se uma tendência temporal na série, com um aumento no número de casos até o ano de 2019, decréscimo nos anos de 2020 e 2021, seguido de um novo aumento. Os resultados indicam que a sífilis congênita permanece um problema de saúde pública, visto que o número de casos foi crescente para o período analisado e com previsão de aumento para 2025. 

Palavras-chave: Séries temporais; sífilis congênita; previsão; modelo ARMA; tendência.

Autores
Fernando Antonio Moala           Adriano Buran Moala          Nixon Jerez-Lillo          Pedro Luiz Ramos

The selection of priors is a critical aspect of Bayesian analysis, although the literature lacks studies concerning the application of the Gumbel distribution using different objective priors. We derive objective priors for the two-parameter Gumbel distribution and present a fully Bayesian analysis. Our primary goal is to choose a prior that represents a state of “little knowledge” a priori for both parameters. To yield this, we implement Markov Chain Monte Carlo algorithms to sample from the posterior distribution and to calculate the Bayes estimators. This investigation is made in the context of extreme weather events, using maximum rainfall data. 

Keywords: Gumbel distribution; Bayesian inference; objective priors; reference prior; Jeffreys.

Autores
Paulo Canas Rodrigues 

Incêndios florestais estão entre os desastres naturais mais comuns em muitas regiões do mundo e têm impacto ativo na qualidade de vida. Esses eventos tornaram-se mais frequentes devido às mudanças climáticas, outras políticas locais e ao comportamento humano. Nesta palestra, considero os dados históricos com as localizações geográficas de todos osfocos de incêndiodetectados pelos satélites de referência que cobrem o território brasileiro entre janeiro de 2011 e dezembro de 2022, totalizando mais de 2,2 milhões de focos. Inicialmente, apresentarei os resultados de um modelo linear generalizado espaço-temporal para dados de unidades espaciais, cujas inferências sobre seus parâmetros são realizadas por meio de uma abordagem Bayesiana, utilizando variáveis meteorológicas (precipitação, temperatura do ar, umidade e velocidade do vento) e uma variável humana (transição e ocupação do uso da terra) como covariáveis. Em seguida, apresentarei os resultados para a previsão hierárquica de séries temporais, onde os seis biomas brasileiros e os 5570 municípios formam a hierarquia. (Trabalho conjunto com Jonatha Pimentel, Rodrigo Bulhões e Ana Pinheiro). 

Palavras-chave: modelagem espaço-temporal, previsão de séries temporais hierárquicas, incêndios florestais

Autores
Giovani L. Silva              André Nunes             Luzia Gonçalves

Na análise de dados longitudinais, são geralmente adotados efeitos aleatórios gaussianos para controlar a heterogeneidade não observada dos indivíduos ao longo do tempo. Neste trabalho, questiona-se essa suposição gaussiana numa análise de variáveis respostas binárias que são conjuntamente distribuídas e com estrutura de dependência via efeitos aleatórios sob uma abordagem bayesiana não paramétrica (BNP). Estatística bayesiana não paramétrica não impõe uma dada distribuição de probabilidade para as variáveis respostas ou efeitos aleatórios ou ambas. Considera-se modelos BNP para os efeitos aleatórios e modelos paramétricos (distribuição de Bernoulli) para as variáveis respostas binárias. Relativamente ao modelo BNP, uma variedade de processos tais como o processo de Dirichlet (DP), o processo de quebra-vara (=stick-breaking process), o processo de Pitman-Yor e a árvore de Polya que estão implementados no pacote R NIMBLE. São também empregues métodos de Monte Carlo via cadeias de Markov (MCMC) para fazer inferência sobre os parâmetros do modelo. Por fim, a motivação deste trabalho devese a um estudo de dados binários de um ensaio longitudinal aleatorizado em paralelo com quatro braços e conduzido na província de Bengo – Angola, envolvendo um total de 121 crianças com infecções parasitárias intestinais que receberam tratamento inicial. Um dos objetivos do estudo é investigar os efeitos de quatro intervenções nas variáveis respostas de malnutrição aguda e crônica. 

Palavras-chave: Estatística não paramétrica bayesiana; modelo misto; malnutrição.

CO7 - Aprendizado de Máquina

Autores
Rafael Magalhães             Anderson Andolfato             Eduardo Portela            Anderson Ara 

This study presents an integrated methodology that combines Active Learning and Process Mining to enhance the efficiency of CRM systems, focusing on reducing unnecessary calls and improving dialer performance. Unlike traditional model-centric approaches, the method proposes the use of t-SNE for dimensionality reduction and entropy as a criterion for informative sample selection (GSx), reducing dependence on large labeled datasets. The methodology was applied during the transition of a Brazilian company from a telephony-based system to an omnichannel CRM platform. Event logs, call history, and dialer activity were analyzed to identify patterns and estimate success rates. Four predictive models were evaluated — Linear Regression (LR), Support Vector Regression (SVR), Random Forest (RF), and Multilayer Perceptron (MLP) — with LR and SVM using a linear kernel demonstrating superior performance in minimizing inefficient calls. Process mining complemented the analysis by identifying critical variables impacting success rates. The results indicate that integrating entropy and t-SNE with active learning allows for the selection of more representative samples, improves predictive model performance, and significantly reduces computational cost. This approach stands out for its practical applicability in real-world CRM environments and promotes a more intelligent use of data in decision-making and process optimization. 

Keywords: Active Learning, Process Mining, Software CRM

Autores
 Cristian Pessatti dos Anjos            Anderson Ara

No cenário do aprendizado de máquina, os modelos de classificação assumem um papel fundamental, apresentando grande relevância na Estatística e na Ciência de dados. Suas aplicações na extração de padrões a partir de dados complexos têm sido de grande importância para classificação tanto de variáveis binárias como multiclasse. A classificação multiclasse é crucial no aprendizado de máquina, permitindo a categorização de dados em várias classes distintas. Isso é essencial em muitas aplicações do mundo real, como diagnóstico médico, classificação de espécies e análise de sentimentos em texto. Dentro desse contexto, o modelo de ensemble Máquinas Aleatórias se apresenta entre os modelos de aprendizado de máquina com uma notável capacidade preditiva em comparação com abordagens tradicionais. O pacote randomMachines é uma implementação em R do algoritmo  Máquinas Aleatórias,  disponível no CRAN desde 14 de dezembro de 2023. Em suma, o algoritmo utiliza da técnica de  bagging para modelos base de Support Vector Machines (SVM), utilizando uma amostragem aleatória adicional de funções kernel para sua construção fazendo uso da biblioteca kernlab. Em sua forma mais básica, os modelos de SVM não modelam classificação multiclasse nativamente, assim executam classificação binária somente em duas classes, e para a classificação multiclasse, o mesmo princípio é utilizado, decompondo o problema de multiclassificação em vários problemas de classificação binária. Atualmente, o pacote randomMachines está preparado exclusivamente para tarefas de classificação em classes binárias. Neste trabalho, propomos uma extensão da metodologia bem como a atualização no pacote randomMachines para lidar com tarefas de classificação envolvendo duas ou mais classes. 

Palavras-chave: Machine Learning; SVM; Classificação.