Ciclo de Palestras 2024 - 2

21/08

A detecção da origem de uma epidemia é o problema de identificar o nó da rede que deu origem a uma epidemia a partir de uma observação parcial do processo epidêmico. O problema encontra aplicações em diferentes contextos, como detectar a origem de rumores em redes sociais. Neste trabalho consideramos um processo epidêmico em uma rede finita que começa em um nó aleatório (origem epidêmica) e termina quando todos os nós são infectados, produzindo uma árvore epidêmica enraizada e direcionada que codifica as infecções. Assumindo o conhecimento da rede subjacente e da árvore não direcionada (ou seja, as arestas da infecção, mas não suas direções), é possível inferir a origem da epidemia? Este trabalho aborda esse problema introduzindo o epicentro, um estimador para a origem da epidemia.

28/08

An initial screening of which covariates are relevant is a common practice in high-dimensional regression models. The classic feature screening selects only a subset of covariates correlated with the response variable. However, many important features might have a relevant albeit highly nonlinear relation with the response. One screening approach that handles nonlinearity is to compute the correlation between the response and nonparametric functions of each covariate. Wavelets are powerful tools for nonparametric and functional data analysis but are still seldom used in the feature screening literature. In this talk, we introduce a wavelet feature screening method that can be easily implemented. Theoretical and simulation results show that the proposed method can capture true covariates with high probability, even in highly nonlinear models. We also present an example with real data in a high-dimensional setting. This is a joint work with Pedro Morettin and Aluísio Pinheiro.

04/09

This paper focuses on modelling surrender time for policyholders in the context of life insurance. In this setup, a large lapse rate at the first months of a contract is often observed, with a decrease in this rate after some months. The modelling of the time to cancellation must account for this specific behaviour. Another stylised fact is that policies which are not cancelled in the study period are considered censored. To account for both censoring and heterogeneous lapse rates, this work assumes a Bayesian survival model with a mixture of regressions. The inference is based on data augmentation allowing for fast computations even for datasets of over millions of clients. An illustrative example emulates a typical behaviour for life insurance contracts and a simulated study investigates the properties of the proposed model. A case study is considered and illustrates the flexibility of our proposed model allowing different specifications of mixture components In particular, the observed censoring in the insurance context might be up to 50% of the data, which is very unusual for survival models in other fields such as epidemiology. This aspect is exploited in our simulated study.

04/09

Spatial Functional Data (SFD) analysis is an emerging statistical framework that combines Functional Data Analysis (FDA) and spatial dependency modeling. Unlike traditional statistical methods, which treat data as scalar values or vectors, SFD considers data as continuous functions, allowing for a more comprehensive understanding of their behavior and variability. This approach is well-suited for analyzing data collected over time, space, or any other continuous domain. SFD has found applications in various fields, including economics, finance, medicine, environmental science, and engineering. This study proposes new functional Gaussian models incorporating spatial dependence structures, focusing on irregularly spaced data and reflecting spatially correlated curves. The model is based on Bernstein polynomial (BP) basis functions and utilizes a Bayesian approach for estimating unknown quantities and parameters. The paper explores the advantages and limitations of the BP model in capturing complex shapes and patterns while ensuring numerical stability. The main contributions of this work include the development of an innovative model designed for SFD using BP, the presence of a random effect to address associations between irregularly spaced observations, and a comprehensive simulation study to evaluate models’ performance under various scenarios. The work also presents one real application of Temperature in Mexico City, showcasing practical illustrations of the proposed model. This is a joint work with Alexander Burbano-Moreno.

25/09

We consider the problem of estimating the interacting neighborhood of a Markov Random Field model with finite support and homogeneous pairwise interactions based on relative positions of a two-dimensional lattice. Using a Bayesian framework, we propose a Reversible Jump Monte Carlo Markov Chain algorithm that jumps across subsets of a maximal range neighborhood, allowing us to perform model selection based on a marginal pseudo-posterior distribution of models. To show the strength of our proposed methodology we perform a simulation study and apply it to a real dataset from a discrete texture image analysis. Joint work with Victor Freguglia

09/10

Fluid mechanics, a key field in physics, focuses on studying fluid behavior and interactions. While numerical methods have long been essential for understanding complex fluid dynamics, the recent rise of Scientific Machine Learning (SciML) offers exciting new approaches. SciML, at the intersection of machine learning and scientific research, complements traditional methods by improving prediction accuracy, reducing computational costs, and deepening our understanding of fluids. This presentation explores how SciML can be applied to turbulence modeling, multiphase flows, and other fluid systems. We will also share successful case studies from our group, highlighting SciML’s potential to revolutionize fluid mechanics through data-driven techniques. Despite challenges like data availability and model interpretability, the integration of SciML with fluid mechanics opens up promising opportunities for both fundamental and applied research.

16/10

Em modelos para dados de área, é comum assumir que a estrutura latente, responsável pela correlação espacial entre as observações, assume um modelo condicional autorregressivo (CAR). Tais modelos permitem a construção da distribuição conjunta de variáveis aleatórias a partir da especificação das distribuições condicionais de cada uma, que dependem apenas de um conjunto de vizinhos. Para se fazer inferência em modelos CAR, é quase sempre necessário avaliar ou amostrar valores da distribuição a posteriori dos parâmetros latentes, o que pode ser custoso. Lavine (1998) mostrou que o problema de inferência em um modelo CAR na grade regular finita bidimensional pode ser tratado como um problema de inferência em uma determinada classe de modelos lineares dinâmicos (MLD). Uma das vantagens dessa relação é que métodos eficientes, comumente empregados na inferência em MLD, podem ser utilizados para se fazer inferência em modelos CAR. Propomos uma generalização dessa abordagem para modelos com resposta na família exponencial, considerando modelos lineares dinâmicos generalizados (MLDG), além de uma adaptação do conjugate updating, método de inferência sequencial que tem como aspecto fundamental o uso das distribuições a priori e a posteriori conjugadas à família exponencial. A abordagem proposta tem se mostrado promissora em termos de eficiência e custo computacional.

Trabalho em conjunto com Helio S. Migon e Alexandra M. Schmidt.

23/10

We consider the modeling and forecasting of hydro-environmental time series subject to seasonal fluctuations and prolonged droughts. Abnormally dry periods have become more frequent as a result of climate change. We use a class of dynamic beta models which is tailored for doubly-bounded data. We examine two important aspects of this class of models: the accuracy of hypothesis tests based on asymptotic approximations and the choice of link function. In particular, we show that two commonly used tests can yield inaccurate inferences if the estimation of the null model is done on the basis of the maximum number of individual conditional log-likelihoods, and we introduce a new model selection criterion for selecting the model’s link function. Based on tests and the new criterion, we model the useful volumes of three Brazilian hydroelectric power plant water reservoirs. These time series exhibit seasonal fluctuations and contain abnormally dry periods due to intense and prolonged droughts. In-sample predictions and out-of-sample forecasts are produced and compared to those obtained with well known alternative approaches.

30/10

14:00h – 15:20h – Eduardo Laber (Informática, PUC-Rio)

Titulo: Agrupamentos Explicáveis e Agrupamentos Hierárquicos

Resumo: As técnicas de agrupamento (clustering), de modo geral, consistem em agrupar objetos de
forma que os similares fiquem no mesmo grupo, enquanto os dissimilares fiquem em grupos
diferentes. Essas técnicas são amplamente utilizadas na análise exploratória de dados
e para acelerar diversas tarefas computacionais. Apesar de terem surgido há muito tempo,
ainda hoje há muita pesquisa nessa área. A palestra será dividida em duas partes. Na primeira,
apresento pesquisas recentes no tema de agrupamentos explicáveis, cujo objetivo é
construir agrupamentos que ofereçam garantias demonstráveis de desempenho e sejam facilmente
compreensíveis. Alguns dos principais resultados nessa área foram obtidos por meio
de elegantes argumentos probabilísticos.
Na segunda parte, discutiremos garantias teóricas para métodos de ligação, uma classe de
heurísticas bastante popular para a obtenção de agrupamentos hierárquicos. Embora essa
classe seja amplamente utilizada na prática há décadas, o conhecimento sobre suas propriedades
teóricas ainda é bastante limitado.

15:40h – 17:00h – Thiago Ramos (Estatística, UFSCar)

Título: Técnicas Espectrais para Detecção de Comunidades

Resumo: A detecção de comunidades é uma tarefa fundamental no estudo de redes complexas, revelando
grupos de nós densamente conectados que refletem padrões significativos. Nesta palestra,
exploraremos as técnicas espectrais para detecção de comunidades, que se baseiam
na análise do espectro de matrizes associadas à rede, como a matriz laplaciana ou a matriz de
adjacência. Conceitos-chave como decomposição de autovalores e autovetores, otimização
da modularidade e agrupamento espectral serão discutidos. Também destacaremos as forças
e limitações dos métodos espectrais em comparação com outras abordagens, proporcionando
uma visão sobre sua eficiência computacional e adequação a diferentes tipos de estruturas de
rede.

Local: Auditório 1 – IMPA
Estrada Dona Castorina 110 Rio de Janeiro, Brasil