Ciclo de Palestras 2008 – 2º Semestre

Palestras do Departamento de Metodos Estatísticos - Instituto de Matemática - UFRJ

As palestras são realizadas na sala C-116 do Centro Tecnológico as 15:30 h, a menos que ocorra aviso em contrário.

10/12 Encerramento do Ciclo de Palestras de 2008 (excepcionalmente às 14:00 horas)

In this talk, I am going to give a brief introduction of complex Computer models, also known as simulators, that are widely used in all areas of science and technology to represent complex real-world phenomena. Simulators are often sufficiently complex that they take appreciable amounts of computer time or other resources to run. In this context, a methodology has been developed based on building a statistical representation of the simulator, known as an emulator. The principal approach to building emulators uses Gaussian processes. I am going to present a set of diagnostics to validate and assess the adequacy of a Gaussian process emulator as surrogate for the simulator. These diagnostics are based on comparisons between simulator outputs and Gaussian process emulator outputs for some test data, known as validation data, defined by a sample of simulator runs not used to build the emulator. Our diagnostics take care to account for correlation between the validation data.

In this work, we develop and study nongaussian models for processes that vary continuously in space and time. The main goal is to consider heavy tailed processes that can accommodate both aberrant observations and clustered regions with larger observational variability. These situations are quite common in meteorological applications where outliers are associated with severe weather events such as tornados and hurricanes. In this context, the idea of scale mixing a gaussian process as proposed in Palacios and Steel (JASA, 2006) is extended and the properties of the resulting process are discussed. The model is very flexible and it is able to capture variability across time that differs according to spatial locations and variability across space that differs in time. This is illustrated by an application to maximum temperature data in the Spanish Basque Country. The model allows for prediction in space-time since we can easily predict the mixing process and conditional on the latter the finite dimensional distributions are gaussian. The predictive ability is measured through proper scoring rules such as log predictive scores and interval scores. In addition, we explore the performance of the proposed model under departures from gaussianity in a simulated study where data sets were contaminated by outliers in several ways; overall, the nongaussian models recover the covariance structure well whereas the covariance structure estimated by the gaussian model is very influenced by the contamination.


We consider the issue of performing accurate small-sample likelihood-based inference in beta regression models, which are useful for modeling continuous proportions that are affected by independent variables. We derive Skovgaard’s (Scandinavian Journal of Statistics, 28 (2001) 3-32) adjusted likelihood ratio statistic in this class of models. We show that the adjustment term has a simple compact form that can be easily implemented from standard statistical software. We present Monte Carlo simulations showing that inference based on the adjusted statistic we propose is more reliable than that based on the usual likelihood ratio statistic.

We develop a series of Bayesian statistical models for estimating survival of a neotropic didelphid marsupial, the Brazilian gracile mouse opossum (Gracilinanus microtarsus). These models are based on the Cormack-Jolly-Seber model (Cormack, 1964; Jolly, 1965; Seber, 1965) with both survival and recapture rates expressed as a function of covariates using a logit link. The proposed models allow taking into account heterogeneity in capture probability caused by the existence of different groups of individuals in the population. The models were applied to two cohorts (Cohort 2000 and Cohort 2001) with the first one including 14 and the second one 15 sampling occasions. The best models for each of the cohorts indicate that it G. microtarsus is best described as partially semelparous, a condition in which mortality after the first mating is high but graded over time, with a fraction of males surviving for a second breeding season (Boonstra, 2005).


13:30 Palestrante: Patricia Lusie Coelho Velozo
Título: Modelos para Dados Categóricos com Estrutura Temporal
14:00 Palestrante: Josiane da Silva Cordeiro
Título: Estimação de Parâmetros que definem Modelos Determinísticos
14:30 Palestrante: Mariana Albi de Oliveira Souza
Título: Algoritmos para Maximização da Utilidade Esperada
15:30 Palestrante: Nícia Custódio Hansen
Título: Modelos com Coeficientes Dinâmicos Variando no Espaço: Uma Aplicação para Dados de Contagem
16:00 Palestrante: Vera Lúcia Filgueira dos Santos
Título: Teoria de Resposta ao Item: uma abordagem generalizada das Curvas Características dos Itens
16:30 Palestrante: Denise Reis Costa
Título: Metodologia estatística para construção de testes adaptativos informatizados
* Cada apresentação terá duração de 20 minutos seguida de 10 minutos de arguição. Elas ficarão divididas em 2 blocos com intervalo de 15:00 às 15:30 hs entre eles.


Complex designs are often used to select the sample which is followed over time in a panel survey. We consider some parametric models for panel data and discuss methods of estimating the model parameters which allow for complex schemes. We incorporate survey weights into alternative point estimation procedures. These procedures include pseudo maximum likelihood (PML) and various forms of generalized least squares (GLS). We also consider variance estimation using linearization methods to allow for complex sampling. The behaviour of the proposed inference procedures are assessed in a simulation study, based upon data from the British Household Panel Survey. The point estimators have broadly similar performance, with few significant gains from GLS estimation over PML estimation. The need to allow for clustering in variance estimation methods is demonstrated. Linearization variance estimation performs better, in terms of bias, for the PML estimator compared to a GLS estimator. Some extensions to model fitting statistics when working with longitudinal data in a complex survey design framework are also considered.


We develop a new class of multiscale spatio-temporal models for Gaussian areal data. Our framework decomposes the spatio-temporal observations and underlying process into several scales of resolution. Under this decomposition the model evolves the multiscale coefficients through time with structural state-space equations. The multiscale decomposition considered here, which includes wavelet decompositions as particular case, is able to accommodate irregular grids and heteroscedastic errors. The multiscale spatio-temporal framework we develop has several salient attributes. First, the multiscale decomposition leads to an extremely efficient divide-and-conquer estimation algorithm. Second, the multiscale coefficients have an interpretation of their own; thus, the multiscale spatio-temporal framework may offer new insight on understudied multiscale aspects of spatio-temporal observations. Finally, deterministic relationships between different resolution levels are automatically respected for both the observations, the latent process, and the estimated latent process. We illustrate the use of our multiscale framework with an analysis of a spatio-temporal dataset on agriculture production in the state of Espirito Santo, Brazil.
Joint work with Adelmo Bertolde and Scott Holan.


This paper provides novel particle learning (PL) methods for sequential parameter learning and smoothing in state space models with non-normal errors, non-linear observation equations, and non-linear state evolutions. The methods extend existing particle methods by incorporating unknown parameters, utilizing sufficient statistics, for the parameters and/or the states, and allowing for nonlinearities in the state and/or observation equation. We also show how to solve the state smoothing problem, integrating out parameter uncertainty. Previously, the only approach available for this marginal smoothing problem is MCMC. We show that our algorithms outperform MCMC, as well existing particle filtering algorithms such as the mixture Kalman filter.
Joint work with Carlos M. Carvalho, Michael Johannes and Nicholas Polson.

* O Prof. Hedibert ministrará um tutorial introdutório sobre Monte Carlo sequencial de 13 as 15 horas.

17/11 Colóquio Inter-institucional "Modelos Estocásticos e Aplicações" (excepcionalmente no CBPF, Auditório do 6o andar às 14:30 horas)

Este colóquio trata de inferência indutiva, ou seja, o problema de lidar de forma racional com casos em que há informação incompleta. Como quantificar que uma asserção é mais plausível que outra?Como evitar algumas inconsistências de raciocínio?A tentativa de extensão da lógica Aristotélica para situações em que não há informação completa levou Cox nos anos 40a se perguntar qual seria a estrutura matemática adequada para lidar de forma racional com estes casos. Não é uma surpresa que a estrutura matemática adequada seja a teoria de probabilidades. A surpresa está em que isso possa ser deduzido. Inferência se reduz agora ao problema de atribuir probabilidades com base na informação e às mudanças decorrentes da aquisição de nova informação. Existe uma forma geral de realizar inferência que satisfaça certos requisitos básicos? A imposição do resultado em alguns casos simples leva ao método geral de máxima entropia. Inferência pode ser interpretada de um ponto de vista geométrico. Após a apresentação simplificada dos resultados acima serão mostradas algumas aplicações a problemas de aprendizado e análise de dados.

Motores moleculares, em particular as kinesinas e dineínas, são proteínas capazes de realizar transporte ativo de objetos como organelas, vesículas, vírus, etc em ambiente celular, ao longo de micro-túbulos ou filamentos, onde as forças viscosas têm papel predominante e, portanto, determinam o caráter estocástico do processo nas escalas microscópicas. O “modelo padrão” proposto no início dos anos 90 por Adjari, Astumian, Prost e Magnhasco, prevê propriedades do movimento executado por estas proteínas nestas escalas, que vão de encontro aos dados experimentais da época, obtidos a partir da observação de um único motor. Surpreendentemente, experimentos mais recentes, obtidos de sistemas in vivo, indicam que o movimento das partículas transportadas, referidas como “carga” – não acompanha, necessariamente, o movimento previsto e observado dos motores, quando analisados individualmente. Em particular, observa-se que a “carga” muda de sentido diversas vezes antes de atingir seu destino final, em um movimento não-difusivo, denominado bidirecional, que pode ser caracterizado na melhor das hipóteses, por grandes flutuações de sentido. Desde então, diversas possibilidades tem sido apontadas para as causas deste movimento bidirecional. Há consenso, no entanto, em torno da idéia de que seja devido a um efeito coletivo dos motores. O que ainda necessita resposta é a natureza deste tipo de efeito e como identificá-lo por meio a uma descrição mais analítica destes sistemas. Neste colóquio, faremos uma breve revisão do “modelo padrão” e das discussões existentes na literatura a respeito da caracterização de tal efeito coletivo. Em seguida, mostraremos como é possível a descrição de propriedades destes sistemas, vistos como sistemas de partículas, por meio de um da análise de um modelo que descreve um processo de exclusão assimétrico (ASEP). Este modelo foi proposto por nós recentemente para incluir as partículas motoras em interação com partículas “escravas”, identificadas como a “carga”. O modelo apresenta uma transição de fase do tipo condensação que, como mostraremos, pode ser explorada como alternativa para a compreensão do movimento bidirecional mencionado.

22/10 Colóquio Inter-institucional "Modelos Estocásticos e Aplicações" (excepcionalmente às 13:30 horas)

The linear regression model is commonly used by practitioners to model the relationship between the variable of interest and a set of explanatory variables. The assumption that all error variances are the same, known as homoskedasticity, is oftentimes violated when cross sectional data are used. Consistent standard errors for the ordinary least squares estimators of the regression parameters can be computed following the approach proposed by White (1980). Such standard errors, however, are considerably biased in samples of typical sizes. An improved covariance matrix estimator was proposed by Qian and Wang (2001). We improve upon the Qian-Wang estimator by defining a sequence of bias adjusted estimators with increasing accuracy. The numerical results reveal that the Qian-Wang estimator is typically much less biased than the estimator proposed by Halbert White and that our correction to the former can be quite effective in small samples. Finally, we show that the Qian-Wang estimator can be generalized into a broad class of heteroskedasticity-consistent covariance matrix estimators, and our results can be easily extended to such a class of estimators.

Nos últimos anos novas classes de distribuições de probabilidade multivariadas e não simétricas tem sido propostas na literatura. O principal interesse é fornecer uma alternativa à suposição de normalidade usualmente considerada na modelagem estatística. Essa alternativa deve acomodar diferentes assimetrias, curtoses e eventualmente multimodalidade. Além disso, essas distribuições de probabilidade devem possibilitar algum tipo de tratamento analítico de modo a facilitar a inferência estatística. As distribuições assimétricas induzidas por processos de seleção, discutidas em Arellano, Branco e Genton (2006) têm as características descritas anteriormente. Nesta apresentação discutiremos algumas dessas distribuições de probabilidades, tais como, normal-assimétrica e t-assimétrica. Aplicações envolvendo modelos lineares mistos e modelos binários serão apresentadas. A abordagem de inferência considerada para todas as aplicações será a bayesiana, com destaque para o uso de distribuições a priori objetivas.

23/09 Colóquio Inter-institucional "Modelos Estocásticos e Aplicações" (excepcionalmente no LNCC, Auditório A às 13:30 horas)

Sistemas de navegação baseados em integração de múltiplos sensores (inercial, GPS, odômetro, dentre outros) objetivam explorar as boas características de cada sensor. Um caso típico se refere à fusão IMU/GPS: o primeiro assegura elevadas taxas de amostragem e é imune a interferências, enquanto o segundo proporciona leituras de posição sem derivas. Embora diversas abordagens possam ser utilizadas para se realizar a integração, o uso do Filtro de Kalman é particularmente eficiente, pois sistematiza o projeto decompondo-o em duas fases: a) modelagem dos erros e b) sintonização dos parâmetros de projeto. Os principais aspectos teóricos e práticos envolvidos no desenvolvimento de sistemas de navegação usando múltiplos sensores, via Filtro de Kalman, serão abordados nesta palestra. Exemplos típicos de aplicação serão apresentados e discutidos.

Sistemas de navegação baseados em integração de múltiplos sensores (inercial, GPS, odômetro, dentre outros) objetivam explorar as boas características de cada sensor. Um caso típico se refere à fusão IMU/GPS: o primeiro assegura elevadas taxas de amostragem e é imune a interferências, enquanto o segundo proporciona leituras de posição sem derivas. Embora diversas abordagens possam ser utilizadas para se realizar a integração, o uso do Filtro de Kalman é particularmente eficiente, pois sistematiza o projeto decompondo-o em duas fases: a) modelagem dos erros e b) sintonização dos parâmetros de projeto. Os principais aspectos teóricos e práticos envolvidos no desenvolvimento de sistemas de navegação usando múltiplos sensores, via Filtro de Kalman, serão abordados nesta palestra. Exemplos típicos de aplicação serão apresentados e discutidos.


Nesta palestra, vou apresentar o Exact Algorithm proposto em Beskos, Papaspiliopoulos and Roberts (2006) para simulação exata de uma classe de processos de difusão. O algoritmo é exato no sentido de não apresentar erro de discretização. Posteriormente, vou apresentar um método baseado no Exact Algorithm para fazer inferência em processos de difusão (Beskos et al., 2006). No final, menciono um pouco do meu trabalho em processos de difusão com saltos.
Beskos, A; Papaspiliopoulos, O. e Roberts, G. O. (2006). Retrospective exact simulation of diffusion sample paths with applications. Bernoulli, 12 (6), 1077-1098.
Beskos, A., Papaspiliopoulos, O., Roberts, G. O., e Fearnhead, P. (2006), Exact and computationally efficient likelihood-based inference for discretely observed diffusion processes (with discussion), J. R. Stat. Soc. B 68(3), 33-382.