<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"><!-- P {margin-top:0;margin-bottom:0;} --></style>
</head>
<body dir="ltr">
<div id="divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Arial,Helvetica,sans-serif;" dir="ltr">
<p></p>
<div>Hi all,<br>
<br>
This week at the Applied Statistics workshop we will be welcoming <b>Kosuke Imai</b>, a Professor in the Department of Politics and Center for Statistics and Machine Learning at Princeton University.&nbsp; He will be presenting work entitled<b> &quot;Using a Probabilistic
 Model to Assist Merging of Large-scale Administrative Records.&quot;</b>&nbsp; Please find the abstract below and on the website.<br>
<br>
We will meet in CGIS Knafel Room 354 at noon and lunch will be provided.<br>
<br>
Best,<br>
Pam<br>
<br>
<div><u>Title:</u> Using a Probabilistic Model to Assist Merging of Large-scale Administrative Records<br>
<br>
<u>Abstract:</u><br>
Since most social science research relies upon multiple data<br>
&nbsp; sources, merging data sets is an essential part of workflow for many<br>
&nbsp; researchers.&nbsp; In many situations, however, a unique identifier that<br>
&nbsp; unambiguously links data sets is unavailable and data sets may<br>
&nbsp; contain missing and inaccurate information.&nbsp; As a result,<br>
&nbsp; researchers can no longer combine data sets ``by hand'' without<br>
&nbsp; sacrificing the quality of the resulting merged data set.&nbsp; This<br>
&nbsp; problem is especially severe when merging large-scale administrative<br>
&nbsp; records such as voter files. The existing algorithms to automate the<br>
&nbsp; merging process do not scale, result in many fewer matches, and<br>
&nbsp; require arbitrary decisions by researchers.&nbsp; To overcome this<br>
&nbsp; challenge, we develop a fast algorithm to implement the canonical<br>
&nbsp; probabilistic model of record linkage for merging large data sets.<br>
&nbsp; Researchers can combine this model with a small amount of human<br>
&nbsp; coding to produce a high-quality merged data set.&nbsp; The proposed<br>
&nbsp; methodology can handle millions of observations and account for<br>
&nbsp; missing data and auxiliary information.&nbsp; We conduct simulation<br>
&nbsp; studies to show that our algorithm performs well in a variety of<br>
&nbsp; practically relevant settings.&nbsp; Finally, we use our methodology to<br>
&nbsp; merge the campaign contribution data (5 million records), the<br>
&nbsp; Cooperative Congressional Election Study data (50 thousand records),<br>
&nbsp; and the nationwide voter file (160 million records).</div>
</div>
<br>
<p></p>
</div>
</body>
</html>