<div dir="ltr"><div>Hi everyone!</div><div><br></div><div>This week at the Applied Statistics Workshop we will be welcoming <b><i><a href="http://www.tamarabroderick.com/">Tamara Broderick</a></i></b>, a Professor of Electrical Engineering and Computer Science at MIT.  She will be presenting work entitled <b><i><span style="font-size:12.8000001907349px">Feature allocations, probability functions, and paintboxes</span>.</i></b>  Please find the abstract below and on the <a href="http://projects.iq.harvard.edu/applied.stats.workshop-gov3009/presentations/tamara-broderick-mit">website</a>.</div><div><br></div><div>As usual, we will meet in CGIS Knafel Room 354 and lunch will be provided.  See you all there!</div><div><br></div><div>-- Anton</div><div><br></div><div>P.S.: You can now follow the workshop on Twitter at <a href="https://twitter.com/gov3009">@gov3009</a></div><div><br></div><div>Title: <span style="font-size:12.8000001907349px">Feature allocations, probability functions, and paintboxes</span></div><div><span style="font-size:12.8000001907349px"><br></span></div><div>Abstract: <span style="font-size:12.8000001907349px">Clustering involves placing entities into mutually exclusive</span></div><span style="font-size:12.8000001907349px">categories. We wish to relax the requirement of mutual exclusivity,</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">allowing objects to belong simultaneously to multiple classes, a</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">formulation that we refer to as &quot;feature allocation.&quot; The first step</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">is a theoretical one. In the case of clustering the class of</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">probability distributions over exchangeable partitions of a dataset</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">has been characterized (via exchangeable partition probability</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">functions and the Kingman paintbox). These characterizations support</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">an elegant nonparametric Bayesian framework for clustering in which</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">the number of clusters is not assumed to be known a priori. We</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">establish an analogous characterization for feature allocation; we</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">define notions of &quot;exchangeable feature probability functions&quot; and</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">&quot;feature paintboxes&quot; that lead to a Bayesian framework that does not</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">require the number of features to be fixed a priori. The second step</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">is a computational one. Rather than appealing to Markov chain Monte</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">Carlo for Bayesian inference, we develop a method to transform</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">Bayesian methods for feature allocation (and other latent structure</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">problems) into optimization problems with objective functions</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">analogous to K-means in the clustering setting. These yield</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">approximations to Bayesian inference that are scalable to large</span><br style="font-size:12.8000001907349px"><span style="font-size:12.8000001907349px">inference problems.</span></div>