SGMS 2025 Conference

Sorbonne Graduate conference on Machine learning and Statistics 2025

Program

8:30 - 9:00 Wecome coffee

9:00 - 10:00 Plenary session: Nonsmooth calculus and optimization in machine learning, by Tam Le (Université Paris Cité)

10:00 - 10:15 Coffee break

10:15 - 11:30 Contributive session

  • 10:15 Exact Formulas for the Joint Coverage of Conformal Prediction Sets, by Malo Ruellan (Sorbonne Université)

  • 10:40 Score-based Generative Models for Heavy-Tailed Distributions, by Tiziano Fassina (Sorbonne Université)

  • 11:05 Estimation robuste de mélanges gaussiens, by Aidan Buttimore (INRAE)

11:30 - 14:00 Posters and lunch (free buffet)

14:00 End

Abstracts

Nonsmooth calculus and optimization in machine learning, by Tam Le (Université Paris Cité)

Nonsmooth (nondifferentiable) operations are ubiquitous in machine-learning pipelines, arising naturally from constraints, regularization terms, and thresholding operations. In this talk, we explore two complementary aspects of nonsmoothness and their implications for gradient-based algorithms. The first part focuses on understanding the minimizing behavior of gradient methods in nonsmooth settings. Although nondifferentiability appears to obstruct standard theoretical analysis, practical machine-learning models typically exhibit structured nonsmoothness. This structure leads to a descent-along-curves phenomenon: even without classical gradients, optimization trajectories follow well-organized descent directions. We explain this behavior through the lens of definable functions, a virtually exhaustive class of functions employed in practice. We also show how geometric properties of nonsmooth functions can be used to control and quantify errors arising from approximate gradient evaluations, shedding light on the sensitivity of gradient methods beyond the smooth regime. The second part addresses the calculus of nonsmooth functions. Classical rules—such as differentiation of sums and the chain rule—do not hold in nonsmooth settings. We will present the framework of conservative gradients, which recover meaningful analogues of these rules, allowing for instance to explain automatic differentiation of ReLU neural networks. We will then expose specific nonsmooth differentiation rules allowed by conservative gradients to justify stochastic algorithms and hyperparameter optimization algorithms.

Exact Formulas for the Joint Coverage of Conformal Prediction Sets, by Malo Ruellan (Sorbonne Université)

La prédiction conformelle permet de construire des ensembles de prédiction avec une garantie de couverture marginale. Dans le cadre ”batch”, où plusieurs prédictions sont réalisées simultanément, un enjeu central consiste à contrôler conjointement les erreurs tout en minimisant le volume des ensembles produits. Les approches classiques étant souvent trop conservatrices, nous exploitons la structure spécifique des p-valeurs conformelles afin d’obtenir une procédure améliorée. Des simulations montrent un gain substantiel sur la taille des ensembles de prédiction, notamment pour des configurations où le nombre de données de calibration est limité.

Score-based Generative Models for Heavy-Tailed Distributions, by Tiziano Fassina (Sorbonne Université)

This report provides a synthetic exposition of score-based generative models (SGMs) and their application to the modeling of heavy-tailed distributions. Heavy-tailed dis- tributions frequently arise in climatology, finance, and risk management, and present significant challenges for classical generative methods due to the rarity and extrem- ity of observed events. We review the theoretical foundations of SGMs, describe their practical implementation for heavy-tailed data, discuss the main difficulties, and present preliminary experimental results demonstrating their performance on synthetic heavy-tailed distributions.

Estimation robuste de mélanges gaussiens, by Aidan Buttimore (INRAE)

Ce travail traite du problème robuste dans les modèles de mélanges gaussiens. Le modèle de mélange gaussien apparait naturellement dans de nombreux domaines de la science où les données sont hétérogènes ou proviennent de sous-populations. Notre but est d’estimer la mesure mélangeante d’un tel mélange de manière robuste, c’est-à-dire dans un cadre ou une proportion \(\varepsilon\) des données ont été arbitrairement contaminées. Nous proposons une variante robuste de la Denoised Method of Moments de Wu et Yang (2020) [6], qui estime ν à travers ses moments, en y intégrant une version adaptée du résultat de Dalalyan et Minasayan (2022) [2] qui estime la moyenne d’une gaussienne de manière robuste par le biais d’un algorithme de repondération itérative. Pour ce faire, nous généralisons le résultat de Dalalyan et Minasayan aux lois sous-Weibull. Notre contribution est donc un estimateur robuste de la mesure mélangeante d’un mélange gaussien, et nous établissons des garanties théoriques pour ce dernier.