🖼️Axiomatic Attribution for Deep Networks - Henri Jamet

<iframe width="708" height="398" src="https://www.youtube.com/embed/WSeJBEcvVZU" title="Axiomatic Attribution for Deep Networks" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe> 👉 The Report related to this study can be found here: [Report](https://www.notion.so/146fdf9f541b48738a7c60a2ad669ed8) 👉 The Repository related to this study can be found here: [Repository](https://gitfront.io/r/user-5856462/PMez3XNpXAJC/Epita-S9-DNN/) > [!warning] 😢 **Lower quality video…** > Although I am publishing it here, as this presentation was made as part of my course at Epita, it does not respect the standards of my channel and its quality is lower. I hope nevertheless that it will be able to help you if you wish to document yourself on this article. # Attributions Axiomatiques pour les Réseaux Profonds Lien vers l'article: https://arxiv.org/abs/1703.01365 # Introduction > L’objectif de ce projet est la *compréhension* et la *réimplémentation* d’un article de recherche portant sur les **Réseaux de Neurones Profonds** dans le cadre du **traitement de l’image**. L’article que nous avons traité s’intitule [**Axiomatic Attribution for Deep Networks](https://arxiv.org/abs/1703.01365).** Il a été publié en Mars 2017 par [*Mukund Sundararajan](https://arxiv.org/search/cs?searchtype=author&query=Sundararajan%2C+M), [Ankur Taly](https://arxiv.org/search/cs?searchtype=author&query=Taly%2C+A) & [Qiqi Yan](https://arxiv.org/search/cs?searchtype=author&query=Yan%2C+Q)* et traite de **l’attribution axiomatique** pour les réseaux de neurones, une technique d’explicabilité de l’IA visant à déterminer l’importance de chaque feature pour la prédiction d’un réseau de neurones. ## Plan de ce document Ce document s’organise de la manière suivante : --- 1. Dans un premier temps, nous expliquerons l’idée présentée dans l’article original. 2. Puis, nous discuterons plus avant des choix de **Baselines** possibles et des idées derrière ces derniers. 3. Finalement, nous ferons le lien avec deux autres articles scientifiques connexes que nous pensons pertinent de souligner. # Méthodes des Gradients Intégrés Inspirée par un article publié en 2016 : [**Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization**](https://arxiv.org/abs/1610.02391), la méthode des **Gradients Intégrés** présentée dans l’article que nous avons étudié a vocation à *expliquer* les prédictions faites par des modèles *Boîte Noire* comme les réseaux de neurones profonds. Pour ce faire, elle décrit une fonction $A_F : \mathcal D_F^2 \longrightarrow (a_1, \dots, a_n)$ qui associe - Pour un modèle donné dont le comportement est décrit par la fonction $F$ - Avec une **Baseline** choisie $x' \in \mathcal D_F$ à toute entrée $x \in \mathcal D_F$ les attributions $(a_1, \dots, a_n)$, **ie l’importance de chacune des features de $x$ dans la prédiction finale $F(x)$.** ## Axiomes Pour éviter la difficulté fondamentale de la définition d’une **méthode d’attribution**, à savoir l’impossibilité d’identifier la cause première d’une attribution peu révélatrice du comportement du réseau entre les faiblesses du réseau lui-même ou la non-pertinence de la méthode d’attribution, les auteurs ont identifié un certain nombre d’Axiomes de plus ou moins grande importance à partir desquels ils ont imaginé la méthode des **Gradients Intégrés** pour pallier les faiblesses des méthodes antérieures. - Deux Axiomes Fondamentaux : - [Sensitivité](https://www.notion.so/Sensitivit-63a18a4224cd4f0db34bd2f6f6027ec3?pvs=21) - [Invariance de l’Implémentation](https://www.notion.so/Invariance-de-l-Impl-mentation-304179d1283e4919be0ca4a7083b1438?pvs=21) - Deux Axiomes Désirables : - [Sensitivité totale](https://www.notion.so/Sensitivit-totale-194455538f65426a9d9a996144a76954?pvs=21) - [Linéarité](https://www.notion.so/Lin-arit-8f916495813f4247ba7c4a3393d92c05?pvs=21) - Un Axiome Désirable & Canonique : - [Préservation de la Symétrie](https://www.notion.so/Pr-servation-de-la-Sym-trie-dd2dc16a0bb5462b84fd0cf4faa37900?pvs=21) ***Définissons ces Axiomes :*** ### Sensitivité 💡 **Une méthode d’attribution respecte la Sensitivité *ssi*** → toute feature dont le réseau ne dépend pas mathématiquement a une attribution **nulle** ### Invariance de l’Implémentation 💡 **Une méthode d'attribution respecte l’Invariance de l’Implémentation *ssi*** → deux réseaux *fonctionnellement équivalents* (ie effectuant toujours des prédictions identiques pour toute entrée $x$) ont toujours les mêmes attributions, *même lorsque leurs architectures sont différentes*. ### Sensitivité totale 💡 **Une méthode d'attribution respecte la Sensitivité totale *ssi*** → toute feature dont le réseau ne dépend pas mathématiquement a une attribution **nulle**. ### Linéarité 💡 **Une méthode d'attribution respecte la Linéarité *ssi*** → toute composition linéaire de deux réseaux $F_1$ & $F_2$ $ a \times F_{1}+ b \times F_2 $ voit ses attributions également composées linéairement en fonction de $a$ & $b$. ### Préservation de la Symétrie 💡 **Une méthode d'attribution est dite Préservant la Symétrie *ssi*** → Une méthode d'attribution **préserve la symétrie** ssi pour deux features symétriques (ie telles que $F(x, y) = F(y, x)$, les attributions sont identiques. --- On montre que les seules méthodes d’attributions respectant à la fois les deux Axiomes Fondamentaux & les deux Axiomes Désirables appartiennent à une catégorie de méthodes appelée **Path Methods**, qui se caractérisent par la génération d’images interpolées le long d’un *“chemin”* dans l’espace vectoriel formé par l’entrée du réseau $F$. Au sein de ces méthodes, on en note une **canonique** : La méthode des **Gradients Intégrés** qui se caractérise par un Axiome Désirable supplémentaire dont est la seule à disposer : la **Préservation de la Symétrie.** ## Construction de la méthode Avec : - $x_i$ la $i_{ème}$feature de l’**Entrée**, - $x_i'$ la $i_{ème}$feature de la **Baseline** - $F$ la fonction décrivant notre modèle, - $x, x'$ respectivement **Entrée** & **Baseline**, La méthode est décrite par la formule exacte suivante : $ \text{Gradients Intégrés}_{i(x)}= (x_{i}- x_i')\times\int^{1}_{\alpha=0} \dfrac{\partial F(x' + \alpha \times (x - x'))}{\partial x_{i}}d\alpha $ Et par la formule approximée par une somme de Riemann suivante : $ \text{Gradients Intégrés}_{i(x)}\simeq (x_{i}- x_i')\times\sum\limits^{n}_{k=1} \dfrac{\partial F(x' + \dfrac{k}{n} \times (x - x'))}{\partial x_{i}}\times\dfrac{1}{n} $ On peut décomposer cette dernière formule en 4 étapes qui s’implémente relativement aisément : 1. Générer $n$ *images interpolées* entre la **Baseline** et l'**Input** : $ x' + \dfrac{k}{n} \times (x - x')\quad \text{pour } k \in[[0, n]] $ ![Untitled](Attributions%20Axiomatiques%20pour%20les%20Re%CC%81seaux%20Profon%20146fdf9f541b48738a7c60a2ad669ed8/Untitled.png) 1. Calculer les *Gradients* entre les prédictions de sortie du modèle $F$ par rapport aux caractéristiques d'entrée : $ \dfrac{\partial F(\text{Image Interpolée})}{\partial x_i} $ 1. Cumuler les *Gradients* ainsi calculés (On approxime l'intégrale au moyen de la **méthode des Trapèzes** : $ \sum\limits_{k=1}^{n} \text{Gradients} \times \dfrac{1}{n} $ 1. Mettre les *Gradients Intégrés* à l'échelle par rapport à l'image d'origine : $ (x_{i}-x_{i')}\times \text{Gradients Intégrés} $ ![Untitled](Attributions%20Axiomatiques%20pour%20les%20Re%CC%81seaux%20Profon%20146fdf9f541b48738a7c60a2ad669ed8/Untitled%202.png) # Choix de la Baseline On remarque que le choix de la **Baseline** a été assez peu débattu dans ce rapport. Elle constitue pourtant un choix complexe affectant considérablement la qualité des résultats de notre méthode d’attribution. L’objectif d’une **Baseline** étant de définir une entrée $x'$ suffisamment différente de $x$ pour servir de *“référentiel”* pour notre calcul. Une approche naïve consiste à effectuer ce que nous avons fait dans notre implémentation détaillée avec le notebook **tensorflow.ipynb**, c’est à dire choisir une image uniforme (dans notre cas, uniformément noire). Cependant, nombre de nos [Références](https://www.notion.so/R-f-rences-3867023254f94b45beed705d8d726394?pvs=21) font état de Baselines & d’idées d’optimisation astucieuses que nous allons tenter de détailler ici : ## Baseline floue Comme ce que nous cherchons finalement à remarquer lorsque nous lisons une carte d’attribution sont surtout les *contours* des éléments sur lesquels le réseau porte son attention, un article intitulé [Interpretable Explanations of Black Boxes by Meaningful Perturbation](https://arxiv.org/abs/1704.03296) paru en 2017 propose l’utilisation d’une variation de l’entrée floutée comme Baseline. De cette manière, nous forçons notre méthode d’attribution à mettre en exergue l’*absence* de certains éléments, ce qui permet de faire davantage sortir les contours. ## Baseline Opposée Étant donné que la **Baseline** sert avant tout de référentiel pour noter la différence entre une image neutre & une image dont nous cherchons à obtenir les attributions, on pourrait imaginer une Baseline calculée comme le parfait *“opposé”* de notre image d’entrée. De manière plus rigoureuse, on peut définir une **Baseline $x'$** définie comme l’image la plus éloignée de $x$ en norme **$L1$** dont la valeur des pixels reste possible. Cependant, il s’avère que cette méthode donne de médiocres résultats car la **Baseline** reste trop semblable à l’image d’origine pour que la différence $(x - x')$ soit porteuse de sens. ## Baseline Aléatoire Finalement, une solution alternative intéressante peut simplement consister en la génération d’une **Baseline** comme une image constituée de pixels de couleur aléatoire. En effet, cette stratégie permet d’éviter l’important biais inhérent à une **Baseline uniforme** dont la couleur risque de faire négliger à la méthode d’attribution l’importance des pixels de la même couleur qu’elle (*la différence $(x - x')$ devenant quasiment nulle*). L’idée consistant à utiliser une **Baseline Aléatoire** permet d’espérer que si un pixel de la **Baseline** s’avère être par malheur de la même couleur que le pixel correspondant de l’image entrée, son voisin échappe quant à lui à ce coup du sort. ## Moyenne sur de multiples Baselines Finalement, suivant l’idée présentée dans un article paru en 2019 : [Learning Explainable Models Using Attribution Priors](https://openreview.net/forum?id=rygPm64tDH), nous avons décidé d’utiliser $n$ **Baselines** aléatoires dont nous moyennons finalement les attributions dans notre notebook pytorch.ipynb. Il eut été intéressant de tester une moyenne sur des **Baselines** autres que **Aléatoires**, mais nous n’avons malheureusement pas eu le temps de mener à bien ces expérimentations complémentaires. # Articles liés Nous finirons ce rapport en évoquant deux autres articles scientifiques qu’il nous a semblé pertinent de confronter avec l’article [**Axiomatic Attribution for Deep Networks](https://arxiv.org/abs/1703.01365)** étudié : ## Reinforced Integrated Gradients Présenté très récemment à la conférence [**EGC2023](https://egc2023.sciencesconf.org/)** à laquelle certains des membres de notre groupe ont eu la chance de pouvoir assister, cet article cherche à améliorer la pertinence des **cartes d’attributions** générés au moyen de la méthode des **Gradients Intégrés** en entrainer $n$ modèles légèrement différents (*une forme de Bagging*), pour lesquels sont ensuite calculés les attributions d’une même image. Les attributions obtenus sont finalement moyennées pour obtenir une **carte d’attribution** nettement plus pertinente dans la mesure où elle permet de mettre en lumière les feature *généralement utilisé par un modèle du type choisi* dans sa prédiction, ce qui permet de simplifier nettement l’interprétation du résultat. On note cependant que cette technique a surtout de l’intérêt si la **méthode d’attribution** n’a pas vocation à étudier le modèle mais d’avantage le problème auquel il est confronté. Hélas, l’article ayant paru extrêmement récemment, nous ne sommes pas parvenu à retrouver la papier original, ce qui nous empêche de le citer dans nos [Références](https://www.notion.so/R-f-rences-3867023254f94b45beed705d8d726394?pvs=21). Cependant, l’idée nous a semblé suffisamment intéressante pour qu’il soit pertinent de la mentionner ici. ## [Attention Is All You Need](https://arxiv.org/abs/1706.03762) Paru peu après l’article [**Axiomatic Attribution for Deep Networks**](https://arxiv.org/abs/1703.01365), la même année, cet article fondateur qui a introduit l’architecture des Transformers basée sur le mécanisme d’Attention paraît extrêmement corrélé à l’article que nous étudions. En effet, la notion d’Attention a l’avantage d’être facilement explicable dans la mesure où elle est par définition construite sur une forme de mécanisme d’attribution. Plusieurs résultats présentés dans l’article des **Gradients Intégrés** font énormément penser à la projection de la matrice d’Attention d’un modèle en disposant et on peut supposer que bien que l’idée d’**Attention** soit antérieure à 2017 ([Neural Machine Translation by Jointly Learning to Align and Translate](https://arxiv.org/abs/1409.0473), 2014), l’idée de la méthode d’Attribution des **Gradients Intégrés** a du contribuer à la naissance des mécanismes d’**Attention**. # Conclusion En conclusion, nous avons d'abord résumé l'idée des **Gradients Intégrés** introduite dans l'article [**Axiomatic Attribution for Deep Networks**](https://arxiv.org/abs/1703.01365). Nous avons ensuite constaté que le choix d'une **Baseline** est complexe et peut avoir une grande influence sur la qualité des résultats obtenus par nos méthodes d'attribution. Un choix de **Baseline** uniforme ou aléatoire peut faire la différence entre des résultats clairs et pertinents et des résultats trop biaisés pour être interprétables. Les articles scientifiques dont nous avons parlé nous ont également permis d'en apprendre davantage sur les implications possibles de la méthode des **Gradients Intégrés**, notamment en ce qui concerne les mécanismes d'**Attention**. Nous avons pu constater que les **Gradients Intégrés** peuvent être une méthode très puissante pour obtenir des attributions qui peuvent nous aider à comprendre le fonctionnement des modèles profonds. Comme expliqué sur notre [**Repository**](https://gitfront.io/r/user-5856462/PMez3XNpXAJC/Epita-S9-DNN/), nous avons cherché à reproduire au mieux les résulats présentés dans l’article original au moyen de deux notebooks : - **tensorflow.ipynb :** *Qui suit un tutoriel détaillé en ligne tout en revisitant complètement le code proposé & en testant de nouvelles idées,* - **pytorch.ipynb :** *Qui présente une implémentation libre & optimisée des **Gradients Intégrés**, en utilisant notamment l’idée du moyennage sur de nombreuses Baselines aléaoires.* # Références > *Par ordre de publication,* > ## Papiers [Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization](https://arxiv.org/abs/1610.02391) [Axiomatic Attribution for Deep Networks](https://arxiv.org/abs/1703.01365) [Interpretable Explanations of Black Boxes by Meaningful Perturbation](https://arxiv.org/abs/1704.03296) [Neural Machine Translation by Jointly Learning to Align and Translate](https://arxiv.org/abs/1409.0473) [Attention Is All You Need](https://arxiv.org/abs/1706.03762) [Learning explainable Models Using Attribution Priors](https://openreview.net/forum?id=rygPm64tDH) 👉 **Reinforced Integrated Gradients** (non encore disponible en ligne, encadré par **Nicolas Boutry**) ## Autres ressources [Gradients intégrés | TensorFlow Core](https://www.tensorflow.org/tutorials/interpretability/integrated_gradients?hl=fr) [Visualizing the Impact of Feature Attribution Baselines](https://distill.pub/2020/attribution-baselines/) [Youtube](https://youtu.be/9AaDc35JYiI) [Understanding Deep Learning Models with Integrated Gradients](https://medium.com/towards-data-science/understanding-deep-learning-models-with-integrated-gradients-24ddce643dbf) [Explainable AI: Integrated Gradients for Deep Neural Network Predictions](https://medium.com/codex/explainable-ai-integrated-gradients-for-deep-neural-network-predictions-eb4f96248afb)