Note de ce sujet :
  • Moyenne : 0 (0 vote(s))
  • 1
  • 2
  • 3
  • 4
  • 5

#1

Bonjour,
J’ai lu le papier “The art of using t-SNE for single-cell transcriptomics” (Nature Com, Kobak et al en 2019).
Au vue du titre je m’attendais à des “guidelines” pour faire un t-SNE mais il présente une méthodologie (que je trouve assez complexe pour obtenir le résultat final…)
Je voulais discuter du paramètre perplexité. Dans leur papier il est conseillé d’utiliser une perplexité = au nombre de cellules à analyser /100 ( quand on est inférieur à 100000 cellules à analyser) pour préserver la géométrie global de l’échantillon. Ne risque-on pas avec cette méthode de passer à côté de populations faiblement représentées dans l’échantillon ?
Que pensez-vous de la méthodologie pour analyser des échantillons > 100000 cellules?
Merci d’avance pour votre retour


Fatima pour Anne-Laure Smile
Répondre
#2

Bonjour,

Je peux donner des éléments de réponse en me basant sur des tests que j'avais réalisés avec des données issue de la cytomtrie de flux:
  • Le paramètre perplexity correspond indirectement au nombre de proches voisins. L'augmenter va permettre en apparence de conserver la géométrie globale des données puisque les contraintes sur les clusters seront plus fortes : chaque cellule va avoir des interactions très fortes avec ses voisins, ce qui va réduire les possibilités de mapping 2D au final. Il est conseillé de garder ce paramètre < 1000 (d'après des tests réalisés avec des données générées, en cytométrie de flux). On atteint assez vite une saturation, et on se retrouve avec des avec des regroupements très denses de cellules. Des populations très petites seront de toute façon indétectables si elles comportent trop peu de cellules (impossible de faire la différence avec du bruit), donc des valeurs autour de 30, voire 50 sont suffisantes, et c'est ce qui est généralement fait.
  • L'article "triche" un peu : ce qui empêche t-SNE de conserver la structure globale est en fait l'initialisation aléatoire de l'algorithme. C'est pour cela que l'article passe par une initialisation par PCA. On se débarasse de l'aléatoire et on a donc un semblant de conservation de structure globale grace à la robustesse de la PCA. Ce problème d'aléatoire n'est pas observable avec UMAP qui ne repose que sur les distances entre les points. Mais d'autres problèmes peuvent apparaitre (des serpentins lorsque les KNN sont trop faible à priori).
  • t-SNE réussira presque toujours à identifier les bons clusters sur des données synthétiques, il faut donc se méfier des démonstrations avec uniquement ce genre de données. Une perplexity trop grande sur des données réelles présentant du bruit risque de simplement donner de très gros amas de cellules toujours regroupées en clusters, mais d'une manière qui n'a pas vraiment de sens (impossible de faire une étude de trajectoire par exemple.
  • A retenir : l'initialisation par PCA est ce qui fait la différence, dans l'article, entre t-SNE classique et leur t-SNE.
Ces informations pourront, j'espère, être complétées et/ou corrigées par d'autres personnes plus expertes.


I. BEN SOLTANE
Répondre


Atteindre :


Utilisateur(s) parcourant ce sujet : 1 visiteur(s)