Note de ce sujet :
  • Moyenne : 0 (0 vote(s))
  • 1
  • 2
  • 3
  • 4
  • 5

UMAP - métrique
#1

Bonjour,

J'ai une question concernant les métriques de distance.
Par exemple, si je veux utiliser UMAP sur mon jeu de données avec FlowJo, le plugin me propose 4 métriques : euclidean, manathan, cosine, hamming. Si j'ai bien compris, ces métriques correspondent à la façon dont vont être calculées les distances entre 2 points. Dans les publications je vois que c'est souvent la métrique euclidean qui est utilisée.
Mes questions sont les suivantes : Comment choisir la métrique que je dois utiliser sur mon jeu de données ? Y-a-t-il une métrique plus adaptée pour les jeux de données de cytométrie ?

Merci d'avance pour vos retours et votre aide

Anne-Laure
Répondre
#2

Bonjour Anne-Laure.

La distance est une notion importante. La distance mesurée dans l'espace multi-dimensionnel va être reportée au mieux dans une représentation plane en 2 dimensions grâce à une transformation linéaire (PCA) ou non linéaire (tSNE, UMAP, MDS...). La distance traduit comment 2 cellules sont considérées proches l'une de l'autre. Et comme tu le soulignes il y a différentes façons de mesurer la distance. La plus courante est la distance euclidienne, c'est à dire la distance à vol d'oiseau. La distance de Manhattan, c'est la distance d'un piéton à Manhattan, c'est à dire en longeant les buildings parce que l'on ne peut pas les traverser en diagonale. La distance cosinus mesure l'angle entre les 2 segments qui relient chaque point à l'origine. Si l'angle est faible les points sont proches... même s'ils sont à une distance euclidienne de l'origine très différente. La distance de Hamming est utilisée pour des données binaires et je ne vois pas comment elle peut être calculée. Il faudra que je regarde la doc de FlowJo... Un petit dessin pour illustrer tout ça.
   

Dans les publications je vois que c'est souvent la métrique euclidean qui est utilisée.
C'est probablement parce que c'est la valeur par défaut, et qu'elle convient le plus souvent.

Y-a-t-il une métrique plus adaptée pour les jeux de données de cytométrie ?
A titre personnel, je reste sur Euclidien et j'aime bien aussi Manhattan. Cette dernière me plaît bien intellectuellement, car elle me donne l'impression d'accumuler les écarts de chaque marqueur (et chaque marqueur est individuellement important) plus fortement que la distance euclidienne. Mais dans la pratique je n'ai pas vu de grandes différences qui justifient un quelconque avantage.

Comment choisir la métrique que je dois utiliser sur mon jeu de données ?
Je ne vois pas d'autres solutions que de tester.

Merci pour ta question.
Répondre
#3

(2020-11-12, 01:18 PM)sgranjeaud a écrit :  Bonjour Anne-Laure.

La distance est une notion importante. La distance mesurée dans l'espace multi-dimensionnel va être reportée au mieux dans une représentation plane en 2 dimensions grâce à une transformation linéaire (PCA) ou non linéaire (tSNE, UMAP, MDS...). La distance traduit comment 2 cellules sont considérées proches l'une de l'autre. Et comme tu le soulignes il y a différentes façons de mesurer la distance. La plus courante est la distance euclidienne, c'est à dire la distance à vol d'oiseau. La distance de Manhattan, c'est la distance d'un piéton à Manhattan, c'est à dire en longeant les buildings parce que l'on ne peut pas les traverser en diagonale. La distance cosinus mesure l'angle entre les 2 segments qui relient chaque point à l'origine. Si l'angle est faible les points sont proches... même s'ils sont à une distance euclidienne de l'origine très différente. La distance de Hamming est utilisée pour des données binaires et je ne vois pas comment elle peut être calculée. Il faudra que je regarde la doc de FlowJo... Un petit dessin pour illustrer tout ça.


Dans les publications je vois que c'est souvent la métrique euclidean qui est utilisée.
C'est probablement parce que c'est la valeur par défaut, et qu'elle convient le plus souvent.

Y-a-t-il une métrique plus adaptée pour les jeux de données de cytométrie ?
A titre personnel, je reste sur Euclidien et j'aime bien aussi Manhattan. Cette dernière me plaît bien intellectuellement, car elle me donne l'impression d'accumuler les écarts de chaque marqueur (et chaque marqueur est individuellement important) plus fortement que la distance euclidienne. Mais dans la pratique je n'ai pas vu de grandes différences qui justifient un quelconque avantage.

Comment choisir la métrique que je dois utiliser sur mon jeu de données ?
Je ne vois pas d'autres solutions que de tester.

Merci pour ta question.

Bonjour Samuel,

Je te remercie pour  ta réponse très claire !

Bonne journée

Anne-Laure
Répondre


Atteindre :


Utilisateur(s) parcourant ce sujet : 1 visiteur(s)