Décembre 2025
Détection de comportements utilisateurs suspects (UEBA)
Introduction
Face à l'augmentation des cyberattaques et à la complexité des systèmes d'information, les approches basées uniquement sur les règles fixes montrent rapidement leurs limites. Les comportement malveillants évoluent et peuvent se dissimuler au sein d'activités apparemment normales. Dans ce contexte, la détection comportementale, et plus particulièrement les approches de type UEBA (User & Entity Behavior Analytics), constitue un levier essentiel en cybersécurité. Ces méthodes visent à identifier des comportements anormaux à partir d'usages habituels des utilisateurs, sans nécessiter une connaissance préalable des attaques.
Objectif de mon travail
L'un des objectifs de ce travail est de mettre en œuvre une approche de détection d'anomalies afin d'identifier des comportements utilisateurs potentiellement suspects à partir de données simulées. Le projet s'inscrit dans une démarche pédagogique visant à illustrer le fonctionnement d'un modèle non supervisé appliqué à une contexte de cybersécurité.
Jeu de données générés
Les données utilisées dans ce projet sont simulées afin de reproduire des comportements utilisateurs réalistes tout en évitant l'utilisation de données sensibles. Chaque observation correspond à une activité utilisateur caractérisée par plusieurs variables telles que le nombre de tentatives de connexion, les échecs d'authentification, la durée moyenne des sessions, le volume de données transférées et les horaires de connexion.
#Génération des données simulées
np.random.seed(42)
data = pd.DataFrame({
"login_attempts": np.random.poisson(3, n_samples),
"failed_logins": np.random.poisson(1, n_samples),
"avg_session_time": np.random.normal(30, 5, n_samples),
"data_sent_mb": np.random.normal(200, 50, n_samples),
"hour": np.random.randint(0, 24, n_samples),
"is_weekend": np.random.choice([0, 1], n_samples)
})
Les données ont été simulées afin de reproduire des comportements utilisateurs réalistes tout en respectant la confidentialité.
Méthodologie et choix du modèle
La détection des comportement suspects repose sur l'utilisation d'un modèle de détection d'anomalies non supervisé : Isolation Forest. Ce modèle est particulièrement adapté aux problématiques de cybersécurité, où les comportements normaux sont majoritaires et où les activités malveillantes représentent une faible proportion des données.
Le paramètre de contamination a été fixé à 5 %, ce qui correspond à l'hypothèse selon laquelle une faible fraction des comportements peut être considérée comme anormale.
Visualisation des résultats
Afin d'interpréter les résultats du modèle, une projection bidimensionnelle a été réalisée en représentant le nombre de tentatives de connexions en fonction du volume de données envoyées. Les comportements normaux et suspects sont distingués par un code couleur, permettant de visualiser la séparation opérée par le modèle.
Les points bleus correspondent aux comportements considérés comme normaux, tandis que les points rouges représentent des comportements suspects détectés par le modèle de détection d'anomalies.
Figure 1 - Les points rouges représentent environ 5 % des observations, correspondant aux comportements utilisateurs considérés comme anormaux par le modèle Isolation Forest.
Les comportements identifiés comme suspects apparaissent parfois proches du nuage principal de points, ce qui s'explique par le caractère multidimensionnel de la détection d'anomalies. Le modèle prend en compte l'ensemble des variables pour identifier des comportements atypiques, même lorsqu'ils ne sont pas visuellement isolés sur une projection en deux dimensions.
Cette approche illustre les limites d'une visualisation en deux dimensions et met en évidence l'intérêt d'une analyse multidimensionnelle en cybersécurité.
Visualisation 3D
La figure 2 montre une visualisation tridimensionnelle qui met en évidence des comportements qui ne sont pas nécessairement isolés dans une projection bidimensionnelle. L'ajout du nombre d'échecs de connexion permet d'identifier plus clairement certains comportements suspects, notamment lorsque plusieurs signaux faibles se combinent.
Figure 2 - Visualisation 3D
Conclusion & perspectives
Ce travail a permis de mettre en oeuvre une approche de détection comportementale appliquée à un contexte de cybersécurité, en s'appuyant sur un modèle non supervisé de type Isolation Forest. A partir des données simulées, le modèle est capable d'identifier des comportements utilisateurs atypiques, illustrant les principes fondamentaux des systèmes UEBA utilisés dans les environnements de sécurité opérationnels.
Plusieurs pistes d'amélioration peuvent être envisagées, notamment l'enrichissement des données comportementales, l'intégration de nouvelles variables contextuelles (localisation).