Introduction
Dans ces études sur la délinquance dans le Var, je m'inspire des missions habituellement confiées aux analystes de données au sein des services de police.
Mon objectif est de collecter, préparer et analyser les données disponibles sur les infractions, afin d'identifier les tendances, modèles et évolutions observés au fil des années. Ce travail inclut également la visualisation des résultats sous forme de graphiques et rapports, pour rendre l'information plus claire et exploitable par des décideurs publics ou des acteurs locaux.
A travers cette démarche, je cherche à montrer comment un travail d'analyse peut contribuer à une meilleure compréhension des phénomènes criminels, faciliter la prise de décision opérationnelle et renforcer les stratégies de prévention et de sécurité à l'échelle territoriale.
Prédire l'évolution des escroqueries et fraudes aux moyens de paiement à Toulon - Régression linéaire
Article juillet 2025
Une approche simple de régression.
J'ai analysé l'évolution du nombre d'escroqueries et de fraudes aux moyens de paiement à Toulon entre 2016 et 2024 pour m'exercer aux méthodes de prévision simples dans le cadre de ma montée en compétences en analyse de données.
Les données montrent une progression notable entre 2016 et 2024 :
- 2016 : 695 cas
- 2024 : 1365 cas
Le nombre de cas a presque doublé en 9 ans.
Quelle méthode pour prédire 2025 ?
J'ai utilisé deux approches :
- Une régression linéaire,
- Une régression quadratique
Régression linéaire
La régression linéaire permet de modéliser la relation entre une variable indépendante (ici l'année) et une variable dépendante (le nombre d'escroqueries et de fraudes aux moyens de paiement enregistrées).
Elle consiste à ajuster une droite au plus proche des données, de manière à prédire des valeurs futures en utilisant la tendance globale observée dans le passé.
Simple et interprétable, la régression linéaire offre une première approche pour anticiper l'évolution des escroqueries et des fraudes aux moyens de paiement pour la ville de Toulon.
Pour affiner mon analyse, j'ai utilisé statsmodels afin d'obtenir des informations statistiques détaillées:
====== Analyse Régression Linéaire ======
Coefficient (pente) : 90.37
Biais (intercept) : 674.31
R² : 0.9259
MSE : 4358.61 (Mean Squared Error - Moyenne des carrés des écarts entre les valeurs et les valeurs prédites par le modèle. Il mesure l'erreur quadratique).
MAE : 60.08
Kurtosis : -1.6019
Skewness : 0.0330
- Prédiction 2025 (linéaire) : 1487 cas
- Prédiction 2026 (linéaire) : 1577 cas
La prédiction trouvée pour 2025 est de 1487 escroqueries et fraudes aux moyens de paiement et pour 2026, 1577 cas.
Modèle avec régression quadratique
On l'utilise lorsque les données montrent une accélération ou un ralentissement au fil du temps, ce qui peut mieux refléter certaines dynamiques dans l'évolution des phénomènes observés, comme dans le cas ici des escroqueries et des fraudes aux moyens de paiements enregistrées à Toulon.
Cette méthode permet de vérifier si une simple tendance linéaire suffit ou si une courbe est plus adaptée pour améliorer la précision des prédictions.
Pourquoi la quadratique ressemble à une droite ?
Bien que le modèle quadratique ajuste une équation de la forme :
$$ y = ax² + bx +c $$
- Coefficient x² : -0.21 (très faible)
- Coefficient x : 92.04
- biais : 672
Le terme quadratique est donc négligeable à l'œil nu, expliquant pourquoi la courbe quadratique suit une trajectoire quasi-linéaire sur la période considérée.
- Prédiction 2025 (quadratique) : 1483 cas
- Prédiction 2026 (quadratique) : 1571 cas
Conclusion
Cette modélisation simple montre :
- Une tendance haussière continue des escroqueries et des fraudes aux moyens de paiement pour la ville de Toulon.
- L'importance de méthodes de projection même simples pour anticiper les besoins de prévention et de sécurité.
Ces éléments montrent que même une régression linéaire simple, correctement analysée, peut déjà fournir des insights exploitables pour anticiper les évolutions de la criminalité locale.
Source des données : SSMSI
Analyse comparative des faits de délinquance dans le Var et les Alpes Maritimes (2024)
Article juin 2025
Les données utilisées pour cette analyse proviennent des Bases statistiques communale, départementale et régionale de la délinquance enregistrée par la police et la gendarmerie nationales.
Source des données : data.gouv.fr
Ces diagrammes circulaires représentent la répartition des faits de délinquance enregistrés dans les départements du Var et des Alpes Maritimes pour l'année 2024, toutes catégories confondues. Chaque segment d'un camembert correspond à une classe de délinquance, proportionnellement au nombre total de faits recensés dans l'année.
J'ai filtré et retraité les données pour ne conserver que les départements du Var (83) et des Alpes-Maritimes (06), les nombres ont ensuite été agrégés par grande classe de délinquance afin d'établir une répartition proportionnelle claire.
Dans le département du Var, les faits les plus représentés sont :
- Destructions et dégradations volontaires : 15,6 %
- Vols sans violence contre des personnes : 15,3 %
- Escroqueries : 12 %
Ces trois catégories forment le top 3 des infractions constatés dans ce département.
Du côté des Alpes-Maritimes, la répartition est sensiblement différente en première position :
- Vols sans violence contre des personnes : 20,5%
- Destructions et dégradations volontaires : 14,9%
- Escroqueries : 11,2%
Les deux départements présentent donc des profils similaires, avec toutefois une inversion entre les vols sans violence et les destructions et dégradations en tête du classement.
Dans les deux cas, les catégories de coups et blessures volontaires ainsi que l'usage de stupéfiants figurent également parmi les infractions les plus fréquentes, mais restent en dehors du trio de tête.
Analyse temporelle des violences sexuelles dans le Var (régression linéaire)
Pour étudier l'évolution des faits de violences sexuelles dans le département du Var (83), une régression linéaire a été appliquée sur les données annuelles disponibles. Les résultats de la modélisation montrent une tendance à la hausse des violences sexuelles au fil des années. Le modèle obtenu présente un coefficient de détermination R² = 0,956, ce qui signifie que 95,6 % de la variabilité du nombre de faits enregistrés est expliquée par l'évolution temporelle. La pente positive du modèle indique une augmentation régulière du phénomène.
La p-value associée à la pente est inférieure à 0,001, ce qui confirme que cette tendance est statistiquement significative au seuil de 1 %. Cela permet de conclure avec un haut degré de confiance à une évolution non aléatoire.
Enfin, l'indice de Kurtosis (2,25) montre une distribution relativement modérée des résidus, proche d'une distribution normale, ce qui valide les hypothèses du modèle.
Ce premier modèle fournit donc un éclairage statistique robuste sur l'évolution des violences sexuelles dans le Var. D'autres modèles (linéaires ou non) pourront être testés pour explorer l'évolution d'autres types d'infractions.
Régression sans prise en compte de 2020
Une deuxième régression linéaire a été réalisée sur les mêmes données en excluant l'année 2020 directement dans le dataFrame en raison du contexte sanitaire exceptionnel lié au COVID-19.
Le modèle obtenu présente un coefficient de détermination R² de 0,976, ce qui indique une très forte corrélation linéaire entre les années et le nombre de faits enregistrés. Les résultats suggèrent une tendance globale à la hausse des violences sexuelles sur la période.
Le test de Durbin-Watson donne une valeur de 2,103 montrant l'absence d'autocorrélation des résidus, ce qui valide la stabilité temporelle du modèle.
Enfin, la kurtosis de 1,87 suggère une distribution assez plate des résidus (peu de valeurs extrêmes).
En somme, cette modélisation indique que l'évolution observée suit une tendance régulière, significative, et pourrait être utilisée pour proposer des estimations à court terme, sous réserve de mise à jour annuelle des données.