Playawale : Fin de l’Open Data sauvage

J’ai détecté une aspiration massive sur mes générateurs de fichiers JSON. De nombreuses parties ont été récupérées par des bots.

Ce n’est pas grave en soi, mais la méthode manque de correction. J’ai désactivé l’exportation JSON publique pour le moment.

J’ai pris aussi les mesures nécessaires cette nuit :

  • Analyse des accès : Identification des signatures et des horaires de passage des robots.
  • Blocage serveur : Verrouillage des accès suspects directement à la source.
  • Sécurisation du code : Le système de replay a été verrouillé par une signature cryptographique (HMAC). Désormais, l’accès aux flux de données et aux coups joués nécessite une clé dynamique, rendant toute tentative d’aspiration automatisée inopérante.

Le site est désormais sous surveillance active.

Si quelqu’un travaille sur une IA en Deep Learning et a besoin de datasets pour l’entraînement, une collaboration honnête est préférable au pillage de données.

Comment je l’ai vu ?

Une analyse de mes statistiques a révélé une anomalie flagrante : plus de 1000 visites quotidiennes inhabituelles. En remontant les logs, j’ai identifié des comportements typiques de bots (requêtes répétitives et signatures non-humaines) qui aspiraient mes fichiers en boucle.

L’auteur a utilisé un script d’aspiration automatisé (un bot) conçu pour simuler un comportement humain.

Exploration (Crawling) : Le bot a scanné l’arborescence du site pour lister toutes les URLs des replays. Et j’ai commis l’erreur de laisser un index de parties trop prévisible (simple numérotation), ce qui a rendu le travail du crawler extrêmement simple pour lister et aspirer les données.

Pour être honnête, je ne pensais pas que mes replays intéresseraient quelqu’un d’autre que les joueurs eux-mêmes. Je n’avais pas imaginé que ces données pourraient devenir une cible pour de l’aspiration automatisée.

Extraction (Scraping) : Il a ciblé mes générateurs JSON qui, jusqu’ici, livraient les données de parties en « Open Data ».

Moissonnage : En lançant des requêtes simultanées, il a téléchargé l’intégralité des coups joués sans doute pour constituer une base de données (dataset) de mes replays, et à mon avis pour entraîner une IA.

Par mesure de sécurité supplémentaire, j’ai également dû bloquer l’accès aux utilisateurs via le réseau Tor. Je suis désolé pour ce désagrément, mais c’était une étape nécessaire pour isoler efficacement les flux suspects.

Pour passer sous les radars, le scraper a utilisé des terminaux fantômes afin de mimer des connexions mobiles légitimes. Le plus fou dans l’histoire ? L’auteur a sans doute payé pour un service de « device farm » afin de piller mes données. Quitte à investir de l’argent, il aurait mieux fait de m’offrir un café pour en discuter, ça lui aurait coûté moins cher ! 😂

https://playawale.com/fr/replay_ai.php?id=2989

#Awale #IA #DeepLearning #MaîtreAwalé #collaboration