investigation ECHELON images/petit_logo_jcd.gif

 

 

recherche
de mots
clés
  L'idée de cette page est double : me mettre à la place des "espions américains" en me confrontant de manière pratique aux problèmes qu'ils rencontrent pour sélectionner les mails à l'aide de mots clés..., et retranscrire le résultat de cette étude sous forme d'une page web marrante (comment transmettre ses expériences sur internet ?).

retour

 

comment faire pour définir les mots clés ?

Pour cette expérience, j'ai utilisé un de mes mails, parmi ceux que j'ai envoyé début novembre. Je l'ai choisi parce qu'il était assez long (4 pages)... Je l'ai "traité par l'informatique", à l'aide de petits programmes vite faits, écrits pour l'occasion. De tels programmes s'écrivent en quelques minutes lorsqu'on en a l'habitude (c'est vrai, dans la vie, il y a deux sortes de gens : ceux qui ont l'habitude et ceux qui n'ont pas l'habitude...! ).

Voici le début du fichier obtenu :

JE
N'AI
MALHEUREUSEMENT
AUCUN
SOUVENIR
DE
CETTE
DISCUSSION
AU
CAFé
GIVRE
NI
D'AVOIR
PRONONCé
CETTE
PHRASE
THéâTRALE
CELA
MONTRE
AU
MOINS
QU'IL
Y
A
DES
CONSTANTES

Le découpage en mots est réalisé par le "joli petit programme" suivant, écrit en langage awk (l'utilitaire awk se trouve sur tous les systèmes Unix, mais j'utilise une version pour PC Dos/Windows qui s'appelle libawk. C'est un logiciel freeware, dans lequel lib veut dire libourne, la ville de son auteur, et non liberté comme on pourrait le croire).

# cptMots.awk
# comptage des mots
# jc devaux - 1.0 du 03/11/2001

BEGIN {
}
# traitement des lignes
{
# suppression des caracteres non significatifs
# on les remplace par espace pour eviter de coller deux mots # remplacement des " + - , _ . / = ; * &
gsub(/[\"\+\-\,_\.\/=;*&]/," ")

# passage des caracteres en majuscules
$0=toupper($0)

# decoupage des mots de la ligne
for (i=1 ; i<=NF ; i++ )
{ print $i
}
}

J'enchaîne cette opération avec plusieurs autres dans le fichier batch suivant.
Les opérations réalisées sont :
- le traitement awk servant à découper le message initial en mots.
- le résultat est ensuite trié (utilitaire sort).
- avec uniq je peux supprimer les lignes identiques et l'option -c permet de compter le nombre de lignes identiques.
- un nouveau tri est réalisé pour obtenir le classement des mots selon leur nombre d'apparitions (ordre décroissant)
- pour terminer plusieurs comptages sont effectués sur les fichiers temporaires. Ils permettent de connaître le nombre de mots du fichier traité et le nombre de mots différents (et de vérifier que tout s'est bien passé, on ne sait jamais !).

echo decoupage en mots
awk -f cptmots.awk < tmpCpt.txt > tmpCpt2.txt
echo mise en forme du resultat (tri, doublons)
sort < tmpCpt2.txt > tmpCpt3.txt
uniq -c < tmpCpt3.txt > tmpCpt4.txt
sort -n -r < tmpCpt4.txt > tmpCpt5.txt

echo comptages
grep -c . tmpCpt2.txt
echo --- tri
grep -c . tmpCpt3.txt
echo --- uniq
grep -c . tmpCpt4.txt
echo --- tri2
grep -c . tmpCpt5.txt

résultats du traitement :

nombre de mots obtenus : 1958
nombre de mots différents : 654

le fichier résultat donne les mots les plus fréquents :

nbre d'occurrences mot
58 JE
50 QUE
48 DE
38 à
35 UN
34 PAS
34 LE
33 L
33 EST
30 NE
30 LA
30 ET
30 D
27 LES
27 EN
26 C
25 CE
24 TU
22 QUI
20 DANS

pour voir le fichier complet

 

l'analyse des résultats :

A part servir de preuve de mon propre égocentrisme (le mot JE est le plus utilisé), je ne vois pas ce que cette liste peut apporter...

On remarque que les mots les plus courants ne signifient rien, ils ne permettent absolument pas de savoir de "quoi ça parle". En regardant le fichier complet, on remarque aussi qu'après cette opération de tri et de réduction, il est compliqué de savoir quel était le sujet du mail. (c'est d'ailleurs pour cette raison que je vous permets d'y jeter un oeil, car c'était quand même, à l'origine, un message sensé être privé !).

Grâce à l'utilitaire grep, j'ai pu calculer rapidement comment sont répartis les mots en fonction de leur nombre d'apparitions. Parmi les 654 mots différents du message d'origine, 432 apparaissent une fois, 88 deux fois, etc...

nbre d'occurrences nbre de mots
1 432
2 88
3 43
4 18
5 13
6 8
7 4
8 5
9 1
10 à 19 22
20 à 29 7
30 à 39 10
40 à 49 1
50 à 59 2

Une observation attentive du fichier résultat me suggère encore, qu'à défaut de pouvoir dire immédiatement quels sont les mots clés pertinents, il est assez facile de dire quels sont ceux qui n'en sont certainement pas :

- les articles, pronoms, adverbes qui n'ont pas de sens propre, mais ne font que modifier le sens des autres mots.

- les verbes les plus courants dans toutes leurs formes conjuguées : être, avoir, penser, voir, aller, vouloir, faire, devoir, dire, croire, trouver, sembler.

- les lettres isolées, qui souvent sont des articles contractés : L', T', J' et sinon, ne peuvent pas avoir beaucoup d'intérêt prises isolement (mais le risque est alors de perdre les sigles remarquables comme C.I.A, d'autant plus que le programme utilisé pour découper en mots remplaçait les points par des espaces).

Cette première élimination permet de supprimer 220 mots (il en restre 434).

pour voir le fichier des mots éliminés
et celui des
mots restants

Cette liste de mots éliminés pourrait probablement être encore élargie en éliminant en particulier :

- les mots qui ont rapport au temps (temps, ajourd'hui, hier, semaine, etc...).

- beaucoup d'adjectifs. Ceux qui précisent les couleurs (noir, blanc,..), la taille (grand, petit,..), etc...

On voit aussi la difficulté liée au genre des mots (masculin, féminin, singulier, pluriel) ou à la conjugaison des verbes qui multiplient le nombre de "mots" possibles.

Il faut aussi considérer les lettres accentuées. Quelle est la meilleure stratégie ? Les éliminer au risque de rendre identiques des mots qui ne le sont pas (comme par exemple "mémé" et "même" devenant tous deux "MEME")... Les accents peuvent gêner les programmes de tri. Certains programmes considèrent que "e" et "é" sont identiques, d'autres non.

On peut penser aussi que cette démarche peut être évolutive et itérative. L'analyse d'un seul texte n'est évidemment pas suffisante, il faudrait la renouveler sur un grand nombre de documents d'origine différente. Autant les programmes de traitement que la liste des mots ignorés pourraient être améliorés.

Après élimination des mots "non significatifs", la liste restante apparait encore très hétéroclite.

 

recherche des thèmes :

J'ai voulu rechercher quels sont les thèmes possibles du document.

J'ai procédé ici de manière manuelle et subjective mais il serait assez simple d'automatiser cette analyse, au moins en partie...

Avant de pouvoir automatiser cette tâche, il faudrait la répéter un grand nombre de fois avec des opérateurs différents. Cela permettrait d'observer les thèmes les plus "fédérateurs".

Mais pour l'heure, je serai l'opérateur cobaye... et dans cette liste de mots, je repére les thèmes suivants :

il me semble que les indications de temps doivent être extraites dans un premier groupe (probablement qu'elles seront éliminées par la suite).
remarquez qu'à ce niveau, j'ai reconstitué les mots "aujourd'hui" "week-end" qui avaient été séparés en deux lors du découpage en mots (problème des mots composés et des locutions).
thème : temps nb de mots : 18
TEMPS JOUR NUIT AUJOURD HUI SOIR HIVER HEURES HEURE WEEK END SEPTEMBRE MOIS NUITS ANS ANNéE DATé DATE
de même pour les chiffres. On observe le chiffre 11 qu'il est tentant de rapprocher du mot "septembre" dans la sélection précédente. Peut être une piste ! Quoique ce rapprochement est correct en novembre 2001 mais qu'en sera-t'il dans un ou deux ans ? (les règles du langage changent sans arrêt !).
thème : chiffres nb de mots : 5
TROIS SIX DEUX DIX 11
le thème couleurs ne donne pas beaucoup de résultats (encore que !)
thème : couleurs nb de mots : 3
NOIRS NOIRES NOIR
lorsqu'on parcours la liste de tous les mots, le thème le plus évident est "littérature". Ce n'est peut-être pas l'un de ceux qui intéressant les services secrets mais c'est ici celui qui fournit le plus grand nombre de mots.
remarquer les mots écriture et ecriture ! une nouvelle difficulté. Ce sont soit des fautes d'accents, soit des E majuscule non accentués.
thème : littérature nb de mots : 23
éCRITURE éCRIRE éCRIVAIN éCRIVAINS éCRIT PHRASE LIVRE éDITIONS VOCABULAIRE THéâTRALE TEXTES TEXTE SUJET LECTEUR RéCITS ROMANESQUE RACONTER PUBLIé PHRASES LITTéRAIRES ECRITURE ECRIRE CHAPITRE
la recherche des noms de personnes confirme le thème précédent. Beaucoup de noms d'auteurs (j'en suis moi même impressionné). Mais aussi plusieurs noms "inconnus" qui attirent l'attention.
A ce niveau d'analyse, la recherche de noms de personnes semble être la méthode la plus simple et la plus efficace pour sélectionner les bons mails.C'est normal au fond, car les noms de personnes représentent des "entités uniques" alors que les autres mots sont liés à des notions abstraites ou génériques (par exemple "écriture", "livre", etc... ).
J'ajouterais que l'habitude prise dans les mails de ne pas mettre de majuscule aux noms propres doit beaucoup embêter la NSA, surtout quand les gens s'apellent noir ou bon !
thème : personnes nb de mots : 14
SARTRE JEAN GEFFARD CLAUDE NIETZSCHE MEYNARD MARX DOMINIQUE HARISSON ARON LADEN KANT LAURENT DESCARTES
le thème pays, lui ne donne rien de précis mais un texte qui parle à la fois d'Aden et du Brésil peut néanmoins attirer l'attention.
thème : pays nb de mots : 7
FRANCE ADEN AMéRIQUE AMéRICAINS BRéSIL EU EUROPéENS
qu'en est-il des thèmes qui sont plus proches des péoccupations des espions ?
voyons "espionnage" ...
bonne pioche !
dans ce contexte, la présence du sigle NSA dans le même texte que ECHELON et DICTIONNAIRE nous permet de penser qu'il parle du réseau ECHELON mais il pourrait tout aussi bien être question de bricolage : j'ai raté l'échelon et suis tombé sur le dictionnaire du gosse !.
thème : espionnage nb de mots : 5
ECHELON NSA SECRET DICTIONNAIRE ESPIONS
politique
y'en a !
thème politique nb de mots : 6
VOTéE SOCIAUX SOCIALE RASSEMBLEMENTS POLITIQUE ETATS
guerre - terrorisme
y'en a aussi !
thème : terrorisme nb de mots : 4
GéNéRAL GUERRE ARMES ARABE
justice
idem. Je vous avait prévenu que ce n'est pas faisable une recherche par mot clé !
thème : justice nb de mots : 3
LOI JUSTICE PRéVENU
secte
quand on cherche on trouve !
thème : secte nb demots : 6
FORCE ESPRIT CROYANCE OBSCURANTISME ALCHIMIE MYSTèRE
drogue
le texte n'en parle pas, ...mais n'est-ce pas un peu suspect ?
thème : drogue nb de mots : 0
 
amour, prostitution
cela ne semble pas non plus être le thème du message analysé.
thème : amour, sexe nb de mots : 1
AMOUR
jeu, contrebande
thème : jeu nb de mots : 8
TRUCS TRUC TROUBLE TROMPES CACHéE JEU JOUENT MENSONGE
commerce
thème : commerce nb de mots : 3
PRIX MARCHé MARCHAND
technologie
thème : technologie nb de mots : 7
TECHNIQUE TECHNICIENS RECHERCHE SCIENTIFIQUE BREVETS CONFIDENTIELLE INGéNIEURS
presse - multimédia
thème : multimédia nb de mots : 6
INTERNET MAILS TéLéVISION WEB MéDIA MAIL
j'ai pensé aussi qu'un thème psychologie devrait permettre de mesurer l'état d'esprit de l'auteur du message. C'est assez étonnant !
thème : psychologie nb de mots : 11
SUICIDE DOUTE COMPRENDRE RéUSSIR MOTIVE AGAçANT CONNERIES AUTORITé AUSTèRE CHOQUANTE EMMERDER
enfin de ma première sélection, il reste 43 mots qui me semblent pouvoir donner quelques informations utiles sans appartenir à l'un des thèmes précédents...

à l'évidence une préoccupation liée à la production ou l'étude d'un dossier qui mérite l'attention

quelque chose lié aux tropiques, à rapprocher du mot Brésil vu plus haut ?

certains mots dont on ne peut décider du sens sans leur contexte (rave, café, autoroute, lecteurs, tape).

les mots bizuts et killer...
thème : ? nb de mots : 43
MONDE PAYS TRAVAIL OUTIL

ANALYSE INVESTIGATION RAPPORT RAPPORTS CARNET DOCUMENT DOSSIER
DéCISION MISSION PLAN PUISSANCES ANNONCE éTUDES CARRIèRE ENGAGEMENT

VéGéTATION TROPICAUX TROPICALE SAUVAGES

éTRANGE
RAVES
SECONDAIRE

SOUVIENS SOUVENIR
RèGLES
RESCAPé ALLIéS
OPéRATEURS COMMUNICATION INFORMATION
AUTOROUTE
BIZUTS
CAFé
KILLER
CERTITUDE CERTAINE
JUSTIFIéE
LECTEURS TAPE

173 mots ont été classés dans ce tableau parmi les 434 (261 ont été abandonnés).
liste des mots abandonnés

 

résumé :

fichier nb de mots
message intial 1958
mots différents 654
mots rejetés (articles, adverbes, etc.) 220
mots abandonnés 261
mots cles possibles 173

 

conclusion :

La sélection de messages sur un seul mot clé semble bien aléatoire. Le problème n'étant pas tellement de sélectionner les "bons messages" mais bien d'avantage de ne pas être noyé dans un flot de messages sans intérêt (comme le sont, par exemple, mes mails).

Lorsque les services secrets s'interessent aux communications militaires ou diplomatiques, la sélection par mot clé peut avoir une certaine efficacité. De plus, on peut supposer que ce type de message parle d'un sujet unique...

Mais dès que la source des messages contient des conversations privées, on ne parviendra généralement pas à déterminer des mots clés significatifs. Il faudra pratiquement tout lire.

D'autre part, à moins que les cibles visées ignorent complêtement qu'elles sont observées, il est très probable qu'elles n'utiliseront pas les mots clés mais plutôt des formules codées. Trouver le mot "terrorisme" dans un mail est, me semble-t'il, une garantie pratiquement absolue, qu'il ne contiendra aucune information secrète sur un attentat à venir.

Les mots clés les plus efficaces qu'on peut imaginer sont les noms propres et surtout, les adresses e-mail (et les numéros de téléphone pour les conversations téléphoniques). Je ne vois pas pourquoi les agents des services secrets iraient chercher autre chose... d'autant plus que, même si les messages sont cryptés, les adresses origine et destination, elles, restent en clair.

 

 

retour ; page echelon ; début de page


me contacter par e-mail jean-claude.devaux (site officiel)

mise à jour le 17/06/2002