Transparence algorithmique

Méthodologie

Transparence totale sur la collecte, l'analyse et la visualisation des données médiatiques.

Chiffres en temps réel

Mis à jour toutes les heures

27 508

Articles analysés

95%

Avec thèmes

52%

Avec marqueurs

0.53

Score qualité moy.

Durée moy. d'analyse : 0.1s par article · p95 : 0.1s

1. Collecte des données

Vigie Citoyenne ingère automatiquement les flux RSS de sources médiatiques françaises. L'ingestion est intégrée à l'application (endpoint `/api/ingest`, déployé sur Google Cloud Run) et déclenchée par une tâche planifiée.

Données collectées : titre, description, auteur, date de publication et lien. Seules les métadonnées publiquement disponibles dans les flux RSS sont indexées — aucun scraping de contenu payant.

Fréquence : toutes les 30 minutes. Chaque article est dédupliqué par son URL canonique avant d'être mis en file d'attente. Pour les sources ne fournissant que le titre, une description est parfois récupérée depuis les métadonnées `<head>` publiques de la page.

2. Analyse lexicale déterministe

L'analyse est déterministe et reproductible : aucune IA générative (LLM) n'intervient. Un même article produit toujours le même résultat, ce qui garantit la transparence et l'auditabilité.

Un seul passage spaCy (modèle `fr_core_news_lg`) sur chaque article fournit simultanément quatre signaux :

a) Entités nommées — personnes, organisations et lieux (PER / ORG / LOC), normalisés (« Prénom Nom », sigles institutionnels).

b) Marqueurs idéologiques — détectés par PhraseMatcher (sur le lemme et la forme minuscule) à partir d'un lexique curé, stocké en base de données.

c) Thèmes — classés à partir des lemmes du document (voir section 4).

d) Candidats de découverte — les groupes nominaux hors lexique sont collectés pour enrichir le lexique au fil du temps.

Des questions sur la méthodologie ? Contactez-nous.

3. Le lexique idéologique (source de vérité)

Un marqueur lexicalest un mot ou une expression (souvent une tournure journalistique de plusieurs mots) dont le choix — plutôt qu'un synonyme neutre — révèle une prise de position. Chaque marqueur porte deux étiquettes : un registre idéologique (lui-même associé à un thème canonique) et une orientation — droite, gauche ou neutre. C'est cette orientation, agrégée par source, qui permet de situer le vocabulaire d'un média sur un axe de lecture (ex. « violences policières » penche à gauche, « ensauvagement » à droite, pour un même sujet). Le lexique est stocké en base — il peut évoluer sans re-traiter le corpus.

Registre	Thème dérivé	Exemples
Sécuritaire	Sécurité	laxisme, ensauvagement, impunité
Identitaire	Immigration	grand remplacement, islamisation, communautarisme
Judiciaire	Justice	récidive, mise en examen, état de droit
Économique	Économie	assistanat, néolibéralisme, austérité
Écologique	Environnement	effondrement, transition, écoanxiété
Politique	Politique	macronie, populisme, souveraineté
Social	Société	wokisme, inégalités, précarité

Garde-fous :une liste noire (banlist) de mots et d'entités, gérée par les administrateurs, exclut les faux positifs. Les marqueurs trop rares (≤ 1 occurrence sur 7 jours) sont purgés automatiquement.

Comment le lexique s'enrichit (curation gouvernée)

Le lexique n'est pas figé. Le worker collecte les expressions hors lexique rencontrées dans les articles ; ces candidats sont triés en cascade, du filtre le moins coûteux au plus fiable :

1. Nettoyage déterministe — rejet automatique du bruit évident (chiffres, dates, lieux, termes apparus une seule fois).
2. Pré-filtre sémantique — un modèle d'embeddings mesure la proximité de chaque candidat avec le lexique existant et écarte les termes manifestement hors-sujet.
3. Classification assistée — un modèle de langage local propose un registre et une orientation. Il classe des candidats existants, il n'invente jamais de marqueur.
4. Validation humaine — un administrateur valide ou rejette chaque candidat avant son entrée dans le lexique.

Important :aucun terme n'entre dans le lexique sans validation humaine. Les outils d'IA ne font que dégrossir un grand volume de candidats — la décision finale est humaine, explicite et traçable. C'est ce qui distingue cette démarche d'une étiquetage automatique opaque.

4. Classification thématique

Le thème d'un article est déduit de deux signaux combinés, sans aucune génération de texte :

1. Le registre des marqueurs détectés — par exemple, un article riche en marqueurs « sécuritaires » penche vers le thème Sécurité (voir le tableau de la section 3).

2. Des ancres lexicales — des listes de lemmes discriminants par thème (ex. « asile », « frontière », « OQTF » → Immigration). Elles couvrent notamment les thèmes qu'aucun registre ne porte directement (Terrorisme, Religion, International).

La liste des thèmes est fermée : un article ne peut être rangé que dans l'une des 12 catégories canoniques (voir section 7). Aucun thème n'est inventé.

5. Visualisation et comparaison

Les données extraites alimentent plusieurs visualisations.

Matrice de l'Agenda — Heatmap montrant quels médias couvrent quels thèmes et dans quelles proportions.

Radar Lexical — Les registres idéologiques par source, pour détecter les vocabulaires orientés.

Personnalités citées — Classement des figures publiques par nombre d'occurrences et par média.

Comparateur — Analyse côte-à-côte du lexique employé par deux médias différents sur un même thème ou période.

6. Principes et limites

Vigie Citoyenne ne juge pas — elle expose. L'objectif n'est pas de qualifier un média de « bon » ou « mauvais », mais de fournir des données objectives pour que chacun puisse former son propre jugement.

Limites connues : la détection dépend de la couverture du lexique — un marqueur absent du lexique n'est pas comptabilisé (d'où la voie de découverte continue). La liste de 12 thèmes (10 idéologiques + 2 empiriques : Sport, Numérique) couvre les sujets les plus pertinents éditorialement. Le corpus est limité aux sources configurées et aux articles disponibles dans les flux RSS publics.

Limitation du corpus : la majorité des sources (CNews, Europe 1, Valeurs Actuelles, etc.) ne fournissent que le titre dans leur flux RSS — sans corps d'article. L'analyse se fait alors sur 5 à 15 mots, ce qui réduit la précision. Les sources avec contenu complet (Mediapart, France Info) obtiennent un score qualité nettement supérieur.

Transparence : la méthode est entièrement déterministe et le lexique est curé de façon explicite — chaque classification est traçable.

7. Les 12 thèmes canoniques

Un article ne peut être classé que dans l'une de ces 12 catégories strictes, sélectionnées pour leur pertinence éditoriale et politique. Les thèmes neutres (sport, culture, météo…) sont volontairement exclus.

Immigration

Flux migratoires, asile, sans-papiers

Sécurité

Délinquance, police, ordre public

Justice

Magistrature, peines, procès

Terrorisme

Islamisme, attentats, radicalisation

Religion

Laïcité, islam, séparatisme

Politique

Élections, partis, institutions

Économie

Fiscalité, chômage, retraites

Société

Inégalités, éducation, protection sociale, précarité

Environnement

Climat, nucléaire, écologie

International

Géopolitique, guerre, diplomatie

Sport

Compétitions, athlètes, résultats

Numérique

Tech, IA, données, numérique