Dans cet article je vais présenter l'analyse réalisé sur iTrameur sur le corpus en russe. Ce corpus a aussi été nettoyé des choses inutiles de html. Dump-text Les paramètres de l’analyse: FqMax = 25; IndSPmin = 15 Tout d'abord, on peut remarquer que le réseau cooccurents pour le russe possède également l'étoile pour la … Lire la suite iTrameur. Russe
iTrameur. Français. 2
Par la suite du commentaire de M.Fleury qui m'a conseillé de nettoyer le corpus du lexique des blogs pour faciliter l'analyse linguistique, je vais refaire l'analyse sur iTrameur sur le français. Dump-text Paramètres de l’analyse: FqMax = 35; IndSPmin = 20 Le nettoyage du corpus des scories html m'a permis de baisser les paramètres de … Lire la suite iTrameur. Français. 2
iTrameur. Français
Dans cet article je vais présenter le travail sur iTrameur sur le corpus du français. Je vais analyser 4 types de texte: 1. dump-text; 2. dump-texte où toutes les occurences du motif ont été remplacé par "koto"; 3. contexte du motif; 4. contexte, où le motif a été remplacé par "koto". Avant de commencer l'analyse … Lire la suite iTrameur. Français
iTrameur. Nettoyage
Le iTrameur c'est la version en ligne du logiciel Trameur qui réalise l'analyse statistique, documentaire et automatique des textes. Il possède également des fonctionnalités des outils de textométrie. Pour faire l'analyse sur iTrameur j'ai construit deux corpus pour les trois langues: le premier contient le motif recherché avec son contexte et le deuxième le dump-text. … Lire la suite iTrameur. Nettoyage
Nuages des mots
Pour créer les nuages des mots j'ai utilisé les fichiers (l'article précédente) sur le site worditout.com. D'abord j'ai crée les nuages avec les fichiers du contexte. Au cours du traitement j'ai éliminé certains mots (e.g. les pronoms, les articles, "and", etc). Voici l'exemple du français: et ensuite, j'ai fait les nuages des fichiers de dump-text: … Lire la suite Nuages des mots
Concaténation
Afin de faire l'analyse linguistique sur le logiciel Trameur, j'ai besoin de concaténer les fichiers du dump-text et du contexte. Le fichier de concaténation doit avoir la structure suivante: la balise ovrant avec le titre du fichier traité, le texte, la balise fermant. J'ai donc créé les répertoires "concat_cont" et "concat_dump" qui contiennent respetivement les … Lire la suite Concaténation
La dernière étape de la 1ère phase. Part II.
Dans l'article précédent j'ai dit que pour certaines pages le script ne trouve pas la fréquence du motif. J'ai trouvé plusieurs raisons pour ça: Certaines adresses URL sont protégés et on peut pas récupérer son contenu => on supprime ce lien; Pour d'autres pages, le programme récupère bien le dump-text mais la fréquence du motif … Lire la suite La dernière étape de la 1ère phase. Part II.
La dernière étape de la 1ère phase du projet. Part I.
Bonjour! Aujourd'hui, je vais décrire ce que j'ai fait le dernier temps avec le script: les dernières colonnes du tableau avec l'information sur le contexte, la fréquence, les bigrammes et l'index des mots recherchés. Toute l'information est récupérée à partir des fichiers "DUMP-TEXT". #Contexte Pour extraire le contexte des mots du projet nous utilisons la … Lire la suite La dernière étape de la 1ère phase du projet. Part I.
Séance 14.11 Expressions régulières + projet
Bonjour! On avance notre projet mais aujourd'hui, on va faire principalement une présentation/révision sur les expression régulières. En informatique, une expression régulière est une chaîne de caractères, qui décrit, selon une syntaxe précise, un ensemble de chaînes de caractères possibles. Les expressions régulières sont également appelées regex. Une expression régulière sur les caractères est une suite de caractères … Lire la suite Séance 14.11 Expressions régulières + projet
Séance du 07.11
Bonjour! Notre projet avance et on constate certains problèmes apparaître. Ainsi, le script écrit jusqu'à cette séance a bien récupéré l'encodage des pages: Mais les pages n'ont pas été aspirées, si on clique dessus on a le message que ce fichier n'existe pas, même si le script marche bien (l'adresse de la page indique bien … Lire la suite Séance du 07.11