iTrameur. Russe

Dans cet article je vais présenter l'analyse réalisé sur iTrameur sur le corpus en russe. Ce corpus a aussi été nettoyé des choses inutiles de html. Dump-text Les paramètres de l’analyse: FqMax = 25; IndSPmin = 15   Tout d'abord, on peut remarquer que le réseau cooccurents pour le russe possède également l'étoile pour la … Lire la suite iTrameur. Russe

iTrameur. Français. 2

Par la suite du commentaire de M.Fleury qui m'a conseillé de nettoyer le corpus du lexique des blogs pour faciliter l'analyse linguistique, je vais refaire l'analyse sur iTrameur sur le français. Dump-text Paramètres de l’analyse: FqMax = 35; IndSPmin = 20 Le nettoyage du corpus des scories html m'a permis de baisser les paramètres de … Lire la suite iTrameur. Français. 2

iTrameur. Nettoyage

Le iTrameur c'est la version en ligne du logiciel Trameur qui réalise l'analyse statistique, documentaire et automatique des textes. Il possède également des fonctionnalités des outils de textométrie. Pour faire l'analyse sur iTrameur j'ai construit deux corpus pour les trois langues: le premier contient le motif recherché avec son contexte et le deuxième le dump-text. … Lire la suite iTrameur. Nettoyage

Concaténation

Afin de faire l'analyse linguistique sur le logiciel Trameur, j'ai besoin de concaténer les fichiers du dump-text et du contexte. Le fichier de concaténation doit avoir la structure suivante: la balise ovrant avec le titre du fichier traité, le texte, la balise fermant. J'ai donc créé les répertoires "concat_cont" et "concat_dump" qui contiennent respetivement les … Lire la suite Concaténation

La dernière étape de la 1ère phase. Part II.

Dans l'article précédent j'ai dit que pour certaines pages le script ne trouve pas la fréquence du motif. J'ai trouvé plusieurs raisons pour ça: Certaines adresses URL sont protégés et on peut pas récupérer son contenu => on supprime ce lien; Pour d'autres pages, le programme récupère bien le dump-text mais la fréquence du motif … Lire la suite La dernière étape de la 1ère phase. Part II.

La dernière étape de la 1ère phase du projet. Part I.

Bonjour! Aujourd'hui, je vais décrire ce que j'ai fait le dernier temps avec le script: les dernières colonnes du tableau avec l'information sur le contexte, la fréquence, les bigrammes et l'index des mots recherchés. Toute l'information est récupérée à partir des fichiers "DUMP-TEXT". #Contexte Pour extraire le contexte des mots du projet nous utilisons la … Lire la suite La dernière étape de la 1ère phase du projet. Part I.

Séance 14.11 Expressions régulières + projet

Bonjour! On avance notre projet mais aujourd'hui, on va faire principalement une présentation/révision sur les expression régulières. En informatique, une expression régulière est une chaîne de caractères, qui décrit, selon une syntaxe précise, un ensemble de chaînes de caractères possibles. Les expressions régulières sont également appelées regex. Une expression régulière sur les caractères est une suite de caractères … Lire la suite Séance 14.11 Expressions régulières + projet