Séance du 07.11

Bonjour!

Notre projet avance et on constate certains problèmes apparaître. Ainsi, le script écrit jusqu’à cette séance a bien récupéré l’encodage des pages:

asp

Mais les pages n’ont pas été aspirées, si on clique dessus on a le message que ce fichier n’existe pas, même si le script marche bien (l’adresse de la page indique bien l’emplacement du fichier) :

err

La nouvelle version du script ne récupère plus l’encodage des pages, même s’il est en UTF-8 (si on va directement sur la page et on cherche l’encodage dans le code html, on trouve ‘charset = UTF-8’), ni crée pas l’aspiration des pages :

comp

Donc le but de cet article est d’essayer de trouver la solution à ce problème.

D’abord, on cherche le problème du code pour récupérer de l’encodage. Quand on a refait du zéro le code, nous avons réussi à remplir le tableau par des liens qui sont encodés en UTF-8 et nous avons aussi créé les pages aspirées (c’était donc une faute de frappe). Par contre, il y a certaines pages qui ne son pas publiées dans notre tableau, même si leur encodage est « utf-8 »:

En cours nous avons discuté la solution à ce problème (par étape):

La première requête nous envoie la chaîne vide: on cherche l’encodage à l’aide de commande « file -i » sur la page aspirée.
L’encodage récupéré UTF-8 ou non ? Si oui, on procède juste au traitement, si non on vérifie avec « iconv » si cet encodage est connu par la commande et on fait le transcodage.
Si l’encodage n’est pas connu: on peut plus rien faire.

____________________________________________________________________________________________

La nouvelle commande:

iconv – permet de changer l’encodage d’un fichier: iconv -f code_base -t nouveau_code entree -o sortie

____________________________________________________________________________________________

Après les tours de magie, la seule chose que nous avons réussi à améliorer: le tableau affiche maintenant tous les liens: « utf-8 » (nous avons essayé de modifier la capitalisation de l’encodage récupéré par « file -i » mais le script ne l’affiche pas le résultat) et d’autres liens avec l’encodage qu’il faudra transcoder:

iso

De plus, pendant le déroulement du script, j’ai remarqué le message de cygwin « ligne 38: commande introuvable », ce qui correspond à la commande « lynx » => les fichiers « dump » sont vides, même si elles existent.

____________________________________________________________________________________________

Cet article est écrit plutôt pour nous aider à éclairer les choses, qu’on a fait jusqu’à présent. Qu’est-ce qu’il faut faire?

télécharger le package « lynx » sur cygwin;
continuer à chercher comment transcoder les encodages qui ne sont pas « UTF-8 »;
capitaliser « utf-8 » qui a été récupéré par « file -i ».

Quand ce sera réglé, on pourra continuer à remplir le tableau avec bigrammes, contextes, etc.

Partager :

Articles similaires

Laisser un commentaire Annuler la réponse.