none
Re Question RRS feed

  • Question

  • Bonjour

    je cherche a faire un programme qui lit un fichier textuel d extension d un type de traitement de texte connu ex .wps .docx  ou .html

    et je voudrais tirer de ce fichier textuel un fichier de sortie qui donne les

    statistiques d occurences des caracteres alphanumerique

    exemple mettons 8 pour cent pour e 6 pourcents pour a ...etc

    j aurais donc pour cela cree un tableau de caractere a reconnaitre

    ex T[0]="a", T[1]="b".....T[26]="z" T[27]="0"...T[36]="9"

    j aurais aussi un tableu de "compteurs" (tableau de double) C[i]

    qui sera indice par l indice de mon tableau de  caractere et qui a la fin contiendra pour chaque indice d un caractere donne le nombre d occurence

    de ce caractere dans mon fichier de test

    l idee est de lire un caractere car du fichier de texte

    parcourir les valeurs du tableau de caracteres

    tester si T[i]==car si oui incremementer le compteur C[i] de un

    etc

    Le pb que je me pose est le suivant

    si car est un caractere du fichier ex un caractere d unb fichier html

    et t[i] un caractere de "meme valeur" dans le programme visual studio

    (donc ecrits mettons en Unicode UTF-8 ou ascii)

    j ai peur que le test T[i])==car donne faux car T[i] est un caractere de visual studio et car un caractere docx ou Wps ou html et meme s ils ont

    la meme valeur theorique  par ex T[i]="a" et car="a" il se peut que le test echoue??( car les caracteres ne sont pas du meme type) T[i] de visual studio et car d un type par exemple .docx .html ou .wps...

    Comment faire si cela est vrai

    merci à toute reponse et bonne annee

    amitie jp

    mercredi 19 janvier 2011 09:39

Réponses

  • > Bonjour
     
    Bonjour,
     
    > je cherche a faire un programme qui lit un fichier textuel d extension d un
    > type de traitement de texte connu ex .wps .docx  ou .html
     
    S'il s'agit vraiment de fichier texte, un StreamReader est capable de
    détecter l'encodage d'après les BOM (Byte Order Mark).
    Les octets lus seront convenablement transformés en chaîne.
     
    Si les BOM sont absents, il faudra essayer de deviner l'encodage. Jamais
    fait cela mais Microsoft a une API qui sait le faire et voici un exemple
     
    Si les fichiers ne sont pas de vrais fichiers texte, je ne vois pas
    d'autre solution que de se plonger dans les spécifications des
    différents formats.
     
    --
    Fred
    foleide@free.fr
     
    • Marqué comme réponse Alex Petrescu lundi 24 janvier 2011 15:43
    mercredi 19 janvier 2011 13:00

Toutes les réponses