Partage
  • Partager sur Facebook
  • Partager sur Twitter

Importation de documents Word

    20 mai 2012 à 15:51:41

    Bonjour!

    J'utilise actuellement la librairie POI pour importer des fichiers .doc et travailler sur leur contenu texte. Cependant, lorsqu'un fichier contient un sommaire ou template de ce genre, dans le texte que je récupère, il y a ce genre de chaînes bien dégueulasses :
    http://pastebin.com/5RqXMdW4
    (lien pastebin, car le zCode n'a pas l'air d’apprécier ça, de plus, il y a des caractères )
    Avez-vous une idée de comment je pourrais, soit ignorer tout ça (peut être une idée pour parser le texte), soit supprimer ces caractères?

    Voici mon code, rien de spécial :
    fs = new POIFSFileSystem(new FileInputStream(this.path)); 
    			HWPFDocument doc = new HWPFDocument(fs);
    			WordExtractor we = new WordExtractor(doc);
    			String[] paragraphs = we.getParagraphText();
    			for( int i=0; i<paragraphs .length; i++ ) {
    				paragraphs[i] = paragraphs[i].replaceAll("\\cM?\r?\n","");
    				parsedText += paragraphs[i];
    			}
    



    Merci d'avance pour votre aide! :)
    Statyx
    • Partager sur Facebook
    • Partager sur Twitter

    Importation de documents Word

    × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
    × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
    • Editeur
    • Markdown