Partage
  • Partager sur Facebook
  • Partager sur Twitter

Analyser des gros fichiers

Sujet résolu
    22 juillet 2022 à 19:43:24

    Bonjour,

    Pour mon taff je dois faire des recherches de string dans des gros fichier text (+ 100Go)

    j'ai essayé le module mmap en python mais je ne le trouve pas assez rapide (22Go a la minute).

    Est ce que vous connaissez une alternative ? peut importe le langage utilisé.

    Merci beaucoup.

    -
    Edité par dot_point 22 juillet 2022 à 19:44:18

    • Partager sur Facebook
    • Partager sur Twitter
      22 juillet 2022 à 19:52:06

      J'utiliserais l'algorithme de Boyer-Moore avec les deux tables de saut:


      https://fr.wikipedia.org/wiki/Algorithme_de_Boyer-Moore


      Python est trop lent. Ça se fait assez bien en C avec optimisation (-O3)

      edit:

      Il ne faut pas oublier que tu ne peux pas faire entrer 100 Go en mémoire.

      Tu pourrais lire des stream de 1 Go à la fois en faisant attention aux limites de tes stream.

      J'ai une RAM de 16 Go et je peux faire des malloc de 2 Go (2*10**9)

      -
      Edité par PierrotLeFou 22 juillet 2022 à 20:37:13

      • Partager sur Facebook
      • Partager sur Twitter

      Le Tout est souvent plus grand que la somme de ses parties.

      Analyser des gros fichiers

      × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
      × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
      • Editeur
      • Markdown