Partage
  • Partager sur Facebook
  • Partager sur Twitter

[3 questions] LaTeX & pdf

... l'accessibilité

Anonyme
6 mars 2011 à 10:01:37

Bonjour à tous,
Voilà, étant non-voyant, il m'arrive d'être confronté à des documents pdf pas très accessibles ou pire : pas du tout ; ce qui m'emmène à vous poser les questions suivantes que voici :

01, Avec LaTeX y-a-t-il une astuce pour créer des titres de niveau dans le document au lieu des parties et des sous-parties ou des chapitres (un peu comme en HTML) ?
02, toujours avec LaTeX y-a-t-il possibilité de créer une table des matières cliquable comme dans les document Word) toujours en vue d'un document pdf ?
03, Comment procédé à un balisage de document toujours avec LaTeX ?
Ces derniers m'étant beaucoup plus accessibles.
Un exemple de générateur de pdf balisé ? Microsoft Word 2007/ 2010.

D'avance, merci
  • Partager sur Facebook
  • Partager sur Twitter
6 mars 2011 à 12:48:25

Le paquet hyperref rend automatiquement cliquables les éléments de la table des matières et en crée une pour le lecteur PDF.
  • Partager sur Facebook
  • Partager sur Twitter
6 mars 2011 à 17:09:10

Hello,
JE suis heureux de tomber sur ce topic et de voir que quelqu'un partage le même genre de problème que moi, mais je ne pourrai pas apporter la moindre réponse malheureusement.

JE suis moi aussi non-voyant. Etudiant en informatique, souvent confronté aux profs qui génèrent leurs PDF avec LaTeX.

IL n'existe aucun moyen de produire du PDF accessible avec LaTeX. Pire, LaTeX génère un PDF qui n'est même pas lisible du tout avec un lecteur d'écran. LE seul moyen de ravoir un PDF généré par LaTeX est de le passer à l'OCR, tout le balisage sémantique étant perdu au passage évidemment, sans compter les erreurs d'interprétation qui nécéssitent une lecture attentive pour bien corriger.

Pourquoi un document PDF compilé à partir de LaTeX est-il complètement inaccessible, créant ainsi ce que j'appelle un paradoxe entre un balisage à la sémantique on ne peut plus précise et développée d'un côté, et de la pure m**** absolument inintelligible de l'autre ?
Voici peut-être plusieurs éléments de réponse :

1 - LE langage LaTeX est certes génial, mais son compilateur est vieux et pourri, et ce sur toutes les plateformes sans distinction

2 - IL n'y a aucun moyen de produire du PDF accessible hors logiciels commerciaux. Plus précisément, il n'y a aucune API libre permettant de faire du véritable PDF accessible, pour aucun langage sur aucune plateforme.
Au passage, oubliez FPDF, TCPDF, PDFCreator et ghostscript, pour ne citer qu'eux. Ils génèrent des PDF certes au moins généralement relativement lisibles, ce qui est toujours mieux que la nuit totale que laisse LaTeX, mais sans aucun balisage sémantique et donc par conséquent inaccessibles dans le sens WCAG.

J'aimerais bien pouvoir me consoler en pensang que le problème n°1 est peut-être soluble. Malheureusement, on peut toujours rêver pour le problème n°2. ON a beau dire que le PDF est un format libre, non seulement je n'y crois pas une seule seconde et je n'y ai jamais cru, du moins pas complètement, mais en plus personne ne sera jamais assez fou et malin à la fois pour oser quelque chose. Donc, il m'est d'avis qu'on peut encore attendre longtemps.
Pendant encore bien des années, le format qui restera le plus accessible sera... HTML. Pour autant qu'on respecte les règles de base bien sûr.

JE hais PDF, je hais adaube reader, je hais flash, et je hais adaube tout court.

Perdable document format... suivant comment vous le générez, vous changez votre ferrari en 2CV.
  • Partager sur Facebook
  • Partager sur Twitter
6 mars 2011 à 20:17:52

Bonsoir QuentinC 2.
Je ne sais pas avec quoi ont été faits les documents pdf que tu as vu, mais quand je compile avec texlive et PDFLatex, mes documents sont parfaitement accessibles. Le menu du pdf et la table des matières cliquable sont générés automatiquement avec hyperref.
  • Partager sur Facebook
  • Partager sur Twitter
6 mars 2011 à 23:09:42

Ce qui me surprend le plus dans l’expérience de QuentinC 2 est le point suivant :

Citation : QuentinC 2

Pire, LaTeX génère un PDF qui n'est même pas lisible du tout avec un lecteur d'écran. LE seul moyen de ravoir un PDF généré par LaTeX est de le passer à l'OCR […].



Le texte des fichiers PDF générés par LaTeX est pourtant sélectionnable, ce qui me laisse penser que l’information est bien présente dans le fichier ?
  • Partager sur Facebook
  • Partager sur Twitter
6 mars 2011 à 23:24:29

Oui, ça ne peut provenir que de la compilation. J'ai déjà vu des fichiers pdf tout à fait lisibles mais où le texte sélectionné était totalement incohérent... Je ne sais pas avec quoi ils ont été compilés.
Mes pdf générés par latex ne sont pas du tout comme ça.
  • Partager sur Facebook
  • Partager sur Twitter
6 mars 2011 à 23:34:00

Citation : Chinoisfurax

Oui, ça ne peut provenir que de la compilation. J'ai déjà vu des fichiers pdf tout à fait lisibles mais où le texte sélectionné était totalement incohérent... Je ne sais pas avec quoi ils ont été compilés.


Avec LaTeX, pour que les lettres accentuées soit correctes au niveau du texte brut, utiliser le paquet fontenc avec T1 comme paramètre semble fonctionner.
  • Partager sur Facebook
  • Partager sur Twitter
6 mars 2011 à 23:43:19

Quand je dis incohérent, c'est comme ça :

Citation : sélection


o3⁄4Ào3⁄4f umm uf ksm i t k
i h
f3⁄4 k u o ufm w i|
um3⁄4 | w u o fu f os k
u h h3⁄4| is f k y o fm y k u u | w u o ws h m ksm k3⁄4 k u w i m y h of fu m k if o3⁄4
u h of fu mu i y h o mf ku h i u h mu| m ks i3⁄4 | u t u| u k o m t k of u| k o
u o if k i|m k u
w mkst i w m
o 3⁄4 À o 3⁄4 w s gu i | i y


Et j'ai dû supprimer un bout de l'échantillon parce que le site du zéro me signale un caractère invalide au zcode.
  • Partager sur Facebook
  • Partager sur Twitter
7 mars 2011 à 8:47:09

AVec LaTeX, Dans le meilleur des cas il y a 3 ou 4 lettres, voire un mot par ligne. Ca reste très très chiant et irrécupérable.

Si quelqu'un a réussi à produire du PDF accessible ou au moins correctement lisible avec LaTeX, qu'il me l'envoie, que je teste.

Même les utilitaires de conversion PDF->texte brut n'y arrivent pas. C'est donc qu'il y a vraiment un problème. ET j'ai essayé avec plusieurs. Même avec un livre publié sous license CC téléchargé je ne sais plus où et parlant de linux, c'est pareil.

En fait, le seul PDF réellement accessible et correctement balisé que j'ai vu jusqu'à maintenant, c'est précisément le PDF écrit par accessiweb pour décrire la'ccessibilité du PDF.

Pour les autres, il y a deux niveaux à bien distinguer, quand même :

1 - Lisible et globalement accessible, mais pas accessible dans le sens strict du WCAG. Je veux dire par là que le texte est bel et bien lisible par un lecteur d'écran mais pas accessible dans le sens absence de balisage sémantique. Heureusement, la plupart des générateurs appartiennent quand même à cette catégorie. L'information reste globalement atteignable même si ce n'est pas hyper pratique.
P.ex. FPDF, word mal utilisé ou configuré, open office, power point en général, PDFCreator
Pour situer, ça équivaut un peu au niveau d'accessibilité d'un site en tableaux ou mal fichu... c'est généralement plus ou moins utilisable mais on peut faire mieux. Si on pouvait au moins n'en rester que là, ça serait déjà bien. Mais LaTeX fait pire !

2 - Les PDF carrément inintelligibles, soit parce qu'ils contiennent des séquences de caractères complètement aléatoires du genre de celle postée ci-dessus, soit parce que les accents sont séparées de leur lettre de base, soit parce que l'information est retranscrite dans le mauvais ordre.
P.ex. LaTeX, Excel
  • Partager sur Facebook
  • Partager sur Twitter
7 mars 2011 à 17:46:18

Peux-tu nous dire si ces fichiers posent problème ? Le premier est court avec des formules très peu compliquées, des listes. Le deuxième a un sommaire cliquable. Les deux sont indexés.

Échantillon 1
Échantillon 2
  • Partager sur Facebook
  • Partager sur Twitter
7 mars 2011 à 18:59:44

Citation : QuentinC 2

Les PDF carrément inintelligibles […] parce que les accents sont séparées de leur lettre de base


Voici le problème auquel je pensais, que fontenc semble résoudre.
  • Partager sur Facebook
  • Partager sur Twitter
Anonyme
7 mars 2011 à 19:38:32

Merci beaucoup à tous, content de ne pas voir que je suis le seul à rencontrer des problèmes avec certains pdf !
Chinoisfurax tes pdf sont lisibles, celui avec le sommaire est quand même mieux.
Mais, tes pdf sont trop courts pour être critiqués.
QuentinC, merci pour ton témoignage, peux-tu me citer des logiciels "payants" pour générer des pdf accessibles ?
Évidement, le logiciel pour permettre cela doit être accessible aussi ! :lol:
Merci !
  • Partager sur Facebook
  • Partager sur Twitter
7 mars 2011 à 21:12:02

Citation

QuentinC, merci pour ton témoignage, peux-tu me citer des logiciels "payants" pour générer des pdf accessibles ?
Évidement, le logiciel pour permettre cela doit être accessible aussi !


C'est pas bien dur, je n'en connais qu'un seul: Microsoft word, à partir de la version 2007. Mais il faut encore le configurer correctement avec des options bien cachées, et ça ne dispense pas de faire un document word qui soit accessible à la base. En ce qui concerne la configuration de certaines options, il y avait un tutorial sur webaim à une époque, si je le retrouve je posterai le lien.

Open office doit normalement aussi être capable de faire quelque chose de plus ou moins correct, au cas où tu utilises NVDA sous windows.

Je ne me prononce pas pour mac, vu que je n'y connais rien.
Quant à linux non plus, puisque je me contente de la ligne de commande.

En ce qui concerne les exemples de Chinoisfurax :

N°1: il souffre de tous les inconforts habituels des documents générés avec LaTeX, en tout cas tous ceux générés par mes profs. IL n'y a qu'un seul mot par ligne, et la formule est un peu incompréhensible parce qu'elle n'est pas entière sur une ligne, coupée à des endroits biens incongrus. Par contre tu as déjà résolu le problème des lettres accentuées dissociées, c'est déjà un petit début.

N°2 : de mieux en mieux. La table des matières est bien et fonctionne. Les paragraphes principaux sont globalement bien. Par contre il y a toujours des passages excessivement inconfortables ne comportant qu'un, deux ou trois mots par ligne alors que je suis presque certain que visuellement ce n'est pas le cas, à moins d'avoir utilisé une taille vraiment très très grande. IL n'y a déjà pas de mots coupés en deux n'importe comment, c'est aussi une petite victoire.
Ce qu'il manque pour faire mieux, régler ce problème de flux bizarre. Puis ensuite viendrait le balisage sémantique des titres, mais là ce n'est pas faisable, en tout cas ça m'étonnerais beaucoup.

Mais en réglant le problème de flux bizarre, tu rejoindrais déjà la catégorie des documents correctement lisibles mais non balisés, ce qui serait déjà une étape significative.
Comprendre par là: atteindre l'accessibilité niveau 1/A/bronze. Minimum syndical, l'information est lisible, sans être extraordinaire, mais ça fonctione.
Pour rendre les tableaux et les formules compréhensibles, ce serait le niveau au-dessus... c'est de toute façon quelque chose qui n'est pas facile à accessibiliser, pour n'importe qui.
Reste à comprendre pourquoi le flux a se comportement bizarre...
  • Partager sur Facebook
  • Partager sur Twitter
7 mars 2011 à 22:09:04

Citation : QuentinC 2

En ce qui concerne les exemples de Chinoisfurax :

N°1: il souffre de tous les inconforts habituels des documents générés avec LaTeX, en tout cas tous ceux générés par mes profs. IL n'y a qu'un seul mot par ligne, et la formule est un peu incompréhensible parce qu'elle n'est pas entière sur une ligne, coupée à des endroits biens incongrus. Par contre tu as déjà résolu le problème des lettres accentuées dissociées, c'est déjà un petit début.


Effectivement, je ne pense pas pouvoir faire grand chose pour les formules. Le comble c'est que LaTeX est l'un (si ce n'est pas le meilleur) logiciel pour écrire des formules. Quel logiciel utilises-tu pour lire les pdf ?

Citation : QuentinC 2

N°2 : de mieux en mieux. La table des matières est bien et fonctionne. Les paragraphes principaux sont globalement bien. Par contre il y a toujours des passages excessivement inconfortables ne comportant qu'un, deux ou trois mots par ligne alors que je suis presque certain que visuellement ce n'est pas le cas, à moins d'avoir utilisé une taille vraiment très très grande. IL n'y a déjà pas de mots coupés en deux n'importe comment, c'est aussi une petite victoire.
Ce qu'il manque pour faire mieux, régler ce problème de flux bizarre. Puis ensuite viendrait le balisage sémantique des titres, mais là ce n'est pas faisable, en tout cas ça m'étonnerais beaucoup.


Il n'y a que l'introduction qui soit réellement écrite, le reste est juste un plan (les titres) du rapport en attendant d'inclure les autres textes.

C'est un problème intéressant que tu soulèves aussi pour le balisage sémantique. Je ne sais pas comment ça fonctionne, je suppose qu'il s'agit de sortes de balises indiquant le rôle d'un certain texte, un peu comme en html ? Le balisage sémantique dépend-il du style appliqué aux textes à la rédaction ou est-il ajouté en plus ?


Sinon, comment se comportent les pdf créés avec OpenOffice.org/LibreOffice ?
  • Partager sur Facebook
  • Partager sur Twitter
8 mars 2011 à 8:34:17

Citation

Effectivement, je ne pense pas pouvoir faire grand chose pour les formules. Le comble c'est que LaTeX est l'un (si ce n'est pas le meilleur) logiciel pour
écrire des formules.


Je ne conteste pas le fait que LaTeX soit le meilleur logiciel pour écrire des formules. L'éditeur d'équation de word à côté c'est complètement nul et totalement inaccessible au demeurant.

Citation

Quel logiciel utilises-tu pour lire les pdf ?


Pour lire les PDF... ben je n'ai pas trop le choix en fait: adaube reader 9. Si quelqu'un en connaît un autre, plus léger, et accessible, je prends tout de suite.
Mais connaissant la politique de freedom scientifics ça m'étonnerait qu'ils aient pris la peine de rendre jaws utilisable avec un autre lecteur. Déjà qu'il leur a fallu en tout cas 4-5 ans pour faire quelque chose de correct avec firefox alors qu'ils auraient pu bien avant...

Citation

Il n'y a que l'introduction qui soit réellement écrite, le reste est juste un plan (les titres) du rapport en attendant d'inclure les autres textes.


Ca ne justifie quand même pas ce comportement étrange du flux. Des titres sur 4 lignes et des guillemets français typographiques tous seuls sur une ligne, c'est pas logique, et ça m'étonnerais que c'en était ton intention.

Citation

C'est un problème intéressant que tu soulèves aussi pour le balisage sémantique. Je ne sais pas comment ça fonctionne, je suppose qu'il s'agit de sortes
de balises indiquant le rôle d'un certain texte, un peu comme en html ?


ON peut largement comparer au HTML, en effet. IL y a théoriquement tout ce qu'il faut dans le format PDF pour faire des documents aussi accessibles qu'une page HTML suivant les recommandations du WCAG: structures de titres, listes, tableaux, textes alternatifs aux images,.

Citation

Le balisage sémantique dépend-il du style appliqué aux textes à la rédaction ou est-il ajouté en plus ?


JE ne pense pas qu'il dépende du style dans le sens LaTeX. Sinon, si le compilateur LaTeX était bien fait, la sémantique intrinsèque de \section, \subsection, etc. convertirait implicitement la structure en balisage approprié.
ON en revient à ma première réponse: c'est dommage que la richesse de LaTeX soit perdue.

En ce qui concerne MS word par contre, la génération d'un balisage correct en PDF implique une utilisation correcte des styles de titre

Citation

Sinon, comment se comportent les pdf créés avec OpenOffice.org/LibreOffice ?


JE n'ai plus de PDF généré par open office sous la main. Tu n'aurais pas un exemple ?
  • Partager sur Facebook
  • Partager sur Twitter
Anonyme
8 mars 2011 à 17:52:39

Voici un pdf bien balisé.
http://maths-sciences.fr/documents/eni [...] -sciences.pdf par contre, le site n'est pas du tout accessible. Bref, j'ai remarqué que si vous obtenez le message d'erreur suivant dans Adobe et non Adaube :lol:
le pdf est susceptible à 80% de n'être accessible et 50% d'être illisible.

Citation : Lecture d'un document non balisé

Ce document de xx pages n'est pas balisé et il doit être préparé en vue de la lecture. Pendant
l'analyse du document, le dispositif d'assistance ne pourra pas interagir avec cette application.
Options d'ordre de lecture
Ordre de lecture : Lire de gauche à droite, de haut en bas
Options du mode de lecture
Lire uniquement les pages actuellement visibles
Lire l'intégralité du document
non coché Toujours utiliser les options des préférences de lecture (ne plus afficher cette boîte de dialogue)
Commencer Annuler


PS : je ne sais pas si cette boîte de dialogue ne se montre pas uniquement lorsque un lecteur d'écran est présent...

QuentinC 2, j'utilise JAWS (Job Access With Speech) pour ma part, et personnellement je trouve que JAWS gère mieux les pdf comparé à NVDA
Pour l'histoire de Firefox je suis tout à fait d'accord avec toi d'autant plus que l'accessibilité dans ce dernier n'est pas tout à fait au rendez-vous mais là on s'égare un peu du sujet !
À expérimenter
  • Partager sur Facebook
  • Partager sur Twitter
8 mars 2011 à 19:17:56

Citation : QuentinC 2

JE ne pense pas qu'il dépende du style dans le sens LaTeX. Sinon, si le compilateur LaTeX était bien fait, la sémantique intrinsèque de \section, \subsection, etc. convertirait implicitement la structure en balisage approprié.
ON en revient à ma première réponse: c'est dommage que la richesse de LaTeX soit perdue.


D’un autre côté, ce n’est probablement pas intrinsèque au langage. On peut donc espérer des améliorations du côté du compilateur.
  • Partager sur Facebook
  • Partager sur Twitter
8 mars 2011 à 20:01:46

Citation

Voici un pdf bien balisé.


Je confirme. Par contre du coup il va falloir aussi poster les solutions... ça me rappelle 2enigmatik4u tout ça.

Citation

par contre, le site n'est pas du tout accessible.


Je confirme également. Quoique j'aie connu bien pire.

Citation

Bref, j'ai remarqué que si vous obtenez le message d'erreur suivant dans Adobe et non Adaube le pdf est susceptible à 80% de n'être accessible et 50% d'être illisible. [...]


La boîte de dialogue de choix de lecture n'apparaît en effet que si un lecteur d'écran est détecté. Mais dans mon expérience c'est bien pire que ce que tu indiques. Disons 25% de chances pour que le PDF entre dans la catégorie lisible mais pas balisé, et 75% de chances pour que ça entre dans la catégorie complètement illisible. Quant au nombre de documents correctement balisés que j'ai déjà vu, pour le moment je peux encore les compter sur les doigts et sans utiliser les pieds.

<citation... Adobe et non Adaube ...</citation>
Personne n'a donc compris mon humour

Citation

D’un autre côté, ce n’est probablement pas intrinsèque au langage. On peut donc espérer des améliorations du côté du compilateur.


ON peut... mais j'ai des doutes que ça se fasse avant bien longtemps.
JE ne mets pas en doute la communauté du libre pour améliorer son compilateur, mais par contre j'ai l'impression que la politique d'adaube ne veut volontairement pas permettre de produire du PDF accessible hors logiciels commerciaux. But du jeu: vendre un WYSIWYG pourri (=indesign) qui n'est même pas capable de produire du PDF accessible (complètement illogique; c'est de la contre-publicité avec soi-même, ou autrement dit se tirer dans les pieds), et un autre WYSIWYG (=PDF pro) qui permet bien de baliser les PDF mais manuellement, donc au prix d'un temps énorme, temps que personne n'a envie de perdre à faire de l'accessibilité, étant donné que ça ne rapporte rien.

Le seul moyen que tous les documents deviennent accessibles, c'est de forcer les gens à baliser correctement leurs documents sans qu'ils ne s'en aperçoivent. Là je vise particulièrement les WYSIWYG. Qu'on comence seulement par supprimer la barre police/couleur/taille dans word pour ne laisser que les styles, ça sera déjà le début de la révolution, tout comme le W3C a banni <font> du HTML.

Bon, désolé, je me suis un peu écarté du sujet initial, j'espère qu'on me pardonnera.

  • Partager sur Facebook
  • Partager sur Twitter
16 juillet 2021 à 11:39:31

Bonjour à tous,

Malgré l'ancienneté de ce post, je tenais à vous proposer ma démarche.

Voici le même fichier Accessible niveau RGAA.

https://1drv.ms/b/s!AkWeF4zFYC0FgYB_QRctE1yQTeJL4g?e=yyX7M0

Pour ma part, j'utilise Adobe Indesign avec une bonne préparation.

Pour l'accessibilité finale, toujours Acrobat pro. Il y a obligation de mettre les main dans le cambouis. Les images et autres balises ne donnant aucunes informations seront en Artefact afin de faciliter la lecture en mode redistribution pour les malvoyants (vision conique entre autres). Une énumération en liste. Une bonne hiérarchie de titres avec toujours le Titre H. Les doublons dans le titre science est dû à la transformation de la police en calque successif donc texte de remplacement.

Je ne connais aucun logiciel qui ne puisse faire le travail correctement :notes, tableaux complexes...

Je vous souhaites bon courage.

  • Partager sur Facebook
  • Partager sur Twitter