Système de reconaissance vocale

28 décembre 2022 à 15:29:38

Bonjour à tous ,

J'aurais une question , je travaille sur un système de commande qui est afficher sur un écran et qui indique le numero de la commande ainsi que son statut ( sil elle est prête ou en en cours de préparation )

Peut-on par exemple émettre une voix qui indique par exemple : Commande 136 prête !

Et qui fais donc ca une fois pour chaque commande prête

KoaTao

1 janvier 2023 à 23:52:51

Bonsoir,

Ce n'est pas de la reconnaissance vocale dans ce cas mais de la synthèse vocale ou simplement enregistrer les messages vocaux en studio (ou enregistrer toi-même).

Il existe des synthèse vocale libre et open-source comme espeak-ng que tu peux utiliser comme bibliothèque de code.

https://github.com/espeak-ng/espeak-ng

-
Edité par KoaTao 1 janvier 2023 à 23:53:36

umfred

9 janvier 2023 à 16:00:14

accessoirement (même si ça semble évident), il faut un moyen de le diffuser donc qu'il y ai un haut parleur

Sheyy_94

21 février 2023 à 12:37:49

Bonjour à tous :)

Je reviens sur ce forum car j'ai d'autres questions concernant ce problème-ci

Je souhaite toujours faire une synthèse vocale qui dit donc a haute voix ( COMMANDE #154 PRÊTE )

Le problème est que j’utilise du php / ajax pour pouvoir afficher les données + les refresh

Comment peut-on donc lié ces langages ensemble pour faire quelque choses de compatible ?

umfred

21 février 2023 à 13:12:11

quels langages ? Si tu es parti sur espeak, utilisable en ligne de commande, il suffit de le lancer avec ta phrase à prononcer + les paramètres qui vont bien (c'est dans la doc)

Sheyy_94

21 février 2023 à 14:27:05

umfred a écrit:

quels langages ? Si tu es parti sur espeak, utilisable en ligne de commande, il suffit de le lancer avec ta phrase à prononcer + les paramètres qui vont bien (c'est dans la doc)

Mais est ce que ca va prendre en compte tout les commandes ? Et non juste "commande prête "

umfred

21 février 2023 à 15:01:52

tu as lu la doc https://github.com/espeak-ng/espeak-ng/blob/master/src/espeak-ng.1.ronn ? la ligne de commande est de type espeak "this is my text" (par défaut la langue est l'anglais)

Après, aucune idée de si ça va marcher, il faut faire le test

KoaTao

21 février 2023 à 19:51:02

Bonjour,

Soit tu peux profiter de fonctionnalités de navigateur permettant de réaliser le text-to-speech en front-end directement (semble limité quand même): https://developer.mozilla.org/en-US/docs/Web/API/Web_Speech_API/Using_the_Web_Speech_API

Soit tu génères à la volée un audio (stream ou fichier) à l'aide d'une synthèse vocale en back-end et tu l'envoie au front-end pour être lu.

Tu peux aussi pré-générer l'ensemble des textes à être dicté par une synthèse vocale si leur nombre est limités (faut trouver cette limite aussi...) dès le départ et envoyer le bon au front-end.

Sheyy_94

22 février 2023 à 11:39:31

Bonjour ,

Mais cela veut donc dire qu'il faudrait donc faire plusieurs fichiers audio pour toutes les commandes prêtes qui apparaissent ?

KoaTao

23 février 2023 à 12:51:35

C'est à toi de voir.

Des systèmes de gestion de commande, il en existe plein. Tu as plein de manière différentes de faire les choses.

Le plus simple est de partir du ou des use cases et de définir ce qui semblerait le plus adapté comme procédé.

Par exemple, si tu prends les systèmes de certains fast-food bien connus. Les numéros de commandes vont de 1 à 200 en boucle. Il y a pas trop d'intérêt de refaire une tts (text-to-speech) à chaque fois, simplement avoir déjà produit les 200 audios correspondants est plus simple à manipuler, plus rapide et moins demandeur en ressources (mis-à-part du stockage). Lorsque ton back-end est stocké dans des environnements cloud SaaS, c'est plus intéressant (financièrement parlant) de stocker que de produire un nouvel audio à chaque fois.

Si t'as 2000 numéros de commandes différents, tu pourrais aussi générer l'audio pour le mot "commande", l'audio pour le chaque numéro et l'audio pour le mot "prête" et concaténer les 3 selon le besoin à la volée.

Si c'est des fichiers statiques, c'est plus simple à utiliser en front (suffit d'aller chercher le fichier), alors que si tu fais de la génération dynamique, tu dois créer une route dans ton back que ton front appellera. Cette route devra utiliser une API vers un programme qui fait du tts. Plus complexe à développer, par contre, c'est beaucoup plus flexible et s'adapte à tout type de texte.

Bref, à toi de voir, c'est pas avec le peu d'infos que tu donnes sur le projet qu'on peut t'aiguiller sur les meilleures décisions à prendre. Il y a peut-être d'autres solutions (comme des API de tts publiques ou payantes).