OpenAI vous entend chuchoter | Hackaday

Si vous souhaitez essayer la reconnaissance vocale de haute qualité sans rien acheter, bonne chance. Bien sûr, vous pouvez emprunter la reconnaissance vocale sur votre téléphone ou contraindre certains assistants virtuels sur un Raspberry Pi à gérer le traitement pour vous, mais ceux-ci ne sont pas bons pour les travaux majeurs que vous ne voulez pas être liés à une source fermée. la solution. OpenAI a introduit Chuchotement, qui, selon eux, est un réseau neuronal open source qui “se rapproche de la robustesse et de la précision au niveau humain sur la reconnaissance vocale en anglais”. Il semble également fonctionner sur au moins certaines autres langues.

Si vous essayez les démonstrations, vous verrez que parler vite ou avec un joli accent ne semble pas affecter les résultats. Le message mentionne qu’il a été formé sur 680 000 heures de données supervisées. Si vous parliez autant à une IA, cela vous prendrait 77 ans sans dormir !

En interne, la parole est découpée en bouchées de 30 secondes qui alimentent un spectrogramme. Les encodeurs traitent le spectrogramme et les décodeurs digèrent les résultats en utilisant des prédictions et d’autres heuristiques. Environ un tiers des données provenaient de sources non anglophones, puis traduites. Vous pouvez lire le papier sur la façon dont la formation généralisée sous-performe certains modèles spécifiquement formés sur des repères standard, mais ils croient que Whisper fait mieux au discours aléatoire au-delà de repères particuliers.

La taille du modèle à la “petite” variante est toujours de 39 mégaoctets et la “grande” variante est supérieure à un gigaoctet et demi. Donc, cela ne fonctionnera probablement pas sur votre Arduino de si tôt. Si vous voulez coder, cependant, tout est activé GitHub.

Il y a d’autres solutions, mais pas aussi robuste. Si vous souhaitez suivre la voie basée sur l’assistant, voici un peu d’inspiration.

Leave a Comment