Результаты поиска инструментов перевода речи в текст
Оглавление:
Vosk
Проект Vosk https://alphacephei.com/vosk/index.ru
Тест декодинга из Vosk https://github.com/alphacep/vosk-api/blob/master/java/lib/src/test/java/org/vosk/test/DecoderTest.java
@Test public void decoderTestShort() throws IOException, UnsupportedAudioFileException { LibVosk.setLogLevel(LogLevel.DEBUG); try (Model model = new Model("model"); InputStream ais = AudioSystem.getAudioInputStream(new BufferedInputStream(new FileInputStream("../../python/example/test.wav"))); Recognizer recognizer = new Recognizer(model, 16000)) { int nbytes; byte[] b = new byte[4096]; short[] s = new short[2048]; while ((nbytes = ais.read(b)) >= 0) { ByteBuffer.wrap(b).order(ByteOrder.LITTLE_ENDIAN).asShortBuffer().get(s); if (recognizer.acceptWaveForm(s, nbytes / 2)) { System.out.println(recognizer.getResult()); } else { System.out.println(recognizer.getPartialResult()); } } System.out.println(recognizer.getFinalResult()); } Assert.assertTrue(true); }
Статья на Baeldung "How to Convert WAV or MP3 to Text in Linux
https://www.baeldung.com/linux/wav-mp3-to-text-speech-recognize
Описаны примеры решения этой задачи с помощью разных инструментов: vosk (python), pocketsphinx, spchcat, whisper. Пример использования одного из инсрументов(spchcat):
$ spchcat convertedFile.wav
TensorFlow: v2.3.0-14-g4bdd3955115
Coqui STT: v1.1.0-0-gf3605e23
...
learn english super fast
learn english by focusing on content
not grammar
what do i mean by content
...