Вы здесь:

Результаты поиска инструментов перевода речи в текст

Оглавление:

Vosk

Проект Vosk https://alphacephei.com/vosk/index.ru
Тест декодинга из Vosk https://github.com/alphacep/vosk-api/blob/master/java/lib/src/test/java/org/vosk/test/DecoderTest.java

  @Test
  public void decoderTestShort() throws IOException, UnsupportedAudioFileException {
    LibVosk.setLogLevel(LogLevel.DEBUG);

    try (Model model = new Model("model");
      InputStream ais = AudioSystem.getAudioInputStream(new BufferedInputStream(new FileInputStream("../../python/example/test.wav")));
      Recognizer recognizer = new Recognizer(model, 16000)) {

      int nbytes;
      byte[] b = new byte[4096];
      short[] s = new short[2048];
      while ((nbytes = ais.read(b)) >= 0) {
        ByteBuffer.wrap(b).order(ByteOrder.LITTLE_ENDIAN).asShortBuffer().get(s);
        if (recognizer.acceptWaveForm(s, nbytes / 2)) {
          System.out.println(recognizer.getResult());
        } else {
          System.out.println(recognizer.getPartialResult());
        }
      }

      System.out.println(recognizer.getFinalResult());
    }
    Assert.assertTrue(true);
  }

Статья на Baeldung "How to Convert WAV or MP3 to Text in Linux

https://www.baeldung.com/linux/wav-mp3-to-text-speech-recognize
Описаны примеры решения этой задачи с помощью разных инструментов: vosk (python), pocketsphinx, spchcat, whisper. Пример использования одного из инсрументов(spchcat):

$ spchcat convertedFile.wav
TensorFlow: v2.3.0-14-g4bdd3955115
Coqui STT: v1.1.0-0-gf3605e23
...
learn english super fast
learn english by focusing on content
not grammar
what do i mean by content
...