Tripay-Voice-Input

Runtime error

App Files Files Community

vineelpratap commited on Jun 23, 2023

Commit

4090e0d

1 Parent(s): 5cc287f

Update asr.py

Browse files

Files changed (1) hide show

asr.py +34 -35

asr.py CHANGED Viewed

@@ -30,9 +30,40 @@ lm_decoding_configfile = hf_hub_download(
 with open(lm_decoding_configfile) as f:
     lm_decoding_config = json.loads(f.read())
-# allow language model decoding for specific languages
-lm_decode_isos = ["eng"]
 def transcribe(
     audio_source=None, microphone=None, file_upload=None, lang="eng (English)"
@@ -75,42 +106,10 @@ def transcribe(
     with torch.no_grad():
         outputs = model(**inputs).logits
-    if lang_code not in lm_decoding_config or lang_code not in lm_decode_isos:
         ids = torch.argmax(outputs, dim=-1)[0]
         transcription = processor.decode(ids)
     else:
-        decoding_config = lm_decoding_config[lang_code]
-        lm_file = hf_hub_download(
-            repo_id="facebook/mms-cclms",
-            filename=decoding_config["lmfile"].rsplit("/", 1)[1],
-            subfolder=decoding_config["lmfile"].rsplit("/", 1)[0],
-        )
-        token_file = hf_hub_download(
-            repo_id="facebook/mms-cclms",
-            filename=decoding_config["tokensfile"].rsplit("/", 1)[1],
-            subfolder=decoding_config["tokensfile"].rsplit("/", 1)[0],
-        )
-        lexicon_file = None
-        if decoding_config["lexiconfile"] is not None:
-            lexicon_file = hf_hub_download(
-                repo_id="facebook/mms-cclms",
-                filename=decoding_config["lexiconfile"].rsplit("/", 1)[1],
-                subfolder=decoding_config["lexiconfile"].rsplit("/", 1)[0],
-            )
-        beam_search_decoder = ctc_decoder(
-            lexicon=lexicon_file,
-            tokens=token_file,
-            lm=lm_file,
-            nbest=1,
-            beam_size=500,
-            beam_size_token=50,
-            lm_weight=float(decoding_config["lmweight"]),
-            word_score=float(decoding_config["wordscore"]),
-            sil_score=float(decoding_config["silweight"]),
-            blank_token="<s>",
-        )
         beam_search_result = beam_search_decoder(outputs.to("cpu"))
         transcription = " ".join(beam_search_result[0][0].words).strip()

 with open(lm_decoding_configfile) as f:
     lm_decoding_config = json.loads(f.read())
+# allow language model decoding for "eng"
+decoding_config = lm_decoding_config["eng"]
+lm_file = hf_hub_download(
+    repo_id="facebook/mms-cclms",
+    filename=decoding_config["lmfile"].rsplit("/", 1)[1],
+    subfolder=decoding_config["lmfile"].rsplit("/", 1)[0],
+)
+token_file = hf_hub_download(
+    repo_id="facebook/mms-cclms",
+    filename=decoding_config["tokensfile"].rsplit("/", 1)[1],
+    subfolder=decoding_config["tokensfile"].rsplit("/", 1)[0],
+)
+lexicon_file = None
+if decoding_config["lexiconfile"] is not None:
+    lexicon_file = hf_hub_download(
+        repo_id="facebook/mms-cclms",
+        filename=decoding_config["lexiconfile"].rsplit("/", 1)[1],
+        subfolder=decoding_config["lexiconfile"].rsplit("/", 1)[0],
+    )
+beam_search_decoder = ctc_decoder(
+    lexicon=lexicon_file,
+    tokens=token_file,
+    lm=lm_file,
+    nbest=1,
+    beam_size=500,
+    beam_size_token=50,
+    lm_weight=float(decoding_config["lmweight"]),
+    word_score=float(decoding_config["wordscore"]),
+    sil_score=float(decoding_config["silweight"]),
+    blank_token="<s>",
+)
 def transcribe(
     audio_source=None, microphone=None, file_upload=None, lang="eng (English)"
     with torch.no_grad():
         outputs = model(**inputs).logits
+    if lang_code != "eng":
         ids = torch.argmax(outputs, dim=-1)[0]
         transcription = processor.decode(ids)
     else:
         beam_search_result = beam_search_decoder(outputs.to("cpu"))
         transcription = " ".join(beam_search_result[0][0].words).strip()