Aleph-Weo-Webeta

Build error

App Files Files Community

RO-Rtechs commited on Jan 22

Commit

0024e0d

verified ·

1 Parent(s): c5f1c66

update_gtts for Amharic

Browse files

Files changed (1) hide show

soni_translate/text_to_speech.py +52 -11

soni_translate/text_to_speech.py CHANGED Viewed

@@ -963,6 +963,45 @@ def filter_by_speaker(speakers, segments):
     }
 def audio_segmentation_to_voice(
     result_diarize,
     TRANSLATE_AUDIO_TO,
@@ -1021,6 +1060,7 @@ def audio_segmentation_to_voice(
     pattern_coqui = re.compile(r".+\.(wav|mp3|ogg|m4a)$")
     pattern_vits_onnx = re.compile(r".* VITS-onnx$")
     pattern_openai_tts = re.compile(r".* OpenAI-TTS$")
     all_segments = result_diarize["segments"]
@@ -1028,12 +1068,9 @@ def audio_segmentation_to_voice(
     speakers_bark = find_spkr(pattern_bark, speaker_to_voice, all_segments)
     speakers_vits = find_spkr(pattern_vits, speaker_to_voice, all_segments)
     speakers_coqui = find_spkr(pattern_coqui, speaker_to_voice, all_segments)
-    speakers_vits_onnx = find_spkr(
-        pattern_vits_onnx, speaker_to_voice, all_segments
-    )
-    speakers_openai_tts = find_spkr(
-        pattern_openai_tts, speaker_to_voice, all_segments
-    )
     # Filter method in segments
     filtered_edge = filter_by_speaker(speakers_edge, all_segments)
@@ -1042,6 +1079,7 @@ def audio_segmentation_to_voice(
     filtered_coqui = filter_by_speaker(speakers_coqui, all_segments)
     filtered_vits_onnx = filter_by_speaker(speakers_vits_onnx, all_segments)
     filtered_openai_tts = filter_by_speaker(speakers_openai_tts, all_segments)
     # Infer
     if filtered_edge["segments"]:
@@ -1049,9 +1087,7 @@ def audio_segmentation_to_voice(
         segments_egde_tts(filtered_edge, TRANSLATE_AUDIO_TO, is_gui)  # mp3
     if filtered_bark["segments"]:
         logger.info(f"BARK TTS: {speakers_bark}")
-        segments_bark_tts(
-            filtered_bark, TRANSLATE_AUDIO_TO, model_id_bark
-        )  # wav
     if filtered_vits["segments"]:
         logger.info(f"VITS TTS: {speakers_vits}")
         segments_vits_tts(filtered_vits, TRANSLATE_AUDIO_TO)  # wav
@@ -1071,6 +1107,9 @@ def audio_segmentation_to_voice(
     if filtered_openai_tts["segments"]:
         logger.info(f"OpenAI TTS: {speakers_openai_tts}")
         segments_openai_tts(filtered_openai_tts, TRANSLATE_AUDIO_TO)  # wav
     [result.pop("tts_name", None) for result in result_diarize["segments"]]
     return [
@@ -1079,7 +1118,8 @@ def audio_segmentation_to_voice(
         speakers_vits,
         speakers_coqui,
         speakers_vits_onnx,
-        speakers_openai_tts
     ]
@@ -1098,7 +1138,8 @@ def accelerate_segments(
         speakers_vits,
         speakers_coqui,
         speakers_vits_onnx,
-        speakers_openai_tts
     ) = valid_speakers
     create_directories(f"{folder_output}/audio/")

     }
+def segments_gtts_tts(filtered_gtts_segments, TRANSLATE_AUDIO_TO):
+    """Google TTS implementation"""
+    for segment in tqdm(filtered_gtts_segments["segments"]):
+        speaker = segment["speaker"]
+        text = segment["text"]
+        start = segment["start"]
+        tts_name = segment["tts_name"]
+        # make the tts audio
+        filename = f"audio/{start}.ogg"
+        logger.info(f"{text} >> {filename}")
+        try:
+            # Get language code from TTS name (e.g. "am-GTTS" -> "am")
+            lang_code = tts_name.split('-')[0]
+            tts = gTTS(text=text, lang=lang_code)
+            # Use temporary file to avoid file system issues
+            from tempfile import TemporaryFile
+            f = TemporaryFile()
+            tts.write_to_fp(f)
+            f.seek(0)
+            # Read and save as ogg
+            audio_data, samplerate = sf.read(f)
+            f.close()
+            data_tts = pad_array(audio_data, samplerate)
+            sf.write(
+                file=filename,
+                samplerate=samplerate,
+                data=data_tts,
+                format="ogg",
+                subtype="vorbis"
+            )
+            verify_saved_file_and_size(filename)
+        except Exception as error:
+            error_handling_in_tts(error, segment, TRANSLATE_AUDIO_TO, filename)
 def audio_segmentation_to_voice(
     result_diarize,
     TRANSLATE_AUDIO_TO,
     pattern_coqui = re.compile(r".+\.(wav|mp3|ogg|m4a)$")
     pattern_vits_onnx = re.compile(r".* VITS-onnx$")
     pattern_openai_tts = re.compile(r".* OpenAI-TTS$")
+    pattern_gtts = re.compile(r".*-GTTS$")  # New pattern for gTTS
     all_segments = result_diarize["segments"]
     speakers_bark = find_spkr(pattern_bark, speaker_to_voice, all_segments)
     speakers_vits = find_spkr(pattern_vits, speaker_to_voice, all_segments)
     speakers_coqui = find_spkr(pattern_coqui, speaker_to_voice, all_segments)
+    speakers_vits_onnx = find_spkr(pattern_vits_onnx, speaker_to_voice, all_segments)
+    speakers_openai_tts = find_spkr(pattern_openai_tts, speaker_to_voice, all_segments)
+    speakers_gtts = find_spkr(pattern_gtts, speaker_to_voice, all_segments)  # New gTTS speakers
     # Filter method in segments
     filtered_edge = filter_by_speaker(speakers_edge, all_segments)
     filtered_coqui = filter_by_speaker(speakers_coqui, all_segments)
     filtered_vits_onnx = filter_by_speaker(speakers_vits_onnx, all_segments)
     filtered_openai_tts = filter_by_speaker(speakers_openai_tts, all_segments)
+    filtered_gtts = filter_by_speaker(speakers_gtts, all_segments)  # New gTTS filter
     # Infer
     if filtered_edge["segments"]:
         segments_egde_tts(filtered_edge, TRANSLATE_AUDIO_TO, is_gui)  # mp3
     if filtered_bark["segments"]:
         logger.info(f"BARK TTS: {speakers_bark}")
+        segments_bark_tts(filtered_bark, TRANSLATE_AUDIO_TO, model_id_bark)  # wav
     if filtered_vits["segments"]:
         logger.info(f"VITS TTS: {speakers_vits}")
         segments_vits_tts(filtered_vits, TRANSLATE_AUDIO_TO)  # wav
     if filtered_openai_tts["segments"]:
         logger.info(f"OpenAI TTS: {speakers_openai_tts}")
         segments_openai_tts(filtered_openai_tts, TRANSLATE_AUDIO_TO)  # wav
+    if filtered_gtts["segments"]:  # New gTTS condition
+        logger.info(f"Google TTS: {speakers_gtts}")
+        segments_gtts_tts(filtered_gtts, TRANSLATE_AUDIO_TO)  # ogg
     [result.pop("tts_name", None) for result in result_diarize["segments"]]
     return [
         speakers_vits,
         speakers_coqui,
         speakers_vits_onnx,
+        speakers_openai_tts,
+        speakers_gtts  # Add gTTS to returned speakers list
     ]
         speakers_vits,
         speakers_coqui,
         speakers_vits_onnx,
+        speakers_openai_tts,
+        speakers_gtts
     ) = valid_speakers
     create_directories(f"{folder_output}/audio/")