Rtechs_voiceClone

Sleeping

App Files Files Community

RO-Rtechs commited on May 25, 2024

Commit

ffed168

verified ·

1 Parent(s): e5bb6b4

Update app.py

Browse files

Files changed (1) hide show

app.py +75 -115

app.py CHANGED Viewed

@@ -12,12 +12,11 @@ import edge_tts
 import asyncio
 import librosa
 import traceback
-import soundfile as sf
 from pedalboard import Pedalboard, Reverb, Compressor, HighpassFilter
 from pedalboard.io import AudioFile
 from pydub import AudioSegment
 import noisereduce as nr
-import numpy as np
 logging.getLogger("infer_rvc_python").setLevel(logging.ERROR)
@@ -32,7 +31,7 @@ PITCH_ALGO_OPT = [
     "harvest",
     "crepe",
     "rmvpe",
-    "rmvpe+",
 ]
@@ -137,43 +136,71 @@ def add_audio_effects(audio_list):
 def apply_noisereduce(audio_list):
-    # https://github.com/sa-if/Audio-Denoiser
-    print("Noice reduce")
     result = []
     for audio_path in audio_list:
         out_path = f'{os.path.splitext(audio_path)[0]}_noisereduce.wav'
         try:
             # Load audio file
             audio = AudioSegment.from_file(audio_path)
             # Convert audio to numpy array
             samples = np.array(audio.get_array_of_samples())
             # Reduce noise
             reduced_noise = nr.reduce_noise(samples, sr=audio.frame_rate, prop_decrease=0.6)
             # Convert reduced noise signal back to audio
             reduced_audio = AudioSegment(
-                reduced_noise.tobytes(),
-                frame_rate=audio.frame_rate,
                 sample_width=audio.sample_width,
                 channels=audio.channels
             )
             # Save reduced audio to file
             reduced_audio.export(out_path, format="wav")
             result.append(out_path)
         except Exception as e:
             traceback.print_exc()
-            print(f"Error noisereduce: {str(e)}")
             result.append(audio_path)
     return result
 @spaces.GPU()
 def convert_now(audio_files, random_tag, converter):
     return converter(
@@ -196,10 +223,11 @@ def run(
     c_b_p,
     active_noise_reduce,
     audio_effects,
 ):
     if not audio_files:
-        raise ValueError("The audio pls")
     if isinstance(audio_files, str):
         audio_files = [audio_files]
@@ -207,7 +235,7 @@ def run(
         file_m, file_index = find_my_model(file_m, file_index)
         print(file_m, file_index)
-    random_tag = "USER_"+str(random.randint(10000000, 99999999))
     converter.apply_conf(
         tag=random_tag,
@@ -219,18 +247,23 @@ def run(
         respiration_median_filtering=r_m_f,
         envelope_ratio=e_r,
         consonant_breath_protection=c_b_p,
-        resample_sr=44100 if audio_files[0].endswith('.mp3') else 0,
     )
     time.sleep(0.1)
-    result = convert_now(audio_files, random_tag, converter)
     if active_noise_reduce:
         result = apply_noisereduce(result)
     if audio_effects:
         result = add_audio_effects(result)
     return result
@@ -340,15 +373,19 @@ def active_tts_conf():
     return gr.Checkbox(
         False,
         label="TTS",
-        # info="",
         container=False,
     )
 def tts_voice_conf():
     return gr.Dropdown(
-        label="tts voice",
-        choices=voices,
         visible=False,
         value="en-US-EmmaMultilingualNeural-Female",
     )
@@ -371,12 +408,11 @@ def tts_button_conf():
         visible=False,
     )
 def tts_play_conf():
     return gr.Checkbox(
         False,
         label="Play",
-        # info="",
         container=False,
         visible=False,
     )
@@ -386,7 +422,6 @@ def sound_gui():
     return gr.Audio(
         value=None,
         type="filepath",
-        # format="mp3",
         autoplay=True,
         visible=False,
     )
@@ -396,7 +431,6 @@ def denoise_conf():
     return gr.Checkbox(
         False,
         label="Denoise",
-        # info="",
         container=False,
         visible=True,
     )
@@ -406,7 +440,6 @@ def effects_conf():
     return gr.Checkbox(
         False,
         label="Effects",
-        # info="",
         container=False,
         visible=True,
     )
@@ -414,12 +447,12 @@ def effects_conf():
 def infer_tts_audio(tts_voice, tts_text, play_tts):
     out_dir = "output"
-    folder_tts = "USER_"+str(random.randint(10000, 99999))
     os.makedirs(out_dir, exist_ok=True)
     os.makedirs(os.path.join(out_dir, folder_tts), exist_ok=True)
     out_path = os.path.join(out_dir, folder_tts, "tts.mp3")
     asyncio.run(edge_tts.Communicate(tts_text, "-".join(tts_voice.split('-')[:-1])).save(out_path))
     if play_tts:
         return [out_path], out_path
@@ -437,7 +470,7 @@ def show_components_tts(value_active):
         visible=value_active
     )
 def get_gui(theme):
     with gr.Blocks(theme=theme) as app:
         gr.Markdown(title)
@@ -482,70 +515,12 @@ def get_gui(theme):
         res_fc = respiration_filter_conf()
         envel_r = envelope_ratio_conf()
         const = consonant_protec_conf()
-        with gr.Row():
-            with gr.Column():
-                with gr.Row():
-                    denoise_gui = denoise_conf()
-                    effects_gui = effects_conf()
-        button_base = button_conf()
-        output_base = output_conf()
-        button_base.click(
-            run,
-            inputs=[
-                aud,
-                model,
-                algo,
-                algo_lvl,
-                indx,
-                indx_inf,
-                res_fc,
-                envel_r,
-                const,
-                denoise_gui,
-                effects_gui,
-            ],
-            outputs=[output_base],
-        )
-        gr.Examples(
-            examples=[
-                [
-                    ["./test.ogg"],
-                    "./model.pth",
-                    "rmvpe+",
-                    0,
-                    "./model.index",
-                    0.75,
-                    3,
-                    0.25,
-                    0.50,
-                ],
-                [
-                    ["./example2/test2.ogg"],
-                    "./example2/model_link.txt",
-                    "rmvpe+",
-                    0,
-                    "./example2/index_link.txt",
-                    0.75,
-                    3,
-                    0.25,
-                    0.50,
-                ],
-                [
-                    ["./example3/test3.wav"],
-                    "./example3/zip_link.txt",
-                    "rmvpe+",
-                    0,
-                    None,
-                    0.75,
-                    3,
-                    0.25,
-                    0.50,
-                ],
-            ],
             fn=run,
             inputs=[
                 aud,
@@ -557,27 +532,12 @@ def get_gui(theme):
                 res_fc,
                 envel_r,
                 const,
             ],
-            outputs=[output_base],
-            cache_examples=False,
         )
-    return app
-if __name__ == "__main__":
-    tts_voice_list = asyncio.new_event_loop().run_until_complete(edge_tts.list_voices())
-    voices = sorted([f"{v['ShortName']}-{v['Gender']}" for v in tts_voice_list])
-    app = get_gui(theme)
-    app.queue(default_concurrency_limit=40)
-    app.launch(
-        max_threads=40,
-        share=False,
-        show_error=True,
-        quiet=False,
-        debug=False,
-    )

 import asyncio
 import librosa
 import traceback
+import numpy as np
 from pedalboard import Pedalboard, Reverb, Compressor, HighpassFilter
 from pedalboard.io import AudioFile
 from pydub import AudioSegment
 import noisereduce as nr
 logging.getLogger("infer_rvc_python").setLevel(logging.ERROR)
     "harvest",
     "crepe",
     "rmvpe",
+    "rmvpe+"
 ]
 def apply_noisereduce(audio_list):
+    # https://github.com/saif/Audio-Denoiser
+    print("Noise reduction")
     result = []
     for audio_path in audio_list:
         out_path = f'{os.path.splitext(audio_path)[0]}_noisereduce.wav'
         try:
             # Load audio file
             audio = AudioSegment.from_file(audio_path)
             # Convert audio to numpy array
             samples = np.array(audio.get_array_of_samples())
             # Reduce noise
             reduced_noise = nr.reduce_noise(samples, sr=audio.frame_rate, prop_decrease=0.6)
             # Convert reduced noise signal back to audio
             reduced_audio = AudioSegment(
+                reduced_noise.tobytes(),
+                frame_rate=audio.frame_rate,
                 sample_width=audio.sample_width,
                 channels=audio.channels
             )
             # Save reduced audio to file
             reduced_audio.export(out_path, format="wav")
             result.append(out_path)
         except Exception as e:
             traceback.print_exc()
+            print(f"Error in noise reduction: {str(e)}")
             result.append(audio_path)
     return result
+def split_audio_into_chunks(audio_file, chunk_length_ms=30000):
+    """
+    Splits an audio file into smaller chunks.
+    :param audio_file: Path to the input audio file.
+    :param chunk_length_ms: Length of each chunk in milliseconds (default is 30 seconds).
+    :return: List of chunk file paths.
+    """
+    try:
+        audio = AudioSegment.from_file(audio_file)
+        chunks = [audio[i:i + chunk_length_ms] for i in range(0, len(audio), chunk_length_ms)]
+        chunk_paths = []
+        base_name = os.path.splitext(os.path.basename(audio_file))[0]
+        output_dir = os.path.join(os.path.dirname(audio_file), f"{base_name}_chunks")
+        os.makedirs(output_dir, exist_ok=True)
+        for index, chunk in enumerate(chunks):
+            chunk_path = os.path.join(output_dir, f"{base_name}_chunk_{index + 1}.wav")
+            chunk.export(chunk_path, format="wav")
+            chunk_paths.append(chunk_path)
+        return chunk_paths
+    except Exception as e:
+        traceback.print_exc()
+        print(f"Error splitting audio into chunks: {str(e)}")
+        return [audio_file]
 @spaces.GPU()
 def convert_now(audio_files, random_tag, converter):
     return converter(
     c_b_p,
     active_noise_reduce,
     audio_effects,
+    chunk_length_ms=30000
 ):
     if not audio_files:
+        raise ValueError("Please provide audio files")
     if isinstance(audio_files, str):
         audio_files = [audio_files]
         file_m, file_index = find_my_model(file_m, file_index)
         print(file_m, file_index)
+    random_tag = "USER_" + str(random.randint(10000000, 99999999))
     converter.apply_conf(
         tag=random_tag,
         respiration_median_filtering=r_m_f,
         envelope_ratio=e_r,
         consonant_breath_protection=c_b_p,
+        resample_sr=44100 if audio_files[0].endswith('.mp3') else 0,
     )
     time.sleep(0.1)
+    # Split each audio file into chunks
+    chunked_audio_files = []
+    for audio_file in audio_files:
+        chunked_audio_files.extend(split_audio_into_chunks(audio_file, chunk_length_ms))
+    result = convert_now(chunked_audio_files, random_tag, converter)
     if active_noise_reduce:
         result = apply_noisereduce(result)
     if audio_effects:
         result = add_audio_effects(result)
     return result
     return gr.Checkbox(
         False,
         label="TTS",
         container=False,
     )
 def tts_voice_conf():
     return gr.Dropdown(
+        label="TTS Voice",
+        choices=[
+            "en-US-EmmaMultilingualNeural-Female",
+            "en-US-GuyMultilingualNeural-Male",
+            "en-GB-SoniaNeural-Female",
+            "fr-FR-DeniseNeural-Female"
+        ],
         visible=False,
         value="en-US-EmmaMultilingualNeural-Female",
     )
         visible=False,
     )
 def tts_play_conf():
     return gr.Checkbox(
         False,
         label="Play",
         container=False,
         visible=False,
     )
     return gr.Audio(
         value=None,
         type="filepath",
         autoplay=True,
         visible=False,
     )
     return gr.Checkbox(
         False,
         label="Denoise",
         container=False,
         visible=True,
     )
     return gr.Checkbox(
         False,
         label="Effects",
         container=False,
         visible=True,
     )
 def infer_tts_audio(tts_voice, tts_text, play_tts):
     out_dir = "output"
+    folder_tts = "USER_" + str(random.randint(10000, 99999))
     os.makedirs(out_dir, exist_ok=True)
     os.makedirs(os.path.join(out_dir, folder_tts), exist_ok=True)
     out_path = os.path.join(out_dir, folder_tts, "tts.mp3")
     asyncio.run(edge_tts.Communicate(tts_text, "-".join(tts_voice.split('-')[:-1])).save(out_path))
     if play_tts:
         return [out_path], out_path
         visible=value_active
     )
 def get_gui(theme):
     with gr.Blocks(theme=theme) as app:
         gr.Markdown(title)
         res_fc = respiration_filter_conf()
         envel_r = envelope_ratio_conf()
         const = consonant_protec_conf()
+        denoise = denoise_conf()
+        effects = effects_conf()
+        inference_button = button_conf()
+        output = output_conf()
+        inference_button.click(
             fn=run,
             inputs=[
                 aud,
                 res_fc,
                 envel_r,
                 const,
+                denoise,
+                effects,
             ],
+            outputs=[output],
         )
+        app.launch()
+get_gui(theme=theme)