Streamlit app for interactive use of the model

Topic: streamlit_app
2022-12-26 20:01:27 -08:00 · 2022-12-26 20:01:27 -08:00 · 39dc247a1d
parent e8b99fabf9
commit 39dc247a1d
7 changed files with 379 additions and 0 deletions
--- a/riffusion/streamlit/README.md
+++ b/riffusion/streamlit/README.md
@ -0,0 +1,3 @@
+# streamlit
+
+This package is an interactive streamlit app for riffusion.
--- a/riffusion/streamlit/init.py
+++ b/riffusion/streamlit/init.py
--- a/riffusion/streamlit/main.py
+++ b/riffusion/streamlit/main.py
@ -0,0 +1,25 @@
+import pydub
+import streamlit as st
+
+
+def run():
+    st.set_page_config(layout="wide", page_icon="🎸")
+
+    audio_file = st.file_uploader("Upload a file", type=["wav", "mp3", "ogg"])
+    if not audio_file:
+        st.info("Upload an audio file to get started")
+        return
+
+    st.audio(audio_file)
+
+    segment = pydub.AudioSegment.from_file(audio_file)
+    st.write("  \n".join([
+        f"**Duration**: {segment.duration_seconds:.3f} seconds",
+        f"**Channels**: {segment.channels}",
+        f"**Sample rate**: {segment.frame_rate} Hz",
+        f"**Sample width**: {segment.sample_width} bytes",
+    ]))
+
+
+if __name__ == "__main__":
+    run()
--- a/riffusion/streamlit/pages/image_to_audio.py
+++ b/riffusion/streamlit/pages/image_to_audio.py
@ -0,0 +1,51 @@
+import io
+
+import streamlit as st
+from PIL import Image
+
+from riffusion.spectrogram_image_converter import SpectrogramImageConverter
+from riffusion.spectrogram_params import SpectrogramParams
+from riffusion.streamlit import util as streamlit_util
+from riffusion.util.image_util import exif_from_image
+
+
+def render_image_to_audio() -> None:
+    image_file = st.sidebar.file_uploader(
+        "Upload a file",
+        type=["png", "jpg", "jpeg"],
+        label_visibility="collapsed",
+    )
+    if not image_file:
+        st.info("Upload an image file to get started")
+        return
+
+    image = Image.open(image_file)
+    st.image(image)
+
+    exif = exif_from_image(image)
+    st.write("Exif data:")
+    st.write(exif)
+
+    device = "cuda"
+
+    try:
+        params = SpectrogramParams.from_exif(exif=image.getexif())
+    except KeyError:
+        st.warning("Could not find spectrogram parameters in exif data. Using defaults.")
+        params = SpectrogramParams()
+
+    # segment = streamlit_util.audio_from_spectrogram_image(
+    #     image=image,
+    #     params=params,
+    #     device=device,
+    # )
+
+    # mp3_bytes = io.BytesIO()
+    # segment.export(mp3_bytes, format="mp3")
+    # mp3_bytes.seek(0)
+
+    # st.audio(mp3_bytes)
+
+
+if __name__ == "__main__":
+    render_image_to_audio()
--- a/riffusion/streamlit/pages/interpolation_demo.py
+++ b/riffusion/streamlit/pages/interpolation_demo.py
@ -0,0 +1,97 @@
+import io
+from pathlib import Path
+
+import dacite
+import streamlit as st
+import torch
+from PIL import Image
+
+from riffusion.datatypes import InferenceInput
+from riffusion.spectrogram_image_converter import SpectrogramImageConverter
+from riffusion.spectrogram_params import SpectrogramParams
+from riffusion.streamlit import util as streamlit_util
+
+
+def render_interpolation_demo() -> None:
+    """
+    Render audio from text.
+    """
+    prompt = st.text_input("Prompt", label_visibility="collapsed")
+    if not prompt:
+        st.info("Enter a prompt")
+        return
+
+    seed = st.sidebar.number_input("Seed", value=42)
+    denoising = st.sidebar.number_input("Denoising", value=0.01)
+    guidance = st.sidebar.number_input("Guidance", value=7.0)
+    num_inference_steps = st.sidebar.number_input("Inference steps", value=50)
+
+    default_device = "cpu"
+    if torch.cuda.is_available():
+        default_device = "cuda"
+    elif torch.backends.mps.is_available():
+        default_device = "mps"
+
+    device_options = ["cuda", "cpu", "mps"]
+    device = st.sidebar.selectbox(
+        "Device", options=device_options, index=device_options.index(default_device)
+    )
+    assert device is not None
+
+    pipeline = streamlit_util.load_riffusion_checkpoint(device=device)
+
+    input_dict = {
+        "alpha": 0.75,
+        "num_inference_steps": num_inference_steps,
+        "seed_image_id": "og_beat",
+        "start": {
+            "prompt": prompt,
+            "seed": seed,
+            "denoising": denoising,
+            "guidance": guidance,
+        },
+        "end": {
+            "prompt": prompt,
+            "seed": seed,
+            "denoising": denoising,
+            "guidance": guidance,
+        },
+    }
+    st.json(input_dict)
+
+    inputs = dacite.from_dict(InferenceInput, input_dict)
+
+    # TODO fix
+    init_image_path = Path(__file__).parent.parent.parent.parent / "seed_images" / "og_beat.png"
+    init_image = Image.open(str(init_image_path)).convert("RGB")
+
+    # Execute the model to get the spectrogram image
+    image = pipeline.riffuse(
+        inputs,
+        init_image=init_image,
+        mask_image=None,
+    )
+    st.image(image)
+
+    # TODO(hayk): Change the frequency range to [20, 20k] once the model is retrained
+    params = SpectrogramParams(
+        min_frequency=0,
+        max_frequency=10000,
+    )
+
+    # Reconstruct audio from the image
+    # TODO(hayk): It may help performance to cache this object
+    converter = SpectrogramImageConverter(params=params, device=str(pipeline.device))
+    segment = converter.audio_from_spectrogram_image(
+        image,
+        apply_filters=True,
+    )
+
+    mp3_bytes = io.BytesIO()
+    segment.export(mp3_bytes, format="mp3")
+    mp3_bytes.seek(0)
+    st.audio(mp3_bytes)
+
+
+if __name__ == "__main__":
+    render_interpolation_demo()
--- a/riffusion/streamlit/pages/text_to_audio.py
+++ b/riffusion/streamlit/pages/text_to_audio.py
@ -0,0 +1,130 @@
+import io
+from pathlib import Path
+
+import dacite
+from diffusers import StableDiffusionPipeline
+import streamlit as st
+import torch
+from PIL import Image
+
+from riffusion.datatypes import InferenceInput
+from riffusion.spectrogram_image_converter import SpectrogramImageConverter
+from riffusion.spectrogram_params import SpectrogramParams
+from riffusion.streamlit import util as streamlit_util
+
+
+@st.experimental_singleton
+def load_stable_diffusion_pipeline(
+    checkpoint: str = "riffusion/riffusion-model-v1",
+    device: str = "cuda",
+    dtype: torch.dtype = torch.float16,
+) -> StableDiffusionPipeline:
+    """
+    Load the riffusion pipeline.
+    """
+    if device == "cpu" or device.lower().startswith("mps"):
+        print(f"WARNING: Falling back to float32 on {device}, float16 is unsupported")
+        dtype = torch.float32
+
+    return StableDiffusionPipeline.from_pretrained(
+        checkpoint,
+        revision="main",
+        torch_dtype=dtype,
+        safety_checker=lambda images, **kwargs: (images, False),
+    ).to(device)
+
+
+@st.experimental_memo
+def run_txt2img(
+    prompt: str,
+    num_inference_steps: int,
+    guidance: float,
+    negative_prompt: str,
+    seed: int,
+    width: int,
+    height: int,
+    device: str = "cuda",
+) -> Image.Image:
+    """
+    Run the text to image pipeline with caching.
+    """
+    pipeline = load_stable_diffusion_pipeline(device=device)
+
+    generator = torch.Generator(device="cpu").manual_seed(seed)
+
+    output = pipeline(
+        prompt=prompt,
+        num_inference_steps=num_inference_steps,
+        guidance_scale=guidance,
+        negative_prompt=negative_prompt or None,
+        generator=generator,
+        width=width,
+        height=height,
+    )
+
+    return output["images"][0]
+
+
+def render_text_to_audio() -> None:
+    """
+    Render audio from text.
+    """
+    prompt = st.text_input("Prompt")
+    if not prompt:
+        st.info("Enter a prompt")
+        return
+
+    negative_prompt = st.text_input("Negative prompt")
+    seed = st.sidebar.number_input("Seed", value=42)
+    num_inference_steps = st.sidebar.number_input("Inference steps", value=20)
+    width = st.sidebar.number_input("Width", value=512)
+    height = st.sidebar.number_input("Height", value=512)
+    guidance = st.sidebar.number_input(
+        "Guidance", value=7.0, help="How much the model listens to the text prompt"
+    )
+
+    default_device = "cpu"
+    if torch.cuda.is_available():
+        default_device = "cuda"
+    elif torch.backends.mps.is_available():
+        default_device = "mps"
+
+    device_options = ["cuda", "cpu", "mps"]
+    device = st.sidebar.selectbox(
+        "Device", options=device_options, index=device_options.index(default_device)
+    )
+    assert device is not None
+
+    image = run_txt2img(
+        prompt=prompt,
+        num_inference_steps=num_inference_steps,
+        guidance=guidance,
+        negative_prompt=negative_prompt,
+        seed=seed,
+        width=width,
+        height=height,
+        device=device,
+    )
+
+    st.image(image)
+
+    # TODO(hayk): Change the frequency range to [20, 20k] once the model is retrained
+    params = SpectrogramParams(
+        min_frequency=0,
+        max_frequency=10000,
+    )
+
+    segment = streamlit_util.audio_from_spectrogram_image(
+        image=image,
+        params=params,
+        device=device,
+    )
+
+    mp3_bytes = io.BytesIO()
+    segment.export(mp3_bytes, format="mp3")
+    mp3_bytes.seek(0)
+    st.audio(mp3_bytes)
+
+
+if __name__ == "__main__":
+    render_text_to_audio()
--- a/riffusion/streamlit/util.py
+++ b/riffusion/streamlit/util.py
@ -0,0 +1,73 @@
+"""
+Streamlit utilities (mostly cached wrappers around riffusion code).
+"""
+
+import pydub
+import streamlit as st
+from PIL import Image
+
+from riffusion.riffusion_pipeline import RiffusionPipeline
+from riffusion.spectrogram_image_converter import SpectrogramImageConverter
+from riffusion.spectrogram_params import SpectrogramParams
+
+
+@st.experimental_singleton
+def load_riffusion_checkpoint(
+    checkpoint: str = "riffusion/riffusion-model-v1",
+    no_traced_unet: bool = False,
+    device: str = "cuda",
+) -> RiffusionPipeline:
+    """
+    Load the riffusion pipeline.
+    """
+    return RiffusionPipeline.load_checkpoint(
+        checkpoint=checkpoint,
+        use_traced_unet=not no_traced_unet,
+        device=device,
+    )
+
+# class CachedSpectrogramImageConverter:
+
+#     def __init__(self, params: SpectrogramParams, device: str = "cuda"):
+#         self.p = params
+#         self.device = device
+#         self.converter = self._converter(params, device)
+
+#     @staticmethod
+#     @st.experimental_singleton
+#     def _converter(params: SpectrogramParams, device: str) -> SpectrogramImageConverter:
+#          return SpectrogramImageConverter(params=params, device=device)
+
+#     def audio_from_spectrogram_image(
+#         self,
+#         image: Image.Image
+#     ) -> pydub.AudioSegment:
+#         return self._converter.audio_from_spectrogram_image(image)
+
+
+@st.experimental_singleton
+def spectrogram_image_converter(
+    params: SpectrogramParams,
+    device: str = "cuda",
+) -> SpectrogramImageConverter:
+    return SpectrogramImageConverter(params=params, device=device)
+
+
+@st.experimental_memo
+def audio_from_spectrogram_image(
+    image: Image.Image,
+    params: SpectrogramParams,
+    device: str = "cuda",
+) -> pydub.AudioSegment:
+    converter = spectrogram_image_converter(params=params, device=device)
+    return converter.audio_from_spectrogram_image(image)
+
+
+# @st.experimental_memo
+# def spectrogram_image_from_audio(
+#     segment: pydub.AudioSegment,
+#     params: SpectrogramParams,
+#     device: str = "cuda",
+# ) -> pydub.AudioSegment:
+#     converter = spectrogram_image_converter(params=params, device=device)
+#     return converter.spectrogram_image_from_audio(segment)