Spaces:

jacob-c
/

largermodel_lyrics_generation

Paused

App Files Files Community

root commited on Mar 28

Commit

a3f7aaa

1 Parent(s): ba71a6b

ss

Browse files

Files changed (1) hide show

app.py +75 -0

app.py CHANGED Viewed

@@ -28,12 +28,33 @@ if "HF_TOKEN" in os.environ:
 # Constants
 GENRE_MODEL_NAME = "dima806/music_genres_classification"
 LLM_MODEL_NAME = "meta-llama/Llama-3.1-8B-Instruct"
 SAMPLE_RATE = 22050  # Standard sample rate for audio processing
 # Check CUDA availability (for informational purposes)
 CUDA_AVAILABLE = ensure_cuda_availability()
 # Create genre classification pipeline
 print(f"Loading audio classification model: {GENRE_MODEL_NAME}")
 try:
@@ -209,6 +230,55 @@ Your lyrics:
     return lyrics
 def process_audio(audio_file):
     """Main function to process audio file, classify genre, and generate lyrics."""
     if audio_file is None:
@@ -218,6 +288,11 @@ def process_audio(audio_file):
         # Extract audio features
         audio_data = extract_audio_features(audio_file)
         # Classify genre
         top_genres = classify_genre(audio_data)

 # Constants
 GENRE_MODEL_NAME = "dima806/music_genres_classification"
+MUSIC_DETECTION_MODEL = "MIT/ast-finetuned-audioset-10-10-0.4593"
 LLM_MODEL_NAME = "meta-llama/Llama-3.1-8B-Instruct"
 SAMPLE_RATE = 22050  # Standard sample rate for audio processing
 # Check CUDA availability (for informational purposes)
 CUDA_AVAILABLE = ensure_cuda_availability()
+# Create music detection pipeline
+print(f"Loading music detection model: {MUSIC_DETECTION_MODEL}")
+try:
+    music_detector = pipeline(
+        "audio-classification",
+        model=MUSIC_DETECTION_MODEL,
+        device=0 if CUDA_AVAILABLE else -1
+    )
+    print("Successfully loaded music detection pipeline")
+except Exception as e:
+    print(f"Error creating music detection pipeline: {str(e)}")
+    # Fallback to manual loading
+    try:
+        music_processor = AutoFeatureExtractor.from_pretrained(MUSIC_DETECTION_MODEL)
+        music_model = AutoModelForAudioClassification.from_pretrained(MUSIC_DETECTION_MODEL)
+        print("Successfully loaded music detection model and feature extractor")
+    except Exception as e2:
+        print(f"Error loading music detection model components: {str(e2)}")
+        raise RuntimeError(f"Could not load music detection model: {str(e2)}")
 # Create genre classification pipeline
 print(f"Loading audio classification model: {GENRE_MODEL_NAME}")
 try:
     return lyrics
+def detect_music(audio_data):
+    """Detect if the audio is music using the MIT AST model."""
+    try:
+        # First attempt: Try using the pipeline if available
+        if 'music_detector' in globals():
+            results = music_detector(audio_data["path"])
+            # Look for music-related classes in the results
+            music_confidence = 0.0
+            for result in results:
+                label = result["label"].lower()
+                if any(music_term in label for music_term in ["music", "song", "singing", "instrument"]):
+                    music_confidence = max(music_confidence, result["score"])
+            return music_confidence >= 0.5
+        # Second attempt: Use manually loaded model components
+        elif 'music_processor' in globals() and 'music_model' in globals():
+            # Process audio input with feature extractor
+            inputs = music_processor(
+                audio_data["waveform"],
+                sampling_rate=audio_data["sample_rate"],
+                return_tensors="pt"
+            )
+            with torch.no_grad():
+                outputs = music_model(**inputs)
+                predictions = outputs.logits.softmax(dim=-1)
+            # Get the top predictions
+            values, indices = torch.topk(predictions, 5)
+            # Map indices to labels
+            labels = music_model.config.id2label
+            # Check for music-related classes
+            music_confidence = 0.0
+            for i, (value, index) in enumerate(zip(values[0], indices[0])):
+                label = labels[index.item()].lower()
+                if any(music_term in label for music_term in ["music", "song", "singing", "instrument"]):
+                    music_confidence = max(music_confidence, value.item())
+            return music_confidence >= 0.5
+        else:
+            raise ValueError("No music detection model available")
+    except Exception as e:
+        print(f"Error in music detection: {str(e)}")
+        return False
 def process_audio(audio_file):
     """Main function to process audio file, classify genre, and generate lyrics."""
     if audio_file is None:
         # Extract audio features
         audio_data = extract_audio_features(audio_file)
+        # First check if it's music
+        is_music = detect_music(audio_data)
+        if not is_music:
+            return "The uploaded audio does not appear to be music. Please upload a music file.", None
         # Classify genre
         top_genres = classify_genre(audio_data)