Spaces:

Jaward
/

Professor-AI-Feynman

Running

App Files Files Community

Jaward commited on May 1

Commit

c8b75a2

verified ·

1 Parent(s): 452750b

Update app.py

Browse files

Files changed (1) hide show

app.py +117 -90

app.py CHANGED Viewed

@@ -16,7 +16,6 @@ from autogen_agentchat.messages import TextMessage, HandoffMessage, StructuredMe
 from autogen_ext.models.anthropic import AnthropicChatCompletionClient
 from autogen_ext.models.openai import OpenAIChatCompletionClient
 from autogen_ext.models.ollama import OllamaChatCompletionClient
-from markdown_pdf import MarkdownPdf, Section
 import traceback
 import soundfile as sf
 import tempfile
@@ -35,7 +34,6 @@ logging.basicConfig(
 logger = logging.getLogger(__name__)
 # Set up environment
-# For Huggingface Spaces, use /tmp for temporary storage
 if os.path.exists("/tmp"):
     OUTPUT_DIR = "/tmp/outputs"  # Use /tmp for Huggingface Spaces
 else:
@@ -117,25 +115,21 @@ def clean_script_text(script):
         logger.error("Invalid script input: %s", script)
         return None
-    # Minimal cleaning to preserve natural language
-    script = re.sub(r"\*\*Slide \d+:.*?\*\*", "", script)  # Remove slide headers
-    script = re.sub(r"\[.*?\]", "", script)  # Remove bracketed content
-    script = re.sub(r"Title:.*?\n|Content:.*?\n", "", script)  # Remove metadata
     script = script.replace("humanlike", "human-like").replace("problemsolving", "problem-solving")
-    script = re.sub(r"\s+", " ", script).strip()  # Normalize whitespace
-    # Convert bullet points to spoken cues
     script = re.sub(r"^\s*-\s*", "So, ", script, flags=re.MULTILINE)
-    # Add non-verbal words randomly (e.g., "um," "you know," "like")
     non_verbal = ["um, ", "you know, ", "like, "]
     words = script.split()
     for i in range(len(words) - 1, -1, -1):
-        if random.random() < 0.1:  # 10% chance per word
             words.insert(i, random.choice(non_verbal))
     script = " ".join(words)
-    # Basic validation
     if len(script) < 10:
         logger.error("Cleaned script too short (%d characters): %s", len(script), script)
         return None
@@ -143,7 +137,7 @@ def clean_script_text(script):
     logger.info("Cleaned and naturalized script: %s", script)
     return script
-# Helper function to validate and convert speaker audio (MP3 or WAV)
 async def validate_and_convert_speaker_audio(speaker_audio):
     if not speaker_audio or not os.path.exists(speaker_audio):
         logger.warning("Speaker audio file does not exist: %s. Using default voice.", speaker_audio)
@@ -155,12 +149,10 @@ async def validate_and_convert_speaker_audio(speaker_audio):
             return None
     try:
-        # Check file extension
         ext = os.path.splitext(speaker_audio)[1].lower()
         if ext == ".mp3":
             logger.info("Converting MP3 to WAV: %s", speaker_audio)
             audio = AudioSegment.from_mp3(speaker_audio)
-            # Convert to mono, 22050 Hz
             audio = audio.set_channels(1).set_frame_rate(22050)
             with tempfile.NamedTemporaryFile(suffix=".wav", delete=False, dir=OUTPUT_DIR) as temp_file:
                 audio.export(temp_file.name, format="wav")
@@ -171,7 +163,6 @@ async def validate_and_convert_speaker_audio(speaker_audio):
             logger.error("Unsupported audio format: %s", ext)
             return None
-        # Validate WAV file
         data, samplerate = sf.read(speaker_wav)
         if samplerate < 16000 or samplerate > 48000:
             logger.error("Invalid sample rate for %s: %d Hz", speaker_wav, samplerate)
@@ -215,7 +206,6 @@ def extract_json_from_message(message):
             logger.warning("TextMessage content is not a string: %s", content)
             return None
-        # Try standard JSON block with triple backticks
         pattern = r"```json\s*(.*?)\s*```"
         match = re.search(pattern, content, re.DOTALL)
         if match:
@@ -226,10 +216,9 @@ def extract_json_from_message(message):
             except json.JSONDecodeError as e:
                 logger.error("Failed to parse JSON from code block: %s", e)
-        # Try to find arrays or objects
         json_patterns = [
-            r"\[\s*\{.*?\}\s*\]",  # Array of objects
-            r"\{\s*\".*?\"\s*:.*?\}",  # Object
         ]
         for pattern in json_patterns:
@@ -242,7 +231,6 @@ def extract_json_from_message(message):
                 except json.JSONDecodeError as e:
                     logger.error("Failed to parse JSON with pattern %s: %s", pattern, e)
-        # Try to find JSON anywhere in the content
         try:
             for i in range(len(content)):
                 for j in range(len(content), i, -1):
@@ -290,8 +278,8 @@ def extract_json_from_message(message):
                             logger.error("Failed to parse JSON from HandoffMessage: %s", e)
                     json_patterns = [
-                        r"\[\s*\{.*?\}\s*\]",  # Array of objects
-                        r"\{\s*\".*?\"\s*:.*?\}",  # Object
                     ]
                     for pattern in json_patterns:
@@ -310,26 +298,36 @@ def extract_json_from_message(message):
     logger.warning("Unsupported message type for JSON extraction: %s", type(message))
     return None
-# Function to generate HTML slides
-def generate_html_slides(slides, title):
     try:
-        slides_html = ""
         for i, slide in enumerate(slides):
-            content_lines = slide['content'].replace('\n', '<br>')
-            slide_html = f"""
-<div id="slide-{i+1}" class="slide" style="display: none; height: 100%; padding: 20px; text-align: center;">
-    <h1 style="margin-bottom: 10px;">{slide['title']}</h1>
-    <h3 style="margin-bottom: 20px; font-style: italic;">Prof. AI Feynman<br>Princeton University, April 26th, 2025</h3>
-    <div style="font-size: 1.2em; line-height: 1.6;">{content_lines}</div>
-</div>
 """
-            slides_html += slide_html
-        logger.info(f"Generated HTML slides for: {title}")
-        return slides_html
     except Exception as e:
-        logger.error(f"Failed to generate HTML slides: {str(e)}")
         logger.error(traceback.format_exc())
         return None
@@ -351,7 +349,6 @@ async def on_generate(api_service, api_key, serpapi_key, title, topic, instructi
         """
         return
-    # Initialize TTS model
     tts = None
     try:
         device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -535,7 +532,6 @@ Example: 'Received {total_slides} slides and {total_slides} scripts. Lecture is
                             )
                             task_result.messages.append(retry_message)
                             continue
-                    # Save slide content to individual files
                     for i, slide in enumerate(slides):
                         content_file = os.path.join(OUTPUT_DIR, f"slide_{i+1}_content.txt")
                         try:
@@ -567,7 +563,6 @@ Example: 'Received {total_slides} slides and {total_slides} scripts. Lecture is
                 if extracted_json:
                     scripts = extracted_json
                     logger.info("Script Agent generated scripts for %d slides", len(scripts))
-                    # Save raw scripts to individual files
                     for i, script in enumerate(scripts):
                         script_file = os.path.join(OUTPUT_DIR, f"slide_{i+1}_raw_script.txt")
                         try:
@@ -648,10 +643,9 @@ Example: 'Received {total_slides} slides and {total_slides} scripts. Lecture is
             """
             return
-        # Generate HTML slides
-        slides_html = generate_html_slides(slides, title)
-        if not slides_html:
-            logger.error("Failed to generate HTML slides")
             yield f"""
             <div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; min-height: 700px; padding: 20px; text-align: center; border: 1px solid #ddd; border-radius: 8px;">
                 <h2 style="color: #d9534f;">Failed to generate slides</h2>
@@ -672,13 +666,11 @@ Example: 'Received {total_slides} slides and {total_slides} scripts. Lecture is
             """
             return
-        # Process audio generation sequentially with retries
         for i, script in enumerate(scripts):
             cleaned_script = clean_script_text(script)
-            audio_file = os.path.join(OUTPUT_DIR, f"slide_{i+1}.wav")
             script_file = os.path.join(OUTPUT_DIR, f"slide_{i+1}_script.txt")
-            # Save cleaned script
             try:
                 with open(script_file, "w", encoding="utf-8") as f:
                     f.write(cleaned_script or "")
@@ -727,36 +719,51 @@ Example: 'Received {total_slides} slides and {total_slides} scripts. Lecture is
                         await asyncio.sleep(0.1)
                         break
-        slides_info = json.dumps({"slides": [
-            {"title": slide["title"], "content": slide["content"]}
-            for slide in slides
-        ], "audioFiles": audio_files})
         html_output = f"""
         <div id="lecture-container" style="height: 700px; border: 1px solid #ddd; border-radius: 8px; display: flex; flex-direction: column; justify-content: space-between;">
-            <div id="slide-content" style="flex: 1; overflow: auto;">
-                {slides_html}
             </div>
             <div style="padding: 20px;">
-                <div id="progress-bar" style="width: 100%; height: 5px; background-color: #ddd; border-radius: 2px; margin-bottom: 10px;">
-                    <div id="progress-fill" style="width: {(1/len(slides)*100)}%; height: 100%; background-color: #4CAF50; border-radius: 2px;"></div>
                 </div>
                 <div style="display: flex; justify-content: center; margin-bottom: 10px;">
                     <button onclick="prevSlide()" style="border-radius: 50%; width: 40px; height: 40px; margin: 0 5px; font-size: 1.2em; cursor: pointer;">⏮</button>
-                    <button onclick="togglePlay()" style="border-radius: 50%; width: 40px; height: 40px; margin: 0 5px; font-size: 1.2em; cursor: pointer;">⏯</button>
                     <button onclick="nextSlide()" style="border-radius: 50%; width: 40px; height: 40px; margin: 0 5px; font-size: 1.2em; cursor: pointer;">⏭</button>
                 </div>
-                <p id="slide-counter" style="text-align: center;">Slide 1 of {len(slides)}</p>
             </div>
         </div>
         <script>
             const lectureData = {slides_info};
             let currentSlide = 0;
             const totalSlides = lectureData.slides.length;
-            const slideCounter = document.getElementById('slide-counter');
-            const progressFill = document.getElementById('progress-fill');
             let audioElements = [];
-            let currentAudio = null;
             for (let i = 0; i < totalSlides; i++) {{
                 if (lectureData.audioFiles && lectureData.audioFiles[i]) {{
@@ -767,24 +774,19 @@ Example: 'Received {total_slides} slides and {total_slides} scripts. Lecture is
                 }}
             }}
-            function updateSlide() {{
-                for (let i = 1; i <= totalSlides; i++) {{
-                    document.getElementById(`slide-${{i}}`).style.display = (i - 1 === currentSlide) ? 'block' : 'none';
-                }}
-                slideCounter.textContent = `Slide ${{currentSlide + 1}} of ${{totalSlides}}`;
-                progressFill.style.width = `${{(currentSlide + 1) / totalSlides * 100}}%`;
-                if (currentAudio) {{
-                    currentAudio.pause();
-                    currentAudio.currentTime = 0;
-                }}
-                if (audioElements[currentSlide]) {{
-                    currentAudio = audioElements[currentSlide];
-                    currentAudio.play().catch(e => console.error('Audio play failed:', e));
-                }} else {{
-                    currentAudio = null;
-                }}
             }}
             function prevSlide() {{
@@ -801,27 +803,52 @@ Example: 'Received {total_slides} slides and {total_slides} scripts. Lecture is
                 }}
             }}
-            function togglePlay() {{
-                if (!audioElements[currentSlide]) return;
-                if (currentAudio.paused) {{
-                    currentAudio.play().catch(e => console.error('Audio play failed:', e));
-                }} else {{
-                    currentAudio.pause();
                 }}
             }}
-            audioElements.forEach((audio, index) => {{
                 if (audio) {{
-                    audio.addEventListener('ended', () => {{
-                        if (index < totalSlides - 1) {{
-                            nextSlide();
-                        }}
                     }});
                 }}
-            }});
             // Initialize first slide
-            updateSlide();
         </script>
         """
         logger.info("Lecture generation completed successfully")

 from autogen_ext.models.anthropic import AnthropicChatCompletionClient
 from autogen_ext.models.openai import OpenAIChatCompletionClient
 from autogen_ext.models.ollama import OllamaChatCompletionClient
 import traceback
 import soundfile as sf
 import tempfile
 logger = logging.getLogger(__name__)
 # Set up environment
 if os.path.exists("/tmp"):
     OUTPUT_DIR = "/tmp/outputs"  # Use /tmp for Huggingface Spaces
 else:
         logger.error("Invalid script input: %s", script)
         return None
+    script = re.sub(r"\*\*Slide \d+:.*?\*\*", "", script)
+    script = re.sub(r"\[.*?\]", "", script)
+    script = re.sub(r"Title:.*?\n|Content:.*?\n", "", script)
     script = script.replace("humanlike", "human-like").replace("problemsolving", "problem-solving")
+    script = re.sub(r"\s+", " ", script).strip()
     script = re.sub(r"^\s*-\s*", "So, ", script, flags=re.MULTILINE)
     non_verbal = ["um, ", "you know, ", "like, "]
     words = script.split()
     for i in range(len(words) - 1, -1, -1):
+        if random.random() < 0.1:
             words.insert(i, random.choice(non_verbal))
     script = " ".join(words)
     if len(script) < 10:
         logger.error("Cleaned script too short (%d characters): %s", len(script), script)
         return None
     logger.info("Cleaned and naturalized script: %s", script)
     return script
+# Helper function to validate and convert speaker audio
 async def validate_and_convert_speaker_audio(speaker_audio):
     if not speaker_audio or not os.path.exists(speaker_audio):
         logger.warning("Speaker audio file does not exist: %s. Using default voice.", speaker_audio)
             return None
     try:
         ext = os.path.splitext(speaker_audio)[1].lower()
         if ext == ".mp3":
             logger.info("Converting MP3 to WAV: %s", speaker_audio)
             audio = AudioSegment.from_mp3(speaker_audio)
             audio = audio.set_channels(1).set_frame_rate(22050)
             with tempfile.NamedTemporaryFile(suffix=".wav", delete=False, dir=OUTPUT_DIR) as temp_file:
                 audio.export(temp_file.name, format="wav")
             logger.error("Unsupported audio format: %s", ext)
             return None
         data, samplerate = sf.read(speaker_wav)
         if samplerate < 16000 or samplerate > 48000:
             logger.error("Invalid sample rate for %s: %d Hz", speaker_wav, samplerate)
             logger.warning("TextMessage content is not a string: %s", content)
             return None
         pattern = r"```json\s*(.*?)\s*```"
         match = re.search(pattern, content, re.DOTALL)
         if match:
             except json.JSONDecodeError as e:
                 logger.error("Failed to parse JSON from code block: %s", e)
         json_patterns = [
+            r"\[\s*\{.*?\}\s*\]",
+            r"\{\s*\".*?\"\s*:.*?\}",
         ]
         for pattern in json_patterns:
                 except json.JSONDecodeError as e:
                     logger.error("Failed to parse JSON with pattern %s: %s", pattern, e)
         try:
             for i in range(len(content)):
                 for j in range(len(content), i, -1):
                             logger.error("Failed to parse JSON from HandoffMessage: %s", e)
                     json_patterns = [
+                        r"\[\s*\{.*?\}\s*\]",
+                        r"\{\s*\".*?\"\s*:.*?\}",
                     ]
                     for pattern in json_patterns:
     logger.warning("Unsupported message type for JSON extraction: %s", type(message))
     return None
+# Function to generate Markdown slides
+def generate_markdown_slides(slides, title, speaker="Prof. AI Feynman", date="April 26th, 2025"):
     try:
+        markdown_slides = []
         for i, slide in enumerate(slides):
+            slide_number = i + 1
+            content = slide['content']
+            # First and last slides have no header/footer
+            if i == 0 or i == len(slides) - 1:
+                slide_md = f"""
+# {slide['title']}
+{content}
+**{speaker}**
+*{date}*
 """
+            else:
+                slide_md = f"""
+##### Slide {slide_number}, {slide['title']}
+{content}
+, {title} {speaker}, {date}
+"""
+            markdown_slides.append(slide_md)
+        logger.info(f"Generated Markdown slides for: {title}")
+        return markdown_slides
     except Exception as e:
+        logger.error(f"Failed to generate Markdown slides: {str(e)}")
         logger.error(traceback.format_exc())
         return None
         """
         return
     tts = None
     try:
         device = "cuda" if torch.cuda.is_available() else "cpu"
                             )
                             task_result.messages.append(retry_message)
                             continue
                     for i, slide in enumerate(slides):
                         content_file = os.path.join(OUTPUT_DIR, f"slide_{i+1}_content.txt")
                         try:
                 if extracted_json:
                     scripts = extracted_json
                     logger.info("Script Agent generated scripts for %d slides", len(scripts))
                     for i, script in enumerate(scripts):
                         script_file = os.path.join(OUTPUT_DIR, f"slide_{i+1}_raw_script.txt")
                         try:
             """
             return
+        markdown_slides = generate_markdown_slides(slides, title)
+        if not markdown_slides:
+            logger.error("Failed to generate Markdown slides")
             yield f"""
             <div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; min-height: 700px; padding: 20px; text-align: center; border: 1px solid #ddd; border-radius: 8px;">
                 <h2 style="color: #d9534f;">Failed to generate slides</h2>
             """
             return
         for i, script in enumerate(scripts):
             cleaned_script = clean_script_text(script)
+            audio_file = os.path.join(OUTPUT_DIR, f"slide_{i+1}.mp3")
             script_file = os.path.join(OUTPUT_DIR, f"slide_{i+1}_script.txt")
             try:
                 with open(script_file, "w", encoding="utf-8") as f:
                     f.write(cleaned_script or "")
                         await asyncio.sleep(0.1)
                         break
+        # Collect .txt files for download
+        txt_files = [f for f in os.listdir(OUTPUT_DIR) if f.endswith('.txt')]
+        txt_files.sort()  # Sort for consistent display
+        txt_links = ""
+        for txt_file in txt_files:
+            file_path = os.path.join(OUTPUT_DIR, txt_file)
+            txt_links += f'<a href="file/{file_path}" download>{txt_file}</a>&nbsp;&nbsp;'
+        # Generate audio timeline
+        audio_timeline = ""
+        for i, audio_file in enumerate(audio_files):
+            if audio_file:
+                audio_timeline += f'<span id="audio-{i+1}">{os.path.basename(audio_file)}</span>&nbsp;&nbsp;'
+            else:
+                audio_timeline += f'<span id="audio-{i+1}">slide_{i+1}.mp3</span>&nbsp;&nbsp;'
+        slides_info = json.dumps({"slides": markdown_slides, "audioFiles": audio_files})
         html_output = f"""
         <div id="lecture-container" style="height: 700px; border: 1px solid #ddd; border-radius: 8px; display: flex; flex-direction: column; justify-content: space-between;">
+            <div id="slide-content" style="flex: 1; overflow: auto; padding: 20px; text-align: center;">
+                <!-- Slides will be rendered here -->
             </div>
             <div style="padding: 20px;">
+                <div style="text-align: center; margin-bottom: 10px;">
+                    {audio_timeline}
                 </div>
                 <div style="display: flex; justify-content: center; margin-bottom: 10px;">
                     <button onclick="prevSlide()" style="border-radius: 50%; width: 40px; height: 40px; margin: 0 5px; font-size: 1.2em; cursor: pointer;">⏮</button>
+                    <button onclick="playAll()" style="border-radius: 50%; width: 40px; height: 40px; margin: 0 5px; font-size: 1.2em; cursor: pointer;">⏯</button>
                     <button onclick="nextSlide()" style="border-radius: 50%; width: 40px; height: 40px; margin: 0 5px; font-size: 1.2em; cursor: pointer;">⏭</button>
+                    <button style="border-radius: 50%; width: 40px; height: 40px; margin: 0 5px; font-size: 1.2em; cursor: pointer;">☐</button>
                 </div>
+            </div>
+            <div style="padding: 10px; text-align: center;">
+                <h4>Download Generated Files:</h4>
+                {txt_links}
             </div>
         </div>
         <script>
             const lectureData = {slides_info};
             let currentSlide = 0;
             const totalSlides = lectureData.slides.length;
             let audioElements = [];
+            let isPlayingAll = false;
             for (let i = 0; i < totalSlides; i++) {{
                 if (lectureData.audioFiles && lectureData.audioFiles[i]) {{
                 }}
             }}
+            function renderSlide() {{
+                const slideContent = document.getElementById('slide-content');
+                slideContent.innerHTML = lectureData.slides[currentSlide];
+            }}
+            function updateSlide() {{
+                renderSlide();
+                audioElements.forEach(audio => {{
+                    if (audio) {{
+                        audio.pause();
+                        audio.currentTime = 0;
+                    }}
+                }});
             }}
             function prevSlide() {{
                 }}
             }}
+            function playAll() {{
+                if (isPlayingAll) {{
+                    audioElements.forEach(audio => {{
+                        if (audio) audio.pause();
+                    }});
+                    isPlayingAll = false;
+                    return;
                 }}
+                isPlayingAll = true;
+                currentSlide = 0;
+                updateSlide();
+                playCurrentSlide();
             }}
+            function playCurrentSlide() {{
+                if (!isPlayingAll || currentSlide >= totalSlides) {{
+                    isPlayingAll = false;
+                    return;
+                }}
+                const audio = audioElements[currentSlide];
                 if (audio) {{
+                    audio.play().then(() => {{
+                        audio.addEventListener('ended', () => {{
+                            currentSlide++;
+                            if (currentSlide < totalSlides) {{
+                                updateSlide();
+                                playCurrentSlide();
+                            }} else {{
+                                isPlayingAll = false;
+                            }}
+                        }}, {{ once: true }});
+                    }}).catch(e => {{
+                        console.error('Audio play failed:', e);
+                        currentSlide++;
+                        playCurrentSlide();
                     }});
+                }} else {{
+                    currentSlide++;
+                    playCurrentSlide();
                 }}
+            }}
             // Initialize first slide
+            renderSlide();
         </script>
         """
         logger.info("Lecture generation completed successfully")