feat: add video title fetching to transcript generation

jkawamoto · jkawamoto · commit 7006daafda06 · 2025-03-17T01:12:11.000-06:00
Integrate video title retrieval using Beautiful Soup and Requests for enhanced transcript outputs. The title is now prepended to the generated transcript, improving context. Adjusted tests accordingly to validate the updated functionality.
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
@@ -26,7 +26,7 @@ repos:
     hooks:
       - id: mypy
         args: []
-        additional_dependencies: ["mcp>=1.3,<1.4", "youtube-transcript-api>=1.0.1", "pytest>=8.3.5", "pytest-mock>=3.14"]
+        additional_dependencies: ["mcp>=1.3,<1.4", "youtube-transcript-api>=1.0.1", "beautifulsoup4>=4.13.3", "pytest>=8.3.5", "pytest-mock>=3.14", "types-requests>=2.32.0.20250306"]
   - repo: local
     hooks:
       - id: pytest
diff --git a/pyproject.toml b/pyproject.toml
@@ -22,9 +22,11 @@ classifiers = [
     "Programming Language :: Python :: 3.13",
 ]
 dependencies = [
+    "beautifulsoup4>=4.13.3",
     "click>=8.1.8",
     "mcp>=1.3,<1.4",
     "pydantic>=2.10.6",
+    "requests>=2.32.3",
     "youtube-transcript-api>=1.0.1",
 ]
 
@@ -37,6 +39,7 @@ dev = [
     "pre-commit-uv>=4.1.4",
     "pytest>=8.3.5",
     "pytest-mock>=3.14",
+    "types-requests>=2.32.0.20250306",
 ]
 
 [tool.ruff]
diff --git a/src/mcp_youtube_transcript/server.py b/src/mcp_youtube_transcript/server.py
@@ -8,6 +8,8 @@
 
 from urllib.parse import urlparse, parse_qs
 
+import requests
+from bs4 import BeautifulSoup
 from mcp.server import FastMCP
 from pydantic import Field
 from youtube_transcript_api import YouTubeTranscriptApi
@@ -52,8 +54,16 @@ def get_transcript(
             languages = ["en"]
         else:
             languages = [lang, "en"]
+
+        page = requests.get(
+            f"https://www.youtube.com/watch?v={video_id}", headers={"Accept-Language": ",".join(languages)}
+        )
+        page.raise_for_status()
+        soup = BeautifulSoup(page.text, "html.parser")
+        title = soup.title.string if soup.title else ""
+
         transcripts = ytt_api.fetch(video_id, languages=languages)
 
-        return "\n".join((item.text for item in transcripts))
+        return f"# {title}\n" + "\n".join((item.text for item in transcripts))
 
     return mcp
diff --git a/tests/test_mcp.py b/tests/test_mcp.py
@@ -9,13 +9,21 @@
 from typing import AsyncGenerator
 
 import pytest
+import requests
+from bs4 import BeautifulSoup
 from mcp import StdioServerParameters, stdio_client, ClientSession
 from mcp.types import TextContent
 from youtube_transcript_api import YouTubeTranscriptApi
 
 params = StdioServerParameters(command="uv", args=["run", "mcp-youtube-transcript"])
 
 
+def fetch_title(url: str, lang: str) -> str:
+    res = requests.get(f"https://www.youtube.com/watch?v={url}", headers={"Accept-Language": lang})
+    soup = BeautifulSoup(res.text, "html.parser")
+    return soup.title.string or "" if soup.title else ""
+
+
 @pytest.fixture(scope="module")
 def anyio_backend() -> str:
     return "asyncio"
@@ -40,7 +48,8 @@ async def test_list_tools(mcp_client_session: ClientSession) -> None:
 async def test_get_transcript(mcp_client_session: ClientSession) -> None:
     video_id = "LPZh9BOjkQs"
 
-    expect = "\n".join((item.text for item in YouTubeTranscriptApi().fetch(video_id)))
+    title = fetch_title(video_id, "en")
+    expect = f"# {title}\n" + "\n".join((item.text for item in YouTubeTranscriptApi().fetch(video_id)))
 
     res = await mcp_client_session.call_tool(
         "get_transcript",
@@ -56,7 +65,8 @@ async def test_get_transcript(mcp_client_session: ClientSession) -> None:
 async def test_get_transcript_with_language(mcp_client_session: ClientSession) -> None:
     video_id = "WjAXZkQSE2U"
 
-    expect = "\n".join((item.text for item in YouTubeTranscriptApi().fetch(video_id, ["ja"])))
+    title = fetch_title(video_id, "ja")
+    expect = f"# {title}\n" + "\n".join((item.text for item in YouTubeTranscriptApi().fetch(video_id, ["ja"])))
 
     res = await mcp_client_session.call_tool(
         "get_transcript",
@@ -74,7 +84,8 @@ async def test_get_transcript_fallback_language(
 ) -> None:
     video_id = "LPZh9BOjkQs"
 
-    expect = "\n".join((item.text for item in YouTubeTranscriptApi().fetch(video_id)))
+    title = fetch_title(video_id, "en")
+    expect = f"# {title}\n" + "\n".join((item.text for item in YouTubeTranscriptApi().fetch(video_id)))
 
     res = await mcp_client_session.call_tool(
         "get_transcript",
@@ -108,7 +119,8 @@ async def test_get_transcript_not_found(mcp_client_session: ClientSession) -> No
 async def test_get_transcript_with_short_url(mcp_client_session: ClientSession) -> None:
     video_id = "LPZh9BOjkQs"
 
-    expect = "\n".join((item.text for item in YouTubeTranscriptApi().fetch(video_id)))
+    title = fetch_title(video_id, "en")
+    expect = f"# {title}\n" + "\n".join((item.text for item in YouTubeTranscriptApi().fetch(video_id)))
 
     res = await mcp_client_session.call_tool(
         "get_transcript",
diff --git a/uv.lock b/uv.lock

Original file line number	Diff line number	Diff line change
`@@ -22,9 +22,11 @@ classifiers = [`
`22`	`22`	`"Programming Language :: Python :: 3.13",`
`23`	`23`	`]`
`24`	`24`	`dependencies = [`
	`25`	`+ "beautifulsoup4>=4.13.3",`
`25`	`26`	`"click>=8.1.8",`
`26`	`27`	`"mcp>=1.3,<1.4",`
`27`	`28`	`"pydantic>=2.10.6",`
	`29`	`+ "requests>=2.32.3",`
`28`	`30`	`"youtube-transcript-api>=1.0.1",`
`29`	`31`	`]`
`30`	`32`
`@@ -37,6 +39,7 @@ dev = [`
`37`	`39`	`"pre-commit-uv>=4.1.4",`
`38`	`40`	`"pytest>=8.3.5",`
`39`	`41`	`"pytest-mock>=3.14",`
	`42`	`+ "types-requests>=2.32.0.20250306",`
`40`	`43`	`]`
`41`	`44`
`42`	`45`	`[tool.ruff]`