Spaces:

Jofthomas
/

linkedin_mcp

Sleeping

App Files Files Community

Jofthomas commited on Sep 11

Commit

0d299fc

1 Parent(s): 4969b87

change

Browse files

Files changed (1) hide show

app.py +48 -1

app.py CHANGED Viewed

@@ -11,6 +11,16 @@ import httpx
 from pydantic import BaseModel, Field, HttpUrl
 from fastmcp import FastMCP
 mcp = FastMCP(
@@ -70,6 +80,7 @@ def _parse_jobs_from_html(html_text: str) -> list[JobPosting]:
     # Prefer list items with data-occludable-job-id when available
     cards = tree.css("li[data-occludable-job-id], .base-search-card, .job-search-card")
     for card in cards:
         job_id = card.attributes.get("data-occludable-job-id")
@@ -148,6 +159,7 @@ def _parse_jobs_from_html(html_text: str) -> list[JobPosting]:
     if not jobs:
         anchors = tree.css("a[href*='/jobs/view/']")
         seen_ids: set[str] = set()
         for a in anchors:
             href = a.attributes.get("href") or ""
             if not href:
@@ -176,6 +188,7 @@ def _parse_jobs_from_html(html_text: str) -> list[JobPosting]:
             except Exception:
                 continue
     return jobs
@@ -271,18 +284,26 @@ def _search_page(
     params: dict,
 ) -> list[JobPosting]:
     base_url = "https://www.linkedin.com/jobs/search/?" + urlencode(params)
     resp = client.get(base_url, follow_redirects=True, timeout=20.0)
     resp.raise_for_status()
     jobs = _parse_jobs_from_html(resp.text)
     # If nothing parsed, try the fragment endpoint as a fallback regardless of page
     if len(jobs) == 0:
         fragment_url = (
             "https://www.linkedin.com/jobs-guest/jobs/api/seeMoreJobPostings/search?" + urlencode(params)
         )
         frag_resp = client.get(fragment_url, follow_redirects=True, timeout=20.0)
         if frag_resp.status_code == 200:
             jobs = _parse_jobs_from_html(frag_resp.text)
     return jobs
@@ -326,6 +347,20 @@ def search_linkedin_jobs(
     with httpx.Client(headers=headers) as client:
         start = 0
         for _page in range(pages):
             active_params = _build_search_params(
                 keywords=query,
@@ -340,27 +375,39 @@ def search_linkedin_jobs(
             )
             try:
                 jobs = _search_page(client, params=active_params)
             except httpx.HTTPStatusError as e:
                 status = e.response.status_code
                 if status in (401, 403, 429):
                     break
                 raise
-            except Exception:
                 jobs = []
             if not jobs:
                 break
             all_jobs.extend(jobs)
             if len(all_jobs) >= max_items:
                 break
             start += 25
             time.sleep(0.8)
     return all_jobs[:max_items]
 if __name__ == "__main__":
     mcp.run(transport="http")

 from pydantic import BaseModel, Field, HttpUrl
 from fastmcp import FastMCP
+import logging
+# Logging configuration
+LOG_LEVEL = os.getenv("LOG_LEVEL", "INFO").upper()
+_numeric_level = getattr(logging, LOG_LEVEL, logging.INFO)
+logging.basicConfig(
+    level=_numeric_level,
+    format="%(asctime)s %(levelname)s %(name)s - %(message)s",
+)
+logger = logging.getLogger("linkedin_mcp")
 mcp = FastMCP(
     # Prefer list items with data-occludable-job-id when available
     cards = tree.css("li[data-occludable-job-id], .base-search-card, .job-search-card")
+    logger.debug("HTML parse: found %d potential job cards", len(cards))
     for card in cards:
         job_id = card.attributes.get("data-occludable-job-id")
     if not jobs:
         anchors = tree.css("a[href*='/jobs/view/']")
         seen_ids: set[str] = set()
+        logger.debug("HTML parse fallback: scanning %d anchors with /jobs/view/", len(anchors))
         for a in anchors:
             href = a.attributes.get("href") or ""
             if not href:
             except Exception:
                 continue
+    logger.debug("HTML parse complete: %d jobs parsed", len(jobs))
     return jobs
     params: dict,
 ) -> list[JobPosting]:
     base_url = "https://www.linkedin.com/jobs/search/?" + urlencode(params)
+    logger.debug("GET main page: %s", base_url)
     resp = client.get(base_url, follow_redirects=True, timeout=20.0)
     resp.raise_for_status()
+    logger.debug("Main page status=%d bytes=%d", resp.status_code, len(resp.content))
     jobs = _parse_jobs_from_html(resp.text)
+    logger.debug("Parsed %d jobs from main page", len(jobs))
     # If nothing parsed, try the fragment endpoint as a fallback regardless of page
     if len(jobs) == 0:
         fragment_url = (
             "https://www.linkedin.com/jobs-guest/jobs/api/seeMoreJobPostings/search?" + urlencode(params)
         )
+        logger.debug("GET fragment fallback: %s", fragment_url)
         frag_resp = client.get(fragment_url, follow_redirects=True, timeout=20.0)
         if frag_resp.status_code == 200:
+            logger.debug("Fragment status=%d bytes=%d", frag_resp.status_code, len(frag_resp.content))
             jobs = _parse_jobs_from_html(frag_resp.text)
+            logger.debug("Parsed %d jobs from fragment", len(jobs))
+        else:
+            logger.debug("Fragment request returned status=%d", frag_resp.status_code)
     return jobs
     with httpx.Client(headers=headers) as client:
         start = 0
+        logger.info(
+            "Search start: query=%r location=%r limit=%d pages=%d sort_by=%s date_posted=%s exp=%s job_types=%s remote=%s geo_id=%s cookie_present=%s",
+            query,
+            location,
+            limit,
+            pages,
+            sort_by,
+            date_posted,
+            experience_levels,
+            job_types,
+            remote,
+            geo_id,
+            bool(cookie),
+        )
         for _page in range(pages):
             active_params = _build_search_params(
                 keywords=query,
             )
             try:
+                logger.debug("Page fetch: start=%d params=%s", start, active_params)
                 jobs = _search_page(client, params=active_params)
             except httpx.HTTPStatusError as e:
                 status = e.response.status_code
+                try:
+                    failed_url = str(e.request.url)
+                except Exception:
+                    failed_url = "<unknown>"
+                logger.warning("HTTP error status=%d url=%s", status, failed_url)
                 if status in (401, 403, 429):
+                    logger.info("Stopping due to auth/rate limit status=%d", status)
                     break
                 raise
+            except Exception as ex:
+                logger.exception("Unexpected error during page fetch: %s", ex)
                 jobs = []
             if not jobs:
+                logger.info("No jobs parsed for start=%d; stopping further requests", start)
                 break
             all_jobs.extend(jobs)
             if len(all_jobs) >= max_items:
+                logger.info("Reached max_items=%d; stopping pagination", max_items)
                 break
             start += 25
             time.sleep(0.8)
+    logger.info("Search complete: returning %d jobs", len(all_jobs[:max_items]))
     return all_jobs[:max_items]
 if __name__ == "__main__":
+    logger.info("Starting linkedin-jobs MCP server")
     mcp.run(transport="http")