Spaces:

Dusit-P
/

thai-sentiment-api

Sleeping

App Files Files Community

Dusit-P commited on Sep 9

Commit

3b6a7f7

verified ·

1 Parent(s): c968c6a

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -21

app.py CHANGED Viewed

@@ -246,6 +246,13 @@ def predict_many(text_block: str, model_choice: str):
         raise
 def predict_csv(file_obj, model_choice: str, review_col_override: str = "", shop_col_override: str = ""):
     try:
         if file_obj is None:
             return pd.DataFrame(), None, go.Figure(), go.Figure(), go.Figure(), pd.DataFrame(), "กรุณาอัปโหลดไฟล์ CSV"
@@ -260,40 +267,66 @@ def predict_csv(file_obj, model_choice: str, review_col_override: str = "", shop
         if rev_col not in df.columns:
             raise ValueError(f"ไม่พบคอลัมน์รีวิว '{rev_col}' ใน CSV (columns = {list(df.columns)})")
-        # === กรองแถวที่ใช้ได้จริง ===
         reviews_norm = df[rev_col].apply(_norm_text)
-        mask_use = reviews_norm.apply(_is_substantive_text)
-        skipped = int((~mask_use).sum())
-        used_df = df.loc[mask_use].copy()
-        if used_df.empty:
-            empty = pd.DataFrame(columns=["review","negative(%)","positive(%)","label"])
-            return empty, None, go.Figure(), go.Figure(), go.Figure(), pd.DataFrame(), "ไม่พบรีวิวที่เป็นข้อความ"
-        results = _predict_batch(used_df[rev_col].astype(str).tolist(), model_name)
-        out = pd.DataFrame(results, columns=["review","negative(%)","positive(%)","label"])
-        if shop_col and shop_col in used_df.columns:
-            out.insert(0, "shop", used_df[shop_col].astype(str).fillna(""))
-        # ไฟล์ผลลัพธ์สำหรับดาวน์โหลด
         tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".csv")
         out.to_csv(tmp.name, index=False, encoding="utf-8-sig")
-        # กราฟ/สรุปรวม
-        fig_bar, fig_pie, info_md = _make_figures(out)
-        # กราฟ/ตารางต่อร้าน (ถ้ามี shop)
-        fig_shop, tbl_shop = _shop_summary(out)
         # แนบข้อความบอกคอลัมน์ที่ใช้ + จำนวนแถวที่ถูกข้าม
         info_md = (
             f"{info_md}  \n"
             f"ใช้คอลัมน์รีวิว: {rev_col}"
-            + (f" | คอลัมน์ร้าน: {shop_col}" if ("shop" in out.columns) else " | ไม่มีคอลัมน์ร้าน")
             + f"  \n- Skipped (empty/non-text): {skipped}"
         )
         return out, tmp.name, fig_bar, fig_pie, fig_shop, tbl_shop, info_md
     except Exception as e:
         print("ERROR in predict_csv:", repr(e))
         traceback.print_exc()

         raise
 def predict_csv(file_obj, model_choice: str, review_col_override: str = "", shop_col_override: str = ""):
+    """
+    พฤติกรรม:
+    - ไม่ตัดแถวทิ้ง: แถว invalid ยังอยู่ เรียงตามไฟล์เดิม
+    - review ของแถว invalid = NA, ไม่คำนวณผลลัพธ์
+    - shop คงค่าจากไฟล์เดิม ไม่แปลงเป็นสตริง
+    - กราฟ/สรุป คำนวณจากเฉพาะแถว valid
+    """
     try:
         if file_obj is None:
             return pd.DataFrame(), None, go.Figure(), go.Figure(), go.Figure(), pd.DataFrame(), "กรุณาอัปโหลดไฟล์ CSV"
         if rev_col not in df.columns:
             raise ValueError(f"ไม่พบคอลัมน์รีวิว '{rev_col}' ใน CSV (columns = {list(df.columns)})")
+        # === เตรียมรีวิวและมาสก์แถวที่ 'มีเนื้อหา' เท่านั้น ===
         reviews_norm = df[rev_col].apply(_norm_text)
+        mask_valid = reviews_norm.apply(_is_substantive_text)
+        idx_valid = df.index[mask_valid].tolist()
+        skipped = int((~mask_valid).sum())
+        # === พยากรณ์เฉพาะแถวที่ valid ===
+        results = []
+        if len(idx_valid) > 0:
+            texts_valid = reviews_norm.loc[idx_valid].tolist()
+            results = _predict_batch(texts_valid, model_name)  # list[dict] ตามลำดับ idx_valid
+        # === สร้าง DataFrame ผลลัพธ์ "ครบทุกแถว" ตามลำดับเดิม ===
+        out = pd.DataFrame(index=df.index, columns=["review","negative(%)","positive(%)","label"])
+        # review: valid → normalized text, invalid → NA
+        out.loc[idx_valid, "review"] = reviews_norm.loc[idx_valid].values
+        out.loc[~mask_valid, "review"] = pd.NA
+        # เติมผลพยากรณ์กลับตาม index เดิมสำหรับแถว valid
+        for i, idx in enumerate(idx_valid):
+            p = results[i]
+            out.at[idx, "negative(%)"] = p["negative(%)"]
+            out.at[idx, "positive(%)"] = p["positive(%)"]
+            out.at[idx, "label"]       = p["label"]
+        # แทรกคอลัมน์ shop ด้านหน้า (คงค่าตามต้นฉบับโดยไม่ .astype(str))
+        if shop_col and shop_col in df.columns:
+            out.insert(0, "shop", df[shop_col])
+        else:
+            out.insert(0, "shop", pd.Series([pd.NA]*len(out), index=out.index))
+        # === เตรียมข้อมูล "เฉพาะแถวที่ valid" ไว้ทำกราฟ/สรุป ===
+        out_valid = out.loc[idx_valid].copy()
+        # ไฟล์ผลลัพธ์สำหรับดาวน์โหลด → ครบทุกแถว
         tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".csv")
         out.to_csv(tmp.name, index=False, encoding="utf-8-sig")
+        if out_valid.empty:
+            empty_fig = go.Figure()
+            info_md = "ไม่พบรีวิวที่เป็นข้อความ\n- Skipped (empty/non-text): {}".format(skipped)
+            empty_tbl = pd.DataFrame(columns=["shop","total","positive","negative","positive_rate(%)","negative_rate(%)"])
+            return out, tmp.name, empty_fig, empty_fig, empty_fig, empty_tbl, info_md
+        # กราฟ/สรุปรวม (จากแถวที่ valid เท่านั้น)
+        fig_bar, fig_pie, info_md = _make_figures(out_valid)
+        # กราฟ/ตารางต่อร้าน (ใช้เฉพาะ valid)
+        fig_shop, tbl_shop = _shop_summary(out_valid)
         # แนบข้อความบอกคอลัมน์ที่ใช้ + จำนวนแถวที่ถูกข้าม
         info_md = (
             f"{info_md}  \n"
             f"ใช้คอลัมน์รีวิว: {rev_col}"
+            + (f" | คอลัมน์ร้าน: {shop_col}" if shop_col and (shop_col in df.columns) else " | ไม่มีคอลัมน์ร้าน")
             + f"  \n- Skipped (empty/non-text): {skipped}"
         )
         return out, tmp.name, fig_bar, fig_pie, fig_shop, tbl_shop, info_md
     except Exception as e:
         print("ERROR in predict_csv:", repr(e))
         traceback.print_exc()