Spaces:

Dyno1307
/

Translate

Configuration error

App Files Files Community

Dyno1307 commited on 17 days ago

Commit

b653f91

verified ·

1 Parent(s): b8763a8

Upload 48 files

Browse files

Files changed (48) hide show

.gitattributes +7 -34
.gitignore +2 -0
Dockerfile +20 -0
README.md +246 -10
api_log.txt +20 -0
app.py +213 -0
baseline_analysis.py +55 -0
baseline_translate.py +51 -0
data/processed/nepali.en +3 -0
data/processed/nepali.ne +3 -0
data/processed/sinhala.en +3 -0
data/processed/sinhala.si +0 -0
data/test_sets/test.en +3 -0
data/test_sets/test.ne +3 -0
data/test_sets/test.si +500 -0
debug_load.py +26 -0
fast_api.py +214 -0
frontend/WhatsApp Image 2025-10-07 at 12.52.12.jpeg +3 -0
frontend/backup/index.html +23 -0
frontend/backup/script.js +42 -0
frontend/backup/styles.css +54 -0
frontend/index.html +101 -0
frontend/public/android-chrome-192x192.png +3 -0
frontend/public/android-chrome-512x512.png +3 -0
frontend/public/apple-touch-icon.png +3 -0
frontend/public/favicon-16x16.png +3 -0
frontend/public/favicon-32x32.png +3 -0
frontend/public/favicon.ico +3 -0
frontend/public/site.webmanifest +1 -0
frontend/script.js +337 -0
frontend/site.webmanifest +1 -0
frontend/styles.css +512 -0
interactive_translate.py +74 -0
requirements.txt +92 -0
scripts/clean_text_data.py +62 -0
scripts/create_sinhala_test_set.py +37 -0
scripts/create_test_set.py +44 -0
scripts/download_model.py +36 -0
scripts/fetch_parallel_data.py +81 -0
scripts/scrape_bbc_nepali.py +80 -0
src/__init__.py +0 -0
src/__pycache__/evaluate.cpython-313.pyc +0 -0
src/evaluate_sinhala.py +58 -0
src/evaluation.py +64 -0
src/train.py +109 -0
src/train_nepali.py +95 -0
src/translate.py +52 -0
test_analysis.py +84 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,8 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+data/processed/nepali.en filter=lfs diff=lfs merge=lfs -text
+data/processed/nepali.ne filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
+*.png filter=lfs diff=lfs merge=lfs -text
+*.jpeg filter=lfs diff=lfs merge=lfs -text
+*.ico filter=lfs diff=lfs merge=lfs -text
+*.en filter=lfs diff=lfs merge=lfs -text
+*.ne filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ .venv/
2	+ models/

Dockerfile ADDED Viewed

	@@ -0,0 +1,20 @@

+# Use an official Python runtime as a parent image
+FROM python:3.10-slim
+# Set the working directory in the container
+WORKDIR /code
+# Copy the requirements file into the container at /code
+COPY ./requirements.txt /code/requirements.txt
+# Install any needed packages specified in requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+# Copy the rest of the application's code
+COPY . /code/
+# Expose the port the app runs on
+EXPOSE 7860
+# Command to run the application
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

README.md CHANGED Viewed

@@ -1,10 +1,246 @@
----
-title: Translate
-emoji: 😻
-colorFrom: red
-colorTo: red
-sdk: docker
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# Saksi Translation: Nepali-English Machine Translation
+This project provides a machine translation solution to translate text from Nepali and Sinhala to English. It leverages the power of the NLLB (No Language Left Behind) model from Meta AI, which is fine-tuned on a custom dataset for improved performance. The project includes a complete workflow from data acquisition to model deployment, featuring a REST API for easy integration.
+## Table of Contents
+- [Features](#features)
+- [Workflow](#workflow)
+- [Tech Stack](#tech-stack)
+- [Model Details](#model-details)
+- [API Endpoints](#api-endpoints)
+- [Getting Started](#getting-started)
+- [Usage](#usage)
+- [Project Structure](#project-structure)
+- [Future Improvements](#future-improvements)
+## Features
+-   **High-Quality Translation:** Utilizes a fine-tuned NLLB model for accurate translations.
+-   **Support for Multiple Languages:** Currently supports Nepali and Sinhala to English translation.
+-   **REST API:** Exposes the translation model through a high-performance FastAPI application.
+-   **Interactive Frontend:** A simple and intuitive web interface for easy translation.
+-   **Batch Translation:** Supports translating multiple texts in a single request.
+-   **PDF Translation:** Supports translating text directly from PDF files.
+-   **Scalable and Reproducible:** Built with a modular structure and uses MLflow for experiment tracking.
+## Workflow
+The project follows a standard machine learning workflow for building and deploying a translation model:
+1.  **Data Acquisition:** The process begins with collecting parallel text data (Nepali/Sinhala and English). The `scripts/fetch_parallel_data.py` script is used to download data from various online sources. The quality and quantity of this data are crucial for the model's performance.
+2.  **Data Cleaning and Preprocessing:** Raw data from the web is often noisy and requires cleaning. The `scripts/clean_text_data.py` script performs several preprocessing steps:
+    *   **HTML Tag Removal:** Strips out HTML tags and other web artifacts.
+    *   **Unicode Normalization:** Normalizes Unicode characters to ensure consistency.
+    *   **Sentence Filtering:** Removes sentences that are too long or too short, which can negatively impact training.
+    *   **Corpus Alignment:** Ensures a one-to-one correspondence between source and target sentences.
+3.  **Model Finetuning:** The core of the project is fine-tuning a pre-trained NLLB model on our custom parallel dataset. The `src/train.py` script, which leverages the Hugging Face `Trainer` API, handles this process. This script manages the entire training loop, including:
+    *   Loading the pre-trained NLLB model and tokenizer.
+    *   Creating a PyTorch Dataset from the preprocessed data.
+    *   Configuring training arguments like learning rate, batch size, and number of epochs.
+    *   Executing the training loop and saving the fine-tuned model checkpoints.
+4.  **Model Evaluation:** After training, the model's performance is evaluated using the `src/evaluation.py` script. This script calculates the **BLEU (Bilingual Evaluation Understudy)** score, a widely accepted metric for machine translation quality. It works by comparing the model's translations of a test set with a set of high-quality reference translations.
+5.  **Inference and Deployment:** Once the model is trained and evaluated, it's ready for use.
+    *   `interactive_translate.py`: A command-line script for quick, interactive translation tests.
+    *   `fast_api.py`: A production-ready REST API built with FastAPI that serves the translation model. This allows other applications to easily consume the translation service.
+## Tech Stack
+The technologies used in this project were chosen to create a robust, efficient, and maintainable machine translation pipeline:
+-   **Python:** The primary language for the project, offering a rich ecosystem of libraries and frameworks for machine learning.
+-   **PyTorch:** A flexible and powerful deep learning framework that provides fine-grained control over the model training process.
+-   **Hugging Face Transformers:** The backbone of the project, providing easy access to pre-trained models like NLLB and a standardized interface for training and inference.
+-   **Hugging Face Datasets:** Simplifies the process of loading and preprocessing large datasets, with efficient data loading and manipulation capabilities.
+-   **FastAPI:** A modern, high-performance web framework for building APIs with Python. It's used to serve the translation model as a REST API.
+-   **Uvicorn:** A lightning-fast ASGI server, used to run the FastAPI application.
+-   **MLflow:** Used for experiment tracking to ensure reproducibility. It logs training parameters, metrics, and model artifacts, which is crucial for managing machine learning projects.
+## Model Details
+-   **Base Model:** The project uses the `facebook/nllb-200-distilled-600M` model, a distilled version of the NLLB-200 model. This model is designed to be efficient while still providing high-quality translations for a large number of languages.
+-   **Fine-tuning:** The base model is fine-tuned on a custom dataset of Nepali-English and Sinhala-English parallel text to improve its performance on these specific language pairs.
+-   **Tokenizer:** The `NllbTokenizer` is used for tokenizing the text. It's a sentence-piece based tokenizer that is specifically designed for the NLLB model.
+## API Endpoints
+The FastAPI application provides the following endpoints:
+-   **`GET /`**: Returns the frontend HTML page.
+-   **`GET /languages`**: Returns a list of supported languages.
+-   **`POST /translate`**: Translates a single text.
+    -   **Request Body:**
+        ```json
+        {
+          "text": "string",
+          "source_language": "string"
+        }
+        ```
+    -   **Response Body:**
+        ```json
+        {
+          "original_text": "string",
+          "translated_text": "string",
+          "source_language": "string"
+        }
+        ```
+-   **`POST /batch-translate`**: Translates a batch of texts.
+    -   **Request Body:**
+        ```json
+        {
+          "texts": [
+            "string"
+          ],
+          "source_language": "string"
+        }
+        ```
+    -   **Response Body:**
+        ```json
+        {
+          "original_texts": [
+            "string"
+          ],
+          "translated_texts": [
+            "string"
+          ],
+          "source_language": "string"
+        }
+        ```
+-   **`POST /translate-pdf`**: Translates a PDF file.
+    -   **Request:** `source_language: str`, `file: UploadFile`
+    -   **Response Body:**
+        ```json
+        {
+          "filename": "string",
+          "translated_text": "string",
+          "source_language": "string"
+        }
+        ```
+## Getting Started
+### Prerequisites
+-   **Python 3.10 or higher:** Ensure you have a recent version of Python installed.
+-   **Git and Git LFS:** Git is required to clone the repository, and Git LFS is required to handle large model files.
+-   **(Optional) NVIDIA GPU with CUDA:** A GPU is highly recommended for training the model.
+### Installation
+1.  **Clone the repository:**
+    ```bash
+    git clone <repository-url>
+    cd saksi_translation
+    ```
+2.  **Create and activate a virtual environment:**
+    ```bash
+    python -m venv .venv
+    # On Windows
+    .venv\Scripts\activate
+    # On macOS/Linux
+    source .venv/bin/activate
+    ```
+3.  **Install dependencies:**
+    ```bash
+    pip install -r requirements.txt
+    ```
+## Usage
+### Data Preparation
+-   **Fetch Parallel Data:**
+    ```bash
+    python scripts/fetch_parallel_data.py --output_dir data/raw
+    ```
+-   **Clean Text Data:**
+    ```bash
+    python scripts/clean_text_data.py --input_dir data/raw --output_dir data/processed
+    ```
+### Training
+-   **Start Training:**
+    ```bash
+    python src/train.py \
+        --model_name "facebook/nllb-200-distilled-600M" \
+        --dataset_path "data/processed" \
+        --output_dir "models/nllb-finetuned-nepali-en" \
+        --learning_rate 2e-5 \
+        --per_device_train_batch_size 8 \
+        --num_train_epochs 3
+    ```
+### Evaluation
+-   **Evaluate the Model:**
+    ```bash
+    python src/evaluate.py \
+        --model_path "models/nllb-finetuned-nepali-en" \
+        --test_data_path "data/test_sets/test.en" \
+        --reference_data_path "data/test_sets/test.ne"
+    ```
+### Interactive Translation
+-   **Run the interactive script:**
+    ```bash
+    python interactive_translate.py
+    ```
+### API
+-   **Run the API:**
+    ```bash
+    uvicorn fast_api:app --reload
+    ```
+    Open your browser and navigate to `http://127.0.0.1:8000` to use the web interface.
+## Project Structure
+```
+saksi_translation/
+├── .gitignore
+├── fast_api.py             # FastAPI application
+├── interactive_translate.py  # Interactive translation script
+├── README.md               # Project documentation
+├── requirements.txt        # Python dependencies
+├── test_translation.py     # Script for testing the translation model
+├── frontend/
+│   ├── index.html          # Frontend HTML
+│   ├── script.js           # Frontend JavaScript
+│   └── styles.css          # Frontend CSS
+├── data/
+│   ├── processed/          # Processed data for training
+│   ├── raw/                # Raw data downloaded from the web
+│   └── test_sets/          # Test sets for evaluation
+├── mlruns/                 # MLflow experiment tracking data
+├── models/
+│   └── nllb-finetuned-nepali-en/ # Fine-tuned model
+├── notebooks/              # Jupyter notebooks for experimentation
+├── scripts/
+│   ├── clean_text_data.py
+│   ├── create_test_set.py
+│   ├── download_model.py
+│   ├── fetch_parallel_data.py
+│   └── scrape_bbc_nepali.py
+└── src/
+    ├── __init__.py
+    ├── evaluation.py       # Script for evaluating the model
+    ├── train.py            # Script for training the model
+    └── translate.py        # Script for translating text
+```
+## Future Improvements
+-   **Support for more languages:** The project can be extended to support more languages by adding more parallel data and fine-tuning the model on it.
+-   **Improved Model:** The model can be improved by using a larger version of the NLLB model or by fine-tuning it on a larger and cleaner dataset.
+-   **Advanced Frontend:** The frontend can be improved by adding features like translation history, user accounts, and more advanced styling.
+-   **Containerization:** The application can be containerized using Docker for easier deployment and scaling.

api_log.txt ADDED Viewed

	@@ -0,0 +1,20 @@

+Loading models on CPU...
+Traceback (most recent call last):
+  File "D:\SIH\saksi_translation\api.py", line 14, in <module>
+    "nepali": AutoModelForSeq2SeqLM.from_pretrained("models/nllb-finetuned-nepali-en").to(DEVICE),
+              ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "C:\Users\dynos\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.13_qbz5n2kfra8p0\LocalCache\local-packages\Python313\site-packages\transformers\models\auto\auto_factory.py", line 549, in from_pretrained
+    config, kwargs = AutoConfig.from_pretrained(
+                     ~~~~~~~~~~~~~~~~~~~~~~~~~~^
+        pretrained_model_name_or_path,
+        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+    ...<4 lines>...
+        **kwargs,
+        ^^^^^^^^^
+    )
+    ^
+  File "C:\Users\dynos\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.13_qbz5n2kfra8p0\LocalCache\local-packages\Python313\site-packages\transformers\models\auto\configuration_auto.py", line 1329, in from_pretrained
+    raise ValueError(
+    ...<3 lines>...
+    )
+ValueError: Unrecognized model in models/nllb-finetuned-nepali-en. Should have a `model_type` key in its config.json, or contain one of the following strings in its name: aimv2, aimv2_vision_model, albert, align, altclip, apertus, arcee, aria, aria_text, audio-spectrogram-transformer, autoformer, aya_vision, bamba, bark, bart, beit, bert, bert-generation, big_bird, bigbird_pegasus, biogpt, bit, bitnet, blenderbot, blenderbot-small, blip, blip-2, blip_2_qformer, bloom, bridgetower, bros, camembert, canine, chameleon, chinese_clip, chinese_clip_vision_model, clap, clip, clip_text_model, clip_vision_model, clipseg, clvp, code_llama, codegen, cohere, cohere2, cohere2_vision, colpali, colqwen2, conditional_detr, convbert, convnext, convnextv2, cpmant, csm, ctrl, cvt, d_fine, dab-detr, dac, data2vec-audio, data2vec-text, data2vec-vision, dbrx, deberta, deberta-v2, decision_transformer, deepseek_v2, deepseek_v3, deepseek_vl, deepseek_vl_hybrid, deformable_detr, deit, depth_anything, depth_pro, deta, detr, dia, diffllama, dinat, dinov2, dinov2_with_registers, dinov3_convnext, dinov3_vit, distilbert, doge, donut-swin, dots1, dpr, dpt, efficientformer, efficientloftr, efficientnet, electra, emu3, encodec, encoder-decoder, eomt, ernie, ernie4_5, ernie4_5_moe, ernie_m, esm, evolla, exaone4, falcon, falcon_h1, falcon_mamba, fastspeech2_conformer, fastspeech2_conformer_with_hifigan, flaubert, flava, florence2, fnet, focalnet, fsmt, funnel, fuyu, gemma, gemma2, gemma3, gemma3_text, gemma3n, gemma3n_audio, gemma3n_text, gemma3n_vision, git, glm, glm4, glm4_moe, glm4v, glm4v_moe, glm4v_moe_text, glm4v_text, glpn, got_ocr2, gpt-sw3, gpt2, gpt_bigcode, gpt_neo, gpt_neox, gpt_neox_japanese, gpt_oss, gptj, gptsan-japanese, granite, granite_speech, granitemoe, granitemoehybrid, granitemoeshared, granitevision, graphormer, grounding-dino, groupvit, helium, hgnet_v2, hiera, hubert, hunyuan_v1_dense, hunyuan_v1_moe, ibert, idefics, idefics2, idefics3, idefics3_vision, ijepa, imagegpt, informer, instructblip, instructblipvideo, internvl, internvl_vision, jamba, janus, jetmoe, jukebox, kosmos-2, kosmos-2.5, kyutai_speech_to_text, layoutlm, layoutlmv2, layoutlmv3, led, levit, lfm2, lightglue, lilt, llama, llama4, llama4_text, llava, llava_next, llava_next_video, llava_onevision, longformer, longt5, luke, lxmert, m2m_100, mamba, mamba2, marian, markuplm, mask2former, maskformer, maskformer-swin, mbart, mctct, mega, megatron-bert, metaclip_2, mgp-str, mimi, minimax, mistral, mistral3, mixtral, mlcd, mllama, mm-grounding-dino, mobilebert, mobilenet_v1, mobilenet_v2, mobilevit, mobilevitv2, modernbert, modernbert-decoder, moonshine, moshi, mpnet, mpt, mra, mt5, musicgen, musicgen_melody, mvp, nat, nemotron, nezha, nllb-moe, nougat, nystromformer, olmo, olmo2, olmoe, omdet-turbo, oneformer, open-llama, openai-gpt, opt, ovis2, owlv2, owlvit, paligemma, patchtsmixer, patchtst, pegasus, pegasus_x, perceiver, perception_encoder, perception_lm, persimmon, phi, phi3, phi4_multimodal, phimoe, pix2struct, pixtral, plbart, poolformer, pop2piano, prompt_depth_anything, prophetnet, pvt, pvt_v2, qdqbert, qwen2, qwen2_5_omni, qwen2_5_vl, qwen2_5_vl_text, qwen2_audio, qwen2_audio_encoder, qwen2_moe, qwen2_vl, qwen2_vl_text, qwen3, qwen3_moe, rag, realm, recurrent_gemma, reformer, regnet, rembert, resnet, retribert, roberta, roberta-prelayernorm, roc_bert, roformer, rt_detr, rt_detr_resnet, rt_detr_v2, rwkv, sam, sam2, sam2_hiera_det_model, sam2_video, sam2_vision_model, sam_hq, sam_hq_vision_model, sam_vision_model, seamless_m4t, seamless_m4t_v2, seed_oss, segformer, seggpt, sew, sew-d, shieldgemma2, siglip, siglip2, siglip_vision_model, smollm3, smolvlm, smolvlm_vision, speech-encoder-decoder, speech_to_text, speech_to_text_2, speecht5, splinter, squeezebert, stablelm, starcoder2, superglue, superpoint, swiftformer, swin, swin2sr, swinv2, switch_transformers, t5, t5gemma, table-transformer, tapas, textnet, time_series_transformer, timesfm, timesformer, timm_backbone, timm_wrapper, trajectory_transformer, transfo-xl, trocr, tvlt, tvp, udop, umt5, unispeech, unispeech-sat, univnet, upernet, van, video_llava, videomae, vilt, vipllava, vision-encoder-decoder, vision-text-dual-encoder, visual_bert, vit, vit_hybrid, vit_mae, vit_msn, vitdet, vitmatte, vitpose, vitpose_backbone, vits, vivit, vjepa2, voxtral, voxtral_encoder, wav2vec2, wav2vec2-bert, wav2vec2-conformer, wavlm, whisper, xclip, xcodec, xglm, xlm, xlm-prophetnet, xlm-roberta, xlm-roberta-xl, xlnet, xlstm, xmod, yolos, yoso, zamba, zamba2, zoedepth

app.py ADDED Viewed

	@@ -0,0 +1,213 @@

+"""
+A FastAPI application for serving the translation model, inspired by interactive_translate.py.
+"""
+import torch
+from transformers import M2M100ForConditionalGeneration, NllbTokenizer
+from fastapi import FastAPI, HTTPException, UploadFile, File
+from fastapi.staticfiles import StaticFiles
+from fastapi.responses import FileResponse
+from pydantic import BaseModel
+import logging
+from typing import List
+import fitz  # PyMuPDF
+import shutil
+import os
+# --- 1. App Configuration ---
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+app = FastAPI(
+    title="Saksi Translation API",
+    description="A simple API for translating text and PDFs to English.",
+    version="2.0",
+)
+app.mount("/frontend", StaticFiles(directory="frontend"), name="frontend")
+# --- 2. Global Variables ---
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+SUPPORTED_LANGUAGES = {
+    "nepali": "nep_Npan",
+    "sinhala": "sin_Sinh",
+}
+MODEL_PATH = "facebook/nllb-200-distilled-600M"
+model = None
+tokenizer = None
+# --- 3. Pydantic Models ---
+class TranslationRequest(BaseModel):
+    text: str
+    source_language: str
+class TranslationResponse(BaseModel):
+    original_text: str
+    translated_text: str
+    source_language: str
+class BatchTranslationRequest(BaseModel):
+    texts: List[str]
+    source_language: str
+class BatchTranslationResponse(BaseModel):
+    original_texts: List[str]
+    translated_texts: List[str]
+    source_language: str
+class PdfTranslationResponse(BaseModel):
+    filename: str
+    translated_text: str
+    source_language: str
+# --- 4. Helper Functions ---
+def load_model_and_tokenizer(model_path):
+    """Loads the model and tokenizer from the given path."""
+    global model, tokenizer
+    logger.info(f"Loading model on {DEVICE.upper()}...")
+    try:
+        model = M2M100ForConditionalGeneration.from_pretrained(model_path).to(DEVICE)
+        tokenizer = NllbTokenizer.from_pretrained(model_path)
+        logger.info("Model and tokenizer loaded successfully!")
+    except Exception as e:
+        logger.error(f"Error loading model: {e}")
+        # In a real app, you might want to exit or handle this more gracefully
+        raise
+def translate_text(text: str, src_lang: str) -> str:
+    """
+    Translates a single string of text to English.
+    """
+    if src_lang not in SUPPORTED_LANGUAGES:
+        raise ValueError(f"Language '{src_lang}' not supported.")
+    tokenizer.src_lang = SUPPORTED_LANGUAGES[src_lang]
+    inputs = tokenizer(text, return_tensors="pt").to(DEVICE)
+    generated_tokens = model.generate(
+        **inputs,
+        forced_bos_token_id=tokenizer.convert_tokens_to_ids("eng_Latn"),
+        max_length=128,
+    )
+    return tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
+def batch_translate_text(texts: List[str], src_lang: str) -> List[str]:
+    """
+    Translates a batch of texts to English.
+    """
+    if src_lang not in SUPPORTED_LANGUAGES:
+        raise ValueError(f"Language '{src_lang}' not supported.")
+    tokenizer.src_lang = SUPPORTED_LANGUAGES[src_lang]
+    # We use padding=True to handle batches of different lengths
+    inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True, max_length=512).to(DEVICE)
+    generated_tokens = model.generate(
+        **inputs,
+        forced_bos_token_id=tokenizer.convert_tokens_to_ids("eng_Latn"),
+        max_length=512, # Allow for longer generated sequences in batches
+    )
+    return tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
+# --- 5. API Events ---
+@app.on_event("startup")
+async def startup_event():
+    """Load the model at startup."""
+    load_model_and_tokenizer(MODEL_PATH)
+# --- 6. API Endpoints ---
+@app.get("/")
+async def root():
+    """Returns the frontend."""
+    return FileResponse('frontend/index.html')
+@app.get("/languages")
+def get_supported_languages():
+    """Returns a list of supported languages."""
+    return {"supported_languages": list(SUPPORTED_LANGUAGES.keys())}
+@app.post("/translate", response_model=TranslationResponse)
+async def translate(request: TranslationRequest):
+    """Translates a single text from a source language to English."""
+    try:
+        translated_text = translate_text(request.text, request.source_language)
+        return TranslationResponse(
+            original_text=request.text,
+            translated_text=translated_text,
+            source_language=request.source_language,
+        )
+    except ValueError as e:
+        raise HTTPException(status_code=400, detail=str(e))
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"An unexpected error occurred: {e}")
+@app.post("/batch-translate", response_model=BatchTranslationResponse)
+async def batch_translate(request: BatchTranslationRequest):
+    """Translates a batch of texts from a source language to English."""
+    try:
+        translated_texts = batch_translate_text(request.texts, request.source_language)
+        return BatchTranslationResponse(
+            original_texts=request.texts,
+            translated_texts=translated_texts,
+            source_language=request.source_language,
+        )
+    except ValueError as e:
+        raise HTTPException(status_code=400, detail=str(e))
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"An unexpected error occurred: {e}")
+@app.post("/translate-pdf", response_model=PdfTranslationResponse)
+async def translate_pdf(source_language: str, file: UploadFile = File(...)):
+    """Translates a PDF file from a source language to English."""
+    if file.content_type != "application/pdf":
+        raise HTTPException(status_code=400, detail="Invalid file type. Please upload a PDF.")
+    # Save the uploaded file temporarily
+    temp_pdf_path = f"temp_{file.filename}"
+    with open(temp_pdf_path, "wb") as buffer:
+        shutil.copyfileobj(file.file, buffer)
+    try:
+        # Extract text from the PDF
+        doc = fitz.open(temp_pdf_path)
+        extracted_text = ""
+        for page in doc:
+            extracted_text += page.get_text()
+        doc.close()
+        if not extracted_text.strip():
+            raise HTTPException(status_code=400, detail="Could not extract any text from the PDF.")
+        # Split text into chunks (e.g., by paragraph) to handle large texts
+        text_chunks = [p.strip() for p in extracted_text.split('\n') if p.strip()]
+        # Translate the chunks in batches
+        translated_chunks = batch_translate_text(text_chunks, source_language)
+        # Join the translated chunks back together
+        final_translation = "\n".join(translated_chunks)
+        return PdfTranslationResponse(
+            filename=file.filename,
+            translated_text=final_translation,
+            source_language=source_language,
+        )
+    except Exception as e:
+        logger.error(f"Error processing PDF: {e}")
+        raise HTTPException(status_code=500, detail=f"An error occurred while processing the PDF: {e}")
+    finally:
+        # Clean up the temporary file
+        if os.path.exists(temp_pdf_path):
+            os.remove(temp_pdf_path)
+# --- 7. Example Usage (for running with uvicorn) ---
+# To run this API, use the following command in your terminal:
+# uvicorn fast_api:app --reload
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=8000)

baseline_analysis.py ADDED Viewed

	@@ -0,0 +1,55 @@

+# baseline_analysis.py
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+import torch
+# Define the model we want to use. We'll use a distilled (smaller, faster)
+# version of NLLB-200 for this quick test.
+model_name = "facebook/nllb-200-distilled-600M"
+# Load the pre-trained tokenizer and model from Hugging Face.
+# This might take a minute to download the first time.
+print(f"Loading model: {model_name}")
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+print("Model loaded successfully!")
+# Sentences we want to translate.
+sinhala_sentences = [
+    "ඩෝසන් මිස් දුරකථනයෙන් ඩෝසන් මිස් කවුද සර්",
+    "කවුද ඩෝසන් නැතුව ඉන්නේ ඔව් සර්",
+    "ඔබ එය උත්සාහ කරන්න සර්",
+    "කොහොමද වැඩේ හරිද ඔව් සර්ට ස්තුතියි",
+    "ඔව්, හරි, ස්තුතියි රත්තරං"
+]
+print("\n--- Starting Translation ---")
+# Loop through each sentence and translate it.
+for sentence in sinhala_sentences:
+    # 1. Prepare the input for the model
+    # We need to tell the tokenizer what the source language is.
+    tokenizer.src_lang = "sin_Sinh"
+    # Convert the text into a format the model understands (input IDs).
+    inputs = tokenizer(sentence, return_tensors="pt")
+    # 2. Generate the translation
+    # We force the model to output English by setting the target language ID.
+    target_lang = "eng_Latn"
+    translated_tokens = model.generate(
+        **inputs,
+        forced_bos_token_id=tokenizer.vocab[target_lang],
+        max_length=50 # Set a max length for the output
+    )
+    # 3. Decode the output
+    # Convert the model's output tokens back into readable text.
+    translation = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
+    # 4. Display the results
+    print(f"\nOriginal (si): {sentence}")
+    print(f"Translation (en): {translation}")
+print("\n--- Translation Complete ---")

baseline_translate.py ADDED Viewed

	@@ -0,0 +1,51 @@

+# baseline_translate.py
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+import torch
+# Define the model we want to use. We'll use a distilled (smaller, faster)
+# version of NLLB-200 for this quick test.
+model_name = "facebook/nllb-200-distilled-600M"
+# Load the pre-trained tokenizer and model from Hugging Face.
+# This might take a minute to download the first time.
+print(f"Loading model: {model_name}")
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+print("Model loaded successfully!")
+# Sentences we want to translate.
+sentences_to_translate = {
+    "nep_Npan": "नेपालको राजधानी काठमाडौं हो।",  # Nepali: "The capital of Nepal is Kathmandu."
+    "sin_Sinh": "ශ්‍රී ලංකාවේ අගනුවර කොළඹ වේ."   # Sinhala: "The capital of Sri Lanka is Colombo."
+}
+print("\n--- Starting Translation ---")
+# Loop through each sentence and translate it.
+for lang_code, text in sentences_to_translate.items():
+    # 1. Prepare the input for the model
+    # We need to tell the tokenizer what the source language is.
+    tokenizer.src_lang = lang_code
+    # Convert the text into a format the model understands (input IDs).
+    inputs = tokenizer(text, return_tensors="pt")
+    # 2. Generate the translation
+    # We force the model to output English by setting the target language ID.
+    translated_tokens = model.generate(
+        **inputs,
+        forced_bos_token_id=tokenizer.lang_code_to_id["eng_Latn"],
+        max_length=50 # Set a max length for the output
+    )
+    # 3. Decode the output
+    # Convert the model's output tokens back into readable text.
+    translation = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
+    # 4. Display the results
+    print(f"\nOriginal ({lang_code}): {text}")
+    print(f"Translation (eng_Latn): {translation}")
+print("\n--- Translation Complete ---")

data/processed/nepali.en ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ada69aaf3da595194e62d42f18645cc0531a90756c3afd3ede86360564ba6676
+size 11287409

data/processed/nepali.ne ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7379a3e194663f8ae7ca094d215e959ceee862c21148aba7d41865e114ebc157
+size 31223019

data/processed/sinhala.en ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fa08214fe2741e627e353cc8ec66d63bac33b2765d2299bc4d9fbdb3fb727c6
+size 2528297

data/processed/sinhala.si ADDED Viewed

The diff for this file is too large to render. See raw diff

data/test_sets/test.en ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5361734250c39c0844f5588c2e8a6ca21ec2c923ab09e797fc7a92d66a078996
+size 35684

data/test_sets/test.ne ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b76bc4d9604a6c6fd10dea4ddcd615ddfb0c51ab1cb0977bb64a42dddbbf3c1
+size 220134

data/test_sets/test.si ADDED Viewed

	@@ -0,0 +1,500 @@

+නැත පුහුණු මනෝ මේජර් නැත
+මනෝ ප්රධාන ඉංග්රීසි ලිට්
+ඉංග්‍රීසි ලිට් ජීස් මෑන් එත් ඔයා ඒකට දක්ෂයි
+ඔයා කොහෙද යන්නේ මට ප්‍රශ්න මිලියනයක් තියෙනවා බ්‍රහස්පතින්දා ඔබව හමුවෙමු
+මට ගෞරවය ලැබීමට පෙර මම කිසි විටෙකත් කිසිවෙකු මෙහි පහතට ගෙන නැත
+skip මට ගැටලුවක් ඇති අතර මට උපදෙස් කිහිපයක් අවශ්‍යයි ඔබට මගේ උපදෙස් බොහෝ දුරට අවශ්‍යයි
+හරිම භයානකයි නේද ඔබ සම්පූර්ණයෙන්ම පිළිකුල් සහගතද ඔබ බරක් විය හැකි දූරදර්ශී කෙනෙක්
+skip you is a visionary that can be a බරක් විය හැකි මෙය ටිකක් විකෘති බවක් නොපෙනේ
+මෙය ටිකක් විකෘති බවක් නොපෙනේ, ලෝකයේ බොහෝ හුදකලා මිනිසුන් සිටින බව කවුරුන් හෝ කවදා හෝ මෙය තේරුම් ගනීවි
+ලෝකේ ගොඩක් පාළු මිනිස්සු ඉන්නවා කවුරුහරි දවසක මේක තේරුම් ගනීවි ඒක මම වෙන්නෑ මම ඒක අතහරිනවා
+පසුගිය පැය 48 තුළ ඒ සියල්ල ඔබගේ වරදකි, මම කුමක් කරන්නේද යන්න පිළිබඳ උනන්දුව සම්පූර්ණයෙන්ම නැති වී ඇත
+මම හිතන්නේ ඒක තේරුමක් තියෙනවා ඔව් ඔව් ඒක කරනවා
+සමහර විට මම ඒ ගැන නොදන්නවා වෙන්න පුළුවන් ඔබේ දීර්ඝ පුහුණුව එම ප්‍රදේශයේ ආයතනයක තිබුණා යැයි මම සිතමි
+ඔහ් ඔව් හරිම අමාරුයි නමුත් මම හිතන්නේ ඔබ ළඟ සිටි පරීක්ෂකවරයා මම දන්නවා ඇති
+ඔබ ළඟ සිටි පරීක්ෂකවරයා මම ඔහුව ග්‍රීන්ස්බර්ග්හි වොලෙස් ෆ්‍රෑන්ක්ලින් දන්නවා ඇති
+එය භයානක දෙයක් වූයේ එල්ලෙන ග්ලයිඩින් නීත්‍යානුකූල ක්‍රීඩාවක් ලෙස සලකන්නේ මන්දැයි මම නොදනිමි
+සැහැල්ලුවෙන් මම ඔහුව ලබා ගත්තා කිසිම මාරාන්තික ආයුධයකට මේ සත්වයා මරන්න බැහැ ඔහු මේ ලෝකයේ නොවේ
+කිසිම මාරාන්තික ආයුධයකට මේ සත්වයා මරා දැමිය නොහැක ඔහු මේ ලෝකයේ නොවේ අපි කතා කරන්නේ එම සත්වයා ගැනද ඇවිදින මළ සිරුර ඇත්තෙන්ම විශාල මුඛය ඇත්තෙන්ම නරක හුස්ම
+චාරිත්‍රය ඉටු කිරීමට ඔහු ඇයව හාමුනප්‍රා වෙත රැගෙන යන්නේ කොතැනටදැයි ඔබ දන්නවා
+කවුද මේ හාමුදුරුවො ඉහොටෙප්ගෙ පූජකයො
+මම කවදාවත් පූජකයෙක් මැරුවේ නැහැ ඔවුන් නපුරු ශාපයකට පෙර ඔවුන් කමක් නැහැ
+මුන් නපුරුයි ශාප උනාට කමක් නෑ එහෙනම්
+සහ අන්ක් සු නම්මුන්ගේ සිරුර නැවත පණ ගැන්වීමේ චාරිත්‍රය කුමක්ද?
+අන්ක් සු නම්මුන්ගේ සිරුර නැවත පණ ගැන්වීමේ චාරිත්‍රය සහ එය කරන්නේ කෙසේද?
+සහ මළවුන්ගේ පොත කියවීමෙන් කෙනෙකු එය කරන්නේ කෙසේද?
+ඇත්ත වශයෙන්ම, මළවුන්ගේ පොත කියවීමෙන්
+ඔව් ඔව් ඇත්ත වශයෙන්ම සහ පසුව ඔබේ සහෝදරිය මරා දැමීම
+ඊට පස්සේ ඔයාගේ නංගිව මරනවා මට සමාවෙන්න
+එයා අපිට කලින් ආවොත් පරක්කු වැඩියි ඔයා කිව්වද මගේ නංගිව මරන්න කියලා
+පුද්ගලිකව මම යටත් වීමට කැමැත්තෙමි ඇයි අපට යටත් විය නොහැක්කේ කටවහගෙන ඔබේ බැන්ඩෝලය ලබා දීමටය
+දැන් යන්න මට කාන්තාරයේ විශාල පොල්ලක් සොයාගන්න
+මොකක්ද එතකොට මංකොල්ලකෑම් කප්පම් පැහැරගැනීම් ඉහත කී කිසිවකට ස්තූතියි
+ඉහත කිසිම දෙයකට ස්තූතියි ඔබට එසේ නම් ඔබ මෙහි කරන්නේ කුමක්ද?
+මගේ ඉතා හොඳ මිත්‍රයා මොනතරම් පුදුමයක්ද මන්ද එය මගේ කුඩා මිතුරා බෙනී නොවේ නම් මම ඔබව මරා දැමිය යුතුයි
+කෙල්ල මගේ ජීවිතය බේරුවා කියලා හිතුවේ මට එයාව කරදරෙන් බේරගන්න පුළුවන් අඩුම දේ ඒකයි ඔයාට හැම වෙලාවෙම මොලේට වඩා බෝල තිබුණා
+ඕ කොනෙල් මම ඔයාව මරන්න යන්නේ මේක හුරුපුරුදුයි කියලා
+හේ ඕ'කොනල් මට පෙනෙන්නේ මට සියලුම අශ්වයන් ලැබුණා වගේ හේයි බෙනී මට පෙනෙන්නේ ඔබ ගඟේ වැරදි පැත්තේ සිටින ආකාරයටය
+දහයෙන් එකකට හෝ ඔබේ අසමතුලිතතාවය එතරම් හොඳ නැත, මට වඩා නරක විය
+කොහේ හරි යනවා ඔයාව හොයනවා, මට මගේ යාළුවෙක් එක්ක ඉන්න ඕන වුණා
+ඇයි යාළුවනේ ඔයා ඔච්චර රණ්ඩු වෙන්න කැමති
+ඇයි ඔයා මේ තරම් රණ්ඩු කරන්න කැමති මම ඒක කරන නිසා මම හොඳ පෙනුමක් ඇති නිසා
+බෙනී යා පුංචි දුගඳයි ඔබ කොහිද ඔබ වෙතට රිංගුවේ මා හැර දමා ඔබ මාව කුණු වීමට කාන්තාරයේ දමා ගියා
+ඔයා මාව දාලා ගියා ඔයා මාව කාන්තාරයට දාලා කුණු වෙන්න ඔහ් ඔව් සමාවෙන්න ඒකට ඉතින් කවුද මේ මිනිහා
+ඔහ් ඔව් සමාවෙන්න ඉතින් කවුද මේ මිනිහා ඔසිරිස්හි ප්‍රධාන පූජක ඉම්හොටෙප් කුමාරයා
+මේ ඔසිරිස්හි ප්‍රධාන පූජක ඉම්හොටෙප් කුමාරයා, ඔහ්, ඔබට කොහොමද?
+කුමාරයා වෙනත් මිනිසුන්ගේ ස්පර්ශයට කැමති නැත මෝඩ පෙරදිග මිථ්‍යා විශ්වාසයක් මම බයයි ඔව් හොඳයි අපි හැමෝටම අද අපේ පුංචි ප්‍රශ්න ඇති නේද
+ඔව් හොඳයි අපි හැමෝටම අද අපේ පොඩි ප්‍රශ්න ආවා නේද අපි එයා ආවෙ මිස්ටර්ට කොහොම හරි පිලිස්සුම් තුවාල වලට උදව් කරන්න නේද මට වගකීමක් දැනෙනවා
+ඔහු පැමිණ ඇත්තේ මිස්ටර්ට පිළිස්සීමට උදව් කිරීමටය
+ඔබට කිසි දිනක කිසිඳු කම්මැලිකමක් නොතිබූ බව මට නොකියන්න, මට සමහරක් සොරකම් කළ හැක්කේ කොතැනදැයි ඔබ දන්නවාද?
+කෝ ඔයාගේ අලුත් යාළුවා මොන යාළුවාද ඔයා මගේ එකම යාළුවා
+ඔබ දකින දෙයින් ආරක්ෂිතයි
+ඔබ බොරු සොයන්නේ කුමක් දැයි ඔබට පෙනෙනු ඇත, මම ඔබේ බෙල්ල කපා දමමි
+ඔහුට පොත අවශ්‍ය වන්නේ ඔහුගේ මිය ගිය පෙම්වතිය නැවත පණ ගැන්වීම ගැ�� යමක් සඳහා ඔහුට පොත සහ ඔබේ සහෝදරිය අවශ්‍යයි
+හරියට අර මෝසෙස් මිනිහා අර පාරාවෝ මිනිහාට කරපු දේ ඒක දාන්න එක විදිහක්
+මට මතක ඇති එකම දෙය නම් ඔහු වැලි පිපිරුමක් බවට පත් වීමයි, එවිට මට කිසිවක් මතක නැත
+ඒවගේම බඩේ බඩවැලේ තියෙන සෙවල දේවල් කොහොමද කියන්නේ
+බඩවැල් ඔව් ඒවා
+මට සමාවෙන්න රැම්සෙස් සිරියාව විනාශ කළ විට එය හදිසි අනතුරක් විය එය හදිසි අනතුරකි ඔබ ව්‍යසනයක් ඇයි මම ඔබ ඉවසන්නේ
+එහි ඇති කාටූචය බලන්න එය සෙටිගේ නිල රාජකීය මුද්‍රාව වන අතර මට එය විශ්වාසයි සමහර විට
+මිස් carnavon මහත්තයෝ එයා මොකද මෙතන කරන්නේ
+ඔහු මෙහි කරන්නේ කුමක්ද යන්න ඔබට සැබවින්ම දැන ගැනීමට අවශ්‍යද නැතහොත් ඔබ අපට වෙඩි තැබීමට කැමතිද?
+ඔබ සිතන්නේ මෙය මෙම සත්වයා නැවැත්වීමට අහිංසක මිනිසුන් මරා දැමීම සාධාරණීකරණය කරන බවයි
+මම හිතන්නේ මළවුන්ගේ කළු පොතට මිනිසුන්ව නැවත පණ ගැන්වීමට හැකි නම්, සමහර විට ජීවත්ව සිටින අයගේ රන් පොත ඔවුන් නැවත පාතාලයට ගෙන යා හැකි බව
+එවිට ජීවතුන්ගේ රන් පොතට ඔවුන්ව හරියටම පාතාලයට ආපසු හැරවිය හැක
+ඇය අන් සියල්ලන් මෙන් ඇය කාන්තාරයේ මිය යනු ඇත, ඇය ඕනෑවට වඩා දැක නැත, ඇය බොහෝ දේ දනී
+යතුර ඇය සතුව නැතිවූ යතුර ඔව් කිසිවකු මෙතරම් සමීපව සිට නැති තරම් අප ඇයව නැවැත්විය යුතුය නැතිනම් එය අප සැමගේ අවසානය වනු ඇත
+ඔව් කිසිවකු මෙතරම් සමීප වී නැති තරම් අපි ඇයව නැවැත්විය යුතුය, එසේත් නැතිනම් එය අප සියල්ලන්ගේම අවසානය වනු ඇත, එවිට අපි ඇයව මරා දමමු අපි ඇයව සහ ඇය සමඟ සිටින සියල්ලන්ම මරා දමමු
+එවිට අපි ඇයව මරා දමා ඇය සහ ඇය සමඟ සිටින සියල්ලන් මරා දමා සිතියම පුළුස්සා යතුර ලබා ගනිමු
+සිතියම පුළුස්සා යතුර ලබා ගැනීම සිදු කරනු ඇත, නමුත් ඔවුන් හෙට පිටත් වන ඇමරිකානු ගවේෂණය ගැන කුමක් කිව හැකිද
+මම මෙතන ටිකක් විශ්වාස කරන්න කැමතියි ඔබ එය විශ්වාස කරන්නේ නැහැ
+ඉතින් අපි රනින් හදපු පොත හොයාගෙන ඒක ඇතුලේ තියෙන පූජනීය මන්ත්‍ර කියෙව්වොත් ඔයා කියනවා
+සහ එහි අඩංගු පූජනීය මන්ත්‍ර කියවා බලන්න, එය මේ පුද්ගලයා නැවත අපායට යවනු ඇතැයි ඔබ සිතනවා
+ඔබ සිතන්නේ එය මේ පුද්ගලයාව නිවැරදි ලෙස අපායට යවනු ඇති බවත් එවිටය
+අනුබිස් ප්‍රතිමාවට නැගෙනහිරින් නුදුරින් පිහිටා ඇති එය අපට නැවත එහි යා යුතු බව මට කියන්න එපා
+මට කියන්න එපා අපිට සත්වයා මරන්න ඕන නම් අපි ආපහු එතනට යන්න ඕන
+ඒක ඔප්පු වෙනව බලන්න පරණ සෙටිගෙ වාසනාව එයාලට මේ වැලි යට ඉන්න ඕනෙ මේ වගේ මේක ආරක්ෂා කරන්න ඔයා දන්නව එතන නිධානයක් තියෙන්න ඕනෙ කියල
+මම ඔබව පිත්තල කෙලකට වෙළඳාම් නොකරමි ඔව් එය පිරිසිදු රත්‍රන් වලින් සෑදිය යුතුයි
+සූර්යයා කළු ජලය ලේ බවට හැරේ
+තොපි මොනාද ඌට කලේ
+අපායත් එක්ක මම කොහේවත් යන්නේ නැහැ අපි මෙතන ආරක්ෂිතයි ඔව් මම මේ බලකොටුවෙන් පිටව යන්නේ නැහැ
+මේකත් එක්ක මම පල්ලෙහාට යන්නේ මට බොන්න බොන්න ඔයාට මොනවා හරි ඕන ඔව් මට බර්බන් වීදුරුවක් අරන් දෙන්න බෝර්බන් ෂොට් එකක් සහ බර්බන් චේසර් එකක් දෙන්න
+ඔහු හිරේ සිටින්නේ කුමක්දැයි මම නොදනිමි, ඔබ එන බව මට ආරංචි වූ විට මම එය ඔහුගෙන්ම ඇසුවෙමි
+මම නොදන්න නිසා ඔයා එන බව ඇහුණාම මම එයාගෙන් මගෙන් ඇහුවා මොකද කිව්වේ කියලා
+සහ එයා මොනවද කිව්වේ එයා හොඳ වෙලාවක් බලාගෙන ඉන්නවා කිව්වා කියලා
+එයාව එල්ලන්න ගෙනියන්නේ කොහෙද කියලා
+කාන්තාවන්ට අවසර නැත මම ඉංග්‍රීසි කාන්තාවක්
+ඔහුගේ ජීවිතය බේරා ගැනීමට මම ඔබට පවුම් සියයක් දෙන්නම් ඔහු එල්ලී සිටිනු දැකීමට පවුම් සියයක් ගෙවන්නෙමි
+ඔහු පවුම් දෙසීයක් එල්ලනවා දැකීම සඳහා මම පවුම් සියයක් ගෙවන්නෙමි
+පවුම් දෙසීයක් ඉදිරියට යයි
+පවුම් තුන්සියයක් ඉදිරියට යන්න
+ඔයා බොරු කියනවා මම කවදාවත් කරන්නේ නැහැ
+ඔබ කියන්නේ මේ ජරා දේවත්වයෙන් තොර ඌරු පුත්‍රයා මළවුන්ගේ නගරය සොයන්නේ කොතැනදැයි දන්නා බවත් ඇත්ත වශයෙන්ම ඔව් ඔබ ඔහුව කපා දැමුවොත් අපි ඔබට සියයට දහයක් දෙන්නම්
+ඔව්, ඔබ ඔහුව කපා දැමුවහොත් අපි ඔබට සියයට දහයක් පනහක් දෙන්නෙමු
+ඔබ මෙහි කරන සියල්ලන්ටම දීප්තිමත් සුබ උදෑසනක්
+ඔබ මෙහි කරන්නේ කුමක්ද, මම මගේ ආයෝජනය ආරක්ෂා කිරීමට පැමිණියෙමි, ඔබට බොහෝම ස්තූතියි
+ඔබට තේරෙනවාද අප සිටින්නේ වසර හාර දහසකට වැඩි කාලයක් තුළ කිසිවකු ඇතුළු නොවූ කාමරයක් තුළ සිටින බව මට නිධානයක් නොපෙනේ
+ඔබ කොහොමද දන්නේ පෙට්ටිය හාමුනාප්ට්‍රාට අදාළ බව මොකද මම ඒක හොයාගත්ත තැන මම එතන හිටියා
+ඔයා ඇත්තටම hamunaptra එකේ හිටියේ මම ඔයාගේ මල්ලිව ලෑස්ති කළා
+මම ඔයාගේ මල්ලිලාව හොඳට ලෑස්ති කළා මම මගේ මල්ලිව දන්නවා
+ඔව් මම එතන හිටියා ඔයා දිවුරනවා
+ඔයා හැමදාම දිවුරනවා
+හැම දවසකම නෑ මම කිව්වේ
+නෑ මම කිව්වේ ඔයා අදහස් කරන දේ මම දන්නවා මම එතන හිටියා හරි සෙටි ගේ මළවුන්ගේ නගරය තියන්න
+ඔබ අදහස් කරන්නේ කුමක්දැයි මම දනිමි.
+ඔබ සොයාගත්තේ කුමක්ද ඔබ දුටුවේ මම වැලි සොයාගත්තා මම මරණය දුටුවා
+���බට දැන ගැනීමට අවශ්‍ය නිශ්චිත ස්ථානය එහි යන්නේ කෙසේදැයි මට කියන්න
+ඔහුට සියයට විසිපහක්වත් වැඩි දුරක් වත් දෙන්න
+සමාවෙන්න ඔයාව බය කරන්න හිතුවේ නෑ මිස්ටර් ඕ කොනෙල් මාව බය කරන එකම දේ ඔයාගේ පුරුදු
+මිස්ටර් ඕ කොනෙල් මාව බය කරන එකම දෙය නම් මම ඔබව සිපගත් නිසා ඔබේ හැසිරීම තවමත් තරහයි
+තාම තරහයි මම ඔයාව සිපගත්තා කියලා ඔයා ඒකට හාදුවක් කිව්වොත්
+මට මොකක් හරි මගහැරුණාද අපි අන්තිම වතාවට සටනට යනවාද මම එම ස්ථානයේ සිටි මා සමඟ සිටි සියලුම දෙනා මිය ගියා
+ඔබ ඔබේ ඉතිහාසය දන්නවා මම මගේ වස්තුව දන්නවා
+විවේක ගන්න මම සිතියමයි, ඒ සියල්ල මෙහි තිබේ, එය සැනසිලිදායකයි
+ඔබට හොඳින් පීනන්න පුළුවන්ද, අවස්ථාවක් අවශ්‍ය නම් මට පීනන්න පුළුවන්
+ඇත්ත වශයෙන්ම මට පීනන්න පුළුවන් අවස්ථාවක් අවශ්‍ය නම් මාව විශ්වාස කරන්න
+අපි බොහෝ දුරට එහි සිටින බව ඔබට විශ්වාසයි
+අපට මාර්ගය පෙන්වීමට යන දේ සඳහා
+ඒ දේ මාව උද්දීපනය කරන දේවල් වගේම ඔයාව උද්යෝගිමත් කරනවා
+පැරණි ඊජිප්තු උපක්‍රම සඳහා එම දර්පණ මොනවාදැයි ඔබ දකිනු ඇත
+දෙවියනේ එය කුමක් සඳහා සූදානම් කිරීමේ කාමරයක් සූදානම් කිරීමකි
+මරණින් මතු ජීවිතයට ඇතුල් වීම සඳහා සූදානම් වීම
+ඔව්, එය ඔබට නැවත ජීවිතය ගෙන ඒමට ඔබ දෙදෙනා පාසල් සිසුන් කිහිප දෙනෙකුට වඩා නරක ය
+අපොයි දෙවියනේ එය සරොෆගස් එකක් මෙන් පෙනේ ඇයි ඔවුන් යමෙකු සිවිලිමේ වළලන්නේ
+මෙහි යම් ආකාරයක අගුලක් ඇති බව ඔබ පවසන පරිදි මේවා ග්‍රැනයිට් වලින් සාදා ඇති අතර ඒවා කොබෝල්ට් ලයිනිං සහිත වානේ අභ්‍යන්තර ගල් කැට සහිත ග්‍රැනයිට් වලින් සාදා ඇත
+ඔහු කතා කළේ කවුරුන් කුමක් ගැනද කතා කළේද යන්නයි
+ඔයාලා දෙන්නා ශාප විශ්වාස කරන්නේ නැහැ
+ඔබ ශාප විශ්වාස කරන්නේ නැහැ හහ් නැහැ මම විශ්වාස කරනවා මට එය දැකිය හැකි නම් සහ මට එය ස්පර්ශ කළ හැකි නම් එය සැබෑ ය, එය මා විශ්වාස කරන දෙයයි
+ඔයාගෙ අයියට ඔයාව නැතුව පාලුයි වගේ නෙමෙයි මට ඔයාව අලුත් බ්‍රවු එකක් කියල තේරෙන්නේ නෑ මම දන්නවා ඔයා කල්පනා කරනව මම වගේ තැනක් මේ වගේ කෙල්ලෙක් අතරේ මොනවා කරයිද කියලා
+මම දන්නවා ඔයා කල්පනා කරනව මම වගේ තැනක් මේ වගේ කෙල්ලෙක් අතරේ මේ වගේ දෙයක් කරන්නේ කියලා
+මම ඔයාව සිපගන්න යනවා මහත්මයා, ඔයා එහෙම නෑ
+නැහැ ඔබ නොවේ මම නොවේ
+ඔබ මට රික් ලෙස කතා කරන්නේ නම් මිස මම නොවේ
+ඔයා මට රික් කියලා කතා කරන්නේ නැත්නම් ඇයි මම එහෙම කරන්නේ
+ඇයි මම එහෙම කරන්නේ ඒක මගේ නම නිසා
+නැහැ ඇයි මම ඔව් ඔව් ඔයා මට කිව්වා ඒක ඔයාට ලැබුන හොඳම වෙලාව කියලා
+අනේ දෙවියනේ මම පුංචි කාලේ ඉඳන්ම මේ ගැන හීන මැව්වා ඔයා මැරුණ කොල්ලෝ ගැන සිහින දකිනවා
+ඔහු එසේ විය යුතුද නැහැ මම කවදාවත් මේ වගේ මමියක් දැකලා නැහැ ඔහු තවමත් ඉන්නවා
+ඔයා කියන්නේ කවුරුහරි අපේ මිනිහාට මේ දේවල් විසි කරලා එයාව හෙමින් හෙමින් පණපිටින් කෑවා කියලා
+එය පොතක් පමණක් වන බැවින් ඔබ සෙල්ලම් කරමින් සිටිය යුතු බව ඔබට විශ්වාසයි
+එය අමතක කරන්න අපි දොරෙන් බැස ශාලාවෙන් බැස ගියෙමු, නැත අපි නැත
+අවුරුදු හාර දහසක් පැරණි ඇවිදින කතා කරන මළ සිරුරක් සමඟ හමුවීමක් ඇති වීම කෙනෙකුට පරිවර්තනය කිරීමට නැඹුරු වේ එය අමතක කර අපි ශාලාවෙන් බැස දොරෙන් බැස ගියෙමු
+නැහැ අපි ඔහුව අවදි කළේ නැහැ, අපි ඔහුව නැවැත්වීමට උත්සාහ කළ යුතුයි අපි ඔබ එම පොත කියවා නැති දේ අපි ඔබට කියෙව්වේ ඒ දේ සමඟ සෙල්ලම් කරන්න එපා කියායි
+අපි ඔබ එම පොත කියවා නැති දේ අපි ඔබට කියෙව්වේ ඒ දේ සමඟ සෙල්ලම් කරන්න එපා යැයි මම ඔබට කීවෙමි එවිට මම පොත කියවා මම ඔහුව අවදි කරවා මම ඔහුව නවත්වන්නට අදහස් කරමි
+එවිට අපට අමරණීය අය සොයා ගැනීමට සිදුවනු ඇත
+ඔව් ඉතින් මගේ ප්‍රශ්නය හැමෝගෙම ප්‍රශ්නයක්
+එයයි මම ඔබට කොන්ත්‍රාත්තුවක් වන්නේ ඔබට මා සමඟ ටැග් කළ හැකිය, නැතහොත් ඔබට මෙහි නැවතී මිස්ටර් මැග්ගොට් සමඟ සෙල්ලම් කළ හැකිය
+ඔබට මා සමඟ ටැග් කළ හැකිය, නැතහොත් ඔබට මෙහි නැවතී මම නැවතී සිටින මිස්ටර් මැග්ගොට් සමඟ සෙල්ලම් කළ හැකිය
+ඔහු මෙහි සිටින බව මම ඔහුව දුටුව දෙය මෙහි ඇති සත්වයා ඔබට විශ්වාසයි
+ඔයා මට ඔයාගේ කෙල්ල කිව්වෙ මොකක්ද අනේ ඔව් ඒක ඔයා දන්නවද කතාවක් කියලා
+ඔහ්, ඔව්, එය ඔබ දන්නවාද, මම සිතන්නේ ඔබ ඊර්ෂ්‍යා කළ කතාවක් කියාය
+මම හිතන්නේ ඔයා ඊර්ෂ්‍යා කළා ඔයා මට විහිළු කළා ඒ මිනිහගේ මූණ දැක්කද
+එව්ලින් ඒක කරන්න එපා මට වෙන කරන්න දෙයක් නෑ
+ධෛර්‍යය තියෙනවා නෝනා ඔව් මම දන්නවා මම ඒවා තියාගන්න කැමතියි
+ඔබ බේබද්දා මෝඩ මී අවජාතකයා කරුණාකර මට මුල් දෙයක් අමතන්න
+ඔබට දැන් මළවුන්ට ගෞරවයක් නැද්ද, මම ඔවුන් සමඟ එක්වීමට කැමැත්තෙමි
+ප්‍රශ්න දෙකක් සෙටි පළමුවැන්නා සහ ඔහු ධනවත්ද ඔහු පැරණි රාජධානියේ අවසාන පාරාවෝ විය
+ඔහු පැරණි රාජධානියේ අවසාන පාරාවෝ ඔවුන්ගෙන් ධනවත්ම පාරාවෝ යැයි කියනු ලැබේ, හොඳයි, එය හොඳයි, මම ඔහු වැනි කෙනෙකුට ඉතා කැමතියි
+ඔබ මට කිව්වා ඔබට එය තීබ්ස් හි කැණීමකදී හමු වූ බව මම වැරදියට තේරුම් ගත්තා
+ඔයා මට බොරු කිව්වා කියලා මම වැරදියි
+ඔයා මට බොරු කිව්වා මම හැමෝටම බොරු කියනවා ඔයාව විශේෂ වෙන්නේ මොකක්ද කියලා
+මම හැමෝටම බොරු කියනවා ඔයාව විශේෂ වෙන්නේ මම ඔයාගේ නංගි
+මම ඔබේ සහෝදරිය වන අතර එය ඔබව වඩාත් රැවටිලිකාර කරයි
+එය ඔබව වඩාත් රැවටිලිකාර කරයි, ඔබ එය ප්‍රාදේශීය කැස්බාවේ බේබද්දෙකුගෙන් සොරකම් කළේය
+ඔබ එය සොරකම් කළේ ප්‍රාදේශීය කැස්බාවේ බේබද්දෙකුගෙන් ඔහුගේ සාක්කුව සැබවින්ම තෝරා ගත්හ
+නමුත් ඔහු දූෂිත සාපරාධී මාර්ගයකි
+ඔබ ඇත්තටම සිතන්නේ ඔහු නිසැකවම පෙනී සිටිනු ඇතැයි මම දනිමි ඔහු කව්බෝයි කෙනෙකු විය හැකි නමුත් ඔහුගේ වචනය ඔහුගේ වචනයයි
+සැකයකින් තොරව මම දන්නවා ඔහු කව්බෝයි කෙනෙක් විය හැකි නමුත් ඔහුගේ වචනය ඔහුගේ වචනය පෞද්ගලිකව මම හිතන්නේ ඔහු අපිරිසිදු රළු සහ සම්පූර්ණ පාදඩයෙක් මම ඔහුට ටිකක් කැමති නැහැ
+අහෝ සමාව අයදිනවා නමුත් ඔබ එම ඔට්ටුව ජයග්‍රහණය කිරීමට දිවා රෑ නොබලා අපව පැදවූ සියල්ල පසුපස අපි යා යුතු නොවේද
+ඔවුන් තවමත් මෙය කරන විට ඔබ මිය ගිය බව එය මමිකරණය ලෙස හැඳින්වේ
+ඔබ ඔහුව මරා දැමුවේ කුමක්දැයි ඔබ සිතන්නේ ඔහු කනවා ඔබ කවදා හෝ දැක තිබේද?
+මට විශ්වාස කරන්න බෑ මම ඔයාලා දෙන්නට මාව බීලා එන්න දුන්නා කියලා මට බනින්න එපා මට එතන හිටියා කියලාවත් මතක නැහැ
+මට දොස් කියන්න එපා, මට එහි හොඳින් සිටි බවක්වත් මතක නැත, මම ඔබට ස්තූති නොකරමි
+මට එය හමු විය, මම එය වසා දමා මාව මෙතැනින් ඉවත් කළෙමි
+මම කරන්නේ කුමක්ද සහ මම කරන්නේ කුමක්ද? කවරයේ ඇති සෙල්ලිපිය කියවන්න
+ummm hootash im hootash im දැන් මොකක්ද මේ අන්තිම සංකේතය මොකක්ද මෙහි පෙනෙන්නේ කෙසේද?
+අහ් අහ්මෙනොෆස් ඔව් මට පේනවා
+ඇත්තටම ඇය මගේ සහෝදරියයි ඔව් හොඳයි මට විශ්වාසයි ඇය සම්පූර්ණ පාඩුවක් නොවන බව
+හේයි මම දන්නේ නැහැ ඔබ හොඳින් දකිනවා
+වාඩි වෙන්න o කොනෙල් වාඩි වෙන්න අපිට තවත් හොඳ ක්‍රීඩකයෙක් යොදාගන්න පුළුවන් මම මගේ ජීවිතය සමඟ සූදු කෙළින්නේ මගේ මුදල් සමඟ නොවේ
+මට විශ්වාස කරන්න බෑ මේ බෑග් වල මිල අපිට නොමිලයේ තිබුනා නම් අපිට කරන්න තිබුනේ ඔයාගේ සහෝදරියට දෙන්න විතරයි
+අපට ඔවුන්ව නොමිලේ ලබා ගත හැකි විය, අපට කළ යුතුව තිබුණේ ඔබේ සොහොයුරිය ඔවුන්ට ලබා දීමයි, ඔව්, එය මහත් පෙළඹවීමක් නොවේද
+ඔව්, එය දරුණු ලෙස පෙළඹවීමක් නොවේ
+ඒ දේ මට බඩගිනි වෙන්න දෙනවා ඒ දේ මගේ ජීවිතය බේරුවා
+මගේ මකුළු ��ැල් කොටස වෙත ඔබව සාදරයෙන් පිළිගනිමු, එය මෙහි ඉහළ අහසට ගඳ ගසයි
+කිසිවෙක් ගත්තේ නැත, අපි හොරෙන් ගොස් ඔවුන් යටින් එම පොත සොරකම් කරමු
+අපි ඔවුන් යටින් එම පොත සොරකම් කරන්නෙමු, එවිට ඔබට රහස් මැදිරිය සොයාගත හැකි බව ඔබට විශ්වාසයි
+මෙහි සිටින කවුරුන් හෝ යතුරක් නොමැතිව කිසිදු ළමයෙකු පිටතට නොගිය බව සහතිකයි, මේ දෙය බිඳ දැමීමට අපට මාසයක් ගතවනු ඇත
+දැඩි විවේකයක් ඔව් මම කඳුළු සලනවා දැන් අපි බලමු කවුද ඇතුලේ ඉන්නේ කියලා
+කෝ මගේ තුවක්කුව මොකක්ද ඔයා එයාට වෙඩි තියන්න හදන්නේ
+ඔව්, ඔහු අවදි කිරීමට තීරණය කළහොත් ඔබ ඔහුට වෙඩි තියන්නට යන්නේ කුමක්ද?
+ඔබ නොවේද අපි මී ගොබ්බයන් නොවේ ඔවුන් නරක සුවඳක් සහ නරක රසයක් ඇත නමුත් කාන්තාරය ලබා දීමට ඇති හොඳම දේ එයයි
+ඔවුන් රෝපණය කරන විට ඔහු නිසැකවම ජනප්‍රිය මිතුරෙකු නොවීය
+ඔබ දැක්කද පළගැටියන් කෝටි ගණන් පළගැටියන් සිටින බව, එය වසංගතවලින් එකක් හරි තණකොළ වසංගතය
+කවුද මෙතන ඉන්නේ පූජකයා මමිය
+එය තරමක් වේදනාකාරී බව ඔබ දන්නවා මම ඔබව මුණගැසුණු දා සිට මගේ වාසනාව විකාරයක් විය
+ඔයා දන්නවනේ මම ඔයාව මුණගැහුණු දා ඉඳන් මගේ වාසනාව තමයි ජරාවට තියෙන්නේ ඔව් මම දන්නවා මම මිනිස්සුන්ට එහෙම කරනවා කියලා
+අපරාදේ, දෙන්නෙක් බැහැලා, යන්න දෙන්නෙක් විතරයි, එතකොට එයා එව්වා පස්සෙන් එනවා
+විශ්වාස කරන්න නංගි ඒක තමයි අපේ යාලුවාට ආයෙත් පණ දුන්නේ, දැන් එයා ඒක පාවිච්චි කරලා එයාගේ පෙම්වතියව ගේන්න යනවා
+අපි ඇයව නැවත ලබා ගත යුතුයි, මම ඔබ සමඟ සිටිමි, වයසක, කිසිවෙකු මගේ සහෝදරියට එසේ ස්පර්ශ කර එයින් ගැලවී යන්නේ නැත
+හරි දැන් මේ හොරස් මිනිහා මොන මගුලකටද පේන්නේ ඌ උකුසු කන් ඇති උකුස්සෙක් වගේ මූණක් තියෙන ලොකු මිනිහෙක් වගේ
+ජොනතන් මොනවා හරි කරන්න ඒක මරන්න ඔයාට විහිළු කරන්න වෙනවා
+මම දැනගෙන හිටියා ඔයා එනවා කියලා මම ඒ ස්කයි ලයිට් ඔයා වෙනුවෙන් විවෘත කළා කියලා මම දන්නවා ඔයා කියලා
+මම දන්නවා ඔයා දන්නවා මම දන්නවා ඔයා දන්නවා කියලා
+මම දන්නවා ඔයා දන්නවා කියලා මම දන්නවා ඔයා දන්නවා මම දන්නවා කියලා
+මම දන්නවා ඔබ දන්නවා මම දන්නවා නමුත් ඔබ දන්නවාද මම දන්නවා ඔබ දන්නවා මම දන්නවා කියලා
+නමුත් ඔබ දන්නවාද මම දන්නවා ඔබ දන්නවා මම අනිවාර්යයෙන්ම දන්නවා කියලා
+ඔබ මේ නගරයෙන් සිදු කිරීමට සැලසුම් කරන දරුණු පළිගැනීම මම දනිමි
+එක් කුඩා දෙයක් හැර එය කුමක්ද
+සහ මම එම කැට්වෝක් හරහා නගරයේ මුළු විදුලි සැපයුමම උණුසුම් කර ඇත්තේ කුමක්ද?
+මම එම කැට්වෝක් හරහා නගරයේ මුළු විදුලි සැපයුමම උණුසුම් කර ඇති බව
+අපි සැලසුම් කළ ආකාරයටම සියල්ල සිදුවෙමින් පවතී, ඔබ තවමත් අපගේ විවාහ ගිවිස ගැනීම ප්‍රකාශ කර නැත
+ඔබ අපේ විවාහ ගිවිස ගැනීම ප්‍රකාශ කර නැතත් එය මගේ මනස ගිලිහී යන්නට ඇත
+එය මගේ මනස ලිස්සා යන්නට ඇත ඔබේ මනස ඉතා ලිස්සන සුළුය
+ඔබ දඩයම් කිරීමට යන්නේ කොහේද?
+අඳුරේ ඔබ තනිව ඔබ ගැන මවාපෑමක් කරමින් සිටින්නේ කුමක්ද?
+මම හිතුවේ ඔයා අන්තිම වෙනස් කිරීමක් කළා කියලා
+අපේ අමුත්තන් බලාගෙන ඉන්නවා මම ක්ෂණයකින් පහළට එනවා
+ඔයාලා දෙන්නා ටයිමිං සයිකෝටික් අවජාතකයෙක්, ඔයාට වැරදි අදහසක් තියෙනවා
+පන්දු යවන්නා මට ඔහුව මතකයි මම කුඩා කාලයේ සිට ඔහුව මරා දැමුවේ මීට වසර ගණනාවකට පෙර මම ඔහුගේ දියණියයි
+ඉතින් කවුද එයාව මැරුවේ ඩිස්කෝ කොල්ලෝ
+අපේ තාත්තාට මේ යාළුවා හිටියා එයා නව නිපැයුම් කරුවෙක් කියලා අපි මේක හොඳටම හිතුවේ නැහැ
+මම ඔහුව අවසන් වරට දුටුවේ එදාය
+එතකොට මට අට වසරේ
+ගොඩක් අඩුවෙන් එලියට යනවා එතකොට කපිතාන් විස්මිතයි
+අපිට ඇත්තටම කෝපි ටිකක් සහ සැන්විචස් ටිකක් පාවිච්චි කරන්න පුළුවන්
+එන්න බබා ඒක කරන්න ලොකු පුතේ
+atta girl atta කොල්ලා
+හේයි මම පිරිමියෙක් වගේ හොඳයි අපිට අපිව අභිරහස් මිනිස්සු කියලා කියන්න බෑ
+ඔබ කවුද මම පන්දු යවන්නා
+ඔබට හෝස්ට් බක්හෝල්ට්ස් කෙසේ වෙතත් ඔහු හුරතල් වුවද ගණන් කළ නොහැක
+ඔහු හුරතල් වුවත් ඔවුන් සියල්ලන්ටම අපට නොලැබුණු එක දෙයක් තිබුණි
+කොහොමද ම්ලේච්ඡ හය, අදෘශ්‍යමාන හය
+ඒත් එයා ඔයාගේ අම්මා ඔයාට කියන්න ඕනේ මට බෑ කියලා
+මම ඇගේ එකම පුත්‍රයා වන අතර ඇය නිතරම මා වෛද්‍ය නීතිය ගැන බලාපොරොත්තු තබාගෙන සිටියත් ඔබ සුපිරි වීරයෙකි
+නමුත් ඔබ සුපිරි වීරයෙක් වන අතර ඇයට තේරෙන්නේ නැත
+මම දන්නවා මගේ පෙම්වතියන් මම වෙස්මුහුණ පැළඳීමෙන් පසු මාව ඉවත දැමූ බව ඔවුන් සිතුවා මට එය නැති වී යයි නමුත් ඇත්ත වශයෙන්ම ඔබ එය සොයා ගත්තා
+හිස්වැස්ම ඇයට තේරෙන්නේ නැතැයි මම දනිමි මගේ පෙම්වතියන් සියල්ලෝම මා වෙස්මුහුණ පැළඳීමෙන් පසු මාව විසි කළ බව ඔවුන් සිතූ මට එය නැති වී යයි
+පරක්කුයි මමත් ගෙදර යනවා
+මමත් එන්න ජූනියර් එය පාසල් රාත්‍රියකි
+කිසිවෙකු අපව විශ්වාස නොකරනු ඇත, ඔවුන් සිතන්නේ අපි නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම ���ිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නිකම්ම නික්මෙයි
+මට හොදයි වගේ අපි ඒක කරමු
+නමුත් එම ස්ථානය ඉතා විශාල වන අතර මෙම මනෝවිද්‍යාව කොහිදැයි හෝ එහි පෙනුම කෙබඳුදැයි අපි නොදනිමු
+හේයි මම ඔයාට බියර් එකක් අරන් දෙන්නද මම හිතුවා ඔයා කවදාවත් අහන්නේ නැහැ කියලා
+එය අපිරිසිදු දුසිම් භාගයකට වඩා අපූරු හතරකට වඩා දෙකක් වැඩිය
+ඔහු අදහස් කළේ කුමක්දැයි මම නොදනිමි
+ඔබේ අබ කන්න, අපි අපව හඳුන්වන්නේ කමක් නැත, අපි කවුදැයි අපි දනිමු
+ඒ මම එලිසබෙත් එලිසබෙත් පුංචි එලිසබෙත් ඇයි ඔයා මෙතරම් මැදි වයසේ ඉන්නේ
+කොහොමද ඔයාගේ තාත්තා මැරිලා
+එයා මැරිලා, ඒක හරි, එයාලා එයාව පොඩි මිනිහෙක් මැව්වා
+doc මේ මගේ මිතුරන් අපි සුපිරි වීරයන් වන අතර අපට ඔබේ උදව් අවශ්‍යයි මම එක්සත් ක්‍රමයට ලබා දෙන අතර මට එවැනි ආවරණයක් දැනේ
+එයින් ඉවත් වන්න, ඔබ වෙතට යන්න
+ඔහු කිසිවිටෙක එය ධනාත්මකව සිතන්නේ නැත
+මට තේරුණා කැප්ටන් ගැන මොකක්ද කියලා
+සුපිරි වීරයන් මම ඔවුන්ව මරා දැමිය යුතුයි
+මම ඔවුන්ව මරන්නද ඇයි කරදර කරන්නේ
+ඒ ළමයාට දක්ෂතා තියෙනවා, මම ඒක පොහොට්ටුවට දාන්නම්
+ඔයා කැප්ටන් පුදුම කැප්ටන් එක්ක මොනවද කලේ
+උබට පිස්සු වගේ උන් හැමදාම කියන්නේ ලොකු උන්ට ගෙඩි කියල
+ඔවුන් සෑම විටම ශ්‍රේෂ්ඨයන්ව ගෙඩි ලෙස හඳුන්වන අතර ගෙඩි සෑම විටම තමන් ශ්‍රේෂ්ඨයන් ලෙස හඳුන්වයි
+ඒ වගේම ගෙඩි හැමවිටම තමන් ශ්‍රේෂ්ඨ යැයි කියාගන්නවා ඔබ මා සමඟ සිටිනවාද මට විරුද්ධව සිටිනවාද කියා
+ඔබ මා සමඟ සිටිනවාද නැත්නම් මට විරුද්ධව සිටිනවාද?
+ඉතා නරක ප්ලග් ඔහුට එරෙහිව
+මම ඔබ මිය ගියේ කුමන කණ්ඩායමටද යන්න මට මතක් කිරීම ගැන ස්තූතියි
+ඔබ මිය ගොස් ඇත
+සහ ආලෝකය frankenstein නිවී යයි
+මට අනුමාන කිරීමට ඉඩ දෙන්න උණ්ඩ ඔබට රිදවන්නේ නැත ඒවා රිදෙනවා නමුත් ඒවා මාව නවත්වන්නේ නැත
+ඔබ නිළියක් පමණක් වේටර්වරියක්
+ඔබ ඔබව අවතක්සේරු කරන වේටර්වරියක් පමණි
+ඔබ එය කියවන බව ඇසීමට මම කැමතියි දිවා භෝජන සංග්‍රහයෙන් පසු ඔබට රැඳී සිටිය හැකි බව මම විශ්වාස කරමි
+ඇත්තෙන්ම මම හිතන්නේ නියමයි
+මම හිතුවේ ඔයාට මගේ නහය කුඩු කරන්න ඕන කියලා ම���ව රවට්ටලා කියලා
+ඇයි මට සංචාරය ලබා දෙන්නේ කෙසේද?
+මෙහෙ එන්න මම එහෙම කෙල්ලෙක් නෙවෙයි
+මම එහෙම කෙල්ලෙක් නෙවෙයි එහෙනම් ඇයි ඔයා මෙතන ඉන්නේ
+එසේනම් කුතුහලයෙන් ඔබ මෙහි සිටින්නේ ඇයි?
+කුතුහලය නිසා බළලා මතකයි
+ඔබ ඔත්තුකරුවෙකු වීම මට වඩා හොඳය
+ඈත් වෙලා ඉන්න නැත්තම් ඔයාට මට මොනවද කරන්න පුලුවන්
+මම හිතන්නේ ඔයා නිතරම තරහෙන් ඉන්නේ මම වැඩ ඇරිලා ඔයා කාර්යබහුල වෙලා ඉන්නකොට විතරයි
+නැත්නම් අද රෑ කතා කරන්න එපා
+හැමදාම රෑට අද රෑ තනියම
+ප්‍රසිද්ධ වෙන්න මට කමක් නෑ කවුද අකමැති කියලා
+ඔබේ සැබෑ නම වේටර්වරියක් වීම වරදක් නොවේ
+මමත් මේ මෝඩ පැරණි නගරයට ආදරෙයි එය ඝෝෂාකාරීයි එය ගඳයි එය කඩා වැටෙනවා එය නිවසයි
+මම චිකාගෝ හෝ නිව් යෝර්ක් යාමට පිටත්ව යාමට සිතුවෙමි, නමුත් අපට නොලැබෙන ඔවුන් සතුව ඇත්තේ කුමක්ද
+අපි ශූරයන් නැවත පැමිනීමට යන්නේ නැති බවත් එය සිදු වූ විට මට මෙහි සිටීමට අවශ්‍ය බවත් ඔවුන් සතුව ඇත්තේ කුමක්ද
+ශූරයා ආපසු පැන්නේය, එය මා කරන විට මට මෙහි සිටීමට අවශ්‍යය
+මටත් ඔයා දැන් ගොඩක් තරහා නෑ වගේ
+මට අවශ්‍ය සුපිරි වීරයෙක් වීමටයි, මම අදහස් කරන්නේ නයිට් රෝයි යන්නයි
+ඒ මම මොනිකා ඔයා කොහෙද
+ෆ්‍රැන්කන්ස්ටයින් මධ්‍යස්ථානයේදී ඔබට එතැනින් ඉවත් විය නොහැකිද?
+ඔතනින් යන්න එපා මම ඇතුලට යනවා
+මම ඇතුලට යනවා ඔයා මොනවද කතා කරන්නේ
+ඔබ මරා දැමුවහොත්, අවම වශයෙන් මම නිවැරදි උත්සාහයෙන් මිය යනු ඇත
+ඉතින් ඔයා කොහොමද දන්නේ ඔයා කවදාවත් අදෘශ්‍යමාන වෙලා කියලා මම දන්නවා
+එන්න යාලුවනේ අපි නරක යහපතට හෝ අයහපතට එරෙහිව සටන් කරනවා මොකක්ද වෙනස
+ඔබ sphinx වන අතර ඔබ මෝඩයෙකි
+ප්‍රඥාවන්ත සර්පයා පහර දීමට පෙර දඟර ගසන අතර කඳක් ගඳ ගසයි
+ඔබ එම වෙස්මුහුණ ගලවන්නේ කවදාද යන්න ඔබ ඕනෑවට වඩා බොනවා
+මම මිතුරන් අතර සිටින බව මට විශ්වාස වූ විට ඔබ එම වෙස් මුහුණ ගලවන්නේ කවදාද?
+ඔබේ කෝපය ඉතා විශාල බලයක් නමුත් එය ඔබේ හදවතට ඔබව අන්ධ කරයි මගේ හදවත බොහෝ කලකට පෙර මිය ගියේය
+මගේ හදවත මිය ගොස් බොහෝ කලකට පෙර එය මිය ගොස් නැත එය සැඟවී ඇත
+එයාට තනියම ඉන්න දෙන්න එයා එයාගේ අම්මා ඔයාගේ නෙවෙයි අපිට නිවාඩුවක් තිබ්බේ එච්චරයි
+අපිට විවේක රාත්‍රියක් තිබුණා, ඉතින් අපි කවද්ද රාත්‍රිය ගතකරන්නේ
+ඔබ කතා කරන්නේ ප්‍රසිද්ධ සුපිරි වීරයන්ට අපට නොලැබුණු දේ ගැනයි
+ඔව් ඔව් ඒකත් කරන එක තමයි හරි දේ
+මම මෙයට කැමතියි මම කියන්නේ අපි වචනය යවා අප දන්නා නො���ැලපෙන සියලුම සුපිරි වීරයන් කැඳවන්නෙමු
+ඔබ ඔහුව දැක තිබේද ඔහු අදෘශ්‍යමාන නම් මම ඔහුව දකින්නේ කෙසේද?
+ඔහු නොපෙනෙන හොඳ කරුණක් නම් මම ඔහුව දකින්නේ කෙසේද?
+මම විශ්වාස කළ විශාල වෙනසක් ඇත, දැන් මට එතරම් විශ්වාස නැත
+ඔයා දන්නවද ඒ මිනිස්සු ඇත්තටම මාව අවුස්සන්න පටන් අරන් නමුත් තවම ඉන්නේ අපි හය දෙනෙක් විතරයි
+ඒත් තවම ඉන්නේ අපි හය දෙනයි ඉතින් මොකද
+ඉතින් සුපර්මෑන්ට තව මොනවද ලැබුනේ ඔහු සුපිරි මිනිසා බව ඔහුට වැටහෙනවා
+මෙම ස්ථානය බලකොටුවක් මෙන් ඉදිකර ඇත්තේ එය නිසාය
+පිස්සු හැදෙනවා, නමුත් මට එය දැනෙන්නේ නැහැ
+ඔයාගේ ස්පයිඩර්මෑන් පෙස් ඩිස්පෙන්සර් හරි ඔයා දිනනවා මට තරහ ගියා මට හොඳටම කේන්ති ගියා
+නමුත් ඇය තවමත් ඔබ එනවද නැද්ද කියා කතා කරයි
+ඔයා එනවද නැද්ද මම එලවන්නම්
+මම රිය පැදවීමට අවස්ථාවක් නොලැබේ
+මාව ආවරණය කරන්න
+ඔහු උපක්‍රමයක් අතපසු කරන්නේ නැත, ඔහු මොන ජරාවක්ද සහ ඔහු ඇත්තටම කවුදැයි කිසිවෙකු නොදනී
+ඔහුගේ ලාන්ස් දඩයම කණ්නාඩි ගලවයි, එය නොපැහැදිලි සමානකමක් ඇත
+නොපැහැදිලි සමානකමක් ඇත නොපැහැදිලි සමානකමක් එය එකම පුද්ගලයා ය
+ඔහු කැසනෝවා ෆ්‍රැන්කන්ස්ටයින් පරාජය කරන තෙක් කිසිවෙකු ඔහු ගැන අසා නැති නමුත් ඔහු දෙස බලා අප දෙස බලන තෙක් අපට විවේකයක් අවශ්‍යයි
+ඔවුන් නිතරම මේ දේවල් පුරවන්නේ ඇයි ඔබට ඒවා ඉරීමකින් තොරව පිටතට ඇද ගත නොහැක මට අද රාත්‍රියේ තවත් දෙබලක අහිමි විය ඇය සැක කරයි මම එය දනිමි
+අද රාත්‍රියේ මට තවත් දෙබලක් අහිමි විය ඇය සැක කරයි මම එය දනිමි ඇයි ඔබ ඇයට නොකියන්නේ
+ඉතින් ඇයි ඔයා එයාට කියන්න එපා මට බෑ කියලා
+මට බැහැ ඇයි බැරි කියලා
+ඇයි නැත්තේ මට බැරි නිසා ඇයට තේරෙන්නේ නැහැ
+ඉතින් ඔබ කුකුළා කවුද කුකුළා
+සමහර විට ඔබ මගේම කන කපා දැමීම වැනි වඩාත් ආදර ප්‍රවේශයක් උත්සාහ කළ යුතුය
+හරියට මගේම කන හෝ මල් කපා ගන්නවා වගේ
+නැත්නම් මල් හෙට හමුවෙමු
+ඔහු ඇතුලට යන බව මම දුටු අතර ඔහු පිටතට නොපැමිණි නමුත් ඒ එකම පුද්ගලයා බව අපි නිසැකවම නොදනිමු
+අපි ගිහින් බලමු
+සමහර විට ඇය හරිද ඔබ බැරෑරුම්ද මෙය අප බලා සිටි විවේකයයි
+සමහර විට ගමනාගමනය ඇති විය හැකි අතර අපි විහිළුවට ලක් කළෙමු, අපි ජීවත් වන්නේ ෆැන්ටසියක බව කිසිවෙකු පෙන්වන්නේ නැත
+රෝයි මතක තබා ගන්න, ඒ සියල්ල ඔබගේ බලය තුළ ඇති බව ඔබේ මාර්ගයට ඇති එකම දෙය ඔබ වහන්ස
+ඉතින් ඔහු තවමත් සොරකම් නොකළ කලාව කොහෙද?
+මොකක්ද ඒක එන්නෙ
+ඔහු ��ම්පූර්ණයෙන්ම සාමාන්‍ය පුද්ගලයෙකු බවට පත් වී ඇත සාමාන්‍ය දෙය සාමාන්‍ය දෙයක් තිබේද එය එසේ නම් අප එය දැන ගන්නේ කෙසේද?
+මකා දමන්නන් තුරන් කරන්නන්
+ගිනි බලය ඕනෑම කෙනෙකුට ඕනෑම මුදලක් වැය වේ
+ඔව් ඔබි වන් හේ එයා ගියා
+ඔයාලා ඇඳුම් සාදයකට යනවා අපි සුපිරි වීරයෝ
+අපි ඇත්තටම කැප්ටන් වගේ සුපිරි වීරයෝ වගේ
+ඔබ තවමත් ප්‍රසිද්ධ නැද්ද?
+තාම නෑ ඉතින් ඔයා අරගල කරන සුපිරි වීරයෝ වගේ
+එබැවින් ඔබ අරගල කරන සුපිරි වීරයන් වැනි ය
+සාමාන්‍යයෙන් සුපිරි බලවතෙක් යනු ඉන්ද්‍රජාලික දායාදයක් හෝ ඔහුගේ නඩුවේදී විශිෂ්ට දක්ෂතාවයක් වන අතර එය සම්පූර්ණයෙන්ම චිත්තවේගීය වේ, එබැවින් මට ඔබට ලබා ගත හැක්කේ කුමක්ද?
+ඉතින් මධ්‍යම දුර්ලභ අමුවෙන් මම ඔබට බර්ගර් ලබා ගත හැක්කේ කුමක්ද?
+ජෙෆ්රි ඔහ් හායි අම්මා
+අනේ අම්මේ ඔයා රිදී ලාච්චුවේ මොනවද කරන්නේ
+ඔබ රිදී ලාච්චුවේ රූපවාහිනී මාර්ගෝපදේශකය සොයමින් සිටින්නේ කුමක්ද?
+එය රූපවාහිනියේ ඇත්ත වශයෙන්ම මම එතරම් මෝඩයෙක්, ස්තූතියි මමී
+ජෙෆ්රි ඔයා හොරා අම්මේ ඔයා හිතන දේ නෙවෙයි
+අම්මේ ඔයා හිතන දේ නෙවෙයි ඇයි ඔයා ඔය මෝඩ ඇඳුම ඇඳගෙන ඉන්නේ
+මම සුපිරි වීරයෙක් නිසා ඇයි ඔයා ඔය මෝඩ ඇඳුම ඇඳගෙන ඉන්නේ
+නමුත් රිදී භාණ්ඩ මම නපුරට එරෙහිව සටන් කිරීමට භාවිතා කරමි
+නපුරු ජෙෆ්රි සමඟ සටන් කිරීමට මම එය භාවිතා කරමි, මෙය විශිෂ්ටයි
+මම නිතරම දැනගෙන හිටියා ඔයා විශේෂ කෙනෙක් කියලා
+ඔයා පොඩි කාලේ ඉඳන්ම මාත් එක්ක ආවා
+අපි ලෙවකන අතර ඔහුට පැටවුන් ලැබේ
+ඇය අනිවාර්යයෙන්ම ඔබට කැමතියි
+අනිවාර්යයෙන්ම ඇයගෙන් විමසන්න
+ඔවුන් කවුද මේ නරකයි
+කවුද ඒ ඩිස්කෝ කොල්ලෝ
+අපි අපේ ඔළුවට උඩින් යනවා ඇති මේක සුපර්මෑන් ගේ වැඩක් වගේ
+මෙය සුපර්මෑන් හෝ බැට්මෑන් සඳහා රැකියාවක් ලෙස පෙනේ
+හෝ බැට්මෑන් හෝ දෙකම
+කට වහගෙන මෝහිකයෙක් වෙන්න
+මට මේ ඥාති සහෝදරයා ලැබිය යුතුද ඔහු සැබෑ ඩූෆස් නමුත් ඔහු කියා සිටින්නේ ඔහුට අදෘශ්‍යමාන විය හැකි බවයි
+ඒ වගේම sphinx the who ඉන්නවා
+ඔහු ජනප්‍රිය වෙස්මුහුණු පැළඳ මෙක්සිකානු අපරාධ සටන් කරන සුපිරි මල්ලවපොර ක්‍රීඩකයෙකු සහ මැචෙට් හි ප්‍රධානියෙකි
+සහ සමාජ ජීවිතය ඔව් නමුත් අපි ඔවුන් වෙත යන්නේ කෙසේද
+ඔහු තවමත් මෙහි ජීවත් වන බව ඔබට විශ්වාසද ඔහු තවමත් ජීවතුන් අතර සිටින බව ඔබට විශ්වාසද?
+නමුත් ඩොක්ටර් කොහෙද මැෂින් තුවක්කු බසූකා
+ඔහු කැසනෝවා විනාශ කර වංචාකරුවන්ට බඩු අසුරා යැවූ අතර එ���ැන් පටන් මෙය ජීවත් වීමට ඉතා හොඳ තැනක් විය
+සමහර විට අපි එම ස්ථානය පරීක්ෂා කිරීමට කාලය පැමිණ ඇත, නමුත් අපි ඇතුල් වන්නේ කෙසේද?
+එය ඉතා ආසන්න නමුත් අපට එහි සිදුවන්නේ කුමක්දැයි සොයා බැලිය යුතුය
+අපි සියදිවි නසාගැනීම් වලින් එකකට විස්සක් ඉක්මවා ගියෙමු
+එය ඔහු සමඟ හෝ නැතිව අපට යා යුතු කාලයයි
+ගෑරුප්පු අප සමඟ වේවා අපි ඔසවන්නෙමු
+මම එහි යන්නේ කොතැනටද?
+මම ඔබේ මහිමය නම් කොන්දේසි ස්ථාපිත කර නොමැති සාකච්ඡා මූලධර්මය පිළිගැනීමට මම තීරණය කළෙමි, මම විරුද්ධ මතයක් ඉදිරිපත් කිරීමට කැමැත්තෙමි
+මම ඔබේ මහිමය නම්, ජෙනරාල් කුටුසොව්ට විරුද්ධ මතයක් ඉදිරිපත් කිරීමට කැමැත්තෙමි, ඔබ කැමති දෙයක් පැවසීමට නිදහස් වන්න
+මම ඔබේ සහතිකය පිළිගන්නවා නමුත් මම බයයි ඔබේ අදහස මට නොපෙනේ ඔබේ මහිමය මට සමාවෙන්න මම එය කිරීමට සූදානම්ව සිටිමි
+මට සමාවෙන්න, ඔබේ මහිමය මම එය කිරීමට සූදානම්, ඔව් ඉදිරියට යන්න
+ඔබ ඇලෙක්සැන්ඩර් හමුවීමට ලැබීම ඇත්තෙන්ම මොනතරම් සතුටක්ද සහ මොනතරම් ප්‍රසන්න අදහසක්ද?
+සහ ඔබ අනුමත කරන්නේ මොනතරම් රසවත් අදහසක්ද?
+අහ් ඔබ අනුමත කරනවා මම හිතන්නේ එය සම්පූර්ණයෙන්ම ආකර්ශනීයයි
+මම හිතන්නේ එය අතිශයින්ම ආකර්ශනීයයි ඔබ එයට කැමති වීම ගැන මම සතුටු වෙමි
+ඔබට කුමන අදහසක් යෝජනා කළත් ඔබ එයට කැමති වීම ගැන මම සතුටු වෙමි
+අනේ මගේ ආදරණීය නැපෝලියන් සමහර වෙලාවට මට හිතෙනවා මම ඇත්තටම අධිරාජ්‍යයෙක් නෙවෙයි කියලා ඔයා අදහස් කරන්නේ ඔයා වගේ
+ඔබ අදහස් කරන්නේ මම යුද්ධය ගැන කිසිවක් නොදන්නා අතර මම තවමත් මගේ ජෙනරාල්වරුන් මත සම්පූර්ණයෙන්ම රඳා සිටිමි
+ඔව් කවුද කතා කළේ සර්
+ඔව් කපිතාන්, ඔබට කියන්නට අවශ්‍ය ඕනෑම දෙයක් තිබේද, මම පුරවැසි බරාස් කරමි
+ඔව්, සියලු ගෞරවයෙන් මම පුරවැසි බරාස් කරුණාකර කරමි
+කරුණාකර මට සිතියමට එන්න පුළුවන්
+ආහ් මගේ හිතවත් මිත්‍රයා ඇතුලට එන්න කරුණාකරලා වාඩි වෙන්න මට සමාවෙන්න මම රංග ශාලාවේ සිටි අතර මම නැවත මගේ හෝටලයට එනතුරු ඔබගේ සටහන මට ලැබුනේ නැහැ
+මට සමාවෙන්න මම රඟහලේ සිටි අතර මම නැවත මගේ හෝටලයට පැමිණෙන තෙක් ඔබේ සටහන මට නොලැබුනේය
+ආවට ස්තුතියි ඔබ බීමක් ගැන සැලකිලිමත් වෙනවාද, ස්තුතියි
+අපගේ නවතම දුෂ්කරතා ගැන මම ඔබට පැවසිය යුතු නැත, මම කිව යුතු දේ ඉතා බරපතල ය
+සම්පූර්ණයෙන්ම අවංක වීමට ඔබේ මනසේ ඇත්තේ කුමක්ද, මට නොපැහැදිලි අදහසක් නොමැත
+සම්පුර්ණයෙන්ම අවංකව කිවහොත්, ඔබ බැරෑරුම්ද යන නොපැහැදිලි අදහස මට නැත
+ඔබ බැරෑරුම්ද, ආරක්ෂාවක් කළ හැකිද යන්නවත් මම නොදනිමි
+ආරක්‍ෂාවක් කළ හැකිදැයි මම නොදනිමි, ඔබ සතුව ඇති බලවේග මොනවාද?
+භටයන් 5000 ක් පමණ ඔබ සතුව ඇති බලවේග මොනවාද?
+5000 ක පමණ භට පිරිසක් අශ්වාරෝහක
+අශ්වාරෝහක 21 වන මකරුන් දෙසිය තුන්සියයක් පමණ සෙබළුන්
+21 වන මකරුන් දෙසිය හෝ තුන්සීයක් පමණ භට පිරිස් ඕනෑම කාලතුවක්කුවකි
+ඕනෑම කාලතුවක්කුවක් මෙහි නැත
+ඔවුන් සිටින තැන මෙහි කිසිවෙක් නැත
+ඔවුන් හොඳින් සිටින්නේ කොහිදැයි මම විශ්වාස කරමි අවම වශයෙන් තුවක්කු 30ක්වත් සැබ්ලෝන්වල තිබේ
+හොඳයි, මම විශ්වාස කරනවා සැබ්ලෝන්වල අවම වශයෙන් තුවක්කු 30 ක්වත් ඇති බව ඔබට ඒවා දිවා කාලයේදී මෙහි තබා ගත හැකිය
+ඔබට ඔවුන්ව අලුයම වන විට මෙහි රැගෙන යා හැකිය, මිනිසුන් 40,000කට විරුද්ධ වීමට මෙය ප්‍රමාණවත් වේ
+මිනිසුන් 40,000කට විරුද්ධ වීමට මෙය ප්‍රමාණවත්ද ඔව්
+නිසි ලෙස සකස් කර ඇත ඔව් මේවා 8 සිට 1 දක්වා සමානුපාතික වේ
+ඔබ සෑම ප්‍රායෝගික අර්ථයකින්ම මට විධානය පැවරීමට යෝජනා කරනවාද ඔව් නමුත් නිල වශයෙන් මට විධානය රඳවා ගැනීමට සිදුවේ
+ඔබ මට විධානය මාරු කිරීමට යෝජනා කරන්නේ මා වෙනුවෙන් මෙය හැසිරවීමට ඔබ සූදානම්ද?
+සෑම ප්‍රායෝගික අර්ථයකින්ම ඔව් නමුත් නිල වශයෙන් ඇත්ත වශයෙන්ම මට සාධාරණ ලෙස විධානය රඳවා ගැනීමට සිදුවේ
+මම අපහාස කළේ නැහැ ඔබ අවදානමට ලක්ව ඇති දේ තේරුම් ගන්න
+මගේ වෘත්තියේ විප්ලවය අපේ ජීවිතයට තර්ජනයක් වන දේ ඔබට වැටහෙනවා
+හොඳයි බෙලියර්ඩ් මොකක්ද ඔයා මෙතන කරන්නේ මොකක්ද සතුරා ඔවුන් පැරිස් සර්ගේ ගේට්ටුව ළඟ
+ඔවුන් සිටින්නේ පැරිස් සර්ගේ ගේට්ටුවේ සහ හමුදාව කොහෙද
+කෝ හමුදාව මේ පාරේ ඉන්නේ සර් මගේ පස්සෙන්
+මේ පාරේ තමයි සර් මගේ පස්සෙන් ඇවිත් පැරිස් ආරක්ෂා කරන්නේ
+පැරිස් යටත් වී ඇත, මම එය විශ්වාස නොකරමි, අවාසනාවන්ත ලෙස එය ඇත්ත සර්
+අවාසනාවට එය ඇත්ත සර් නමුත් මගේ බිරිඳ සහ පුතා කෝ ඔවුන්ට මොකද වුණේ මාමොන්ට් කොහෙද මෝටියර්
+මගේ බිරිඳ සහ පුතා පැරිසියෙන් එව්වේ කවුද මම දන්නේ නැහැ සර්
+මම දන්නේ නැහැ සර් සහ ජෝසප් කොහෙද කියලා
+ජෝසප් කොහෙද ඉන්නේ කියලා මම දන්නේ නැහැ ජෝසප් කුමාරයාට මොනවා වෙලාද කියලා
+නමුත් ඇයට හොඳම වෛද්‍යවරුන් සිටියාද ඇයව බේරාගැනීමට කිසිඳු අවස්ථාවක් නොතිබුනේද මම දන්නේ නැහැ සර් ඇයට සාර්ගේ පෞද්ගලික වෛද්‍යවරයා සිටියා
+කවුද ඉන්නේ bertrand sir
+බර්ට්‍රන්ඩ් සර් මට ද��න් ජෝසෆින් ගැන වඩාත්ම පැහැදිලි සිහිනයක් තිබුණා
+මම දැන් ජෝසෆින් ගැන වඩාත් පැහැදිලි සිහිනයක් දුටුවෙමි ඔව් සර්
+ජෙනරල් බොනපාට් පැයකින් ආපහු එනවා
+ඔබ මගේ සොහොයුරා ජෝසප් බොනපාට් සහ මගේ සහායක මේජර් ජූනොට් සමඟ හඳුනන බව මම විශ්වාස කරමි ඔව් සර් පැරිසියේ සිට පැමිණි ගමනේදී ඔවුන් හමුවීමේ ගෞරවය මට හිමි විය
+කපිතාන් චාල්ස් මම විශ්වාස කරනවා ඔබ සාමාන්‍ය ලිපිකරුගේ සහායකයෙකු බව මම විශ්වාස කරමි ඔව් සර් මම
+ඔව් සර් මම තමයි මැඩම් බොනපාට් ගේ පුහුණුකරු කැටුව ගිය පරිවාර හමුදාවට අණ දීමට ඔබට පැවරුවේ ඔහු ය
+මැඩම් බොනපාට්ගේ පුහුණුකරු ඔව් සර් සමඟ පැමිණි පරිවාර හමුදාවට අණ දීමට ඔබට පැවරුවේ ඔහුද
+ඒ ගමන හැම අතින්ම සාමාන්‍ය දෙයක්. ඔව් සර්
+ඔව් සර් ගමනේදී යම් ආකාරයක දුෂ්කරතා ඇති වුණාද?
+ගමන අතරතුර කිසියම් ආකාරයක දුෂ්කරතා ඇති වූයේද සර් කිසිවෙක් නැත
+ස්තුතියි සර් මම කරන්නම් ඔයාට යන්න පුළුවන් කැප්ටන් චාල්ස්
+ඔව් සර් කරුණාකර ෂැම්පේන් වීදුරුවක්
+ෂැම්පේන් වීදුරුවක් කරුණාකර ඔව් සර් ජෙනරාල් බොනපාට්ගෙන් ඇසීම ගැන ඔබ මට සමාව දෙනු ඇතැයි මම බලාපොරොත්තු වෙමි නමුත් ඔබ කෝර්සිකානු ද
+ඔව් සර් ජෙනරල් බොනපාට්ගෙන් ඇසීම ගැන ඔබ මට සමාව දෙනු ඇතැයි මම බලාපොරොත්තු වෙමි නමුත් ඔබ කෝර්සිකානු ද ඔව් මම
+ඔව් මම හිතුවා ඉතින් මම ඔයාගෙ නම දැක්කා ඔයාව ප්‍රකාශ කලාම මමත් corsican කියලා මගේ නම Arena
+මම හිතුවා ඔයාව ප්‍රකාශ කරනකොටම මම ඔයාගේ නම දැක්කා මමත් කෝර්සිකන් කියලා මගේ නම අරීනා ඔහ් ඔයා කොහෙන්ද එන්නේ
+ඔහ් ඔයා කොහෙන්ද බැස්ටියා සහ ඔයා
+bastia සහ ඔබ ajaccio
+ajaccio ඔබ මෑතකදී නැවත පැමිණ තිබේද?
+මම අවුරුදු තුනක් තිස්සේ එහි නොසිටියෙමි, මම වසර දහයකින් ආපසු පැමිණ නැත, ඔබේ පවුල තවමත් එහි සිටී
+මම අවුරුදු දහයකින් ආපහු ආවේ නැහැ ඔයාගේ පවුල තවමත් එතන නැහැ ඔවුන් දැන් ලස්සනට ජීවත් වෙනවා
+නැහැ ඔවුන් දැන් ලස්සන නගරයක ජීවත් වෙනවා, මේ ඔබ මෙහි පැමිණි පළමු අවස්ථාවයි
+එය ලස්සන නගරයක් මෙය ඔබගේ පළමු අවස්ථාව මෙය නොවේද ඇත්ත වශයෙන්ම එය එසේය
+ඔව්, ඇත්ත වශයෙන්ම, පුරවැසි බාරාස් මිතුරන් බොහෝ දෙනෙක් ඔබ නොදනිති
+ඔබ බොහෝ පුරවැසි බැරාස් මිතුරන්ව දන්නේ නැහැ නේද?
+අහ්හ්හ් නෑ මම හිතුවා මුළු රෑම මම ඔයාව දැක්කේ නැහැ කියලා
+ආයුබෝවන් picart ah Didier ඔබ ජීවතුන් අතර
+අහ් ඩිඩියර් ඔබ ජීවතුන් අතර ඇයි ඔබ බල්ලා රැගෙන යන්නේ
+ඇයි ඔබ බල්ලා උසුලාගෙන යන්නේ ඔහුගේ දෙපා කැටි වී ඔහුට ඇවිදීමට නොහැකිය
+ඔහුගේ දෙපා ශීත වී ඇති අතර ඔබ ඔහුව අනුභව කරන විට ඔහුට ඇවිදීමට නොහැකිය
+ඔබ ඔහුව කන විට මට මගේ දෙවියනේ ටිකක් ලැබේවා ඔබ මවුටන් අපේ රෙජිමේන්තු බල්ලා අඳුරන්නේ නැද්ද මම කොසැක් කන්න කැමතියි
+දෙයියනේ වෙලාව හතරයි
+පැය හතරයි දෙයියනේ මොන ගින්නක්ද
+කවද්ද පටන් ගත්තෙ මුල්ම වාර්තා දහයට විතර ආවා
+දහයට විතර මුල්ම වාර්තා ආවා ඔයා ඇයි මාව ඇහැරෙව්වේ නැත්තේ
+ඔබ මාව අවදි නොකළේ ඇයි? මුලදී එය සාමාන්‍ය ගින්නකට වඩා වැඩි දෙයක් ලෙස පෙනෙන්නට නොතිබුණි
+මුලදී එය සාමාන්‍ය ගින්නකට වඩා වැඩි යමක් පෙනුනේ එය මෙතරම් ඉක්මනින් පැතිර ගියේ කෙසේද යන්නයි
+එය මෙතරම් ඉක්මනින් පැතිර ගියේ කෙසේද යන්න ගිනි අවුලුවන අයගේ වැඩකි
+ඕනෑම කොල්ලයකට ජීවිතයෙන් පිළිතුරු දෙන බව මම මෝටියර්ට කීවෙමි එය ගිනිදැල් කරුවන්ගේ වැඩක්
+මම මෝර්ටියර්ට කීවේ රුසියානුවන් විසින් ආරම්භ කර ඇති ඕනෑම කොල්ලකෑමක් සඳහා ඔහු සිය ජීවිතයෙන් පිළිතුරු දෙන බවයි
+අපේ භටයින්ට මේ සඳහා කිසිදු කොටසක් නොමැත, එය රුසියානුවන් විසින් ආරම්භ කරන ලද්දකි, මම එය විශ්වාස නොකරමි
+good skys ambassador මොකද වෙලා තියෙන්නේ සුබ සන්ධ්‍යාවක් මගේ ආදරණීය ඩුරොක් මම බයයි මම දඩයම් කරන්න ගිහින් මට තරමක් නරක වැටීමක් ඇති වුනා
+ආහ් සුභ සන්ධ්‍යාවක් මගේ ආදරණීය ඩුරොක් මම දඩයම් කිරීමට ගොස් ඇති අතර මට තරමක් නරක වැටීමක් සිදුවී ඇතැයි මම බිය වෙමි, ඇත්ත වශයෙන්ම ඔබට තානාපතිවරයෙක් සිටීද ඔබ වෛද්‍යවරයකු වෙත යවා තිබේද
+අධිරාජ්‍යයා ඔබේ ආදිපාදවරිය වන මාරි ලුයිස් සමඟ විවාහ වීමට තීරණය කර ඇත
+සුබ උදෑසනක් පුරවැසියා de beauharnais සුබ උදෑසනක් සර් ඔබ ජෙනරාල් බොනපාට් ද?
+සුභ උදෑසනක් සර් ඔබ ජෙනරාල් බොනපාට් ද මම පුරවැසියෙක් ඔබේ මව ජෝසෆින් ද බියුහාර්නායිස් මැඩම්
+මම පුරවැසියෙක් ඔබේ මව ජෝසෆින් ද බියුහාර්නයිස් මැඩම් ඔව් සර් ඔබ ඇයව හඳුනනවාද
+ඔව් මහත්මයා ඔබ ඇයව හඳුනනවාද මට ඇයව මුණගැසුණා ඔබ මා සමඟ කරන ව්‍යාපාරය කුමක්ද?
+ඔහු ඔබව මා වෙත එව්වේ ඔබ හැර අන් කිසිවකුට එම නියෝගය අවලංගු කිරීමට බලයක් නොමැති බවයි
+ඔබ පැමිණි බව ඔබේ මව දන්නවා ඔබ හැර නියෝගය අවලංගු කිරීමට කිසිවෙකුට බලයක් නොමැති බව ඔහු පැවසීය
+අම්මා දන්නවද සර් ඔයා ආවා කියලා
+නෑ සර් හොඳයි එහෙනම් ඔයාට ගොඩක් මුලපිරීමක් තියෙනවා මගේ තරුණ මිත්‍රයා
+එසේනම් ඔබට බොහෝ මුලපිරීමක් තිබේ මගේ තරුණ මිතුරා මගේ පියාගේ කඩුව යනු මා සතු වෙනත් ඕනෑම සන්තකයකට වඩා වැඩි යමක් අදහස් කරයි
+අහෝ මගේ ආදරණීය ෆ්‍රැන්සිස්, අවසානයේ ඔබව හමුවීම කොතරම් සැබෑ සතුටක්ද, අපගේ හමුවීම බොහෝ කලකට පසු නැපෝලියන් වෙතැයි මම බිය වෙමි
+ඔබ එය ඉතා විශිෂ්ට ලෙස භාවිතා කර ඇති බව මම සිතමි, ඔබ එය අත්හැරීමට අකමැති වනු ඇත, අපි ගින්නට සමීප වෙමු
+අපි ගින්න ළඟට යමුද ඔව් විශිෂ්ට අදහසක්
+ඇලෙක්සැන්ඩර් ළඟදීම අපිත් එක්ක එකතු වෙයිද කියලා මට ගොඩක් සැකයි
+මගේ ආදරණීය ෆ්‍රැන්සිස් ඔබ ඉතා අපහසුතාවයට පත් වී ඇති බව පෙනේ, මම ටිකක් යැයි බිය වෙමි
+මම බයයි මම ටිකක් ඔයා බ්‍රැන්ඩි වලට කැමති වෙයිද කියලා
+ඔබ බ්රැන්ඩි ටිකක් කැමතිද ස්තුතියි
+ස්තූතියි මම ගින්න ගොඩනඟා ගන්නෙමි
+ස්තූතියි නැපෝලියන් ෆ්‍රැන්සිස් ඔබ උණුසුම් ශීත යට ඇඳුම් අඳින්නේදැයි මම අසමි
+සුභ සන්ධ්‍යාවක් සර් සුබ සන්ධ්‍යාවක් මේඩ්මොයිසෙල්
+කාලගුණය භයානකයි නේද සර් ඔව් එය මේ ශීත ඍතුවේ අප ගත කළ නරකම රාත්‍රියක් විය යුතුය
+ඔව්, එය මේ ශීත ඍතුවේ අප ගත කළ නරකම රාත්‍රියක් විය යුතුය, ඔව් එය විය යුතුය
+ඔබ මේ ආකාරයට දොරෙන් පිටත සිට ඇටකටු වලට සිසිල් විය යුතුය ඔව් මම සර්

debug_load.py ADDED Viewed

	@@ -0,0 +1,26 @@

+# debug_load.py
+import torch
+from transformers import AutoTokenizer, M2M100ForConditionalGeneration
+# --- Configuration ---
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+nepali_model_path = r"D:\SIH\saksi_translation\models\nllb-finetuned-nepali-en"
+# --- Tokenizer Loading ---
+print("Loading Nepali tokenizer...")
+try:
+    nepali_tokenizer = AutoTokenizer.from_pretrained(nepali_model_path)
+    print("Nepali tokenizer loaded successfully.")
+    print(nepali_tokenizer)
+except Exception as e:
+    print(f"Error loading Nepali tokenizer: {e}")
+# --- Model Loading ---
+print("\nLoading Nepali model...")
+try:
+    nepali_model = M2M100ForConditionalGeneration.from_pretrained(nepali_model_path).to(DEVICE)
+    print("Nepali model loaded successfully.")
+    print(nepali_model)
+except Exception as e:
+    print(f"Error loading Nepali model: {e}")

fast_api.py ADDED Viewed

	@@ -0,0 +1,214 @@

+"""
+A FastAPI application for serving the translation model, inspired by interactive_translate.py.
+"""
+import torch
+from transformers import M2M100ForConditionalGeneration, NllbTokenizer
+from fastapi import FastAPI, HTTPException, UploadFile, File
+from fastapi.staticfiles import StaticFiles
+from fastapi.responses import FileResponse
+from pydantic import BaseModel
+import logging
+from typing import List
+import fitz  # PyMuPDF
+import shutil
+import os
+# --- 1. App Configuration ---
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+app = FastAPI(
+    title="Saksi Translation API",
+    description="A simple API for translating text and PDFs to English.",
+    version="2.0",
+)
+app.mount("/frontend", StaticFiles(directory="frontend"), name="frontend")
+# --- 2. Global Variables ---
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+SUPPORTED_LANGUAGES = {
+    "nepali": "nep_Npan",
+    "sinhala": "sin_Sinh",
+}
+MODEL_PATH = "models/nllb-finetuned-nepali-en"
+model = None
+tokenizer = None
+# --- 3. Pydantic Models ---
+class TranslationRequest(BaseModel):
+    text: str
+    source_language: str
+class TranslationResponse(BaseModel):
+    original_text: str
+    translated_text: str
+    source_language: str
+class BatchTranslationRequest(BaseModel):
+    texts: List[str]
+    source_language: str
+class BatchTranslationResponse(BaseModel):
+    original_texts: List[str]
+    translated_texts: List[str]
+    source_language: str
+class PdfTranslationResponse(BaseModel):
+    filename: str
+    translated_text: str
+    source_language: str
+# --- 4. Helper Functions ---
+def load_model_and_tokenizer(model_path):
+    """Loads the model and tokenizer from the given path."""
+    global model, tokenizer
+    logger.info(f"Loading model on {DEVICE.upper()}...")
+    try:
+        model = M2M100ForConditionalGeneration.from_pretrained(model_path).to(DEVICE)
+        tokenizer = NllbTokenizer.from_pretrained(model_path)
+        logger.info("Model and tokenizer loaded successfully!")
+    except Exception as e:
+        logger.error(f"Error loading model: {e}")
+        # In a real app, you might want to exit or handle this more gracefully
+        raise
+def translate_text(text: str, src_lang: str) -> str:
+    """
+    Translates a single string of text to English.
+    """
+    if src_lang not in SUPPORTED_LANGUAGES:
+        raise ValueError(f"Language '{src_lang}' not supported.")
+    tokenizer.src_lang = SUPPORTED_LANGUAGES[src_lang]
+    inputs = tokenizer(text, return_tensors="pt").to(DEVICE)
+    generated_tokens = model.generate(
+        **inputs,
+        forced_bos_token_id=tokenizer.convert_tokens_to_ids("eng_Latn"),
+        max_length=128,
+    )
+    return tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
+def batch_translate_text(texts: List[str], src_lang: str) -> List[str]:
+    """
+    Translates a batch of texts to English.
+    """
+    if src_lang not in SUPPORTED_LANGUAGES:
+        raise ValueError(f"Language '{src_lang}' not supported.")
+    tokenizer.src_lang = SUPPORTED_LANGUAGES[src_lang]
+    # We use padding=True to handle batches of different lengths
+    inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True, max_length=512).to(DEVICE)
+    generated_tokens = model.generate(
+        **inputs,
+        forced_bos_token_id=tokenizer.convert_tokens_to_ids("eng_Latn"),
+        max_length=512, # Allow for longer generated sequences in batches
+    )
+    return tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
+# --- 5. API Events ---
+@app.on_event("startup")
+async def startup_event():
+    """Load the model at startup."""
+    load_model_and_tokenizer(MODEL_PATH)
+# --- 6. API Endpoints ---
+@app.get("/")
+async def root():
+    """Returns the frontend."""
+    return FileResponse('frontend/index.html')
+@app.get("/languages")
+def get_supported_languages():
+    """Returns a list of supported languages."""
+    return {"supported_languages": list(SUPPORTED_LANGUAGES.keys())}
+@app.post("/translate", response_model=TranslationResponse)
+async def translate(request: TranslationRequest):
+    """Translates a single text from a source language to English."""
+    try:
+        translated_text = translate_text(request.text, request.source_language)
+        return TranslationResponse(
+            original_text=request.text,
+            translated_text=translated_text,
+            source_language=request.source_language,
+        )
+    except ValueError as e:
+        raise HTTPException(status_code=400, detail=str(e))
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"An unexpected error occurred: {e}")
+@app.post("/batch-translate", response_model=BatchTranslationResponse)
+async def batch_translate(request: BatchTranslationRequest):
+    """Translates a batch of texts from a source language to English."""
+    try:
+        translated_texts = batch_translate_text(request.texts, request.source_language)
+        return BatchTranslationResponse(
+            original_texts=request.texts,
+            translated_texts=translated_texts,
+            source_language=request.source_language,
+        )
+    except ValueError as e:
+        raise HTTPException(status_code=400, detail=str(e))
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"An unexpected error occurred: {e}")
+@app.post("/translate-pdf", response_model=PdfTranslationResponse)
+async def translate_pdf(source_language: str, file: UploadFile = File(...)):
+    """Translates a PDF file from a source language to English."""
+    if file.content_type != "application/pdf":
+        raise HTTPException(status_code=400, detail="Invalid file type. Please upload a PDF.")
+    # Save the uploaded file temporarily
+    temp_pdf_path = f"temp_{file.filename}"
+    with open(temp_pdf_path, "wb") as buffer:
+        shutil.copyfileobj(file.file, buffer)
+    try:
+        # Extract text from the PDF
+        doc = fitz.open(temp_pdf_path)
+        extracted_text = ""
+        for page in doc:
+            extracted_text += page.get_text()
+        doc.close()
+        if not extracted_text.strip():
+            raise HTTPException(status_code=400, detail="Could not extract any text from the PDF.")
+        # Split text into chunks (e.g., by paragraph) to handle large texts
+        text_chunks = [p.strip() for p in extracted_text.split('\n') if p.strip()]
+        # Translate the chunks in batches
+        translated_chunks = batch_translate_text(text_chunks, source_language)
+        # Join the translated chunks back together
+        final_translation = "\n".join(translated_chunks)
+        return PdfTranslationResponse(
+            filename=file.filename,
+            translated_text=final_translation,
+            source_language=source_language,
+        )
+    except Exception as e:
+        logger.error(f"Error processing PDF: {e}")
+        raise HTTPException(status_code=500, detail=f"An error occurred while processing the PDF: {e}")
+    finally:
+        # Clean up the temporary file
+        if os.path.exists(temp_pdf_path):
+            os.remove(temp_pdf_path)
+# --- 7. Example Usage (for running with uvicorn) ---
+# To run this API, use the following command in your terminal:
+# uvicorn fast_api:app --reload
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=8000)

frontend/WhatsApp Image 2025-10-07 at 12.52.12.jpeg ADDED Viewed

Git LFS Details

SHA256: 2c08ece7b1442d722dfa6d777b0e36e2a26f02cb976e761aa8da0f14bb8cbf0d
Pointer size: 130 Bytes
Size of remote file: 22.9 kB

frontend/backup/index.html ADDED Viewed

	@@ -0,0 +1,23 @@

+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Saksi Translation</title>
+    <link rel="stylesheet" href="/frontend/styles.css">
+    <script src="/frontend/script.js" defer></script>
+</head>
+<body>
+    <div class="container">
+        <h1>Saksi Translation</h1>
+        <textarea id="text-to-translate" rows="5" placeholder="Enter text to translate..."></textarea>
+        <select id="source-language">
+            <option value="nepali">Nepali</option>
+            <option value="sinhala">Sinhala</option>
+        </select>
+        <button id="translate-button">Translate</button>
+        <h2>Translated Text:</h2>
+        <div id="output"></div>
+    </div>
+</body>
+</html>

frontend/backup/script.js ADDED Viewed

	@@ -0,0 +1,42 @@

+document.addEventListener('DOMContentLoaded', () => {
+    const translateButton = document.getElementById('translate-button');
+    const textToTranslate = document.getElementById('text-to-translate');
+    const sourceLanguage = document.getElementById('source-language');
+    const outputDiv = document.getElementById('output');
+    translateButton.addEventListener('click', async () => {
+        const text = textToTranslate.value;
+        const lang = sourceLanguage.value;
+        outputDiv.innerText = "Translating...";
+        if (!text.trim()) {
+            outputDiv.innerText = "Please enter some text to translate.";
+            return;
+        }
+        try {
+            const response = await fetch('/translate', {
+                method: 'POST',
+                headers: {
+                    'Content-Type': 'application/json',
+                    'accept': 'application/json'
+                },
+                body: JSON.stringify({
+                    text: text,
+                    source_language: lang
+                })
+            });
+            if (!response.ok) {
+                const errorData = await response.json();
+                throw new Error(errorData.detail || 'An error occurred');
+            }
+            const data = await response.json();
+            outputDiv.innerText = data.translated_text;
+        } catch (error) {
+            outputDiv.innerText = `Error: ${error.message}`;
+        }
+    });
+});

frontend/backup/styles.css ADDED Viewed

	@@ -0,0 +1,54 @@

+body {
+    font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif;
+    background-color: #f0f2f5;
+    display: flex;
+    justify-content: center;
+    align-items: center;
+    height: 100vh;
+    margin: 0;
+}
+.container {
+    background-color: #fff;
+    padding: 2rem;
+    border-radius: 8px;
+    box-shadow: 0 2px 4px rgba(0, 0, 0, 0.1);
+    width: 100%;
+    max-width: 500px;
+}
+h1 {
+    text-align: center;
+    color: #1c1e21;
+}
+textarea {
+    width: 100%;
+    padding: 0.5rem;
+    border: 1px solid #dddfe2;
+    border-radius: 6px;
+    margin-bottom: 1rem;
+    font-size: 1rem;
+    resize: vertical;
+}
+select, button {
+    width: 100%;
+    padding: 0.75rem;
+    border-radius: 6px;
+    border: 1px solid #dddfe2;
+    font-size: 1rem;
+    margin-bottom: 1rem;
+}
+button {
+    background-color: #1877f2;
+    color: #fff;
+    border: none;
+    cursor: pointer;
+}
+button:hover {
+    background-color: #166fe5;
+}
+#output {
+    margin-top: 1rem;
+    padding: 1rem;
+    background-color: #f0f2f5;
+    border-radius: 6px;
+    min-height: 50px;
+}

frontend/index.html ADDED Viewed

	@@ -0,0 +1,101 @@

+<!DOCTYPE html>
+<html lang="en" data-theme="light">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Anuvaad AI</title>
+    <meta name="description" content="Anuvaad AI - Nepali and Sinhala to English Machine Translation">
+    <link rel="stylesheet" href="/frontend/styles.css">
+    <script src="/frontend/script.js" defer></script>
+    <!-- Preload brand logo for faster first paint -->
+    <link rel="preload" as="image" href="/frontend/public/android-chrome-192x192.png">
+    <link rel="icon" type="image/png" sizes="32x32" href="/frontend/public/favicon-32x32.png">
+    <link rel="icon" type="image/png" sizes="16x16" href="/frontend/public/favicon-16x16.png">
+    <link rel="apple-touch-icon" sizes="180x180" href="/frontend/public/apple-touch-icon.png">
+    <link rel="manifest" href="/frontend/public/site.webmanifest">
+    <!-- Optional larger icons -->
+    <link rel="icon" type="image/png" sizes="192x192" href="/frontend/public/android-chrome-192x192.png">
+    <link rel="icon" type="image/png" sizes="512x512" href="/frontend/public/android-chrome-512x512.png">
+</head>
+<body>
+    <header class="header">
+        <div class="brand">
+            <a href="/" class="brand-link" aria-label="Go to home">
+                <img src="/frontend/public/android-chrome-192x192.png" alt="Anuvaad AI logo" class="brand-logo" width="44" height="44" decoding="async" fetchpriority="high">
+                <span class="brand-text">Anuvaad.ai</span>
+            </a>
+        </div>
+        <div class="tagline">Nepali and Sinhala to English translation</div>
+        <div class="header-actions">
+            <!-- Theme selector in header -->
+            <label for="theme-select" class="sr-only">Theme</label>
+            <select id="theme-select" class="theme-select" aria-label="Theme">
+              <option value="gradient">Gradient (Default)</option>
+              <option value="light">Light</option>
+              <option value="dark">Dark</option>
+              <option value="ocean">Ocean</option>
+              <option value="sunset">Sunset</option>
+              <option value="forest">Forest</option>
+              <option value="rose">Rose</option>
+              <option value="slate">Slate</option>
+            </select>
+            <button id="theme-toggle" class="ghost" aria-label="Toggle theme">Dark mode</button>
+            <!-- Header status indicator -->
+        </div>
+    </header>
+    <main class="container">
+        <div class="grid">
+            <section class="panel">
+                <label for="text-to-translate" class="label">Enter text to translate</label>
+                <textarea id="text-to-translate" rows="10" placeholder="Type or paste text here. For batch translation, enter one sentence per line."></textarea>
+                <div class="controls">
+                    <div class="control">
+                        <label for="source-language" class="label">Source language</label>
+                        <select id="source-language"></select>
+                        <small id="lang-detect-hint" class="hint" aria-live="polite"></small>
+                    </div>
+                    <div class="control toggle">
+                        <label class="checkbox-label">
+                            <input type="checkbox" id="batch-toggle" />
+                            Batch mode
+                        </label>
+                        <small class="hint">Translate multiple lines at once</small>
+                    </div>
+                    <!-- Borrowed words / names correction toggle -->
+                    <div class="control toggle">
+                        <label class="checkbox-label">
+                            <input type="checkbox" id="borrowed-toggle" checked />
+                            Fix borrowed words and names
+                        </label>
+                        <small class="hint">Transliterate and correct English-like names (e.g., Coco Beach)</small>
+                    </div>
+                    <!-- Dataset processing (no data display to users) -->
+                    <div class="control">
+                        <label for="process-data-button" class="label">Dataset processing</label>
+                        <button id="process-data-button" class="ghost" aria-label="Process dataset">Process data</button>
+                        <small id="process-data-status" class="hint" aria-live="polite"></small>
+                    </div>
+                </div>
+                <div class="actions">
+                    <button id="translate-button" class="primary">Translate</button>
+                    <button id="clear-button" class="ghost" aria-label="Clear input">Clear</button>
+                </div>
+            </section>
+            <section class="panel">
+                <div class="panel-header">
+                    <h2>Translated Text</h2>
+                    <div class="panel-actions">
+                        <button id="copy-button" class="ghost" aria-label="Copy output">Copy</button>
+                        <button id="download-button" class="ghost" aria-label="Download output">Download</button>
+                        <button id="share-button" class="ghost" aria-label="Share link">Share</button>
+                    </div>
+                </div>
+                <div id="output" class="output" role="status" aria-live="polite"></div>
+            </section>
+        </div>
+    </main>
+    <footer class="footer">
+        <span>Powered by NLLB and FastAPI</span>
+    </footer>
+</body>
+</html>

frontend/public/android-chrome-192x192.png ADDED Viewed

Git LFS Details

SHA256: 46b61565a60c1f13a93b87896a776b2fb07d18b500fa32195e7c9eafbcb9ba5c
Pointer size: 130 Bytes
Size of remote file: 35.1 kB

frontend/public/android-chrome-512x512.png ADDED Viewed

Git LFS Details

SHA256: 46bd2b1389188ca0c79f00cdddf968941810274b68d3d9c2a14e5fb4ec2d5eb7
Pointer size: 131 Bytes
Size of remote file: 151 kB

frontend/public/apple-touch-icon.png ADDED Viewed

Git LFS Details

SHA256: 397d76b584acf357bf7063d47afa62997332aac8afca741e762900306c488fc8
Pointer size: 130 Bytes
Size of remote file: 31.1 kB

frontend/public/favicon-16x16.png ADDED Viewed

Git LFS Details

SHA256: 10a7961178150a56f4b7280e5ad62332bd077a9511a241dc80eb50c1804f1f6c
Pointer size: 128 Bytes
Size of remote file: 604 Bytes

frontend/public/favicon-32x32.png ADDED Viewed

Git LFS Details

SHA256: effd1248ec518d6e303859f6c54f50a05cfbe6a25332c0eb131edad46c9de4bf
Pointer size: 129 Bytes
Size of remote file: 1.76 kB

frontend/public/favicon.ico ADDED Viewed

Git LFS Details

SHA256: 6b422c04b9000ad2307992f0e558f4b95b82b6c552e29c6bfa4e53e7920eea82
Pointer size: 130 Bytes
Size of remote file: 15.4 kB

frontend/public/site.webmanifest ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"name":"","short_name":"","icons":[{"src":"/android-chrome-192x192.png","sizes":"192x192","type":"image/png"},{"src":"/android-chrome-512x512.png","sizes":"512x512","type":"image/png"}],"theme_color":"#ffffff","background_color":"#ffffff","display":"standalone"}

frontend/script.js ADDED Viewed

	@@ -0,0 +1,337 @@

+document.addEventListener('DOMContentLoaded', async () => {
+    const translateButton = document.getElementById('translate-button');
+    const clearButton = document.getElementById('clear-button');
+    const copyButton = document.getElementById('copy-button');
+    const downloadButton = document.getElementById('download-button');
+    const shareButton = document.getElementById('share-button');
+    const textToTranslate = document.getElementById('text-to-translate');
+    const sourceLanguage = document.getElementById('source-language');
+    const outputDiv = document.getElementById('output');
+    const batchToggle = document.getElementById('batch-toggle');
+    const langDetectHint = document.getElementById('lang-detect-hint');
+    const themeToggle = document.getElementById('theme-toggle');
+    const processDataButton = document.getElementById('process-data-button');
+    const processDataStatus = document.getElementById('process-data-status');
+    // Debounce timer for detection
+    let detectTimer = null;
+    const detectDelay = 250;
+    // Populate languages dynamically
+    try {
+        const langRes = await fetch('/languages');
+        const langData = await langRes.json();
+        const langs = (langData && langData.supported_languages) || ['nepali', 'sinhala'];
+        sourceLanguage.innerHTML = '';
+        langs.forEach(l => {
+            const opt = document.createElement('option');
+            opt.value = l;
+            opt.textContent = l.charAt(0).toUpperCase() + l.slice(1);
+            sourceLanguage.appendChild(opt);
+        });
+    } catch (e) {
+        // Fallback
+        sourceLanguage.innerHTML = '<option value="nepali">Nepali</option><option value="sinhala">Sinhala</option>';
+    }
+    // Theme toggle
+    // Ensure default gradient theme on first load unless user saved preference
+    (function() {
+      const savedTheme = localStorage.getItem('theme');
+      if (!savedTheme) {
+        document.documentElement.setAttribute('data-theme', 'gradient');
+      }
+    })();
+    themeToggle.addEventListener('click', () => {
+        const html = document.documentElement;
+        const isDark = html.getAttribute('data-theme') === 'dark';
+        html.setAttribute('data-theme', isDark ? 'light' : 'dark');
+        themeToggle.textContent = isDark ? 'Light mode' : 'Dark mode';
+        localStorage.setItem('anuvaad_theme', isDark ? 'light' : 'dark');
+    });
+    const savedTheme = localStorage.getItem('anuvaad_theme');
+    if (savedTheme) {
+        document.documentElement.setAttribute('data-theme', savedTheme);
+        themeToggle.textContent = savedTheme === 'dark' ? 'Dark mode' : 'Light mode';
+    }
+    function setLoading(isLoading) {
+        translateButton.disabled = isLoading;
+        translateButton.textContent = isLoading ? 'Translating…' : 'Translate';
+        outputDiv.setAttribute('aria-busy', String(isLoading));
+    }
+    // Basic language auto-detect by script characters (debounced)
+    textToTranslate.addEventListener('input', () => {
+        clearTimeout(detectTimer);
+        detectTimer = setTimeout(async () => {
+            const sample = (textToTranslate.value || '').slice(0, 200);
+            let detected = '';
+            // Backend-assisted detection for robustness
+            try {
+                const res = await fetch('/detect', {
+                    method: 'POST',
+                    headers: { 'Content-Type': 'application/json', 'accept': 'application/json' },
+                    body: JSON.stringify({ text: sample })
+                });
+                if (res.ok) {
+                    const data = await res.json();
+                    detected = data.detected_language || '';
+                }
+            } catch (e) {
+                // ignore detection errors, fallback to script-based
+            }
+            if (!detected) {
+                const hasDevanagari = /[\u0900-\u097F]/.test(sample);
+                const hasSinhala = /[\u0D80-\u0DFF]/.test(sample);
+                if (hasDevanagari) detected = 'nepali';
+                else if (hasSinhala) detected = 'sinhala';
+            }
+            if (detected) {
+                sourceLanguage.value = detected;
+                langDetectHint.textContent = `Detected: ${detected}`;
+            } else {
+                langDetectHint.textContent = '';
+            }
+        }, detectDelay);
+    });
+    translateButton.addEventListener('click', async () => {
+        const text = (textToTranslate.value || '').trim();
+        const lang = sourceLanguage.value;
+        const isBatch = batchToggle && batchToggle.checked;
+        const borrowedFixEl = document.getElementById('borrowed-toggle');
+        const borrowedFix = borrowedFixEl ? borrowedFixEl.checked : true;
+        outputDiv.innerHTML = '';
+        if (!text) {
+            outputDiv.innerText = 'Please enter some text to translate.';
+            return;
+        }
+        setLoading(true);
+        try {
+            let response;
+            if (isBatch) {
+                const texts = text.split('\n').map(t => t.trim()).filter(Boolean);
+                if (texts.length === 0) {
+                    outputDiv.innerText = 'Please provide at least one non-empty line for batch translation.';
+                    setLoading(false);
+                    return;
+                }
+                response = await fetch('/batch-translate', {
+                    method: 'POST',
+                    headers: {
+                        'Content-Type': 'application/json',
+                        'accept': 'application/json'
+                    },
+                    body: JSON.stringify({ texts, source_language: lang, borrowed_fix: borrowedFix })
+                });
+            } else {
+                response = await fetch('/translate', {
+                    method: 'POST',
+                    headers: {
+                        'Content-Type': 'application/json',
+                        'accept': 'application/json'
+                    },
+                    body: JSON.stringify({ text, source_language: lang, borrowed_fix: borrowedFix })
+                });
+            }
+            if (!response.ok) {
+                const errorData = await response.json().catch(() => ({}));
+                throw new Error(errorData.detail || 'An error occurred while translating.');
+            }
+            const data = await response.json();
+            if (isBatch) {
+                const results = data.translated_texts || [];
+                const table = document.createElement('table');
+                table.className = 'result-table';
+                const thead = document.createElement('thead');
+                thead.innerHTML = '<tr><th>#</th><th>Source</th><th>Translation</th></tr>';
+                table.appendChild(thead);
+                const tbody = document.createElement('tbody');
+                const sources = text.split('\n').map(t => t.trim()).filter(Boolean);
+                results.forEach((t, idx) => {
+                    const tr = document.createElement('tr');
+                    const tdIdx = document.createElement('td'); tdIdx.textContent = String(idx + 1);
+                    const tdSrc = document.createElement('td'); tdSrc.textContent = sources[idx] || '';
+                    const tdDst = document.createElement('td'); tdDst.textContent = t;
+                    tr.appendChild(tdIdx); tr.appendChild(tdSrc); tr.appendChild(tdDst);
+                    tbody.appendChild(tr);
+                });
+                table.appendChild(tbody);
+                outputDiv.appendChild(table);
+                downloadButton.dataset.csv = toCSV(sources, results);
+            } else {
+                outputDiv.innerText = data.translated_text || data.translation || '';
+                downloadButton.dataset.csv = toCSV([text], [outputDiv.innerText]);
+            }
+        } catch (error) {
+            outputDiv.innerText = `Error: ${error.message}`;
+        } finally {
+            setLoading(false);
+        }
+    });
+    // Allow Ctrl+Enter to trigger translation
+    textToTranslate.addEventListener('keydown', (e) => {
+        if ((e.ctrlKey || e.metaKey) && e.key === 'Enter') {
+            translateButton.click();
+        }
+    });
+    // Clear button
+    clearButton.addEventListener('click', () => {
+        textToTranslate.value = '';
+        outputDiv.innerHTML = '';
+        downloadButton.removeAttribute('data-csv');
+    });
+    // Hide dataset processing controls from users (keep in DOM, but not visible)
+    if (processDataButton) {
+        const datasetControl = processDataButton.closest('.control');
+        if (datasetControl) datasetControl.hidden = true;
+        const datasetLabel = document.querySelector('label[for="process-data-button"]');
+        if (datasetLabel) datasetLabel.hidden = true;
+        if (processDataStatus) processDataStatus.hidden = true;
+    }
+    // Hide borrowed words/names UI text while preserving functionality
+    const borrowedFixEl = document.getElementById('borrowed-toggle');
+    if (borrowedFixEl) {
+        const borrowedControl = borrowedFixEl.closest('.control');
+        // Keep the control present only during translation flow but hidden from display
+        if (borrowedControl) borrowedControl.hidden = true;
+        const borrowedLabel = borrowedFixEl.closest('label');
+        if (borrowedLabel) {
+            borrowedLabel.hidden = true;
+            // Remove any visible text nodes to avoid displaying borrowed words/names text
+            borrowedLabel.childNodes.forEach(node => {
+                if (node.nodeType === Node.TEXT_NODE) {
+                    node.textContent = '';
+                }
+            });
+        }
+        const borrowedHint = borrowedControl ? borrowedControl.querySelector('small.hint') : null;
+        if (borrowedHint) {
+            borrowedHint.hidden = true;
+            borrowedHint.textContent = '';
+        }
+        // Remove the input element itself to ensure it never appears on screen
+        borrowedFixEl.remove();
+    }
+    // Helper to trigger dataset processing without user interaction
+    async function triggerProcessData() {
+        if (!processDataStatus) return;
+        try {
+            const res = await fetch('/process-data', { method: 'POST' });
+            if (!res.ok) {
+                const err = await res.json().catch(() => ({}));
+                throw new Error(err.detail || 'Failed to process dataset');
+            }
+            const data = await res.json();
+            // Update hidden status for diagnostics; users won't see it
+            processDataStatus.textContent = `Processed: ${data.processed_files} files, ${data.total_lines} lines`;
+        } catch (e) {
+            processDataStatus.textContent = `Error: ${e.message}`;
+        }
+    }
+    // Automatically process dataset on page load (runs once)
+    triggerProcessData();
+    // Dataset processing trigger (kept inside DOMContentLoaded for scope safety)
+    if (processDataButton) {
+        processDataButton.addEventListener('click', async () => {
+            // Even if clicked (hidden), keep behavior consistent
+            processDataStatus.textContent = 'Processing dataset…';
+            try {
+                const res = await fetch('/process-data', { method: 'POST' });
+                if (!res.ok) {
+                    const err = await res.json().catch(() => ({}));
+                    throw new Error(err.detail || 'Failed to process dataset');
+                }
+                const data = await res.json();
+                processDataStatus.textContent = `Processed: ${data.processed_files} files, ${data.total_lines} lines`;
+            } catch (e) {
+                processDataStatus.textContent = `Error: ${e.message}`;
+            }
+        });
+    }
+    // Copy button
+    copyButton.addEventListener('click', async () => {
+        const text = outputDiv.innerText || '';
+        if (!text) return;
+        try {
+            await navigator.clipboard.writeText(text);
+        } catch (e) {
+            // Fallback for older browsers
+            const ta = document.createElement('textarea');
+            ta.value = text;
+            document.body.appendChild(ta);
+            ta.select();
+            document.execCommand('copy');
+            document.body.removeChild(ta);
+        }
+    });
+    // Download CSV
+    downloadButton.addEventListener('click', () => {
+        const csv = downloadButton.dataset.csv;
+        if (!csv) return;
+        const blob = new Blob([csv], { type: 'text/csv;charset=utf-8;' });
+        const url = URL.createObjectURL(blob);
+        const a = document.createElement('a');
+        a.href = url;
+        a.download = 'translations.csv';
+        a.click();
+        URL.revokeObjectURL(url);
+    });
+    // Share result
+    shareButton.addEventListener('click', async () => {
+        const text = outputDiv.innerText || '';
+        if (!text) return;
+        try {
+            await navigator.share({ text });
+        } catch (e) {
+            // Ignore if not supported
+        }
+    });
+    function toCSV(sources, results) {
+        const rows = sources.map((s, i) => [s, results[i] || '']);
+        const csvRows = rows.map(r => r.map(v => '"' + String(v).replaceAll('"', '""') + '"').join(','));
+        return 'source,translation\n' + csvRows.join('\n');
+    }
+    // Theme select
+    const themeSelect = document.getElementById('theme-select');
+    if (themeSelect) {
+      const saved = localStorage.getItem('theme');
+      const initial = saved || 'gradient';
+      document.documentElement.setAttribute('data-theme', initial);
+      themeSelect.value = initial;
+      themeSelect.addEventListener('change', (e) => {
+        const v = e.target.value;
+        document.documentElement.setAttribute('data-theme', v);
+        localStorage.setItem('theme', v);
+      });
+    }
+    const themeToggleEl = document.getElementById('theme-toggle');
+    if (themeToggleEl) {
+      themeToggleEl.addEventListener('click', () => {
+        const html = document.documentElement;
+        const isDark = html.getAttribute('data-theme') === 'dark';
+        html.setAttribute('data-theme', isDark ? 'light' : 'dark');
+        localStorage.setItem('theme', isDark ? 'light' : 'dark');
+      });
+    }
+});

frontend/site.webmanifest ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"name":"","short_name":"","icons":[{"src":"/android-chrome-192x192.png","sizes":"192x192","type":"image/png"},{"src":"/android-chrome-512x512.png","sizes":"512x512","type":"image/png"}],"theme_color":"#ffffff","background_color":"#ffffff","display":"standalone"}

frontend/styles.css ADDED Viewed

	@@ -0,0 +1,512 @@

+/* Base variables as fallback; specific themes override below */
+:root {
+  --bg: #f8fafc;
+  --bg-soft: #f1f5f9;
+  --card: #ffffff;
+  --text: #0f172a;
+  --muted: #64748b;
+  --primary: #3b82f6;
+  --primary-hover: #2563eb;
+  --ghost: #e2e8f0;
+  --ghost-hover: #cbd5e1;
+}
+/* Default gradient theme */
+html[data-theme="gradient"] {
+  --bg: #f8fafc;           /* soft off-white */
+  --bg-soft: #f1f5f9;      /* misty grey */
+  --card: #ffffff;         /* pure card surface */
+  --text: #0f172a;         /* rich charcoal */
+  --muted: #64748b;        /* calm slate */
+  --primary: #3b82f6;      /* vibrant blue */
+  --primary-hover: #2563eb;/* deeper blue */
+  --ghost: #e2e8f0;        /* airy grey */
+  --ghost-hover: #cbd5e1;  /* gentle hover */
+}
+/* Light theme (flat look) */
+html[data-theme="light"] {
+  --bg: #ffffff;
+  --bg-soft: #ffffff;
+  --card: #ffffff;
+  --text: #0f172a;
+  --muted: #64748b;
+  --primary: #3b82f6;
+  --primary-hover: #2563eb;
+  --ghost: #eef2f7;
+  --ghost-hover: #e4e9f2;
+}
+/* Dark theme */
+html[data-theme="dark"] {
+  --bg: #0f172a;           /* midnight navy */
+  --bg-soft: #1e293b;      /* subtle charcoal */
+  --card: #1e293b;         /* sleek card */
+  --text: #f1f5f9;         /* crisp white */
+  --muted: #94a3b8;        /* muted silver */
+  --ghost: #334155;        /* muted slate */
+  --ghost-hover: #475569;  /* soft hover */
+}
+/* Ocean theme */
+html[data-theme="ocean"] {
+  --bg: #e0f2fe;           /* sky tint */
+  --bg-soft: #bae6fd;      /* light ocean */
+  --card: #ffffff;
+  --text: #0f172a;
+  --muted: #0ea5e9;
+  --primary: #06b6d4;      /* cyan */
+  --primary-hover: #0891b2;/* deep cyan */
+  --ghost: #e0f2fe;
+  --ghost-hover: #bae6fd;
+}
+/* Sunset theme */
+html[data-theme="sunset"] {
+  --bg: #fff7ed;           /* peach */
+  --bg-soft: #fde68a;      /* amber */
+  --card: #ffffff;
+  --text: #0f172a;
+  --muted: #ea580c;        /* warm orange */
+  --primary: #f97316;      /* orange */
+  --primary-hover: #ea580c;/* deeper orange */
+  --ghost: #fff1e6;
+  --ghost-hover: #ffe4c7;
+}
+/* Forest theme */
+html[data-theme="forest"] {
+  --bg: #dcfce7;           /* mint */
+  --bg-soft: #a7f3d0;      /* light green */
+  --card: #ffffff;
+  --text: #0f172a;
+  --muted: #16a34a;        /* deep green */
+  --primary: #22c55e;      /* green */
+  --primary-hover: #16a34a;/* deeper green */
+  --ghost: #e7ffe9;
+  --ghost-hover: #d1fadf;
+}
+/* Rose theme */
+html[data-theme="rose"] {
+  --bg: #ffe4e6;           /* blush */
+  --bg-soft: #fecdd3;      /* soft rose */
+  --card: #ffffff;
+  --text: #0f172a;
+  --muted: #e11d48;        /* rose */
+  --primary: #f43f5e;      /* vibrant rose */
+  --primary-hover: #e11d48;/* deep rose */
+  --ghost: #fff1f2;
+  --ghost-hover: #ffe4e6;
+}
+/* Slate theme (neutral) */
+html[data-theme="slate"] {
+  --bg: #f1f5f9;           /* light slate */
+  --bg-soft: #e2e8f0;      /* soft slate */
+  --card: #ffffff;
+  --text: #0f172a;
+  --muted: #64748b;        /* slate */
+  --primary: #64748b;      /* neutral accent */
+  --primary-hover: #475569;/* deeper slate */
+  --ghost: #eceff4;
+  --ghost-hover: #e1e6ee;
+}
+/* Header theme selector styling */
+.theme-select {
+  padding: 0.5rem 0.75rem;
+  border-radius: 10px;
+  border: 1px solid var(--ghost-hover);
+  background: var(--ghost);
+  color: var(--text);
+}
+:root {
+    /* Fresh, vibrant palette */
+    --bg: #0b1020;           /* deep navy */
+    --bg-soft: #10172a;      /* softer navy */
+    --card: #ffffff;         /* cards on light theme */
+    --text: #0e1a2b;         /* dark text on light surfaces */
+    --muted: #64748b;        /* slate */
+    --primary: #7c3aed;      /* purple */
+    --primary-hover: #6d28d9;/* darker purple */
+    --ghost: #f1f5f9;        /* light slate */
+    --ghost-hover: #e2e8f0;  /* hover slate */
+}
+html[data-theme="dark"] {
+    --bg: #0b1020;           /* deep navy */
+    --bg-soft: #10172a;      /* softer navy */
+    --card: #0b1220;         /* dark cards */
+    --text: #e2e8f0;         /* light text */
+    --muted: #94a3b8;        /* slate-muted */
+    --ghost: #0f172a;        /* ghost dark */
+    --ghost-hover: #1f2937;  /* ghost hover dark */
+}
+.header-actions {
+    margin-top: 0.5rem;
+}
+/* Utility: visually hidden (for sr-only labels) */
+.sr-only {
+  position: absolute;
+  width: 1px;
+  height: 1px;
+  padding: 0;
+  margin: -1px;
+  overflow: hidden;
+  clip: rect(0, 0, 0, 0);
+  white-space: nowrap;
+  border: 0;
+}
+/* Adjust body gradient to respect theme */
+body {
+  background: linear-gradient(135deg, var(--bg) 0%, var(--bg-soft) 100%);
+}
+.header {
+    width: 100%;
+    max-width: 1100px;
+    padding: 2rem 1rem 0.5rem 1rem;
+    margin: 0 auto;
+    color: #fff;
+    display: flex;
+    flex-wrap: wrap;
+    align-items: center;
+    justify-content: center;
+    text-align: center;
+    gap: 0.75rem 1rem; /* row/column gap for wrap */
+}
+/* Arrange brand, tagline, and actions for better UX */
+.brand { order: 0; }
+.tagline { order: 0; text-align: center; margin: 0.5rem auto; }
+.header-actions { order: 0; margin: 0.5rem auto; }
+@media (min-width: 768px) {
+  .header {
+    align-items: center;
+    justify-content: center;
+    text-align: center;
+  }
+  .header-actions {
+    margin: 0 auto;
+    order: 0;
+    justify-content: center;
+    align-items: center;
+  }
+}
+/* Prevent overflow of actions on small screens */
+.header-actions {
+  display: flex;
+  flex-wrap: wrap;
+  gap: 0.5rem;
+}
+/* Improve status pill semantics and visibility */
+.status {
+    padding: 0.35rem 0.6rem;
+    border-radius: 999px;
+    font-size: 0.85rem;
+    background-color: var(--ghost);
+    color: var(--text);
+}
+.brand {
+    display: flex;
+    align-items: center;
+    gap: 0.75rem;
+    font-size: 2.25rem; /* more prominent */
+    font-weight: 800;
+}
+.brand-link {
+    display: inline-flex;
+    align-items: center;
+    gap: 0.75rem;
+    text-decoration: none;
+    color: inherit;
+}
+.brand-text {
+    letter-spacing: 0.15px; /* slightly tighter for script fonts */
+    color: var(--text); /* adapt to theme for proper contrast */
+    text-shadow: none;
+    font-family: cursive; /* handwriting-style via generic cursive fallback */
+}
+html[data-theme="dark"] .brand-text {
+    text-shadow: 0 1px 2px rgba(0,0,0,0.25);
+}
+.brand-logo {
+    width: 44px;
+    height: 44px;
+    border-radius: 10px;
+    box-shadow: 0 6px 16px rgba(0,0,0,0.18);
+}
+@media (max-width: 640px) {
+  .brand {
+    font-size: 1.8rem;
+  }
+  .brand-logo {
+    width: 36px;
+    height: 36px;
+  }
+}
+.tagline {
+    flex: 1 1 100%; /* occupy a full row under the brand for perfect placement */
+    font-size: 1.05rem;
+    line-height: 1.5;
+    letter-spacing: 0.2px;
+    color: var(--muted); /* theme-aware secondary text for better visibility */
+    margin-top: 0.25rem;
+    text-shadow: none;
+}
+html[data-theme="dark"] .tagline {
+    color: var(--muted);
+    text-shadow: 0 1px 1.5px rgba(0,0,0,0.25); /* subtle lift on dark background */
+}
+.container {
+    background-color: var(--card);
+    padding: 1.5rem;
+    border-radius: 14px;
+    box-shadow: 0 10px 30px rgba(0, 0, 0, 0.15);
+    width: 100%;
+    max-width: 1100px;
+    margin: 1rem auto;
+}
+.grid {
+    display: grid;
+    grid-template-columns: 1fr 1fr;
+    gap: 1.25rem;
+    align-items: stretch; /* ensure panels have equal height for similar dimensions */
+    justify-items: stretch;
+}
+.grid > .panel {
+    height: 100%;
+}
+.panel {
+    background: #fff;
+    border: 1px solid #e5e7eb;
+    border-radius: 12px;
+    padding: 1rem;
+    display: flex;              /* ensure inner elements are placed correctly */
+    flex-direction: column;     /* stack content in order */
+    gap: 0.75rem;               /* balanced spacing between children */
+}
+.panel > * {                    /* normalize child spacing */
+    margin: 0;
+}
+/* keep header layout consistent within the panel */
+.panel-header {
+    display: flex;
+    align-items: center;
+    justify-content: space-between;
+    margin-bottom: 0.5rem;
+}
+.panel-actions {
+    display: flex;
+    gap: 0.5rem;
+}
+.label {
+    display: block;
+    font-size: 0.9rem;
+    color: var(--muted);
+    margin-bottom: 0.5rem;
+}
+/* Ensure consistent sizing and prevent overflow misalignment */
+*, *::before, *::after {
+    box-sizing: border-box;
+}
+/* Prevent panels and form controls from exceeding their containers */
+.panel, textarea, select {
+    max-width: 100%;
+}
+/* Ensure textarea aligns properly within its panel */
+textarea {
+    display: block;
+}
+/* Hide any accidental overflow from internal content */
+.panel {
+    overflow: hidden;
+}
+textarea {
+    width: 100%;
+    padding: 0.75rem 1rem;
+    border: 1px solid #e5e7eb;
+    border-radius: 10px; /* restore rounded corners */
+    margin-bottom: 1rem;
+    font-size: 1rem;
+    resize: vertical;
+}
+.controls {
+    display: block;
+}
+.controls .control { /* full-width block and natural spacing */
+    width: 100%;
+    margin-bottom: 1rem;
+}
+.control select {
+    width: 100%;
+    padding: 0.65rem 0.75rem;
+    border-radius: 10px;
+    border: 1px solid #e5e7eb;
+    font-size: 1rem;
+    background-color: #fff;
+}
+.toggle {
+    display: flex;
+    flex-direction: column;
+    align-items: flex-start;
+}
+.checkbox-label {
+    display: inline-flex;
+    align-items: center;
+    gap: 0.5rem;
+    user-select: none;
+}
+.hint {
+    color: var(--muted);
+}
+.actions {
+    display: flex;
+    gap: 0.5rem;
+}
+button.primary {
+    padding: 0.9rem 1rem;
+    border-radius: 10px;
+    border: none;
+    font-size: 1rem;
+    background-color: var(--primary);
+    color: #fff;
+    cursor: pointer;
+}
+button.primary:hover {
+    background-color: var(--primary-hover);
+}
+button.primary:disabled {
+    opacity: 0.7;
+    cursor: not-allowed;
+}
+button.ghost {
+    padding: 0.9rem 1rem;
+    border-radius: 10px;
+    border: 1px solid #e5e7eb;
+    font-size: 1rem;
+    background-color: var(--ghost);
+    color: var(--text);
+    cursor: pointer;
+}
+button.ghost:hover {
+    background-color: var(--ghost-hover);
+}
+.output {
+    padding: 1rem;
+    background-color: #f9fafb;
+    border-radius: 10px;
+    min-height: 120px;
+    border: 1px solid #e5e7eb;
+}
+.result-list {
+    margin: 0;
+    padding-left: 1.25rem;
+}
+.footer {
+    width: 100%;
+    max-width: 1100px;
+    text-align: right;
+    color: #cbd5e1;
+    padding: 0.5rem 1rem 1.5rem 1rem;
+}
+@media (max-width: 900px) {
+    .grid {
+        grid-template-columns: 1fr;
+    }
+    .actions {
+        flex-wrap: wrap;
+    }
+}
+/* Table styles for batch alignment */
+.result-table {
+    width: 100%;
+    border-collapse: collapse;
+    background: #fff;
+}
+.result-table th, .result-table td {
+    border: 1px solid #e5e7eb;
+    padding: 0.5rem 0.6rem;
+    vertical-align: top;
+}
+.result-table th {
+    background: #f3f4f6;
+    text-align: left;
+}
+.result-table tr:nth-child(even) td {
+    background: #fafafa;
+}
+/* Smooth theme transitions */
+html, body, .container, .panel, textarea, select, button, .output {
+    transition: background-color 0.2s ease, color 0.2s ease, border-color 0.2s ease, box-shadow 0.2s ease;
+}
+/* Elevated panel hover for subtle depth */
+.panel:hover {
+    box-shadow: 0 6px 20px rgba(0, 0, 0, 0.12);
+}
+/* Improved focus visibility and accessibility */
+textarea:focus-visible, select:focus-visible, button:focus-visible {
+    outline: 3px solid rgba(37, 99, 235, 0.35);
+    outline-offset: 2px;
+    border-color: var(--primary);
+    box-shadow: 0 0 0 3px rgba(37, 99, 235, 0.15);
+}
+/* Harmonize output surface with theme variables */
+.output {
+    background-color: var(--ghost);
+    color: var(--text);
+}
+/* Button hover and active subtle animations */
+button.primary:hover, button.ghost:hover {
+    transform: translateY(-1px);
+}
+button.primary:active, button.ghost:active {
+    transform: translateY(0);
+}

interactive_translate.py ADDED Viewed

	@@ -0,0 +1,74 @@

+"""
+An interactive script to translate text to English using a fine-tuned NLLB model.
+"""
+import torch
+from transformers import M2M100ForConditionalGeneration, NllbTokenizer
+# --- 1. Configuration ---
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+SUPPORTED_LANGUAGES = {
+    "nepali": "nep_Npan",
+    "sinhala": "sin_Sinh",
+}
+# --- 2. Load Model and Tokenizer ---
+def load_model_and_tokenizer(model_path):
+    """Loads the model and tokenizer from the given path."""
+    print(f"Loading model on {DEVICE.upper()}...")
+    try:
+        model = M2M100ForConditionalGeneration.from_pretrained(model_path).to(DEVICE)
+        tokenizer = NllbTokenizer.from_pretrained(model_path)
+        print("Model and tokenizer loaded successfully!")
+        return model, tokenizer
+    except Exception as e:
+        print(f"Error loading model: {e}")
+        return None, None
+# --- 3. Translation Function ---
+def translate_text(model, tokenizer, text: str, src_lang: str) -> str:
+    """
+    Translates a single string of text to English.
+    """
+    if src_lang not in SUPPORTED_LANGUAGES:
+        return f"Language '{src_lang}' not supported."
+    tokenizer.src_lang = SUPPORTED_LANGUAGES[src_lang]
+    inputs = tokenizer(text, return_tensors="pt").to(DEVICE)
+    generated_tokens = model.generate(
+        **inputs,
+        forced_bos_token_id=tokenizer.convert_tokens_to_ids("eng_Latn"),
+        max_length=128,
+    )
+    return tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
+# --- 4. Interactive Translation Loop ---
+if __name__ == "__main__":
+    # Select model path based on language
+    lang_choice = input(f"Choose a language ({list(SUPPORTED_LANGUAGES.keys())}): ").lower()
+    if lang_choice not in SUPPORTED_LANGUAGES:
+        print("Invalid language choice.")
+        exit()
+    # For now, we assume a single model path. This can be extended.
+    model_path = "models/nllb-finetuned-nepali-en"
+    model, tokenizer = load_model_and_tokenizer(model_path)
+    if model and tokenizer:
+        print(f"\n--- Interactive Translation ({lang_choice.capitalize()}) ---")
+        print(f"Enter a {lang_choice} sentence to translate to English.")
+        print("Type 'exit' to quit.\n")
+        while True:
+            text_to_translate = input(f"{lang_choice.capitalize()}: ")
+            if text_to_translate.lower() == "exit":
+                break
+            if not text_to_translate.strip():
+                print("Please enter some text to translate.")
+                continue
+            english_translation = translate_text(model, tokenizer, text_to_translate, lang_choice)
+            print(f"English: {english_translation}\n")

requirements.txt ADDED Viewed

	@@ -0,0 +1,92 @@

+accelerate==1.10.1
+aiohappyeyeballs==2.6.1
+aiohttp==3.12.15
+aiosignal==1.4.0
+annotated-types==0.7.0
+anyio==4.11.0
+attrs==25.3.0
+beautifulsoup4==4.14.2
+certifi==2025.10.5
+charset-normalizer==3.4.3
+click==8.3.0
+colorama==0.4.6
+datasets==4.1.1
+dill==0.4.0
+dnspython==2.8.0
+email-validator==2.3.0
+evaluate==0.4.6
+fastapi==0.118.0
+fastapi-cli==0.0.13
+fastapi-cloud-cli==0.3.0
+filelock==3.19.1
+frozenlist==1.7.0
+fsspec==2025.9.0
+h11==0.16.0
+httpcore==1.0.9
+httptools==0.6.4
+httpx==0.28.1
+huggingface-hub==0.35.3
+idna==3.10
+itsdangerous==2.2.0
+Jinja2==3.1.6
+langdetect==1.0.9
+lxml==6.0.2
+markdown-it-py==4.0.0
+MarkupSafe==3.0.3
+mdurl==0.1.2
+mpmath==1.3.0
+multidict==6.6.4
+multiprocess==0.70.16
+networkx==3.5
+numpy==2.3.3
+orjson==3.11.3
+packaging==25.0
+pandas==2.3.3
+portalocker==3.2.0
+propcache==0.4.0
+protobuf==6.32.1
+psutil==7.1.0
+pyarrow==21.0.0
+pydantic==2.11.10
+pydantic-extra-types==2.10.5
+pydantic-settings==2.11.0
+pydantic_core==2.33.2
+Pygments==2.19.2
+PyMuPDF==1.26.4
+python-dateutil==2.9.0.post0
+python-dotenv==1.1.1
+python-multipart==0.0.20
+pytz==2025.2
+PyYAML==6.0.3
+regex==2025.9.18
+requests==2.32.5
+rich==14.1.0
+rich-toolkit==0.15.1
+rignore==0.7.0
+sacrebleu==2.5.1
+safetensors==0.6.2
+sentencepiece==0.2.1
+sentry-sdk==2.39.0
+setuptools==80.9.0
+shellingham==1.5.4
+six==1.17.0
+sniffio==1.3.1
+soupsieve==2.8
+starlette==0.48.0
+sympy==1.14.0
+tabulate==0.9.0
+tokenizers==0.22.1
+torch==2.8.0
+tqdm==4.67.1
+transformers==4.57.0
+typer==0.19.2
+typing-inspection==0.4.2
+typing_extensions==4.15.0
+tzdata==2025.2
+ujson==5.11.0
+urllib3==2.5.0
+uvicorn==0.37.0
+watchfiles==1.1.0
+websockets==15.0.1
+xxhash==3.6.0
+yarl==1.20.1

scripts/clean_text_data.py ADDED Viewed

	@@ -0,0 +1,62 @@

+# scripts/clean_text_data.py
+import os
+import datetime
+def clean_data():
+    """
+    Reads a raw text file, cleans it, and saves it to the processed data folder.
+    """
+    # --- Configuration ---
+    # Construct the filename based on today's date, matching the scraper's output
+    current_date = datetime.datetime.now().strftime("%Y-%m-%d")
+    raw_filename = f"bbc_nepali_articles_{current_date}.txt"
+    cleaned_filename = f"bbc_nepali_articles_{current_date}_cleaned.txt"
+    # Define the paths using our project structure
+    raw_file_path = os.path.join("data", "raw", raw_filename)
+    processed_file_path = os.path.join("data", "processed", cleaned_filename)
+    # Simple rule: we'll discard any line that has fewer than this many words.
+    MIN_WORDS_PER_LINE = 5
+    # --- End Configuration ---
+    print("--- Starting data cleaning process ---")
+    # Check if the raw file exists before we start
+    if not os.path.exists(raw_file_path):
+        print(f"Error: Raw data file not found at '{raw_file_path}'")
+        print("Please run the scraping script first.")
+        return
+    print(f"Reading raw data from: {raw_file_path}")
+    # Read all lines from the raw file
+    with open(raw_file_path, "r", encoding="utf-8") as f:
+        lines = f.readlines()
+    cleaned_lines = []
+    for line in lines:
+        # 1. Strip leading/trailing whitespace from the line
+        text = line.strip()
+        # 2. Apply our cleaning rules
+        # We keep the line only if it's not empty AND has enough words
+        if text and len(text.split()) >= MIN_WORDS_PER_LINE:
+            cleaned_lines.append(text)
+    # 3. Save the cleaned lines to the new file
+    print(f"Saving cleaned data to: {processed_file_path}")
+    os.makedirs(os.path.dirname(processed_file_path), exist_ok=True)
+    with open(processed_file_path, "w", encoding="utf-8") as f:
+        f.write("\n".join(cleaned_lines))
+    # Print a summary report
+    print("\n--- Cleaning Summary ---")
+    print(f"Total lines read: {len(lines)}")
+    print(f"Lines after cleaning: {len(cleaned_lines)}")
+    print(f"Lines discarded: {len(lines) - len(cleaned_lines)}")
+    print("------------------------")
+if __name__ == "__main__":
+    clean_data()

scripts/create_sinhala_test_set.py ADDED Viewed

	@@ -0,0 +1,37 @@

+# scripts/create_sinhala_test_set.py
+import os
+from datasets import load_dataset
+# --- Configuration ---
+DATA_DIR = "data/processed"
+TEST_DIR = "data/test_sets"
+DATASET_NAME = "Programmer-RD-AI/sinhala-english-singlish-translation"
+NUM_TEST_LINES = 500
+# ---
+print("--- Creating a held-back test set for Sinhalese ---")
+os.makedirs(TEST_DIR, exist_ok=True)
+# Load the dataset from Hugging Face
+dataset = load_dataset(DATASET_NAME, split='train')
+# Split the dataset
+train_dataset = dataset.select(range(len(dataset) - NUM_TEST_LINES))
+test_dataset = dataset.select(range(len(dataset) - NUM_TEST_LINES, len(dataset)))
+# Write the new training files
+with open(os.path.join(DATA_DIR, "sinhala.si"), "w", encoding="utf-8") as f_source, \
+     open(os.path.join(DATA_DIR, "sinhala.en"), "w", encoding="utf-8") as f_target:
+    for example in train_dataset:
+        f_source.write(example['Sinhala'] + "\n")
+        f_target.write(example['English'] + "\n")
+# Write the new test files
+with open(os.path.join(TEST_DIR, "test.si"), "w", encoding="utf-8") as f_source, \
+     open(os.path.join(TEST_DIR, "test.en"), "w", encoding="utf-8") as f_target:
+    for example in test_dataset:
+        f_source.write(example['Sinhala'] + "\n")
+        f_target.write(example['English'] + "\n")
+print(f"Successfully created a test set with {NUM_TEST_LINES} lines for Sinhalese.")
+print(f"The original training files in '{DATA_DIR}' have been updated.")

scripts/create_test_set.py ADDED Viewed

	@@ -0,0 +1,44 @@

+# scripts/create_test_set.py
+import os
+# --- Configuration ---
+DATA_DIR = "data/processed"
+TEST_DIR = "data/test_sets"
+SOURCE_FILE = os.path.join(DATA_DIR, "nepali.ne")
+TARGET_FILE = os.path.join(DATA_DIR, "nepali.en")
+NUM_TEST_LINES = 500
+# ---
+print("--- Creating a held-back test set for Nepali ---")
+os.makedirs(TEST_DIR, exist_ok=True)
+# Read all lines from the original files
+with open(SOURCE_FILE, "r", encoding="utf-8") as f:
+    source_lines = f.readlines()
+with open(TARGET_FILE, "r", encoding="utf-8") as f:
+    target_lines = f.readlines()
+# Ensure the files have the same number of lines
+assert len(source_lines) == len(target_lines), "Source and target files have different lengths!"
+# Split the data
+train_source_lines = source_lines[:-NUM_TEST_LINES]
+test_source_lines = source_lines[-NUM_TEST_LINES:]
+train_target_lines = target_lines[:-NUM_TEST_LINES]
+test_target_lines = target_lines[-NUM_TEST_LINES:]
+# Write the new, smaller training files (overwriting the old ones)
+with open(SOURCE_FILE, "w", encoding="utf-8") as f:
+    f.writelines(train_source_lines)
+with open(TARGET_FILE, "w", encoding="utf-8") as f:
+    f.writelines(train_target_lines)
+# Write the new test files
+with open(os.path.join(TEST_DIR, "test.ne"), "w", encoding="utf-8") as f:
+    f.writelines(test_source_lines)
+with open(os.path.join(TEST_DIR, "test.en"), "w", encoding="utf-8") as f:
+    f.writelines(test_target_lines)
+print(f"Successfully created a test set with {NUM_TEST_LINES} lines for Nepali.")
+print(f"The original training files in '{DATA_DIR}' have been updated.")

scripts/download_model.py ADDED Viewed

	@@ -0,0 +1,36 @@

+import os
+from huggingface_hub import snapshot_download
+def download_model():
+    """
+    Downloads the NLLB model from Hugging Face Hub.
+    """
+    # --- Configuration ---
+    # Note: The original script referred to 'nllb-finetuned-nepali-en', which is not a public model.
+    # We are downloading the base model 'facebook/nllb-200-distilled-600M' instead.
+    # You may need to fine-tune this model on your own dataset to get the desired performance.
+    model_name = "facebook/nllb-200-distilled-600M"
+    # --- Path setup ---
+    # Construct the path to save the model, relative to this script's location.
+    script_dir = os.path.dirname(os.path.abspath(__file__))
+    # We want to save it in saksi_translation/models/nllb-finetuned-nepali-en
+    target_dir = os.path.abspath(os.path.join(script_dir, '..', 'models', 'nllb-finetuned-nepali-en'))
+    print(f"Downloading model: {model_name}")
+    print(f"Saving to: {target_dir}")
+    # --- Download ---
+    try:
+        if not os.path.exists(target_dir):
+            os.makedirs(target_dir)
+        snapshot_download(repo_id=model_name, local_dir=target_dir, local_dir_use_symlinks=False)
+        print("Model downloaded successfully.")
+    except Exception as e:
+        print(f"An error occurred during download: {e}")
+if __name__ == "__main__":
+    download_model()

scripts/fetch_parallel_data.py ADDED Viewed

	@@ -0,0 +1,81 @@

+# scripts/fetch_parallel_data.py
+from datasets import load_dataset
+import os
+def fetch_and_save_parallel_data(lang_pair, dataset_name, output_name):
+    """
+    Downloads a parallel dataset and saves it into two
+    separate text files (one for each language).
+    Args:
+        lang_pair (str): Language pair, e.g., "en-ne" for English-Nepali.
+        dataset_name (str): The name of the dataset on Hugging Face Hub.
+        output_name (str): The name to use for the output files.
+    """
+    source_lang, target_lang = lang_pair.split("-")
+    output_dir = "data/processed"
+    os.makedirs(output_dir, exist_ok=True)
+    source_filepath = os.path.join(output_dir, f"{output_name}.{source_lang}")
+    target_filepath = os.path.join(output_dir, f"{output_name}.{target_lang}")
+    print(f"--- Starting download for {lang_pair} from {dataset_name} ---")
+    try:
+        # Load the dataset from Hugging Face
+        if dataset_name == "Programmer-RD-AI/sinhala-english-singlish-translation":
+            dataset = load_dataset(dataset_name, split='train')
+        else:
+            dataset = load_dataset(dataset_name, lang_pair, split='train')
+        print(f"Dataset loaded successfully. Total pairs: {len(dataset)}")
+        print(f"Processing and saving files...")
+        with open(source_filepath, "w", encoding="utf-8") as f_source, \
+             open(target_filepath, "w", encoding="utf-8") as f_target:
+            for example in dataset:
+                if dataset_name == "Programmer-RD-AI/sinhala-english-singlish-translation":
+                    source_sentence = example['Sinhala']
+                    target_sentence = example['English']
+                else:
+                    source_sentence = example['translation'][source_lang]
+                    target_sentence = example['translation'][target_lang]
+                if source_sentence and target_sentence:
+                    f_source.write(source_sentence.strip() + "\n")
+                    f_target.write(target_sentence.strip() + "\n")
+        print(f"Successfully saved data for {lang_pair}")
+    except Exception as e:
+        print(f"An error occurred for {lang_pair}: {e}")
+if __name__ == "__main__":
+    # --- Fetch Nepali Data ---
+    print("Fetching Nepali data...")
+    fetch_and_save_parallel_data(lang_pair="en-ne", dataset_name="Helsinki-NLP/opus-100", output_name="nepali")
+    # --- Fetch Sinhalese Data ---
+    print("\nFetching Sinhalese data...")
+    fetch_and_save_parallel_data(lang_pair="si-en", dataset_name="Programmer-RD-AI/sinhala-english-singlish-translation", output_name="sinhala")
+    # --- Fetch Sinhalese Idioms Data ---
+    print("\nFetching Sinhalese idioms data...")
+    output_dir = "data/processed"
+    try:
+        idioms_dataset = load_dataset("Venuraa/English-Sinhala-Idioms-Parallel-Translations", split='train')
+        print(f"Idioms dataset loaded successfully. Total pairs: {len(idioms_dataset)}")
+        with open(os.path.join(output_dir, "sinhala.si"), "a", encoding="utf-8") as f_source, \
+             open(os.path.join(output_dir, "sinhala.en"), "a", encoding="utf-8") as f_target:
+            for example in idioms_dataset:
+                parts = example['text'].split('\n')
+                if len(parts) == 2:
+                    f_target.write(parts[0] + "\n")
+                    f_source.write(parts[1] + "\n")
+        print("Successfully appended idioms data.")
+    except Exception as e:
+        print(f"An error occurred while fetching idioms data: {e}")
+    print("\nAll data fetching complete.")

scripts/scrape_bbc_nepali.py ADDED Viewed

	@@ -0,0 +1,80 @@

+# scripts/scrape_bbc_nepali.py
+import requests
+from bs4 import BeautifulSoup
+import datetime
+import os
+def scrape_bbc_nepali():
+    """
+    Scrapes news articles from the BBC Nepali homepage and saves them to a file.
+    """
+    # The base URL for BBC Nepali news
+    BASE_URL = "https://www.bbc.com"
+    START_URL = f"{BASE_URL}/nepali"
+    # Get the current date to create a unique filename
+    current_date = datetime.datetime.now().strftime("%Y-%m-%d")
+    output_filename = f"bbc_nepali_articles_{current_date}.txt"
+    # Ensure the output directory exists
+    output_dir = "data/raw"
+    os.makedirs(output_dir, exist_ok=True)
+    output_path = os.path.join(output_dir, output_filename)
+    print(f"Starting scrape of {START_URL}")
+    print(f"Saving data to: {output_path}")
+    try:
+        # 1. Fetch the main homepage
+        main_page = requests.get(START_URL)
+        main_page.raise_for_status() # Raise an exception for bad status codes (4xx or 5xx)
+        main_soup = BeautifulSoup(main_page.content, "html.parser")
+        # 2. Find all links that likely lead to articles
+        # This is a bit of trial and error; we look for <a> tags with hrefs
+        # that match the pattern of BBC articles.
+        article_links = set() # Use a set to avoid duplicate links
+        for a_tag in main_soup.find_all("a", href=True):
+            href = a_tag['href']
+            # We filter for links that look like internal news articles
+            if href.startswith("/nepali/articles/"):
+                full_url = f"{BASE_URL}{href}"
+                article_links.add(full_url)
+        print(f"Found {len(article_links)} unique article links.")
+        # 3. Visit each article and extract its text
+        all_article_text = []
+        for i, link in enumerate(article_links):
+            try:
+                print(f"  Scraping ({i+1}/{len(article_links)}): {link}")
+                article_page = requests.get(link)
+                article_page.raise_for_status()
+                article_soup = BeautifulSoup(article_page.content, "html.parser")
+                # Find all paragraph tags (<p>) which usually contain the article text
+                paragraphs = article_soup.find_all("p")
+                article_text = "\n".join([p.get_text() for p in paragraphs])
+                all_article_text.append(article_text)
+            except requests.exceptions.RequestException as e:
+                print(f"    Could not fetch article {link}: {e}")
+            except Exception as e:
+                print(f"    An error occurred while processing {link}: {e}")
+        # 4. Save the collected text to a file
+        with open(output_path, "w", encoding="utf-8") as f:
+            # Separate articles with a clear delimiter
+            f.write("\n\n--- NEW ARTICLE ---\n\n".join(all_article_text))
+        print(f"\nScraping complete. All text saved to {output_path}")
+    except requests.exceptions.RequestException as e:
+        print(f"Failed to fetch the main page {START_URL}: {e}")
+if __name__ == "__main__":
+    scrape_bbc_nepali()

src/__init__.py ADDED Viewed

File without changes

src/__pycache__/evaluate.cpython-313.pyc ADDED Viewed

Binary file (3.88 kB). View file

src/evaluate_sinhala.py ADDED Viewed

	@@ -0,0 +1,58 @@

+# src/evaluate_sinhala.py
+import torch
+import evaluate # The new, preferred Hugging Face library for metrics
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
+from tqdm import tqdm # A library to create smart progress bars
+def evaluate_model():
+    """
+    Loads a fine-tuned model and evaluates its performance on the test set using the BLEU score.
+    """
+    # --- 1. Configuration ---
+    MODEL_PATH = "thilina/mt5-sinhalese-english"
+    TEST_DIR = "data/test_sets"
+    SOURCE_LANG_FILE = f"{TEST_DIR}/test.si"
+    TARGET_LANG_FILE = f"{TEST_DIR}/test.en"
+    DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+    # --- 2. Load Model, Tokenizer, and Metric ---
+    print("Loading model, tokenizer, and evaluation metric...")
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
+    model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_PATH).to(DEVICE)
+    bleu_metric = evaluate.load("sacrebleu")
+    # --- 3. Load Test Data ---
+    with open(SOURCE_LANG_FILE, "r", encoding="utf-8") as f:
+        source_sentences = [line.strip() for line in f.readlines()]
+    with open(TARGET_LANG_FILE, "r", encoding="utf-8") as f:
+        # The BLEU metric expects references to be a list of lists
+        reference_translations = [[line.strip()] for line in f.readlines()]
+    # --- 4. Generate Predictions ---
+    print(f"Generating translations for {len(source_sentences)} test sentences...")
+    predictions = []
+    for sentence in tqdm(source_sentences):
+        inputs = tokenizer(sentence, return_tensors="pt").to(DEVICE)
+        generated_tokens = model.generate(
+            **inputs,
+            max_length=128
+        )
+        translation = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
+        predictions.append(translation)
+    # --- 5. Compute BLEU Score ---
+    print("Calculating BLEU score...")
+    results = bleu_metric.compute(predictions=predictions, references=reference_translations)
+    # The result is a dictionary. The 'score' key holds the main BLEU score.
+    bleu_score = results["score"]
+    print("\n--- Evaluation Complete ---")
+    print(f"BLEU Score: {bleu_score:.2f}")
+    print("---------------------------")
+if __name__ == "__main__":
+    evaluate_model()

src/evaluation.py ADDED Viewed

	@@ -0,0 +1,64 @@

+# src/evaluate.py
+import torch
+import evaluate # The new, preferred Hugging Face library for metrics
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
+from tqdm import tqdm # A library to create smart progress bars
+import argparse
+def evaluate_model():
+    """
+    Loads a fine-tuned model and evaluates its performance on the test set using the BLEU score.
+    """
+    parser = argparse.ArgumentParser(description="Evaluate a translation model.")
+    parser.add_argument("--model_path", type=str, required=True, help="Path to the fine-tuned model directory")
+    parser.add_argument("--source_lang_file", type=str, required=True, help="Path to the source language test file")
+    parser.add_argument("--target_lang_file", type=str, required=True, help="Path to the target language test file")
+    parser.add_argument("--source_lang_tokenizer", type=str, required=True, help="Source language code for tokenizer (e.g., 'nep_Npan')")
+    args = parser.parse_args()
+    # --- 1. Configuration ---
+    DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+    # --- 2. Load Model, Tokenizer, and Metric ---
+    print("Loading model, tokenizer, and evaluation metric...")
+    tokenizer = AutoTokenizer.from_pretrained(args.model_path)
+    model = AutoModelForSeq2SeqLM.from_pretrained(args.model_path).to(DEVICE)
+    bleu_metric = evaluate.load("sacrebleu")
+    # --- 3. Load Test Data ---
+    with open(args.source_lang_file, "r", encoding="utf-8") as f:
+        source_sentences = [line.strip() for line in f.readlines()]
+    with open(args.target_lang_file, "r", encoding="utf-8") as f:
+        # The BLEU metric expects references to be a list of lists
+        reference_translations = [[line.strip()] for line in f.readlines()]
+    # --- 4. Generate Predictions ---
+    print(f"Generating translations for {len(source_sentences)} test sentences...")
+    predictions = []
+    for sentence in tqdm(source_sentences):
+        tokenizer.src_lang = args.source_lang_tokenizer
+        inputs = tokenizer(sentence, return_tensors="pt").to(DEVICE)
+        generated_tokens = model.generate(
+            **inputs,
+            forced_bos_token_id=tokenizer.vocab["eng_Latn"],
+            max_length=128
+        )
+        translation = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
+        predictions.append(translation)
+    # --- 5. Compute BLEU Score ---
+    print("Calculating BLEU score...")
+    results = bleu_metric.compute(predictions=predictions, references=reference_translations)
+    # The result is a dictionary. The 'score' key holds the main BLEU score.
+    bleu_score = results["score"]
+    print("\n--- Evaluation Complete ---")
+    print(f"BLEU Score: {bleu_score:.2f}")
+    print("---------------------------")
+if __name__ == "__main__":
+    evaluate_model()

src/train.py ADDED Viewed

	@@ -0,0 +1,109 @@

+# src/train.py
+import os
+import argparse
+from datasets import Dataset
+from transformers import (
+    AutoModelForSeq2SeqLM,
+    AutoTokenizer,
+    DataCollatorForSeq2Seq,
+    Seq2SeqTrainingArguments,
+    Seq2SeqTrainer,
+)
+def train_model():
+    """
+    Fine-tunes a pre-trained NLLB model on a parallel dataset.
+    """
+    parser = argparse.ArgumentParser(description="Fine-tune a translation model.")
+    parser.add_argument("--model_checkpoint", type=str, default="facebook/nllb-200-distilled-600M")
+    parser.add_argument("--source_lang", type=str, required=True, help="Source language code (e.g., 'ne')")
+    parser.add_argument("--target_lang", type=str, default="en")
+    parser.add_argument("--source_lang_tokenizer", type=str, required=True, help="Source language code for tokenizer (e.g., 'nep_Npan')")
+    parser.add_argument("--train_file_source", type=str, required=True, help="Path to the source language training file")
+    parser.add_argument("--train_file_target", type=str, required=True, help="Path to the target language training file")
+    parser.add_argument("--output_dir", type=str, required=True, help="Directory to save the fine-tuned model")
+    parser.add_argument("--epochs", type=int, default=3)
+    parser.add_argument("--batch_size", type=int, default=8)
+    args = parser.parse_args()
+    # --- 1. Configuration ---
+    MODEL_CHECKPOINT = args.model_checkpoint
+    SOURCE_LANG = args.source_lang
+    TARGET_LANG = args.target_lang
+    MODEL_OUTPUT_DIR = args.output_dir
+    # --- 2. Load Tokenizer and Model ---
+    print("Loading tokenizer and model...")
+    tokenizer = AutoTokenizer.from_pretrained(
+        MODEL_CHECKPOINT, src_lang=args.source_lang_tokenizer, tgt_lang="eng_Latn"
+    )
+    model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_CHECKPOINT)
+    # --- 3. Load and Preprocess Data (Memory-Efficiently) ---
+    print("Loading and preprocessing data...")
+    def generate_examples():
+        with open(args.train_file_source, "r", encoding="utf-8") as f_src, \
+             open(args.train_file_target, "r", encoding="utf-8") as f_tgt:
+            for src_line, tgt_line in zip(f_src, f_tgt):
+                yield {"translation": {SOURCE_LANG: src_line.strip(), TARGET_LANG: tgt_line.strip()}}
+    dataset = Dataset.from_generator(generate_examples)
+    split_datasets = dataset.train_test_split(train_size=0.95, seed=42)
+    split_datasets["validation"] = split_datasets.pop("test")
+    def preprocess_function(examples):
+        inputs = [ex[SOURCE_LANG] for ex in examples["translation"]]
+        targets = [ex[TARGET_LANG] for ex in examples["translation"]]
+        model_inputs = tokenizer(inputs, text_target=targets, max_length=128, truncation=True)
+        return model_inputs
+    tokenized_datasets = split_datasets.map(
+        preprocess_function,
+        batched=True,
+        remove_columns=split_datasets["train"].column_names,
+    )
+    # --- 4. Set Up Training Arguments ---
+    print("Setting up training arguments...")
+    training_args = Seq2SeqTrainingArguments(
+        output_dir=MODEL_OUTPUT_DIR,
+        eval_strategy="epoch",
+        learning_rate=2e-5,
+        per_device_train_batch_size=args.batch_size,
+        per_device_eval_batch_size=args.batch_size,
+        weight_decay=0.01,
+        save_total_limit=3,
+        num_train_epochs=args.epochs,
+        predict_with_generate=True,
+        fp16=False, # Set to True if you have a compatible GPU
+    )
+    # --- 5. Create the Trainer ---
+    data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model)
+    trainer = Seq2SeqTrainer(
+        model=model,
+        args=training_args,
+        train_dataset=tokenized_datasets["train"],
+        eval_dataset=tokenized_datasets["validation"],
+        tokenizer=tokenizer,
+        data_collator=data_collator,
+    )
+    # --- 6. Start Training ---
+    print("\n--- Starting model fine-tuning ---")
+    trainer.train()
+    print("--- Training complete ---")
+    # --- 7. Save the Final Model ---
+    print(f"Saving final model to {MODEL_OUTPUT_DIR}")
+    trainer.save_model()
+    print("Model saved successfully!")
+if __name__ == "__main__":
+    train_model()

src/train_nepali.py ADDED Viewed

	@@ -0,0 +1,95 @@

+# src/train_nepali.py
+import os
+from datasets import load_dataset, DatasetDict, concatenate_datasets
+from transformers import (
+    AutoModelForSeq2SeqLM,
+    AutoTokenizer,
+    DataCollatorForSeq2Seq,
+    Seq2SeqTrainingArguments,
+    Seq2SeqTrainer,
+)
+def train_nepali_model():
+    """
+    Fine-tunes a pre-trained NLLB model on the Nepali parallel dataset.
+    """
+    # --- 1. Configuration ---
+    MODEL_CHECKPOINT = "facebook/nllb-200-distilled-600M"
+    DATA_DIR = "data/processed"
+    MODEL_OUTPUT_DIR = "D:\\SIH\\models\\nllb-finetuned-nepali-en"
+    # --- 2. Load Tokenizer and Model ---
+    print("Loading tokenizer and model...")
+    tokenizer = AutoTokenizer.from_pretrained(
+        MODEL_CHECKPOINT, src_lang="nep_Npan", tgt_lang="eng_Latn"
+    )
+    model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_CHECKPOINT)
+    # --- 3. Load and Preprocess Data ---
+    print("Loading and preprocessing data...")
+    nepali_dataset = load_dataset("text", data_files=os.path.join(DATA_DIR, "nepali.ne"))["train"]
+    english_dataset = load_dataset("text", data_files=os.path.join(DATA_DIR, "nepali.en"))["train"]
+    # rename the 'text' column to 'ne' and 'en'
+    nepali_dataset = nepali_dataset.rename_column("text", "ne")
+    english_dataset = english_dataset.rename_column("text", "en")
+    # combine the datasets
+    raw_datasets = concatenate_datasets([nepali_dataset, english_dataset], axis=1)
+    split_datasets = raw_datasets.train_test_split(train_size=0.95, seed=42)
+    split_datasets["validation"] = split_datasets.pop("test")
+    def preprocess_function(examples):
+        inputs = examples["ne"]
+        targets = examples["en"]
+        model_inputs = tokenizer(inputs, text_target=targets, max_length=128, truncation=True)
+        return model_inputs
+    tokenized_datasets = split_datasets.map(
+        preprocess_function,
+        batched=True,
+        remove_columns=split_datasets["train"].column_names,
+    )
+    # --- 4. Set Up Training Arguments ---
+    print("Setting up training arguments...")
+    training_args = Seq2SeqTrainingArguments(
+        output_dir=MODEL_OUTPUT_DIR,
+        eval_strategy="epoch",
+        learning_rate=2e-5,
+        per_device_train_batch_size=8,
+        per_device_eval_batch_size=8,
+        weight_decay=0.01,
+        save_total_limit=3,
+        num_train_epochs=3, # Reduced for faster training, can be increased
+        predict_with_generate=True,
+        fp16=False, # Set to True if you have a compatible GPU
+    )
+    # --- 5. Create the Trainer ---
+    data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model)
+    trainer = Seq2SeqTrainer(
+        model=model,
+        args=training_args,
+        train_dataset=tokenized_datasets["train"],
+        eval_dataset=tokenized_datasets["validation"],
+        tokenizer=tokenizer,
+        data_collator=data_collator,
+    )
+    # --- 6. Start Training ---
+    print(f"\n--- Starting model fine-tuning for Nepali-English ---")
+    trainer.train()
+    print("--- Training complete ---")
+    # --- 7. Save the Final Model ---
+    print(f"Saving final model to {MODEL_OUTPUT_DIR}")
+    trainer.save_model()
+    print("Model saved successfully!")
+if __name__ == "__main__":
+    train_nepali_model()

src/translate.py ADDED Viewed

	@@ -0,0 +1,52 @@

+# src/translate.py
+# src/translate.py
+import torch
+from transformers import MBartForConditionalGeneration, NllbTokenizer
+import argparse
+# --- 1. Configuration ---
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+# --- 2. Load Models and Tokenizers ---
+print(f"Loading models on {DEVICE.upper()}...")
+models = {
+    "nepali": MBartForConditionalGeneration.from_pretrained("models/nllb-finetuned-nepali-en").to(DEVICE)
+}
+tokenizers = {
+    "nepali": NllbTokenizer.from_pretrained("models/nllb-finetuned-nepali-en")
+}
+print("All models loaded successfully!")
+def translate_text(text_to_translate: str, source_language: str) -> str:
+    """
+    Translates a single string of text to English using our fine-tuned models.
+    """
+    model = models[source_language]
+    tokenizer = tokenizers[source_language]
+    tokenizer.src_lang = "nep_Npan"
+    inputs = tokenizer(text_to_translate, return_tensors="pt").to(DEVICE)
+    generated_tokens = model.generate(
+        **inputs,
+        forced_bos_token_id=tokenizer.convert_tokens_to_ids("eng_Latn"),
+        max_length=128
+    )
+    translation = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
+    return translation
+# --- 3. Example Usage ---
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Translate text using a fine-tuned model.")
+    parser.add_argument("--text", type=str, required=True, help="Text to translate.")
+    parser.add_argument("--lang", type=str, required=True, choices=["nepali"], help="Source language: 'nepali'.")
+    args = parser.parse_args()
+    translated_sentence = translate_text(args.text, args.lang)
+    print(f"\nOriginal ({args.lang}): {args.text}")
+    print(f"Translated (en): {translated_sentence}")

test_analysis.py ADDED Viewed

	@@ -0,0 +1,84 @@

+import os
+import sys
+import codecs
+import torch
+from transformers import M2M100ForConditionalGeneration, NllbTokenizerFast
+def translate_text(text, model, tokenizer, src_lang, target_lang="eng_Latn"):
+    """
+    Translates a single text string.
+    """
+    try:
+        tokenizer.src_lang = src_lang
+        inputs = tokenizer(text, return_tensors="pt")
+        generated_tokens = model.generate(
+            **inputs,
+            forced_bos_token_id=tokenizer.vocab[target_lang],
+            max_length=512
+        )
+        translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
+        return translated_text
+    except Exception as e:
+        return f"An error occurred during translation: {e}"
+def main():
+    """
+    Main function to load the model and run a test translation.
+    """
+    # Reconfigure stdout to handle UTF-8 encoding
+    sys.stdout = codecs.getwriter('utf-8')(sys.stdout.buffer)
+    # --- Configuration ---
+    script_dir = os.path.dirname(os.path.abspath(__file__))
+    nepali_model_path = os.path.join(script_dir, "models", "nllb-finetuned-nepali-en")
+    # --- Model Loading ---
+    print("Loading Nepali model and tokenizer...")
+    try:
+        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        nepali_model = M2M100ForConditionalGeneration.from_pretrained(nepali_model_path).to(device)
+        nepali_tokenizer = NllbTokenizerFast.from_pretrained(nepali_model_path)
+        print("Nepali model and tokenizer loaded successfully.")
+    except Exception as e:
+        print(f"Error loading Nepali model or tokenizer: {e}")
+        return
+    # --- Nepali Translation ---
+    nepali_sentences = [
+        "जडान बिन्दु थप्नुहोस्",
+        "स्टिकी नोट आयात पूरा भयो",
+        "मोनोस्पेस १२",
+        "पानी जेट पम्पमा दुईवटा भित्रिने र एउटा बाहिरिने पाइप हुन्छन् र एक भित्र अर्को सिद्धान्त अनुरूप दुईवटा पाइप हुन्छन् । पानीको प्रविष्टिमा एउटा पानी जेटले केही ठूलो पाइपमा पूरा चापले टुटीबाट बाहिर फाल्दछ । यस्तो तरिकाले पानी जेटले वायू वा तरललाई दोस्रो प्रविष्टिबाट टाढा पुर्याउदछ । ड्रिफ्टिङ तरलमा ऋणात्मक चापको कारणले यस्तो हुन्छ । त्यसैले यो हाइड्रोडायनमिक विरोधाभाषको एउटा अनुप्रयोग हो । यसले ड्रिफ्टिङ तरल नजिकका वस्तु टाढा फाल्नुको साटोमा सोस्ने कुरा बताउदछ ।",
+        "वस्तुको परिवर्तन बचत गर्नुहोस् ।"
+        "तिमीलाई कस्तो छ" ,
+        "तिमी को हौ",
+        "कति बज्यो"
+    ]
+    print("\n--- Nepali to English Translation Analysis ---")
+    for sentence in nepali_sentences:
+        print(f"\nOriginal (ne): {sentence}")
+        translated_text = translate_text(sentence, nepali_model, nepali_tokenizer, src_lang="nep_Npan")
+        print(f"Translated (en): {translated_text}")
+    # --- Sinhala Translation ---
+    # NOTE: No fine-tuned model for sinhala was found. Using the baseline model for now.
+    print("\n\n--- Sinhala to English Translation Analysis ---")
+    sinhala_sentences = [
+        "ඩෝසන්මිස් දුරකථනයෙන් ඩෝසන්මිස් කවුද සර්",
+        "කවුද ඩෝසන් නැතුව ඉන්නේ ඔව් සර්",
+        "ඔබ එය උත්සාහ කරන්න සර්",
+        "කොහොමද වැඩේ හරිද ඔව් සර්ට ස්තුතියි",
+        "ඔව්, හරි, ස්තුතියි රත්තරං",
+    ]
+    for sentence in sinhala_sentences:
+        print(f"\nOriginal (si): {sentence}")
+        translated_text = translate_text(sentence, nepali_model, nepali_tokenizer, src_lang="sin_Sinh")
+        print(f"Translated (en): {translated_text}")
+if __name__ == "__main__":
+    main()