FaMiniLM / README.md

codersan

Update README.md

5ae5259 verified about 2 months ago

preview code

raw

history blame contribute delete

7.35 kB

metadata

tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:131157
  - loss:MultipleNegativesRankingLoss
base_model: sentence-transformers/all-MiniLM-L6-v2
widget:
  - source_sentence: عواقب ممنوعیت یادداشت های 500 روپیه و 1000 روپیه در مورد اقتصاد هند چیست؟
    sentences:
      - آیا باید در فیزیک و علوم کامپیوتر دو برابر کنم؟
      - چگونه اقتصاد هند پس از ممنوعیت 500 1000 یادداشت تحت تأثیر قرار گرفت؟
      - آیا آلمان در اجازه پناهندگان سوری به کشور خود اشتباه کرد؟
  - source_sentence: بهترین شماره پشتیبانی فنی QuickBooks در نیویورک ، ایالات متحده کدام است؟
    sentences:
      - فناوری هایی که اکثر مردم از آنها نمی دانند چیست؟
      - بهترین شماره پشتیبانی QuickBooks در آرکانزاس چیست؟
      - چرا در مقایسه با طرف نزدیک ، دهانه های زیادی در قسمت دور ماه وجود دارد؟
  - source_sentence: >-
      اقدامات احتیاطی ایمنی در مورد استفاده از اسلحه های پیشنهادی NRA در میشیگان
      چیست؟
    sentences:
      - پیروزی ترامپ چگونه بر کانادا تأثیر خواهد گذاشت؟
      - >-
        اقدامات احتیاطی ایمنی در مورد استفاده از اسلحه های پیشنهادی NRA در
        آیداهو چیست؟
      - مزایای خرید بیمه عمر چیست؟
  - source_sentence: چرا این همه افراد ناراضی هستند؟
    sentences:
      - چرا آب نبات تافی آب شور در مغولستان وارد می شود؟
      - برای یک رابطه موفق از راه دور چه چیزی طول می کشد؟
      - چرا مردم ناراضی هستند؟
  - source_sentence: برای تبدیل شدن به نویسنده برتر Quora ، چند بازدید و پاسخ لازم است؟
    sentences:
      - >-
        چگونه می توانم نویسنده برتر Quora شوم ، از صعود بیشتر و آمار بهتر
        استفاده کنم؟
      - >-
        چرا بسیاری از افرادی که سؤالاتی را در Quora ارسال می کنند ، ابتدا Google
        را بررسی می کنند؟
      - >-
        من به دنبال خرید دوچرخه جدید هستم.Suzuki Gixxer 155 یا Honda Hornet
        160r.کدام یک را بخرید؟
pipeline_tag: sentence-similarity
library_name: sentence-transformers
license: mit
datasets:
  - codersan/PersianSimilarSentences
language:
  - fa
  - en

SentenceTransformer based on sentence-transformers/all-MiniLM-L6-v2

This is a sentence-transformers model finetuned from sentence-transformers/all-MiniLM-L6-v2. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

This model, FaMiniLM, was developed alongside FaLaBSE as part of the research paper "MetaRAG and WikiFaQA: A Co-designed Framework and Benchmark for Advancing Persian Long-Context RAG". It serves as a lightweight Persian sentence encoder. FaMiniLM was created by fine-tuning the all-MiniLM-L6-v2 model—which had no prior Persian knowledge—on the custom PersianSimilarSentences dataset. The training was specifically designed to build Persian semantic understanding from the ground up.

Model Description

Model Type: Sentence Transformer
Base model: sentence-transformers/all-MiniLM-L6-v2
Maximum Sequence Length: 256 tokens
Output Dimensionality: 384 dimensions
Similarity Function: Cosine Similarity

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("codersan/validadted_all-MiniLM_onV9")
# Run inference
sentences = [
    'برای تبدیل شدن به نویسنده برتر Quora ، چند بازدید و پاسخ لازم است؟',
    'چگونه می توانم نویسنده برتر Quora شوم ، از صعود بیشتر و آمار بهتر استفاده کنم؟',
    'من به دنبال خرید دوچرخه جدید هستم.Suzuki Gixxer 155 یا Honda Hornet 160r.کدام یک را بخرید؟',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 64
learning_rate: 2e-05
weight_decay: 0.01
num_train_epochs: 15
warmup_ratio: 0.1
batch_sampler: no_duplicates

Framework Versions

Python: 3.10.12
Sentence Transformers: 3.3.1
Transformers: 4.47.0
PyTorch: 2.5.1+cu121
Accelerate: 1.2.1
Datasets: 3.2.0
Tokenizers: 0.21.0

codersan
/

FaMiniLM