PatentBERT - PyTorch

Modele BERT specialise pour la classification de brevets, converti de TensorFlow vers PyTorch.

Specifications

Classes de sortie: 656
Taille cachee: 768
Couches: 12
Têtes d'attention: 12
Vocabulaire: 30,522 tokens

Utilisation

from transformers import BertForSequenceClassification, BertTokenizer

# Charger le modele et tokenizer
model = BertForSequenceClassification.from_pretrained('ZoeYou/patentbert-pytorch')
tokenizer = BertTokenizer.from_pretrained('ZoeYou/patentbert-pytorch')

# Exemple d'inference
text = "A method for producing synthetic materials..."
inputs = tokenizer(text, return_tensors="pt", max_length=512, truncation=True, padding=True)
outputs = model(**inputs)
predictions = outputs.logits.softmax(dim=-1)

# Obtenir la classe predite
predicted_class = predictions.argmax().item()

Donnees d'entrainement

Ce modele a ete fine-tune sur un corpus de brevets pour la classification selon le systeme CPC (Cooperative Patent Classification).