🛡️ PII Sensitive NER – German

Ein feinjustiertes Modell zur Erkennung schützenswerter und besonders schützenswerter Personendaten nach DSGVO und Schweizer DSG. Das Modell basiert auf iiiorg/piiranha-v1-detect-personal-information und wurde auf deutschsprachigen Beispielen trainiert.

🔍 Anwendungsfall

Das Modell erkennt personenbezogene Daten in Texten – insbesondere verschiedene Kategorien von besonders schützenswerten Personendaten gemäss Art. 9 DSGVO wie:

  • REL: Religion (z. B. Weihnachten, islamisch, Konfirmation)
  • ETHN: Ethnische Zugehörigkeit (z. B. türkischstämmig, asiatisch)
  • SOR: Sexuelle Orientierung (z. B. homosexuell, bisexuell)

Zusätzlich werden Standard-Entitäten aus dem Piiranha-Modell wie EMAIL, TELEPHONENUM, DATEOFBIRTH, IDCARDNUM etc. erkannt.

📊 Training

Das Modell wurde mit einer Kombination aus:

fine-getuned.

⚠️ Disclaimer

Dieses Modell wurde auf synthetisch erzeugten Daten validiert und evaluiert. Obwohl bei der Generierung auf hohe Variation und realitätsnahe Formulierungen geachtet wurde, kann die tatsächliche Leistung im Einsatz mit echten, unstrukturierten Texten abweichen.

Das Modell befindet sich in einem frühen Entwicklungsstadium und ist nicht frei von Fehlern. Insbesondere bei mehrdeutigen oder komplex verschachtelten Sätzen kann es zu Fehlklassifikationen oder unvollständiger Erkennung kommen. Eine manuelle Nachprüfung der Ergebnisse wird ausdrücklich empfohlen.

Die Weiterentwicklung und Evaluierung des Modells auf echten Anwendungsdaten ist vorgesehen, konnte im Rahmen dieser Version jedoch noch nicht erfolgen.

Es wird keine Haftung für die Funktionsweise, Genauigkeit oder Vollständigkeit des Modells übernommen. Die Nutzung erfolgt auf eigene Verantwortung.

📦 Verwendung

from transformers import pipeline

model = pipeline(
    "token-classification",
    model="HuggingLil/pii-sensitive-ner-german",
    aggregation_strategy="simple" 
)

text = "Elena Petrov ist Kosovarin und hat die Emailadresse elena.petrov@uni-berlin.de angegeben."
output = model(text)
print(output)
Downloads last month
70
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for HuggingLil/pii-sensitive-ner-german

Dataset used to train HuggingLil/pii-sensitive-ner-german