E5 Small Multilingual PII Detector

A lightweight multilingual model for detecting personally identifiable information (PII) in text.

It achieves the following results on the evaluation set:

  • Loss: 0.2192
  • Accuracy: 0.9214
  • Input tokens seen during training: 4 552 704

Usage

from transformers import pipeline

classifier = pipeline(
    task="text-classification",
    model="agentlans/multilingual-e5-small-pii-detector"
)

classifier("Your text here.")
# [{'label': 'False', 'score': 0.9981884360313416}]

Results

Translated testing text

English

  1. My full name is John Michael Doe, and I reside at 123 Elm Street, Springfield, IL 62701.
  2. Contact me at my email address: [email protected] or by phone at (555) 123-4567.
  3. My Social Security Number is 123-45-6789, which I use for official identifications.
  4. I was born on June 15, 1985, in the city of Chicago, Illinois.
  5. My driver's license number is DL-987654321, issued by the state of Illinois.
  6. Please send packages to my home address: 456 Oak Avenue, Apartment 2B, New York, NY 10001.
  7. My passport number is PP-1122334455, valid until December 31, 2030.
  8. For banking, use my account number 9876543210 at First National Bank.
  9. My credit card details include the number 4111-1111-1111-1111 with expiration 12/28.
  10. I work at Tech Corp, employee ID 56789, located at 789 Pine Road, Austin, TX 78701.
  11. My full name is [NAME REDACTED], and I live on [STREET NAME] in a medium-sized city.
  12. You can reach the project team using the shared contact form on our internal portal.
  13. For identity verification in this demo, the system displays a mock identification code like XXX-XX-XXXX instead of a real number.
  14. The example user profile shows a fictional birth date field paired with a generic city of birth label.
  15. A sample record might include a placeholder license field labeled “LICENSE-#########” to mimic real-world formats without using actual data.
  16. The test shipping label uses “Sample Recipient” and “Example Street” to illustrate how addresses are structured.
  17. In the training dashboard, a dummy travel document number is shown only as a sequence of repeating characters.
  18. The banking screen includes a fake account identifier such as “ACCOUNT-0000000000” to emulate a real account layout.
  19. A mock payment card entry uses a pattern like “1111-2222-3333-4444” that does not correspond to an actual card.
  20. The HR sample record lists “Test Employee” with a generic office location field to demonstrate employee data formatting.

French

  1. Je m'appelle John Michael Doe et je réside au 123, rue Elm, Springfield, Illinois 62701.
  2. Vous pouvez me contacter par courriel à l'adresse [email protected] ou par téléphone au (555) 123-4567.
  3. Mon numéro de sécurité sociale est le 123-45-6789 ; je l'utilise pour mes pièces d'identité officielles.
  4. Je suis né le 15 juin 1985 à Chicago, dans l'Illinois.
  5. Mon numéro de permis de conduire est le DL-987654321 ; il a été délivré par l'État de l'Illinois.
  6. Veuillez envoyer les colis à mon domicile : 456 Oak Avenue, Appartement 2B, New York, NY 10001.
  7. Mon numéro de passeport est PP-1122334455 et il est valide jusqu’au 31 décembre 2030.
  8. Pour vos opérations bancaires, veuillez utiliser mon numéro de compte 9876543210 à la First National Bank.
  9. Les informations relatives à ma carte de crédit sont les suivantes : numéro 4111-1111-1111-1111 et date d’expiration : 28/12.
  10. Je travaille chez Tech Corp, sous le numéro d’employé 56789, au 789 Pine Road, Austin, TX 78701.
  11. Mon nom complet est [NOM MASQUÉ] et j’habite au [NOM DE LA RUE] dans une ville de taille moyenne.
  12. Vous pouvez contacter l’équipe projet via le formulaire de contact partagé sur notre portail interne.
  13. Pour la vérification d'identité dans cette démonstration, le système affiche un code d'identification fictif, par exemple XXX-XX-XXXX, au lieu d'un numéro réel.
  14. Le profil utilisateur d'exemple présente un champ de date de naissance fictif associé à une ville de naissance générique.
  15. Un enregistrement d'exemple peut inclure un champ de permis de conduire factice intitulé « PERMIS-########## » afin de simuler des formats réels sans utiliser de données réelles.
  16. L'étiquette d'expédition de test utilise « Destinataire fictif » et « Rue fictive » pour illustrer la structure des adresses.
  17. Dans le tableau de bord de formation, un numéro de document de voyage fictif est affiché uniquement sous forme de séquence de caractères répétitifs.
  18. L'écran bancaire inclut un identifiant de compte fictif, tel que « COMPTE-0000000000 », afin d'imiter la structure d'un compte réel.
  19. Une saisie de carte de paiement fictive utilise un format comme « 1111-2222-3333-4444 » qui ne correspond à aucune carte réelle.
  20. L'exemple d'enregistrement RH mentionne « Employé test » avec un champ générique de localisation de bureau pour illustrer le formatage des données des employés.

Spanish

  1. Mi nombre completo es John Michael Doe y resido en 123 Elm Street, Springfield, IL 62701.
  2. Puede contactarme por correo electrónico: [email protected] o por teléfono al (555) 123-4567.
  3. Mi número de Seguro Social es 123-45-6789, el cual utilizo para identificaciones oficiales.
  4. Nací el 15 de junio de 1985 en la ciudad de Chicago, Illinois.
  5. Mi número de licencia de conducir es DL-987654321, emitido por el estado de Illinois.
  6. Por favor, envíen los paquetes a mi domicilio: 456 Oak Avenue, Apartamento 2B, Nueva York, NY 10001.
  7. Mi número de pasaporte es PP-1122334455, válido hasta el 31 de diciembre de 2030.
  8. Para operaciones bancarias, utilice mi número de cuenta 9876543210 en First National Bank.
  9. Los datos de mi tarjeta de crédito incluyen el número 4111-1111-1111-1111, con vencimiento el 28/12.
  10. Trabajo en Tech Corp, con ID de empleado 56789, ubicado en 789 Pine Road, Austin, TX 78701.
  11. Mi nombre completo es [NOMBRE OMITIDO] y vivo en [NOMBRE DE LA CALLE] en una ciudad mediana.
  12. Puede contactar con el equipo del proyecto mediante el formulario de contacto compartido en nuestro portal interno.
  13. Para la verificación de identidad en esta demostración, el sistema muestra un código de identificación ficticio como XXX-XX-XXXX en lugar de un número real.
  14. El perfil de usuario de ejemplo muestra un campo de fecha de nacimiento ficticio junto con una etiqueta genérica de ciudad de nacimiento.
  15. Un registro de ejemplo podría incluir un campo de licencia de marcador de posición denominado "LICENCIA-#########" para imitar formatos reales sin usar datos reales.
  16. La etiqueta de envío de prueba utiliza "Destinatario de muestra" y "Calle de ejemplo" para ilustrar la estructura de las direcciones.
  17. En el panel de entrenamiento, un número de documento de viaje ficticio se muestra únicamente como una secuencia de caracteres repetidos.
  18. La pantalla bancaria incluye un identificador de cuenta falso como "CUENTA-0000000000" para emular el diseño de una cuenta real.
  19. Una entrada de tarjeta de pago simulada utiliza un patrón como "1111-2222-3333-4444", que no corresponde a una tarjeta real.
  20. El registro de muestra de RR.HH. incluye “Empleado de prueba” con un campo de ubicación de oficina genérico para demostrar el formato de los datos de los empleados.

Chinese

  1. 我的全名是约翰·迈克尔·多伊 (John Michael Doe),居住在伊利诺伊州斯普林菲尔德市榆树街123号 (123 Elm Street, Springfield, IL 62701)。
  2. 您可以通过邮箱 [email protected] 或电话 (555) 123-4567 联系我。
  3. 我的社会安全号码是 123-45-6789,我用它来办理官方身份证明。
  4. 我于1985年6月15日出生于伊利诺伊州芝加哥市。
  5. 我的驾照号码是 DL-987654321,由伊利诺伊州颁发。
  6. 请将包裹寄送到我的家庭住址:纽约州纽约市橡树大道456号2B公寓,邮编10001。
  7. 我的护照号码是PP-1122334455,有效期至2030年12月31日。
  8. 我的银行账户是First National Bank,账号为9876543210。
  9. 我的信用卡卡号为4111-1111-1111-1111,有效期至12月28日。
  10. 我在Tech Corp工作,员工编号为56789,公司地址为德克萨斯州奥斯汀市松树路789号,邮编78701。
  11. 我的全名是[姓名已编辑],居住在[街道名称],位于一座中等规模的城市。
  12. 您可以通过我们内部门户网站上的共享联系表格联系项目团队。
  13. 在本演示中,为进行身份验证,系统会显示类似 XXX-XX-XXXX 的模拟识别码,而非真实号码。
  14. 示例用户个人资料中包含一个虚构的出生日期字段,并搭配一个通用的出生城市标签。
  15. 示例记录可能包含一个占位符许可证字段,标签为“LICENSE-#########”,以模拟真实世界的格式,而无需使用实际数据。
  16. 测试发货标签使用“示例收件人”和“示例街道”来演示地址的结构。
  17. 在培训仪表板中,虚拟旅行证件号码仅显示为一串重复字符。
  18. 银行界面包含一个类似“ACCOUNT-0000000000”的虚假账户标识符,以模拟真实账户布局。
  19. 模拟支付卡条目使用类似“1111-2222-3333-4444”的模式,该模式与实际的支付卡不符。
  20. 人力资源示例记录列出了“测试员工”,其中包含一个通用的办公地点字段,用于演示员工数据格式。

Russian

  1. Моё полное имя — Джон Майкл Доу, я проживаю по адресу: Элм-стрит, 123, Спрингфилд, Иллинойс, 62701.
  2. Свяжитесь со мной по электронной почте: [email protected] или по телефону: (555) 123-4567.
  3. Мой номер социального страхования — 123-45-6789, который я использую для официальных удостоверений личности.
  4. Я родился 15 июня 1985 года в городе Чикаго, штат Иллинойс.
  5. Номер моего водительского удостоверения — DL-987654321, выдано штатом Иллинойс.
  6. Пожалуйста, отправляйте посылки на мой домашний адрес: 456 Oak Avenue, Apartment 2B, New York, NY 10001.
  7. Номер моего паспорта: PP-1122334455, действителен до 31 декабря 2030 года.
  8. Для банковских операций используйте мой счёт 9876543210 в First National Bank.
  9. В данных моей кредитной карты указан номер 4111-1111-1111-1111, срок действия — 28 декабря.
  10. Я работаю в компании Tech Corp, идентификационный номер сотрудника: 56789, адрес: 789 Pine Road, Austin, TX 78701.
  11. Моё полное имя: [ИМЯ УДАЛЕНО], я живу на [НАЗВАНИЕ УЛИЦЫ] в городе среднего размера.
  12. Вы можете связаться с командой проекта, используя общую контактную форму на нашем внутреннем портале.
  13. Для подтверждения личности в этой демонстрации система отображает фиктивный идентификационный код, например XXX-XX-XXXX, вместо реального числа.
  14. В примере профиля пользователя показано поле вымышленной даты рождения в сочетании с общей меткой города рождения.
  15. В примере записи может быть использовано поле лицензии-заглушка с меткой «LICENSE-#########», имитирующее реальные форматы без использования реальных данных.
  16. В тестовой этикетке для доставки используются поля «Sample Recipient» и «Example Street» для иллюстрации структуры адресов.
  17. На учебной панели управления фиктивный номер проездного документа отображается только в виде последовательности повторяющихся символов.
  18. На экране банковских операций отображается фиктивный идентификатор счёта, например, «ACCOUNT-0000000000», для имитации макета реального счёта.
  19. В записи фиктивной платёжной карты используется шаблон типа «1111-2222-3333-4444», который не соответствует реальной карте.
  20. В образце записи отдела кадров указан «Тестовый сотрудник» с общим полем местоположения офиса для демонстрации форматирования данных о сотруднике.

Arabic

  1. اسمي الكامل جون مايكل دو، وأقيم في ١٢٣ شارع إلم، سبرينغفيلد، إلينوي ٦٢٧٠١.
  2. للتواصل معي عبر بريدي الإلكتروني: [email protected] أو عبر الهاتف على الرقم (٥٥٥) ١٢٣-٤٥٦٧.
  3. رقم الضمان الاجتماعي الخاص بي هو ١٢٣-٤٥-٦٧٨٩، وهو رقم أستخدمه لإثبات هويتي الرسمية.
  4. وُلدتُ في ١٥ يونيو ١٩٨٥ في مدينة شيكاغو، إلينوي.
  5. رقم رخصة قيادتي هو DL-٩٨٧٦٥٤٣٢١، صادرة عن ولاية إلينوي.
  6. يرجى إرسال الطرود إلى عنوان منزلي: 456 شارع أوك، شقة 2ب، نيويورك، نيويورك 10001.
  7. رقم جواز سفري هو PP-1122334455، صالح حتى 31 ديسمبر 2030.
  8. للمعاملات المصرفية، استخدم رقم حسابي 9876543210 في بنك فيرست ناشيونال.
  9. تتضمن بيانات بطاقتي الائتمانية الرقم 4111-1111-1111-1111، وتاريخ انتهاء الصلاحية 28/12.
  10. أعمل في شركة Tech Corp، رقم تعريف الموظف 56789، الكائنة في 789 طريق باين، أوستن، تكساس 78701.
  11. اسمي الكامل هو [تم حذف الاسم]، وأعيش في [اسم الشارع] في مدينة متوسطة الحجم.
  12. يمكنك التواصل مع فريق المشروع باستخدام نموذج الاتصال المشترك على بوابتنا الداخلية.
  13. للتحقق من الهوية في هذا العرض التوضيحي، يعرض النظام رمز تعريف وهمي مثل XXX-XX-XXXX بدلاً من رقم حقيقي.
  14. يعرض ملف تعريف المستخدم النموذجي حقل تاريخ ميلاد وهمي مقترنًا بعلامة مدينة ميلاد عامة.
  15. قد يتضمن سجل نموذجي حقل ترخيص بديل بعنوان "LICENSE-#########" لمحاكاة التنسيقات الحقيقية دون استخدام بيانات فعلية.
  16. يستخدم ملصق الشحن التجريبي "نموذج المستلم" و"مثال الشارع" لتوضيح كيفية هيكلة العناوين.
  17. في لوحة معلومات التدريب، يظهر رقم وثيقة سفر وهمي فقط كتسلسل من الأحرف المتكررة.
  18. تتضمن شاشة الخدمات المصرفية معرف حساب وهمي مثل "ACCOUNT-0000000000" لمحاكاة تخطيط حساب حقيقي.
  19. يستخدم إدخال بطاقة دفع وهمي نمطًا مثل "1111-2222-3333-4444" لا يتوافق مع بطاقة فعلية.
  20. تسرد سجلات الموارد البشرية النموذجية "موظف الاختبار" مع حقل موقع مكتب عام لإظهار تنسيق بيانات الموظف.
Testing results

Classification results for identical texts translated into different languages

  • 🚫 means that the model detected PII in the input
  • ◯ means that the model detected no PII in the input
English sentence English French Spanish Chinese Russian Arabic
My full name is John Michael Doe, and I reside at 123 Elm Street, Springfield, IL 62701. 🚫 🚫 🚫 🚫 🚫 🚫
Contact me at my email address: [email protected] or by phone at (555) 123-4567. 🚫 🚫 🚫 🚫 🚫 🚫
My Social Security Number is 123-45-6789, which I use for official identifications. 🚫 🚫 🚫 🚫 🚫
I was born on June 15, 1985, in the city of Chicago, Illinois. 🚫 🚫
My driver's license number is DL-987654321, issued by the state of Illinois. 🚫 🚫 🚫 🚫 🚫
Please send packages to my home address: 456 Oak Avenue, Apartment 2B, New York, NY 10001. 🚫 🚫 🚫
My passport number is PP-1122334455, valid until December 31, 2030. 🚫 🚫 🚫 🚫 🚫
For banking, use my account number 9876543210 at First National Bank. 🚫 🚫 🚫 🚫 🚫 🚫
My credit card details include the number 4111-1111-1111-1111 with expiration 12/28.
I work at Tech Corp, employee ID 56789, located at 789 Pine Road, Austin, TX 78701. 🚫 🚫 🚫 🚫 🚫 🚫
My full name is [NAME REDACTED], and I live on [STREET NAME] in a medium-sized city.
You can reach the project team using the shared contact form on our internal portal.
For identity verification in this demo, the system displays a mock identification code like XXX-XX-XXXX instead of a real number.
The example user profile shows a fictional birth date field paired with a generic city of birth label.
A sample record might include a placeholder license field labeled “LICENSE-#########” to mimic real-world formats without using actual data.
The test shipping label uses “Sample Recipient” and “Example Street” to illustrate how addresses are structured.
In the training dashboard, a dummy travel document number is shown only as a sequence of repeating characters.
The banking screen includes a fake account identifier such as “ACCOUNT-0000000000” to emulate a real account layout.
A mock payment card entry uses a pattern like “1111-2222-3333-4444” that does not correspond to an actual card.
The HR sample record lists “Test Employee” with a generic office location field to demonstrate employee data formatting.

Limitations

  • Limited sensitivity for some languages and PII formats (for example, certain credit card number patterns or locale-specific identifiers).
  • May perform poorly on very short texts that lack sufficient context.
  • Not a drop-in replacement for legal or compliance review; should be used as an assistive tool.

Training

Hyperparameters

  • learning_rate: 5e-05
  • train_batch_size: 8
  • eval_batch_size: 8
  • seed: 42
  • optimizer: AdamW (fused) with betas=(0.9, 0.999), eps=1e-08, no additional optimizer arguments
  • lr_scheduler_type: linear
  • num_epochs: 3.0

Framework versions

  • Transformers 5.0.0.dev0
  • PyTorch 2.9.1+cu128
  • Datasets 4.4.1
  • Tokenizers 0.22.1

Licence

Apache-2.0

Downloads last month
35
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for agentlans/multilingual-e5-small-pii-detector

Finetuned
(130)
this model

Dataset used to train agentlans/multilingual-e5-small-pii-detector