E5 Small Multilingual PII Detector
A lightweight multilingual model for detecting personally identifiable information (PII) in text.
It achieves the following results on the evaluation set:
- Loss: 0.2192
- Accuracy: 0.9214
- Input tokens seen during training: 4 552 704
Usage
from transformers import pipeline
classifier = pipeline(
task="text-classification",
model="agentlans/multilingual-e5-small-pii-detector"
)
classifier("Your text here.")
# [{'label': 'False', 'score': 0.9981884360313416}]
Results
Translated testing text
English
- My full name is John Michael Doe, and I reside at 123 Elm Street, Springfield, IL 62701.
- Contact me at my email address: [email protected] or by phone at (555) 123-4567.
- My Social Security Number is 123-45-6789, which I use for official identifications.
- I was born on June 15, 1985, in the city of Chicago, Illinois.
- My driver's license number is DL-987654321, issued by the state of Illinois.
- Please send packages to my home address: 456 Oak Avenue, Apartment 2B, New York, NY 10001.
- My passport number is PP-1122334455, valid until December 31, 2030.
- For banking, use my account number 9876543210 at First National Bank.
- My credit card details include the number 4111-1111-1111-1111 with expiration 12/28.
- I work at Tech Corp, employee ID 56789, located at 789 Pine Road, Austin, TX 78701.
- My full name is [NAME REDACTED], and I live on [STREET NAME] in a medium-sized city.
- You can reach the project team using the shared contact form on our internal portal.
- For identity verification in this demo, the system displays a mock identification code like XXX-XX-XXXX instead of a real number.
- The example user profile shows a fictional birth date field paired with a generic city of birth label.
- A sample record might include a placeholder license field labeled “LICENSE-#########” to mimic real-world formats without using actual data.
- The test shipping label uses “Sample Recipient” and “Example Street” to illustrate how addresses are structured.
- In the training dashboard, a dummy travel document number is shown only as a sequence of repeating characters.
- The banking screen includes a fake account identifier such as “ACCOUNT-0000000000” to emulate a real account layout.
- A mock payment card entry uses a pattern like “1111-2222-3333-4444” that does not correspond to an actual card.
- The HR sample record lists “Test Employee” with a generic office location field to demonstrate employee data formatting.
French
- Je m'appelle John Michael Doe et je réside au 123, rue Elm, Springfield, Illinois 62701.
- Vous pouvez me contacter par courriel à l'adresse [email protected] ou par téléphone au (555) 123-4567.
- Mon numéro de sécurité sociale est le 123-45-6789 ; je l'utilise pour mes pièces d'identité officielles.
- Je suis né le 15 juin 1985 à Chicago, dans l'Illinois.
- Mon numéro de permis de conduire est le DL-987654321 ; il a été délivré par l'État de l'Illinois.
- Veuillez envoyer les colis à mon domicile : 456 Oak Avenue, Appartement 2B, New York, NY 10001.
- Mon numéro de passeport est PP-1122334455 et il est valide jusqu’au 31 décembre 2030.
- Pour vos opérations bancaires, veuillez utiliser mon numéro de compte 9876543210 à la First National Bank.
- Les informations relatives à ma carte de crédit sont les suivantes : numéro 4111-1111-1111-1111 et date d’expiration : 28/12.
- Je travaille chez Tech Corp, sous le numéro d’employé 56789, au 789 Pine Road, Austin, TX 78701.
- Mon nom complet est [NOM MASQUÉ] et j’habite au [NOM DE LA RUE] dans une ville de taille moyenne.
- Vous pouvez contacter l’équipe projet via le formulaire de contact partagé sur notre portail interne.
- Pour la vérification d'identité dans cette démonstration, le système affiche un code d'identification fictif, par exemple XXX-XX-XXXX, au lieu d'un numéro réel.
- Le profil utilisateur d'exemple présente un champ de date de naissance fictif associé à une ville de naissance générique.
- Un enregistrement d'exemple peut inclure un champ de permis de conduire factice intitulé « PERMIS-########## » afin de simuler des formats réels sans utiliser de données réelles.
- L'étiquette d'expédition de test utilise « Destinataire fictif » et « Rue fictive » pour illustrer la structure des adresses.
- Dans le tableau de bord de formation, un numéro de document de voyage fictif est affiché uniquement sous forme de séquence de caractères répétitifs.
- L'écran bancaire inclut un identifiant de compte fictif, tel que « COMPTE-0000000000 », afin d'imiter la structure d'un compte réel.
- Une saisie de carte de paiement fictive utilise un format comme « 1111-2222-3333-4444 » qui ne correspond à aucune carte réelle.
- L'exemple d'enregistrement RH mentionne « Employé test » avec un champ générique de localisation de bureau pour illustrer le formatage des données des employés.
Spanish
- Mi nombre completo es John Michael Doe y resido en 123 Elm Street, Springfield, IL 62701.
- Puede contactarme por correo electrónico: [email protected] o por teléfono al (555) 123-4567.
- Mi número de Seguro Social es 123-45-6789, el cual utilizo para identificaciones oficiales.
- Nací el 15 de junio de 1985 en la ciudad de Chicago, Illinois.
- Mi número de licencia de conducir es DL-987654321, emitido por el estado de Illinois.
- Por favor, envíen los paquetes a mi domicilio: 456 Oak Avenue, Apartamento 2B, Nueva York, NY 10001.
- Mi número de pasaporte es PP-1122334455, válido hasta el 31 de diciembre de 2030.
- Para operaciones bancarias, utilice mi número de cuenta 9876543210 en First National Bank.
- Los datos de mi tarjeta de crédito incluyen el número 4111-1111-1111-1111, con vencimiento el 28/12.
- Trabajo en Tech Corp, con ID de empleado 56789, ubicado en 789 Pine Road, Austin, TX 78701.
- Mi nombre completo es [NOMBRE OMITIDO] y vivo en [NOMBRE DE LA CALLE] en una ciudad mediana.
- Puede contactar con el equipo del proyecto mediante el formulario de contacto compartido en nuestro portal interno.
- Para la verificación de identidad en esta demostración, el sistema muestra un código de identificación ficticio como XXX-XX-XXXX en lugar de un número real.
- El perfil de usuario de ejemplo muestra un campo de fecha de nacimiento ficticio junto con una etiqueta genérica de ciudad de nacimiento.
- Un registro de ejemplo podría incluir un campo de licencia de marcador de posición denominado "LICENCIA-#########" para imitar formatos reales sin usar datos reales.
- La etiqueta de envío de prueba utiliza "Destinatario de muestra" y "Calle de ejemplo" para ilustrar la estructura de las direcciones.
- En el panel de entrenamiento, un número de documento de viaje ficticio se muestra únicamente como una secuencia de caracteres repetidos.
- La pantalla bancaria incluye un identificador de cuenta falso como "CUENTA-0000000000" para emular el diseño de una cuenta real.
- Una entrada de tarjeta de pago simulada utiliza un patrón como "1111-2222-3333-4444", que no corresponde a una tarjeta real.
- El registro de muestra de RR.HH. incluye “Empleado de prueba” con un campo de ubicación de oficina genérico para demostrar el formato de los datos de los empleados.
Chinese
- 我的全名是约翰·迈克尔·多伊 (John Michael Doe),居住在伊利诺伊州斯普林菲尔德市榆树街123号 (123 Elm Street, Springfield, IL 62701)。
- 您可以通过邮箱 [email protected] 或电话 (555) 123-4567 联系我。
- 我的社会安全号码是 123-45-6789,我用它来办理官方身份证明。
- 我于1985年6月15日出生于伊利诺伊州芝加哥市。
- 我的驾照号码是 DL-987654321,由伊利诺伊州颁发。
- 请将包裹寄送到我的家庭住址:纽约州纽约市橡树大道456号2B公寓,邮编10001。
- 我的护照号码是PP-1122334455,有效期至2030年12月31日。
- 我的银行账户是First National Bank,账号为9876543210。
- 我的信用卡卡号为4111-1111-1111-1111,有效期至12月28日。
- 我在Tech Corp工作,员工编号为56789,公司地址为德克萨斯州奥斯汀市松树路789号,邮编78701。
- 我的全名是[姓名已编辑],居住在[街道名称],位于一座中等规模的城市。
- 您可以通过我们内部门户网站上的共享联系表格联系项目团队。
- 在本演示中,为进行身份验证,系统会显示类似 XXX-XX-XXXX 的模拟识别码,而非真实号码。
- 示例用户个人资料中包含一个虚构的出生日期字段,并搭配一个通用的出生城市标签。
- 示例记录可能包含一个占位符许可证字段,标签为“LICENSE-#########”,以模拟真实世界的格式,而无需使用实际数据。
- 测试发货标签使用“示例收件人”和“示例街道”来演示地址的结构。
- 在培训仪表板中,虚拟旅行证件号码仅显示为一串重复字符。
- 银行界面包含一个类似“ACCOUNT-0000000000”的虚假账户标识符,以模拟真实账户布局。
- 模拟支付卡条目使用类似“1111-2222-3333-4444”的模式,该模式与实际的支付卡不符。
- 人力资源示例记录列出了“测试员工”,其中包含一个通用的办公地点字段,用于演示员工数据格式。
Russian
- Моё полное имя — Джон Майкл Доу, я проживаю по адресу: Элм-стрит, 123, Спрингфилд, Иллинойс, 62701.
- Свяжитесь со мной по электронной почте: [email protected] или по телефону: (555) 123-4567.
- Мой номер социального страхования — 123-45-6789, который я использую для официальных удостоверений личности.
- Я родился 15 июня 1985 года в городе Чикаго, штат Иллинойс.
- Номер моего водительского удостоверения — DL-987654321, выдано штатом Иллинойс.
- Пожалуйста, отправляйте посылки на мой домашний адрес: 456 Oak Avenue, Apartment 2B, New York, NY 10001.
- Номер моего паспорта: PP-1122334455, действителен до 31 декабря 2030 года.
- Для банковских операций используйте мой счёт 9876543210 в First National Bank.
- В данных моей кредитной карты указан номер 4111-1111-1111-1111, срок действия — 28 декабря.
- Я работаю в компании Tech Corp, идентификационный номер сотрудника: 56789, адрес: 789 Pine Road, Austin, TX 78701.
- Моё полное имя: [ИМЯ УДАЛЕНО], я живу на [НАЗВАНИЕ УЛИЦЫ] в городе среднего размера.
- Вы можете связаться с командой проекта, используя общую контактную форму на нашем внутреннем портале.
- Для подтверждения личности в этой демонстрации система отображает фиктивный идентификационный код, например XXX-XX-XXXX, вместо реального числа.
- В примере профиля пользователя показано поле вымышленной даты рождения в сочетании с общей меткой города рождения.
- В примере записи может быть использовано поле лицензии-заглушка с меткой «LICENSE-#########», имитирующее реальные форматы без использования реальных данных.
- В тестовой этикетке для доставки используются поля «Sample Recipient» и «Example Street» для иллюстрации структуры адресов.
- На учебной панели управления фиктивный номер проездного документа отображается только в виде последовательности повторяющихся символов.
- На экране банковских операций отображается фиктивный идентификатор счёта, например, «ACCOUNT-0000000000», для имитации макета реального счёта.
- В записи фиктивной платёжной карты используется шаблон типа «1111-2222-3333-4444», который не соответствует реальной карте.
- В образце записи отдела кадров указан «Тестовый сотрудник» с общим полем местоположения офиса для демонстрации форматирования данных о сотруднике.
Arabic
- اسمي الكامل جون مايكل دو، وأقيم في ١٢٣ شارع إلم، سبرينغفيلد، إلينوي ٦٢٧٠١.
- للتواصل معي عبر بريدي الإلكتروني: [email protected] أو عبر الهاتف على الرقم (٥٥٥) ١٢٣-٤٥٦٧.
- رقم الضمان الاجتماعي الخاص بي هو ١٢٣-٤٥-٦٧٨٩، وهو رقم أستخدمه لإثبات هويتي الرسمية.
- وُلدتُ في ١٥ يونيو ١٩٨٥ في مدينة شيكاغو، إلينوي.
- رقم رخصة قيادتي هو DL-٩٨٧٦٥٤٣٢١، صادرة عن ولاية إلينوي.
- يرجى إرسال الطرود إلى عنوان منزلي: 456 شارع أوك، شقة 2ب، نيويورك، نيويورك 10001.
- رقم جواز سفري هو PP-1122334455، صالح حتى 31 ديسمبر 2030.
- للمعاملات المصرفية، استخدم رقم حسابي 9876543210 في بنك فيرست ناشيونال.
- تتضمن بيانات بطاقتي الائتمانية الرقم 4111-1111-1111-1111، وتاريخ انتهاء الصلاحية 28/12.
- أعمل في شركة Tech Corp، رقم تعريف الموظف 56789، الكائنة في 789 طريق باين، أوستن، تكساس 78701.
- اسمي الكامل هو [تم حذف الاسم]، وأعيش في [اسم الشارع] في مدينة متوسطة الحجم.
- يمكنك التواصل مع فريق المشروع باستخدام نموذج الاتصال المشترك على بوابتنا الداخلية.
- للتحقق من الهوية في هذا العرض التوضيحي، يعرض النظام رمز تعريف وهمي مثل XXX-XX-XXXX بدلاً من رقم حقيقي.
- يعرض ملف تعريف المستخدم النموذجي حقل تاريخ ميلاد وهمي مقترنًا بعلامة مدينة ميلاد عامة.
- قد يتضمن سجل نموذجي حقل ترخيص بديل بعنوان "LICENSE-#########" لمحاكاة التنسيقات الحقيقية دون استخدام بيانات فعلية.
- يستخدم ملصق الشحن التجريبي "نموذج المستلم" و"مثال الشارع" لتوضيح كيفية هيكلة العناوين.
- في لوحة معلومات التدريب، يظهر رقم وثيقة سفر وهمي فقط كتسلسل من الأحرف المتكررة.
- تتضمن شاشة الخدمات المصرفية معرف حساب وهمي مثل "ACCOUNT-0000000000" لمحاكاة تخطيط حساب حقيقي.
- يستخدم إدخال بطاقة دفع وهمي نمطًا مثل "1111-2222-3333-4444" لا يتوافق مع بطاقة فعلية.
- تسرد سجلات الموارد البشرية النموذجية "موظف الاختبار" مع حقل موقع مكتب عام لإظهار تنسيق بيانات الموظف.
Testing results
Classification results for identical texts translated into different languages
- 🚫 means that the model detected PII in the input
- ◯ means that the model detected no PII in the input
| English sentence | English | French | Spanish | Chinese | Russian | Arabic |
|---|---|---|---|---|---|---|
| My full name is John Michael Doe, and I reside at 123 Elm Street, Springfield, IL 62701. | 🚫 | 🚫 | 🚫 | 🚫 | 🚫 | 🚫 |
| Contact me at my email address: [email protected] or by phone at (555) 123-4567. | 🚫 | 🚫 | 🚫 | 🚫 | 🚫 | 🚫 |
| My Social Security Number is 123-45-6789, which I use for official identifications. | 🚫 | 🚫 | 🚫 | 🚫 | 🚫 | ◯ |
| I was born on June 15, 1985, in the city of Chicago, Illinois. | 🚫 | ◯ | ◯ | ◯ | 🚫 | ◯ |
| My driver's license number is DL-987654321, issued by the state of Illinois. | 🚫 | ◯ | 🚫 | 🚫 | 🚫 | 🚫 |
| Please send packages to my home address: 456 Oak Avenue, Apartment 2B, New York, NY 10001. | 🚫 | ◯ | 🚫 | ◯ | 🚫 | ◯ |
| My passport number is PP-1122334455, valid until December 31, 2030. | 🚫 | ◯ | 🚫 | 🚫 | 🚫 | 🚫 |
| For banking, use my account number 9876543210 at First National Bank. | 🚫 | 🚫 | 🚫 | 🚫 | 🚫 | 🚫 |
| My credit card details include the number 4111-1111-1111-1111 with expiration 12/28. | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
| I work at Tech Corp, employee ID 56789, located at 789 Pine Road, Austin, TX 78701. | 🚫 | 🚫 | 🚫 | 🚫 | 🚫 | 🚫 |
| My full name is [NAME REDACTED], and I live on [STREET NAME] in a medium-sized city. | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
| You can reach the project team using the shared contact form on our internal portal. | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
| For identity verification in this demo, the system displays a mock identification code like XXX-XX-XXXX instead of a real number. | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
| The example user profile shows a fictional birth date field paired with a generic city of birth label. | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
| A sample record might include a placeholder license field labeled “LICENSE-#########” to mimic real-world formats without using actual data. | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
| The test shipping label uses “Sample Recipient” and “Example Street” to illustrate how addresses are structured. | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
| In the training dashboard, a dummy travel document number is shown only as a sequence of repeating characters. | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
| The banking screen includes a fake account identifier such as “ACCOUNT-0000000000” to emulate a real account layout. | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
| A mock payment card entry uses a pattern like “1111-2222-3333-4444” that does not correspond to an actual card. | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
| The HR sample record lists “Test Employee” with a generic office location field to demonstrate employee data formatting. | ◯ | ◯ | ◯ | ◯ | ◯ | ◯ |
Limitations
- Limited sensitivity for some languages and PII formats (for example, certain credit card number patterns or locale-specific identifiers).
- May perform poorly on very short texts that lack sufficient context.
- Not a drop-in replacement for legal or compliance review; should be used as an assistive tool.
Training
Hyperparameters
- learning_rate: 5e-05
- train_batch_size: 8
- eval_batch_size: 8
- seed: 42
- optimizer:
AdamW(fused) withbetas=(0.9, 0.999),eps=1e-08, no additional optimizer arguments - lr_scheduler_type: linear
- num_epochs: 3.0
Framework versions
- Transformers 5.0.0.dev0
- PyTorch 2.9.1+cu128
- Datasets 4.4.1
- Tokenizers 0.22.1
Licence
Apache-2.0
- Downloads last month
- 35
Model tree for agentlans/multilingual-e5-small-pii-detector
Base model
intfloat/multilingual-e5-small