textcat_model / README.md
RaThorat's picture
Update README.md
b24dc98 verified
metadata
license: mit
datasets:
  - RaThorat/doc_chunks
language:
  - nl
base_model:
  - GroNLP/bert-base-dutch-cased

Model Card for Model ID

This modelcard aims to be a base template for new models. It has been generated using this raw template.

Model Details

Model Description

Het doel is een schaalbare, privacyschone oplossing die gebruik maakt van openbare gegevens van DUS-I (zoals beleidsdocumenten en nieuwsberichten) om medewerkers snel en accuraat te informeren.

Model Sources [optional]

Uses

Identificatie van vragen: Veelvoorkomende onderwerpen zijn subsidie-informatie, beleidsontwikkelingen en handleidingen.

Direct Use

Tijd besparen door snel informatie te leveren aan medewerkers via AI.

[More Information Needed]

Training Details

Training Data

46 txt, pdf en odt documenten van de DUS-I website zijn gebruikt om Chunks (200 woorden per chunk) te maken in JSON-formaat.

[More Information Needed]

Training Procedure

Preprocessing [optional]

Documenten gegroepeerd (groeperen_segment_text_to_jsonl.py) in labels zoals: PROJECT, HANDLEIDING, OVEREENKOMST, PLAN, BELEID, SUBSIDIE.

Training Hyperparameters

  • Training regime: Uitgevoerd met GroNLP/bert-base-dutch-cased model (110 miljoen parameters).

Results

[More Information Needed]

Summary

Script voor textcat model: https://github.com/RaThorat/my-chatbot-project/blob/main/scripts/train_textcat_model.py

Technical Specifications [optional]

Model Architecture and Objective

46 txt, pdf en odt documenten van de DUS-I website zijn gebruikt om Chunks (200 woorden per chunk) te maken in JSON-formaat. Voor text categorization model: dezelfde documenten omgezet naar JSONL-formaat.

Compute Infrastructure

[More Information Needed]

Hardware

8 vCPU's en 64 GB RAM was vereist.