GGUF? Ollama?
Может я тупой, а ггуфов не будет? И, неплохо бы, сразу в олламе. Фигня, конечно, но чисто эмбеддинги в докере крутить норм.
Буду благодарен за ответ и пояснение. Я пока плохо в этом разбираюсь, но судя по метрикам — модель отличная.
llama.cpp не поддерживает cased модели с BertTokenizer, т.к. весь входящий текст для GGUF моделей с типом токенайзера TOKENIZER_TYPE.WPM всегда переводится в нижний регистр. См. https://github.com/ggml-org/llama.cpp/blob/master/src/llama-vocab.cpp : блок WPM tokenizer, строка const std::string s = unicode_cpt_to_utf8(unicode_tolower(cpt)).
По этой причине BERTa в формате GGUF работает, но заметно теряет в качестве. Реализовал самое простое для меня решение - переобучил BERTa в uncased режиме и выложил BERTA-uncased с BERTA-uncased-GGUF.
О, благодарю! То что вы потратили свои силы на переобучение — это круто!