GGUF? Ollama?

#1
by BahamutRU - opened

Может я тупой, а ггуфов не будет? И, неплохо бы, сразу в олламе. Фигня, конечно, но чисто эмбеддинги в докере крутить норм.
Буду благодарен за ответ и пояснение. Я пока плохо в этом разбираюсь, но судя по метрикам — модель отличная.

llama.cpp не поддерживает cased модели с BertTokenizer, т.к. весь входящий текст для GGUF моделей с типом токенайзера TOKENIZER_TYPE.WPM всегда переводится в нижний регистр. См. https://github.com/ggml-org/llama.cpp/blob/master/src/llama-vocab.cpp : блок WPM tokenizer, строка const std::string s = unicode_cpt_to_utf8(unicode_tolower(cpt)).

По этой причине BERTa в формате GGUF работает, но заметно теряет в качестве. Реализовал самое простое для меня решение - переобучил BERTa в uncased режиме и выложил BERTA-uncased с BERTA-uncased-GGUF.

sergeyzh changed discussion status to closed

О, благодарю! То что вы потратили свои силы на переобучение — это круто!

Sign up or log in to comment