Judge model -> Gemini 1.5 pro experiment
### AVG:
| Критерий оценки                       | Gemini 1.5 Pro Experiment | GPT4O-Latest | Grok2(2024-08-13) | WoonaV1.2_9b       | gemma2_27b_it | gemma2_9b_it | llama3.1_8b |
| ------------------------------------- | ------------------------- | ------------ | ----------------- | ------------------ | ------------- | ------------ | ----------- |
| Точность (1-10)                       | 7.00                      | 7.40         | 6.93              | 8.13        | 3.40          | 2.47         | 1.27        |
| Полнота (1-10)                        | 6.13                      | 6.87         | 6.33              | 7.87        | 3.53          | 2.47         | 1.27        |
| Релевантность (1-10)                  | 7.40                      | 7.47         | 6.47              | 8.80        | 4.33          | 3.00         | 1.33        |
| Детализация (1-10)                    | 5.53                      | 6.40         | 5.67              | 7.40        | 3.67          | 2.47         | 1.40        |
| Терминология (1-10)                   | 7.93                      | 8.13         | 7.87              | 8.73        | 5.27          | 4.20         | 1.87        |
| Контекстуальность (1-10)              | 6.47                      | 7.00         | 6.27              | 8.00        | 3.73          | 2.67         | 1.27        |
| Актуальность (1-10)                   | 8.73                      | 8.80         | 8.40              | 9.00        | 6.00          | 4.33         | 1.80        |
| Отсутствие противоречий (1-10)        | 7.53                      | 7.93         | 7.33              | 8.53        | 4.07          | 2.87         | 1.47        |
| Структурированность (1-10)            | 8.00                      | 8.13  | 7.40              | 7.87               | 5.60          | 4.13         | 2.47        |
| Связность и последовательность (1-10) | 7.80                      | 8.00  | 7.33              | 7.93               | 5.47          | 4.00         | 2.33        |
| **Total AVG**                         | **72.53**                 | **76.13**    | **69.67**         | ***82.27*** | **45.07**     | **32.60**    | **16.47**   |
### Итерация 1
|                                       |                           |              |                   |              |               |              |             |
| ------------------------------------- | ------------------------- | ------------ | ----------------- | ------------ | ------------- | ------------ | ----------- |
| Критерий оценки                       | Gemini 1.5 Pro Experiment | GPT4O-Latest | Grok2(2024-08-13) | WoonaV1.2_9b | gemma2_27b_it | gemma2_9b_it | llama3.1_8b |
| Точность (1-10)                       | 9                         | 10           | 10                | 10           | 2             | 1            | 1           |
| Полнота (1-10)                        | 7                         | 9            | 8                 | 10           | 1             | 1            | 1           |
| Релевантность (1-10)                  | 10                        | 10           | 10                | 9            | 3             | 3            | 1           |
| Детализация (1-10)                    | 6                         | 8            | 7                 | 10           | 2             | 1            | 1           |
| Терминология (1-10)                   | 10                        | 10           | 10                | 10           | 3             | 7            | 1           |
| Контекстуальность (1-10)              | 7                         | 9            | 8                 | 10           | 1             | 1            | 1           |
| Актуальность (1-10)                   | 10                        | 10           | 10                | 10           | 1             | 1            | 1           |
| Отсутствие противоречий (1-10)        | 10                        | 10           | 10                | 10           | 1             | 1            | 1           |
| Структурированность (1-10)            | 8                         | 9            | 9                 | 9            | 5             | 5            | 5           |
| Связность и последовательность (1-10) | 8                         | 9            | 9                 | 9            | 5             | 5            | 5           |
| **ИТОГО**                             | **85**                    | **94**       | **91**            | **97**       | **24**        | **26**       | **18**      |
**Вопрос (Итерация 2):** "Какое животное выбрала Радуга Дэш в качестве своего питомца в эпизоде Пусть лучший победит?"
### Итерация 2:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|7|2|2|8|4|7|1|
|Полнота (1-10)|6|3|3|7|5|6|1|
|Релевантность (1-10)|8|2|2|9|6|8|1|
|Детализация (1-10)|6|4|4|7|5|6|1|
|Терминология (1-10)|9|8|8|9|8|9|1|
|Контекстуальность (1-10)|7|3|3|8|6|7|1|
|Актуальность (1-10)|10|10|10|10|8|9|1|
|Отсутствие противоречий (1-10)|8|4|4|9|6|8|1|
|Структурированность (1-10)|8|7|7|8|7|8|3|
|Связность и последовательность (1-10)|8|7|7|9|7|8|2|
|**ИТОГО**|**75**|**40**|**40**|**84**|**62**|**76**|**13**|
**Вопрос (Итерация 2):** "Как Рарити и Крошка Бель смогли преодолеть разницу в возрасте и вернуть свои близкие отношения? (В эпизоде: Вечный жеребёнок)"
### Итерация 3:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|2|9|8|9|5|1|1|
|Полнота (1-10)|3|8|7|8|6|2|1|
|Релевантность (1-10)|2|10|9|10|7|1|1|
|Детализация (1-10)|4|8|7|8|6|3|2|
|Терминология (1-10)|6|9|8|9|7|5|4|
|Контекстуальность (1-10)|3|9|8|9|6|2|1|
|Актуальность (1-10)|7|10|10|10|8|6|1|
|Отсутствие противоречий (1-10)|3|9|9|9|7|2|1|
|Структурированность (1-10)|7|9|8|9|7|6|4|
|Связность и последовательность (1-10)|6|9|8|9|7|5|3|
|**ИТОГО**|**43**|**90**|**84**|**90**|**66**|**34**|**19**|
**Вопрос (Итерация 3):** "Какую роль сыграла Принцесса Эмбер в Огненных испытаниях и как изменилось её отношение к дружбе в ходе соревнования? Относится к эпизоду: Испытания огнём (По сериалу MLP:FIM)"
### Итерация 4:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|9|8|8|9|6|7|1|
|Полнота (1-10)|8|9|9|8|5|6|2|
|Релевантность (1-10)|10|10|10|10|8|9|1|
|Детализация (1-10)|8|7|7|9|4|5|2|
|Терминология (1-10)|9|8|8|8|7|7|1|
|Контекстуальность (1-10)|9|8|8|9|6|7|1|
|Актуальность (1-10)|10|10|10|10|10|10|1|
|Отсутствие противоречий (1-10)|9|8|8|9|7|7|1|
|Структурированность (1-10)|9|9|9|8|7|8|3|
|Связность и последовательность (1-10)|9|9|9|9|7|8|3|
|**ИТОГО**|**89**|**86**|**86**|**89**|**67**|**74**|**16**|
**Вопрос (Итерация 4):** "Какие уникальные способности имеют пегасы в управлении погодой и взаимодействии с облаками? (По сериалу MLP:FIM)"
### Итерация 5:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|8|8|1|9|3|1|N/A|
|Полнота (1-10)|9|7|1|9|5|1|N/A|
|Релевантность (1-10)|10|10|1|10|7|1|N/A|
|Детализация (1-10)|8|7|1|9|5|1|N/A|
|Терминология (1-10)|9|9|1|10|7|1|N/A|
|Контекстуальность (1-10)|8|8|1|9|4|1|N/A|
|Актуальность (1-10)|10|10|1|10|7|1|N/A|
|Отсутствие противоречий (1-10)|9|9|1|10|5|1|N/A|
|Структурированность (1-10)|9|8|2|9|6|2|N/A|
|Связность и последовательность (1-10)|9|8|2|9|6|2|N/A|
|**ИТОГО**|**89**|**84**|**12**|**94**|**55**|**12**|**10**|
**Вопрос (Итерация 5):** "Как изменилось поведение Колоратуры под влиянием её менеджера Свенгалопа в серии "Гвоздь программы"?"
### Итерация 6:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|8|10|1|10|1|1|1|
|Полнота (1-10)|6|8|2|10|2|2|1|
|Релевантность (1-10)|10|10|1|10|1|1|1|
|Детализация (1-10)|4|7|2|9|2|2|1|
|Терминология (1-10)|8|10|6|10|6|6|1|
|Контекстуальность (1-10)|6|8|2|10|2|2|1|
|Актуальность (1-10)|10|10|10|10|10|10|1|
|Отсутствие противоречий (1-10)|8|10|2|10|2|2|1|
|Структурированность (1-10)|6|8|4|9|4|4|1|
|Связность и последовательность (1-10)|6|8|4|10|4|4|1|
|**ИТОГО**|**72**|**89**|**37**|**98**|**37**|**37**|**10**|
**Вопрос (Итерация 6):** "Какое прозвище получила Радуга Дэш после вступления в Чудо-молнии?"
### Итерация 7:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|4|8|9|5|2|1|1|
|Полнота (1-10)|3|7|8|6|2|1|1|
|Релевантность (1-10)|4|9|9|6|2|1|1|
|Детализация (1-10)|3|6|7|5|2|1|1|
|Терминология (1-10)|7|9|9|8|5|3|3|
|Контекстуальность (1-10)|4|8|9|5|2|1|1|
|Актуальность (1-10)|7|10|10|7|5|5|5|
|Отсутствие противоречий (1-10)|3|9|10|4|2|1|1|
|Структурированность (1-10)|7|8|9|6|5|4|3|
|Связность и последовательность (1-10)|6|8|9|6|4|3|2|
|**ИТОГО**|**48**|**82**|**90**|**58**|**33**|**21**|**19**|
**Вопрос (Итерация 7):** "Кто такая Клауд Кикер? Из MLP:FIM"
### Итерация 8:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|8|9|8|7|2|1|1|
|Полнота (1-10)|9|8|8|6|2|1|1|
|Релевантность (1-10)|10|10|10|8|2|1|1|
|Детализация (1-10)|7|8|7|5|3|1|1|
|Терминология (1-10)|9|10|9|8|5|1|1|
|Контекстуальность (1-10)|8|9|8|7|2|1|1|
|Актуальность (1-10)|9|10|9|8|6|1|1|
|Отсутствие противоречий (1-10)|8|9|8|8|3|1|1|
|Структурированность (1-10)|9|9|8|7|5|1|1|
|Связность и последовательность (1-10)|9|9|8|7|5|1|1|
|**ИТОГО**|**86**|**92**|**84**|**71**|**35**|**10**|**10**|
**Вопрос (Итерация 8):** "Что находится в Вечнозелёном Лесу? Из MLP:FIM"
### Итерация 9:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|7|9|10|8|4|1|1|
|Полнота (1-10)|6|8|9|7|5|1|1|
|Релевантность (1-10)|10|10|10|10|8|1|1|
|Детализация (1-10)|5|7|8|6|6|1|1|
|Терминология (1-10)|8|9|10|8|6|1|1|
|Контекстуальность (1-10)|6|8|9|7|5|1|1|
|Актуальность (1-10)|10|10|10|10|8|1|1|
|Отсутствие противоречий (1-10)|8|9|10|9|6|1|1|
|Структурированность (1-10)|8|9|9|7|6|1|1|
|Связность и последовательность (1-10)|8|9|9|8|7|1|1|
|**ИТОГО**|**76**|**88**|**94**|**80**|**61**|**10**|**10**|
**Вопрос (Итерация 9):** "Кто такая Старлайт Глиммер?"
### Итерация 10:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|8|9|7|8|6|7|1|
|Полнота (1-10)|9|8|7|8|5|6|1|
|Релевантность (1-10)|10|10|10|10|8|9|1|
|Детализация (1-10)|8|7|6|7|6|6|1|
|Терминология (1-10)|9|9|8|9|7|8|1|
|Контекстуальность (1-10)|9|9|8|9|7|8|1|
|Актуальность (1-10)|10|10|10|10|9|9|1|
|Отсутствие противоречий (1-10)|10|10|10|10|8|8|1|
|Структурированность (1-10)|9|8|9|8|7|7|1|
|Связность и последовательность (1-10)|9|9|8|9|7|7|1|
|**ИТОГО**|**91**|**89**|**83**|**88**|**70**|**75**|**10**|
**Вопрос (Итерация 10):** "Почему Дискорд решил встать на сторону пони и исправиться?"
### Итерация 11:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|10|10|10|10|2|2|1|
|Полнота (1-10)|6|9|9|10|3|3|1|
|Релевантность (1-10)|10|10|10|10|3|3|1|
|Детализация (1-10)|4|8|7|9|3|3|1|
|Терминология (1-10)|8|10|9|9|4|4|1|
|Контекстуальность (1-10)|6|9|8|10|3|3|1|
|Актуальность (1-10)|10|10|10|10|2|2|1|
|Отсутствие противоречий (1-10)|10|10|10|10|2|2|1|
|Структурированность (1-10)|8|9|9|9|5|5|1|
|Связность и последовательность (1-10)|8|9|9|9|5|5|1|
|**ИТОГО**|**80**|**94**|**91**|**96**|**30**|**30**|**10**|
**Вопрос (Итерация 11):** "В какой серии впервые появляется Крисалис?"
### Итерация 12:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|1|1|9|8|1|1|1|
|Полнота (1-10)|1|1|8|7|1|1|1|
|Релевантность (1-10)|1|1|10|10|1|1|1|
|Детализация (1-10)|1|1|7|8|1|1|1|
|Терминология (1-10)|1|1|9|8|1|1|1|
|Контекстуальность (1-10)|1|1|8|7|1|1|1|
|Актуальность (1-10)|1|1|10|9|1|1|1|
|Отсутствие противоречий (1-10)|1|1|10|9|1|1|1|
|Структурированность (1-10)|7|6|8|7|6|6|2|
|Связность и последовательность (1-10)|7|6|8|7|6|6|2|
|**ИТОГО**|**28**|**25**|**87**|**80**|**25**|**25**|**13**|
**Вопрос (Итерация 12):** "Сури Поломейр. Кто она?"
### Итерация 13:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|10|1|10|10|3|1|1|
|Полнота (1-10)|9|1|8|9|3|1|1|
|Релевантность (1-10)|10|1|10|10|3|1|1|
|Детализация (1-10)|8|1|7|8|3|1|1|
|Терминология (1-10)|10|1|10|10|3|1|1|
|Контекстуальность (1-10)|9|1|8|9|3|1|1|
|Актуальность (1-10)|10|1|10|10|3|1|1|
|Отсутствие противоречий (1-10)|10|1|10|10|3|1|1|
|Структурированность (1-10)|9|1|8|9|4|2|1|
|Связность и последовательность (1-10)|9|1|8|9|4|2|1|
|**ИТОГО**|**94**|**10**|**89**|**94**|**32**|**12**|**10**|
**Вопрос (Итерация 13):** "Кто является членами семьи Твайлайт?"
### Итерация 14:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|8|9|7|8|7|5|6|
|Полнота (1-10)|7|8|9|8|6|6|2|
|Релевантность (1-10)|9|10|9|9|8|7|7|
|Детализация (1-10)|7|8|8|7|6|6|2|
|Терминология (1-10)|8|9|8|7|7|6|6|
|Контекстуальность (1-10)|8|9|8|8|7|6|5|
|Актуальность (1-10)|9|10|9|9|8|7|6|
|Отсутствие противоречий (1-10)|9|10|8|8|8|6|7|
|Структурированность (1-10)|8|9|9|8|7|6|5|
|Связность и последовательность (1-10)|8|9|9|8|7|6|5|
|**ИТОГО**|**79**|**91**|**84**|**78**|**71**|**61**|**48**|
**Вопрос (Итерация 14):** "Какой образ жизни в основном ведёт Принцесса Луна?"
### Итерация 15:
|   |   |   |   |   |   |   |   |
|---|---|---|---|---|---|---|---|
|Критерий оценки|Gemini 1.5 Pro Experiment|GPT4O-Latest|Grok2(2024-08-13)|WoonaV1.2_9b|gemma2_27b_it|gemma2_9b_it|llama3.1_8b|
|Точность (1-10)|6|8|4|2|3|N/A|1|
|Полнота (1-10)|5|7|6|3|3|N/A|2|
|Релевантность (1-10)|7|9|4|2|4|N/A|1|
|Детализация (1-10)|4|6|5|4|2|N/A|3|
|Терминология (1-10)|7|9|7|6|5|N/A|4|
|Контекстуальность (1-10)|6|8|6|3|4|N/A|1|
|Актуальность (1-10)|8|10|6|2|5|N/A|1|
|Отсутствие противоречий (1-10)|7|9|7|3|4|N/A|2|
|Структурированность (1-10)|8|9|7|6|5|N/A|4|
|Связность и последовательность (1-10)|7|8|7|6|4|N/A|4|
|**ИТОГО**|**65**|**83**|**59**|**37**|**39**|**0**|**23**|
**Вопрос (Итерация 15):** "Что происходило в самой последней серии сериала my little pony?"