metadata
license: apache-2.0
datasets:
- DataPilot/Zero_SFT_Ja_v3.5_Reasoning
- OsakanaTeishoku/magpie-sft-v1.0-10k-gpt-oss-120b
- Aratako/Japanese-Creative-Writing-GLM4.5
language:
- ja
base_model:
- Qwen/Qwen3-VL-8B-Thinking
qwen3vl-8b-ja-glm45-qwen3-235b-distil-26_02_12
YoutechA320U/ELYZA-tasks-100-AutoEvalを用いてlmstudio-community/gemma-3-27b-it-GGUFQ Q4_K_M を用いて計測されました
answer_8b_distil_26_02_12.csvに回答、judge.csvに採点結果があります
またjudge_8b_distil_26_02_12.csvにmistral 3 14bでの採点結果があります。
簡易的な評価なので参考程度に留意ください。
手元で試した限りmistral 3 14bは5点の採点をつけにくいため、平均点が4点前後になることが多いようです
(Youtech氏が計測してどこかで貼っていた最近のモデルのgemma3 27bの採点結果です。
検証していないため、参考程度に貼っておきます。
Youtech氏へ。
もしご迷惑をおかけしたらディスカッションの方に連絡ください
画像を差し替えておきます。
)
