DataPilot/Zero_SFT_Ja_v3.5_Reasoning
Viewer • Updated • 108k • 640 • 1
YoutechA320U/ELYZA-tasks-100-AutoEvalを用いてlmstudio-community/gemma-3-27b-it-GGUFQ Q4_K_M を用いて計測されました
answer_8b_distil_26_02_12.csvに回答、judge.csvに採点結果があります
またjudge_8b_distil_26_02_12.csvにmistral 3 14bでの採点結果があります。
簡易的な評価なので参考程度に留意ください。
手元で試した限りmistral 3 14bは5点の採点をつけにくいため、平均点が4点前後になることが多いようです
(Youtech氏が計測してどこかで貼っていた最近のモデルのgemma3 27bの採点結果です。
検証していないため、参考程度に貼っておきます。
Youtech氏へ。
もしご迷惑をおかけしたらディスカッションの方に連絡ください
画像を差し替えておきます。
)
