Update README.md

c39b137 verified 3 months ago

1.36 kB

license: apache-2.0
datasets:
  - DataPilot/Zero_SFT_Ja_v3.5_Reasoning
  - OsakanaTeishoku/magpie-sft-v1.0-10k-gpt-oss-120b
  - Aratako/Japanese-Creative-Writing-GLM4.5
language:
  - ja
base_model:
  - Qwen/Qwen3-VL-8B-Thinking

qwen3vl-8b-ja-glm45-qwen3-235b-distil-26_02_12

YoutechA320U/ELYZA-tasks-100-AutoEvalを用いてlmstudio-community/gemma-3-27b-it-GGUFQ Q4_K_M を用いて計測されました

answer_8b_distil_26_02_12.csvに回答、judge.csvに採点結果があります
またjudge_8b_distil_26_02_12.csvにmistral 3 14bでの採点結果があります。簡易的な評価なので参考程度に留意ください。手元で試した限りmistral 3 14bは5点の採点をつけにくいため、平均点が4点前後になることが多いようです

(Youtech氏が計測してどこかで貼っていた最近のモデルのgemma3 27bの採点結果です。検証していないため、参考程度に貼っておきます。 Youtech氏へ。もしご迷惑をおかけしたらディスカッションの方に連絡ください画像を差し替えておきます。）