加载中...
Intent Recognition Model Benchmark
评估时间: 2026-03-14
81 测试用例 × 27 模型
总意图数
26
简单意图
5
中等意图
7
困难意图
14
qwen3-next-80b-a3b-thinking 在所有意图上准确率为0%或极低。Thinking模型可能过度推理。
7个复合意图平均准确率均为0%。当前架构可能不适配多标签场景。
"样品寄送"、"样品处理"、"样品确认"三个意图准确率均不高,意图边界定义不清晰。
复合意图样本仅1个,部分意图样本过多(7个)或过少(1个)。建议每个意图至少5-10个样本。