很多paper中,多分类任务下模型的结果比较,会说 “our model is significantly better than xxx with p < 0.05.”,想请问 多分类任务中,怎么计算这个 P 值啊?一般的 t test 不是真多连续值的吗?那应该用哪种检验方法?