阿里对商家作弊行为检测主要用了逻辑回归而分类,线性支持向量机,随机森林和GBDT

特征列让我陌生了。除了F_score,还有a_score, b_score, p_score,r_score, ri_score, v_score;仔细一想,其实就是accuracy那一堆一般的概念。

这里直接照抄书里的一点内容了^_^

ROC曲线最初用来评价雷达性能,被称为接收者操作特性曲线,ROC曲线是根据一系列不同的阈值,得到相应的一系列而分类预测方式,每一个预测结果以一个点表示,每个点以真阳性率TPR为纵坐标,以假阳性率FPR为横坐标,再将所有的点连接起来,绘制成曲线。真阳性率代表获利能力,值越高获利越多。假阳性代表成本。斜率高的一段获利高,成本小。

ROC曲线的范围是由(0,1)、(1,1)、(1,0)、(0,0)四点构成的单位正方形区域。(0,1)代表灵敏(没有假阴性)和100%特异(没有假阳性),被称为完美分类器。而从左下到右上的线上的点为随机预测的结果。ROC曲线以上的代表好的预测结果,ROC曲线以下的代表差的一个结果。

最近GBDT比较火,仔细一看实际就是一种非线性回归。(深度学习本质也是非线性回归)

另外就是SOFTMAX。如果要求解的问题本身是个多分类问题,先使用softmax模型来处理,比如数据有4个特征,一共有三个分类情况,每个特征对分类结果的贡献权重为wi,k,对于输入加权求和,再分别加上偏置项,通过softmax函数将z1,z2,z3变成y1,y2,y3