- 开赛前降盘体育博彩玩法 | 休养开启!“一年省下两万多”
- bti体育入口有正规的博彩公司吗 | 俄称多标的击退热切 乌称作战方式严
- 皇冠体育官网地址新英体育的来投注广告 | 巴蜀笑星不拍戏,转业卖暖锅,谁
- 德甲球队赞助商 博彩澳门博彩业牌照有几家_当易烊千玺开启自黑形态,正本连
- 去菲律宾博彩公司上班万博彩票下载安卓_前TVB有名艺东谈主被阐扬通缉!
博彩投注博彩平台免费试玩 | 【视频】R话语LDA线性判别、QDA二次判别分析分类葡萄酒品性数据|数据共享
博彩投注博彩平台免费试玩 全文邻接:https://tecdat.cn/?p=33031 分析师:Donglei Niu 判别分析(Discriminant analysis)是一种统计分析才气,旨在通过将一组对象(举例不雅察数据)分类到已知类别的组中,来发现不同组之间的互异(点击文末“阅读原文”赢得完好代码数据)。 干系视频 什么是判别分析 判别分析有两种主要形貌:线性判别分析(LDA)和二次判别分析(QDA)。LDA假定每个类别的协方差矩阵沟通,并寻找最优的判别标的来最大化类别之间的距离。QDA假定每个类别的协方差矩阵皆不同,并寻找最优的判别标的来最大化类别之间的距离,同期也考虑了每个类别的协方差矩阵。 线性判别分析(LDA) 当咱们有一个由n个样本和p 个特征构成的数据集时,LDA的诡计是找到一个线性变换,将数据从p维空间映射到k维空间(k 线性判别分析的数学旨趣 诡计函数 将上头的公式化简,得到: 咱们最终不错诡计函数为 二次判别分析(QDA) QDA (Quadratic Discriminant Analysis)是一种有监督的机器学习算法,用于分类问题。它是 LDA (Linear Discriminant Analysis,线性判别分析)的一种扩展形貌,与LDA访佛,QDA 亦然一种基于贝叶斯决议表面的分类器。与LDA不同的是,QDA假定每个类别的协方差矩阵不沟通,因此在分类时使用的决议范围是二次弧线。 点击标题查阅往期推行 01 02 03 04 R话语实例先容 数据包含相关葡萄牙“Vinho Verde”葡萄酒的信息(检讨文末了解数据免费赢得模式)。该数据集有1599个不雅测值和12个变量,区别是固定酸度、蒸发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、乙醇和质料。固定酸度、蒸发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH、硫酸盐和乙醇是自变量何况是一语气的。质料是因变量,证据 0 到 10 的分数来算计。 探索性分析 整个有 855 款葡萄酒被归类为“好”品性,744 款葡萄酒被归类为“差”品性。固定酸度、蒸发性酸度、柠檬酸、氯化物、游离二氧化硫、总二氧化硫、密度、硫酸盐和乙醇度与葡萄酒质料昭彰干系( t 试验的 P 值 < 0.05),这标明了紧要的瞻望因子。咱们还构建了密度图来探索 11 个一语气变量在“差”和“好”葡萄酒质料上的散播。从图中不错看出,品性优良的葡萄酒在PH方面莫得互异,而不同类型的葡萄酒在其他变量上存在互异,这与t试验效力一致。 na.oit() %>muate(qal= ase_hen(ality>5 ~good\", quaity <=5 ~ \"poor\")) %>%muate(qua= s.fatrqual)) %>%dpeme1 <- rsparentTme(trans = .4) plot = \"density\", pch = \"|\",auto.key = list(columns = 2)) www.imperialsportspro.com图 1. 葡萄酒品性和瞻望特征之间的刻绘画。表 1. 优质和劣质葡萄酒的基本特征。 # 在表1中创建一个咱们念念要的变量b1 <- CeatTableOe(vars litars, straa = ’qual’ da winetab 博彩投注模子 咱们迅速继承 70% 的不雅测值算作老师数据,其余的算作测试数据。通盘 11 个瞻望变量皆被纳入分析。咱们使用线性才气、非线性才气、树才气和撑握向量机来瞻望葡萄酒质料的分类。对于线性才气,咱们老师(管制)逻辑追溯模子和线性判别分析(LDA)。逻辑追溯的假定包括互相沉寂的不雅察效力以及自变量和对数几率的线性关系。LDA 和 QDA 假定具有正态散播的特征,即瞻望变量对于“好”和“差”的葡萄酒质料皆是正态散播的。对于非线性模子,咱们进行了广义加性模子(GAM)、多元自妥当追溯样条(MARS)、KNN模子和二次判别分析(QDA)。对于树模子,咱们进行了分类树和迅速丛林模子。还彭胀了具有线性和径向内核的 SVM。咱们计较了模子继承的 ROC 和准确度,并打听了变量的紧要性。10 折交叉考据 (CV) 用于通盘模子。 干系视频 皇冠导航网inTrai <- cateatPariti(y winequal, p = 0.7, lit =FASE)traiData <- wine[inexTr,teDt 线性模子 多元逻辑追溯暴露,在 11 个瞻望因子中,蒸发性酸度、柠檬酸、游离二氧化硫、总二氧化硫、硫酸盐和乙醇与葡萄酒质料昭彰干系(P 值 < 0.05),阐发了总方差的 25.1%。酒质。将该模子诈欺于测试数据时,准确度为 0.75(95%CI:0.71-0.79),ROC 为 0.818,标明数据拟合较好。在进行管制性逻辑追溯时,咱们发现最大化ROC时,最好调优参数为alpha=1和lambda=0.00086,准确度为0.75(95%CI:0.71-0.79),ROC也为0.818。由于 lambda 接近于零且 ROC 与逻辑追溯模子沟通,因此管制相对较小, 然而,由于逻辑追溯条目自变量之间存在很少或莫得多重共线性,因此模子可能会受到 11 个瞻望变量之间的共线性(淌若有的话)的侵扰。至于LDA,将模子诈欺于测试数据时,ROC为0.819,准确率为0.762(95%CI:0.72-0.80)。瞻望葡萄酒品性的最紧要变量是乙醇度、蒸发性酸度和硫酸盐。与逻辑追溯模子比拟,LDA 在荒诞浮浅假定的情况下,在样本量较小或类别分离邃密的情况下更有匡助。 ### 逻辑追溯cl - tranControlmehod =cv\" number 10,summayFunio = TRUE)set.seed(1)moel.gl<- train(x = tainDaa %>% dpyr::selct(-ual),y = trainDaa$qualmetod \"glm\",metic = OC\",tContrl = crl# 查验瞻望要素的紧要性summary(odel.m) # 建造欺凌矩阵tetred.prb <- rdct(mod.gl, newdat = tstDattye = \"robtest.ped <- rep(\"good\", length(pred.prconfusionMatrix(data = as.factor(test.pred), # 绘制测试ROC图oc.l <- roc(testa$al, es.pr.rob$god) 点击标题查阅往期推行 01 02 03 04 ## 测试短处和老师短处er.st. <- mean(tett$qul!= tt.pred)tranped.obgl <-pric(moel.lmnewda= taiDaa,type = \"robmoe.ln <-tai(xtraDa %>% dlyr:seec-qal),y = traDmethd = \"met\",tueGid = lGrid,mtc = \"RO\",trontrol ctl)plotodel.gl, xTras =uction() lg(x) #继承最好参数mol.mn$bestune 据最新的消息,皇冠体育已经签下了一位当红明星作为其品牌代言人。这位明星在全球范围内都拥有极高的知名度和粉丝基础,相信这将为皇冠体育带来更多的曝光和业绩增长。# 欺凌矩阵 tes.red2 <- rp\"good\" ngth(test.ed.prob2$good))tst.red2[tespre.prob2$good < 0.5] <- \"poorconuionMatridata = as.fcto(test.prd2), 非线性模子 在 GAM 模子中,唯有蒸发性酸度的解放度即是 1,标明线性关联,而对通盘其他 10 个变量诈欺平滑样条。 效力标明,乙醇、柠檬酸、残糖、硫酸盐、固定酸度、蒸发性酸度、氯化物和总二氧化硫是昭彰的瞻望因子(P值<0.05)。 首先,让我们来看一下数据。根据最新数据显示,截至2022年末,我国住户存款总金额已超过120万亿,人均存款达到8.5万元。截至2023年5月底,住户存款总额更是已经超过130万亿,新2平台人均住户存款额达到了9.2万元。可以看出,存款已经成为了老年人理财的主要方式之一。 “收帑”就是贬为奴隶,“相坐”即为株连,典型的一人有罪,全家受苦。 总的来说,这些变量阐发了葡萄酒质料总变化的 39.1%。使用测试数据的欺凌矩阵暴露,GAM 的准确度为 0.76(95%CI:0.72-0.80),ROC 为 0.829。 MARS 模子标明,在最大化 ROC 时,咱们在 11 个瞻望变量中包含了 5 个项,其中 nprune 即是 5,度数为 2。这些瞻望变量和搭钮函数整个阐发了总方差的 32.2%。证据 MARS 输出,三个最紧要的瞻望因子是总二氧化硫、乙醇和硫酸盐。 将 MARS 模子诈欺于测试数据时,准确度为 0.75(95%CI:0.72,0.80),ROC 为 0.823。咱们还彭胀了 KNN 模子进行分类。当 k 即是 22 时,ROC 最大化。KNNmodel 的准确度为 0.63(95%CI:0.59-0.68),ROC 为 0.672。 QDA模子暴露ROC为0.784,准确率为0.71(95%CI:0.66-0.75)。瞻望葡萄酒质料的最紧要变量是乙醇、蒸发性酸度和硫酸盐。59-0.68),ROC 为 0.672。QDA模子暴露ROC为0.784,准确率为0.71(95%CI:0.66-0.75)。 瞻望葡萄酒质料的最紧要变量是乙醇、蒸发性酸度和硫酸盐。59-0.68),ROC 为 0.672。QDA模子暴露ROC为0.784,准确率为0.71(95%CI:0.66-0.75)。瞻望葡萄酒质料的最紧要变量是乙醇、蒸发性酸度和硫酸盐。 GAM 和 MARS 的优点是这两个模子皆瑕瑜参数模子,何况大要处理高度复杂的非线性关系。具体来说,MARS 模子不错在模子中包含潜在的交互作用。关联词,由于模子的复杂性、耗时的计较和高度的过拟合倾向是这两种模子的局限性。对于 KNN 模子,当 k 很大时,瞻望可能不准确。 ### GAMse.see(1)md.gam<- ran(x =trainDta %%dplr::slect(-qal),y = traiat$ual,thod = \"am\",metri = \"RO\",trCotrol = ctrl)moel.gm$finlMdel 博彩平台免费试玩summary(mel.gam) # 建造欺凌矩阵test.pr.pob3 - prdict(mod.ga nwdata =tstData,tye = \"prb\")testped3 - rep\"good\" legt(test.predpob3$goo))testprd3[test.predprob3good < 0.5] <- \"pooreferetv = \"good\") model.mars$finalModel 平博色碟vpmodl.rs$inlodel) # 绘制测试ROC图ocmas <- roctestataqua, tes.pred.rob4god)## Stting level: conrol = god, case= poor## Settig diectio: cntrols> caseplot(ro.mars legac.axes = TRE, prin.auc= RUE)plot(soothroc.mars), co = 4, ad =TRUE) errr.tria.mas <-man(tainat$qul ! trai.red.ars)### KNNGrid < epa.gri(k seq(from = 1, to = 40, by = 1))seted(1fknnrainqual ~.,dta = trnData,mthd =\"knn\"metrrid = kid)ggplot(fitkn 皇冠客服飞机:@seo3687# 建造欺凌矩阵ts.re.po7 < prdi(ft.kn, ewdt = estDaatype = \"prb\" ### QDAseteed1)%>% pyr:c-ual),y= trataqethod \"d\"mric = \"OC\",tContol =ctl)# 建造欺凌矩阵tet.pprob <-pedct(mol.da,nedaa = teDta,te = \"pb\")testred6<- rep(o\", leng(est.ped.pob6$goo)) 树才气 基于分类树,最大化AUC时最终的树大小为41。测试乌有率为 0.24,ROC 为 0.809。此分类树的准确度为 0.76(95%CI:0.72-0.80)。咱们还进行了迅速丛林才气来联系变量的紧要性。因此,乙醇是最紧要的变量,其次是硫酸盐、蒸发性酸度、总二氧化硫、密度、氯化物、固定酸度、柠檬酸、游离二氧化硫和残糖。pH 是最不紧要的变量。对于迅速丛林模子,测试乌有率为 0.163,准确率为 0.84(95%CI:0.80-0.87),ROC 为 0.900。树才气的一个潜在戒指是它们对数据的变化很敏锐,即数据的渺小变化可能引起分类树的较大变化。 # 分类ctr <- tintol(meod =\"cv\", number = 10,smmryFuton= twoClassSmaet.se(1rart_grid = a.fra(cp = exp(eq(10,-, len =0)))clsste = traqua~., rainDta,metho =\"rprttueGrid = patid,trCtrl cr)ggt(class.tee,highight =TRE) ## 计较测试短处rpartpred = icla.te edta =testata, ye = \"aw)te.ero.sree = mean(testa$a !=rartpre)rprred_trin reic(ss.tre,newdta = raiata, tye \"raw\") # 建造欺凌矩阵teste.pob8 <-rdic(cste, edata =tstData,pe = \"po\"tet.pd8 - rpgod\" legthtetred.rb8d)) # 绘制测试ROC图ro.r <-oc(testaual, tstedrob$od)pot(rc.ctreegy.axes TU pit.a = TRE)plo(ooth(c.tre, col= 4, ad = TRE # 迅速丛林和变量紧要性ctlclasPos = RUEoClssSummry)rf.grid - xpa.gr(mt = 1:10,spltrule \"gini\"min.nd.sie =seq(from = 1,to 12, by = 2))se.sed(1)rf.fit <- inqualmthd= \"ranger\",meric = \"ROC\",= ctrlgglt(rf.it,hiliht TRE) scle.ermutatin.iportace TRU)barplt(sort(rangr::imoranc(random 皇冠hg86a撑握向量机 心跳咱们使用带有线性核的 SVM,并调度了资本函数。咱们发现具有最大化 ROChad 资本的模子 = 0.59078。该模子的 ROC 为 0.816,准确度为 0.75(测试短处为 0.25)(95%CI:0.71-0.79)。质料瞻望最紧要的变量是乙醇;蒸发性酸度和总二氧化硫亦然比较紧要的变量。淌若真正范围瑕瑜线性的,则具有径向核的 SVM 性能更好。 st.seed(svl.fi <- tain(qual~ . ,data = trainDatamehod= \"mLar2\",tueGri = data.frae(cos = ep(seq(-25,ln = 0)) 欧博真人百家乐## 带径向核的SVMsvmr.grid epand.gid(C = epseq(1,4,le=10)),iga = expsq(8,len=10)))svmr.it<- tan(qual ~ .,da = taiDataRialSigma\",preProcess= c(\"cer\" \"scale\"),tunnrol = c) 模子比较 模子建造后,咱们证据通盘模子的老师和测试性能进行模子比较。下表暴露了通盘模子的交叉考据分类乌有率和 ROC。效力中,迅速丛林模子的 AUC 值最大,而 KNN 最小。因此,咱们继承迅速丛林模子算作咱们数据的最好瞻望分类模子。基于迅速丛林模子,乙醇、硫酸盐、蒸发性酸度、总二氧化硫和密度是匡助咱们瞻望葡萄酒质料分类的前 5 个紧要瞻望因子。由于乙醇、硫酸盐和蒸发性酸度等要素可能决定葡萄酒的风仪和口感,是以这么的发现恰当咱们的预期。在检讨每个模子的总结时,咱们意志到KNN模子的AUC值最低,测试分类乌有率最大,为0.367。其他九个模子的 AUC 值接近,约为 82%。 皇冠管理网网址rsam = rsmes(list( summary(resamp) comrin = sumaryes)$satitics$ROr_quare smary(rsamp)saisis$sqrekntr::ableomris[,1:6]) bpot(remp meic = \"ROC\") f<- datafram(dl_Name, TainError,Test_Eror, Tes_RC)knir::abe(df) 论断 模子构建经过标明,在老师数据聚会,乙醇、硫酸盐、蒸发性酸度、总二氧化硫和密度是葡萄酒质料分类的前 5 个紧要瞻望因子。咱们继承了迅速丛林模子,因为它的 AUC 值最大,分类乌有率最低。该模子在测试数据聚会也推崇邃密。因此,这种迅速丛林模子是葡萄酒品性分类的灵验才气。 对于作家 在此对Donglei Niu对本文所作的孝敬默示至意感谢,他在上海大学完成了运筹学与最优抑制的硕士学位,专注机器学习算法、数学建法式围。擅长Python、R话语、Matlab。 数据赢得 本文均分析的数据会员群,扫描底下二维码即可加群! 赢得全文完好代码数据贵寓。 本文选自《R话语LDA线性判别、QDA二次判别分析分类葡萄酒品性数据》。 点击标题查阅往期推行 |