操纵Excel停止逻辑回归展望-Kaggle泰坦尼克案例

2020年9月12日 | 标签:

操纵Excel停止逻辑回归展望-Kaggle泰坦尼克案例

背景先容:
由于任务须要停止一些数据展望的任务,对照拟简略的展望能够用线性回返来做,Excel就自带线性回归的公式,点击几下就能够够到达成果,比拟简略,对照拟庞杂的展望就须要用逻辑回返来停止展望

甚么是线性回归:
线性回归处理变量是线性的数字,且展望成果是具体的数字,如按照各个渠道的告白费和发卖额停止线性回归,拿到线性回归公式后,就能够够按照指定的渠道用度展望发卖额

甚么是逻辑回归:
对展望成果是分类的数据如按照一小我的特点目标如是不是熬夜,是不是压力大,春秋,吸烟饮酒状态展望一小我是60岁今后是不是会得癌症和按照一个邮件的标题,内容,称号,发送时辰,发送邮箱来展望一份邮件是不是是渣滓邮件,对这类按照一些特点目标(有的为具体数字如年数,有的为范例如性别)展望成果为 是或否的环境,咱们须要操纵逻辑回返来停止展望

逻辑回归怎样做:
对逻辑回归,网上良多都是操纵Python代码或SPSS等专业软件来实现,但对不经历的小白或不装置专业阐发软件的,有不一种能在Excel上操纵, 像做线性回归那样点击几回鼠标就能够轻松拿到成果
我先用百度查问了下逻辑回归excel的关头词,根基上很少,就算用excel也要操纵庞杂的公式来计较,而后谷歌搜刮,操纵英文 excel logistic regression,终究找到外洋大神的方式,不须要甚么懂公式,不须要编程, 点击几回按钮既可实现庞杂的逻辑回归展望

案例先容:
本文以excel插件(Robert Nau,美国杜克大学传授,为MBA课程开辟)连系kaggle上(环球公认顶级有80万数据迷信家停止机械进修比赛的平台)网站上的案例-泰坦尼克号幸存者及罹难者名单, 操纵幸存职员特点停止逻辑回归展望,找到具有若何特点的人会在这场灾害中有更高的存活率

操纵步骤:

Excel插件,保举操纵
http://regressit.com/regressitlogistic.html(再次感激Robert Nau,美国杜克大学传授)
(备选东西,http://www.real-statistics.com/free-download/)

软件截图以下

1,东西筹办-Excel具体的插件装置方式

1.1下载逻辑回归插件文件xlam

须要注重它有良多版本,咱们须要下载的是带有逻辑回归,mac也能够下载
拜候网站http://regressit.com/regressitlogistic.html

1.2,从Excel导入逻辑回归插件

点击excel按钮,点击选项

再弹出的选项窗口 挑选add-in,而后挑选goto


1.3 导入插件到excel库中
再翻开插件的目次,把咱们下载的xlam的插件放入这个目次中

1.4装置实现预览
在顶部tab地位能够看到 regressit的窗口,此中logistic regression便是咱们用的功效

2,数据筹办-kaggle案例数据下载及清算

2.1 拜候kaggle网站下载样本数据

拜候kaggle上泰坦尼克的案例网站
http://www.kaggle.com/c/titanic/data
按截图所示挑选数据,train.csv
外面寄存了样本数据(891个实在职员的身份信息及终究是不是存活)

2.2操纵插件挑选数据地区及定名变量

操纵excel翻开样本数据train.csv后,挑选插件后,先点击 挑选数据 和建立称号

•PassengerID(ID)
•Survived(存活与否)
•Pclass(客舱品级,较为首要)
•Name(姓名,可提掏出更多信息)
•Sex(性别,较为首要)
•Age(春秋,较为首要)
•Parch(嫡系亲朋)
•SibSp(旁系)
•Ticket(票编号)
•Fare(票价)
•Cabin(客舱编号)
•Embarked(上船的口岸编号)

2.3 确认变量称号地位

点建立称号地位,挑选top row,既操纵第一行的称号做为变量的称号(有的数据称号写在第一列,就能够够点击left column)

2.4 肯定特点值与展望值对应干系

点击logstic regression 停止展望设置,首要是设置非自力变量(dependent,既别人影响的变量)为Survived这列,则自力变量(independent 自变量,能影响到别人的变量,特点值))
要选平分类表和roc曲线

2.5点击运转预览模子成果

这里要申明的几个选项
2.5.1 P-value申明每个参数的可托度,要小于0.05,越小越好,懂得为这个参数失误的能够性


2.5.2 percent correct,展望切确率,既展望的数据外面猜对的比例,(猜对分2种,展望灭亡,现实灭亡,和展望保存现实也保存)

2.5.3 true positive rate,切确召回率,既猜中保存的(展望活,现实活的人数) 除以一切活上去的人数,既能找回几多比例活的人,或按照展望成果,能把现实活上去的人找到的比例

2.5.4 true negative rate,毛病找回率,既猜中灭亡(展望死,现实死的人数)除以一切死的人的数字,既能召回几多比例死的人,或按照展望成果,能把现实灭亡的人找到的比例

2.5.5 ROC曲线,0.76,既然全部公式展望的拟合度,你能够懂得权衡全部公式切确率的数据,越靠近1 越好,能够懂得为公式的切确率吧


从截图数据看到,这里的切确召回率出格低 只要52%,象征着只能把幸存者中的52%给展望出来,以是这数据仍是不怎样行

最少3个率(切确率,和2类环境下的召回率),都要80%以上

3,模子优化-优化参数 晋升展望切确率

3.1 增添帮助变量 -性别信息停止数字化
这里斟酌加上性别这个变量,由于片子外面船主说 让女人和小孩先走,以是性别应当会有成果有影响,而后咱们看到有些人是不春秋的数据的,须要 把缺失的数据补全

对性别,由于逻辑回归东西只能辨认数字,以是须要把男性都变成1,女性都变成0,既天生一个帮助列M,当为男性的时辰 M列 Sex code为1, 反之为0
对F列 春秋,对缺失值,操纵全部F列均匀值补齐

3.2 优化先有变量-补齐缺失值
对缺失的某些人群的特点值,操纵29.7 这个均匀值补齐

3.3 从头设置装备摆设逻辑回归变量

从头挑选变量(增添了1个变量),点击select data,再建立称号

再弹出的窗口能够看到变成模子2,且能够挑选自力变量既sex code这个新增添的变量
其余挑选和之前坚持分歧

3.4 点击运转的到新成果
此次的成果中,ROC 有0.85,比之前高,且3个率 也比之前有比拟大晋升,以为模子2比模子1要好


3.6 多模子对照 选优
能够点击excel中新增的对照模子的表格能够清晰看到2个模子的差异

变量数由4变成5

而后差别模子的ROC值和3个率

和P值(扩后内是每个变量的P值) 括号外 是每个变量的系数,后面会用到

4,展望成果查验-展望公式清算及数据考证

经由过程上述2个模子,咱们能够操纵模子2停止展望,这里咱们能够把模子2的公式停止

这里看到模子2最首要数据是4个参数,别离是对应变量的权重

既常数是5.241, 春秋的系数是-0.04 其余同理
那末咱们能够计较出一个Z值,既操纵每行外面的特点值乘以对应的权重,以下图,操纵第2行这小我的各自的属性值乘以对应系数停止相加 取得Z值,
如第3行的人的Z值是2.214
第4行的人的Z值是0.682


.
为了终究能的到发保存活的几率(0-1)如许的值,咱们须要操纵公式将Z值停止变更,既不管Z值为甚么值,最初Y值都是在0-1之间)操纵线性回归转逻辑回归公式

如许的X就操纵Z值停止替代

就的到Y值,以下图,Z值为-2.26,颠末公式替代就变成y=0.09449
表现这小我的幸存几率不到10%, 接合咱们后面的界说,大于50%的几率咱们以为会幸存,以是这小我展望成果便是0, 代表罹难, 若是是1便是幸存,同时咱们能够看到现实成果也确切为0,为罹难,以是咱们增添一列展望切确次数,为true,既咱们猜对了,公式为当都是0(展望是0,现实也是0,或展望是1 现实是1)那末R列为展望切确,而后咱们再辨别猜中幸存的统计在S列,既猜1,且现实为1, 和猜中罹难(展望是0,现实是0)
那末就能够够统计切确率,保存召回率及灭亡找回率
与咱们之前算的成果分歧

如许咱们就算能切确计较每个存活的几率和判定终究是不是幸存的论断

5,取得新数据停止考证,参与比赛

咱们能够从kaggle外面再下载新的数据(之前给的是局部样本数据)
http://www.kaggle.com/c/titanic/data?select=test.csv
下载test数据

在test.csv的新的数据中,和之前的样本数据分歧,可是不成果目标,既不是不是罹难,咱们能够按照之前的公式,就能够够展望了.

终究输入上面的展望成果,id号和展望成果

而后上传到网页上就能够够比赛 取得排名


排名不高,能够疏忽

结语:
本文具体记实了Excel操纵插件停止逻辑回归的方式,同时也例举了Kaggle高低载数据和停止展望,并参与比赛的方式
附上数据表格
results

今朝还不任何批评.