大数据分析案例

2023-06-15 15:52| 来源: 网络整理| 查看: 265

🤵‍♂️ 个人主页：@艾派森的个人主页

✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注+

喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章

大数据分析案例合集大数据分析案例-基于随机森林算法预测人类预期寿命大数据分析案例-基于随机森林算法的商品评价情感分析大数据分析案例-用RFM模型对客户价值分析(聚类)大数据分析案例-对电信客户流失分析预警预测大数据分析案例-基于随机森林模型对北京房价进行预测大数据分析案例-基于RFM模型对电商客户价值分析大数据分析案例-基于逻辑回归算法构建垃圾邮件分类器模型大数据分析案例-基于决策树算法构建员工离职预测模型

大数据分析案例-基于KNN算法对茅台股票进行预测

大数据分析案例-基于多元线性回归算法构建广告投放收益模型大数据分析案例-基于随机森林算法构建返乡人群预测模型大数据分析案例-基于决策树算法构建金融反欺诈分类模型

1.项目背景

心脏病是人类死亡的主要原因之一。对于那些已经患有心脏病的人来说，预测何时再次发作是非常重要的。因此，研究如何预测心脏病发作是非常有意义的。

在过去几十年中，医学领域已经取得了很大的进展，但是心脏病发作的死亡率仍然没有得到显著的下降。原因之一是心脏病发作的风险难以预测。尽管有很多研究在探索如何预测心脏病发作方面进行了努力，但是仍然缺乏有效的方法。

大数据分析技术已经广泛应用于医疗领域。其中，逻辑回归算法是一种常用的分类算法，可以用于建立预测模型。在本研究中，基于逻辑回归算法构建心脏病发作预测模型，旨在帮助医生更好地预测心脏病患者的发作风险，为临床决策提供支持。对于已经患有心脏病的人来说，预测何时再次发作是非常重要的。因此，研究如何预测心脏病发作是非常有意义的。基于逻辑回归算法构建心脏病发作预测模型，可以帮助医生更好地预测心脏病患者的发作风险，为临床决策提供支持。

2.项目简介 2.1项目说明

本项目通过分析心脏病发作数据，找出影响发作的因素，同时使用机器学习算法构建心脏病发作预测模型，有效预测哪些患者即将发作，为临床决策提供支持。

2.2数据说明

本数据集来源于Kaggle，原始数据集共有303条，14个字段，具体字段含义如下：

1.age: 患者的年龄 2.sex: 患者的性别 3.cp: 胸痛类型，0 =典型心绞痛，1 =非典型心绞痛，2 =非心绞痛，3 =无症状 4.trtbps: 静息血压(单位:毫米汞柱) 5.chol: 通过BMI传感器测得的胆固醇(mg/dl) 6.fbs: (空腹血糖> 120mg /dl)， 1 =真，0 =假 7.restecg: 静息心电图结果，0 =正常，1 = ST-T波正常，2 =左室肥厚 8.thalachh: 达到最大心率 9.oldpeak: 上一个高峰 10.slp: slope斜率 11.caa: 主要血管的数量 12.thall: 铊应力测试结果~ (0,3) 13.exng: 运动诱发心绞痛~ 1 =有，0 =无 14.output: 是否发作，目标变量

2.3技术工具

Python版本:3.9

代码编辑器：jupyter notebook

3.算法原理

1.逻辑回归

逻辑回归就是这样的一个过程：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。

Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别）

回归模型中，y是一个定性变量，比如y=0或1，logistic方法主要应用于研究某些事件发生的概率

2. 逻辑回归的优缺点

优点：

1）速度快，适合二分类问题

2）简单易于理解，直接看到各个特征的权重

3）能容易地更新模型吸收新的数据

缺点：

对数据和场景的适应能力有局限性，不如决策树算法适应性那么强

3. 逻辑回归和多重线性回归的区别

Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear model）。

这一家族中的模型形式基本上都差不多，不同的就是因变量不同。这一家族中的模型形式基本上都差不多，不同的就是因变量不同。

如果是连续的，就是多重线性回归

如果是二项分布，就是Logistic回归

如果是Poisson分布，就是Poisson回归

如果是负二项分布，就是负二项回归

4. 逻辑回归用途

寻找危险因素：寻找某一疾病的危险因素等；

预测：根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大；

判别：实际上跟预测有些类似，也是根据模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。

5. Regression 常规步骤

寻找h函数（即预测函数）

构造J函数（损失函数）

想办法使得J函数最小并求得回归参数（θ）

6. 构造预测函数h(x)

1) Logistic函数（或称为Sigmoid函数），函数形式为：

对于线性边界的情况，边界形式如下：

其中，训练数据为向量

最佳参数

构造预测函数为：

函数h(x)的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

P(y=1│x;θ)=h_θ (x) P(y=0│x;θ)=1-h_θ (x)

4.项目实施步骤 4.1理解数据

首先导入本次实验用到的第三方库和心脏病数据集

查看数据大小

查看数据基本信息

查看数值型数据的描述性统计

4.2数据预处理

检测数据是否存在重复值

结果为True，说明存在重复值需要处理，这里删除即可

4.3探索性数据分析 4.3.1分类变量分析

4.3.2数值变量分析

4.3.3相关分析

4.3.4分析年龄和最大心率的关系

4.3.5发作的比例

4.4特征工程

准备建模需要用到数据，包括特征变量和目标变量，最后拆分数据集为训练集和测试集

4.5模型构建

构建逻辑回归模型

构建KNN模型

构建决策树模型

构建Lightgbm模型

通过比较四个模型的准确率，我们发现逻辑回归模型的准确率最高，故我们选择逻辑回归模型作为最终的训练模型。

4.6模型评估

对逻辑回归模型做一个全面指标的评估

4.7特征重要性评分

通过结果我们发现年龄、胆固醇指标、最大心率等对心脏病发作的影响程度最大。

4.8模型预测

随机抽取10个来检测模型效果，发现10个当中有2个预测错误。

5.实验总结

本次实验我们通过可视化的方法分析了各个变量之间的关系，最后使用逻辑回归算法构建了心脏病预测模型，模型准确率为85%，效果还有待提高，最后我们也找出了影响心脏病发作的最大因素，那就是年龄、胆固醇指标、最大心率。

心得与体会：

通过这次Python项目实战，我学到了许多新的知识，这是一个让我把书本上的理论知识运用于实践中的好机会。原先，学的时候感叹学的资料太难懂，此刻想来，有些其实并不难，关键在于理解。

在这次实战中还锻炼了我其他方面的潜力，提高了我的综合素质。首先，它锻炼了我做项目的潜力，提高了独立思考问题、自我动手操作的潜力，在工作的过程中，复习了以前学习过的知识，并掌握了一些应用知识的技巧等

在此次实战中，我还学会了下面几点工作学习心态：

1）继续学习，不断提升理论涵养。在信息时代，学习是不断地汲取新信息，获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后，我会用心响应单位号召，结合工作实际，不断学习理论、业务知识和社会知识，用先进的理论武装头脑，用精良的业务知识提升潜力，以广博的社会知识拓展视野。

2）努力实践，自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值，也只有将理论付诸于实践才能使理论得以检验。同样，一个人的价值也是透过实践活动来实现的，也只有透过实践才能锻炼人的品质，彰显人的意志。

3）提高工作用心性和主动性。实习，是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土，也分明感受到了沉甸甸的职责。在今后的工作和生活中，我将继续学习，深入实践，不断提升自我，努力创造业绩，继续创造更多的价值。

这次Python实战不仅仅使我学到了知识，丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中，为实现理想而努力。

源代码 import pandas as pd import numpy as np import matplotlib.pylab as plt import seaborn as sns sns.set_style('whitegrid') import plotly.graph_objs as go from plotly.subplots import make_subplots from plotly.offline import iplot plt.rcParams['font.sans-serif'] = ['SimHei'] #解决中文显示 plt.rcParams['axes.unicode_minus'] = False #解决符号无法显示 import warnings warnings.filterwarnings('ignore') df = pd.read_csv('heart.csv') df.head() df.shape df.info() df.describe().T # 检测数据是否存在重复值 any(df.duplicated()) # 删除重复值 df.drop_duplicates(inplace=True) df.shape 分类变量分析 cat_cols = [col for col in df.columns if df[col].dtypes == 'O'] num_but_cat = [col for col in df.columns if df[col].nunique() < 10 and df[col].dtypes != 'O'] cat_but_car = [col for col in df.columns if df[col].nunique() > 20 and df[col].dtypes == 'O'] cat_cols = cat_cols + num_but_cat cat_cols = [col for col in cat_cols if col not in cat_but_car] def cat_summary(dataframe, col_name, plot=False): print(pd.DataFrame({col_name: dataframe[col_name].value_counts(), "Ratio": 100 * dataframe[col_name].value_counts() / len(dataframe)})) print("#"*50) if plot: sns.countplot(x=dataframe[col_name], data=dataframe,palette='Accent') plt.show() for i in cat_cols: print((' '+i.upper()+' ').center(50,'#')) cat_summary(df,i,plot=True) 数值变量分析 num_cols = [col for col in df.columns if col not in cat_cols and df[col].dtypes != 'O'] for i in num_cols: fig, axes = plt.subplots(1, 2,figsize=(12,4)) fig.suptitle(i.title(),size=12) sns.boxplot(ax=axes[0],y=i,x='output',data=df,palette='Accent') sns.histplot(ax=axes[1],x=i,hue='output',data=df,palette='Accent') plt.show() # 两两变量之间的关系 num_cols.append('output') plt.figure(figsize=(20,20)) sns.pairplot(df[num_cols],hue='output',palette='Accent') plt.show() num_cols.remove('output') # 皮尔逊相关系数热力图 sns.set_style("white") matrix = np.triu(df.corr(method="pearson")) f,ax=plt.subplots(figsize = (14,14)) sns.heatmap(df.corr(),annot= True,fmt = ".2f",ax=ax, vmin = -1, vmax = 1, mask = matrix, cmap = "PRGn", linewidth = 0.4,linecolor = "white",annot_kws={"size": 12}) plt.xticks(rotation=60,size=14) plt.yticks(rotation=0,size=14) plt.title('Pearson Correlation Map', size = 14) plt.show() # 分析年龄和最大心率的关系 color = ['#A75BD5','#66D461'] fig = go.Figure() for i in df['output'].unique(): fig.add_trace(go.Scatter(x=df[df['output']==i]['age'], y=df[df['output']==i]['thalachh'], mode='markers', name=str(i),showlegend = True, marker = dict(color = color[i],size = 16, opacity = 0.65,line=dict(color='black', width=0.9)))) fig.update_layout(title=dict(text='age & thalachh', y=0.9,x=0.5,xanchor= 'center',yanchor= 'top'), xaxis = dict(title='age'), yaxis =dict(title='thalachh'),template='plotly_white') iplot(fig) data = go.Scatter3d(x = df['age'],y = df['trtbps'],z = df['chol'], mode='markers',text=df['output'], marker=dict(color=df['output'],size=7, colorscale='Sunsetdark',showscale=False,opacity=0.65)) layout = go.Layout(title=dict(text='Age - trtbps - chol',y=0.9,x=0.5,xanchor= 'center',yanchor= 'top'), scene = dict(xaxis = dict(title='Age'), yaxis = dict(title = 'trtbps'), zaxis = dict(title='chol')),template='plotly_white') fig = go.Figure(data=data,layout=layout) iplot(fig) # Heart Attack fig = go.Figure(data=[go.Pie(labels=['Yes','No'], values=df['output'].value_counts()[0:5].values, pull=[0, 0.1])]) fig.update_traces(hoverinfo='label', textinfo='percent', textfont_size=20,textposition ='auto', marker=dict(colors=color, line=dict(color='black', width=2))) fig.update_layout(title=dict(text='Heart Attack', y=0.9,x=0.5,xanchor= 'center',yanchor= 'top'), xaxis = dict(title='age'), yaxis =dict(title='thalachh'),template='plotly_white') iplot(fig) from sklearn.model_selection import train_test_split # 准备建模的数据 X = df.drop('output',axis=1) y = df['output'] # 划分数据集 X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42) print('训练集大小：',X_train.shape[0]) print('测试集大小：',X_test.shape[0]) # 构建逻辑回归模型 from sklearn.linear_model import LogisticRegression lr = LogisticRegression() lr.fit(X_train,y_train) print('逻辑回归模型准确率：',lr.score(X_test,y_test)) # 构建KNN模型 from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() knn.fit(X_train,y_train) print('KNN模型准确率：',knn.score(X_test,y_test)) # 构建决策树模型 from sklearn.tree import DecisionTreeClassifier tree = DecisionTreeClassifier() tree.fit(X_train,y_train) print('决策树模型准确率：',tree.score(X_test,y_test)) # 构建lightgbm模型 from lightgbm import LGBMClassifier gbm = LGBMClassifier() gbm.fit(X_train,y_train) print('lightgbm模型准确率：',gbm.score(X_test,y_test)) from sklearn.metrics import f1_score,r2_score,confusion_matrix,classification_report,auc,roc_curve # 模型评估 y_pred = lr.predict(X_test) print('逻辑回归模型的F1值：',f1_score(y_test,y_pred)) print('逻辑回归模型的R方值：',r2_score(y_test,y_pred)) print('模型混淆矩阵:','\n',confusion_matrix(y_test,y_pred)) print('模型分类报告:','\n',classification_report(y_test,y_pred)) # 画出ROC曲线 y_prob = lr.predict_proba(X_test)[:,1] false_positive_rate, true_positive_rate, thresholds = roc_curve(y_test, y_prob) roc = auc(false_positive_rate, true_positive_rate) plt.title('ROC') plt.plot(false_positive_rate,true_positive_rate, color='red',label = 'AUC = %0.2f' % roc) plt.legend(loc = 'lower right') plt.plot([0, 1], [0, 1],linestyle='--') plt.axis('tight') plt.ylabel('True Positive Rate') plt.xlabel('False Positive Rate') plt.show() # 特征重要性评分 feat_labels = X_train.columns[0:] importances = gbm.feature_importances_ indices = np.argsort(importances)[::-1] index_list = [] value_list = [] for f,j in zip(range(X_train.shape[1]),indices): index_list.append(feat_labels[j]) value_list.append(importances[j]) plt.figure(figsize=(10,6)) plt.barh(index_list[::-1],value_list[::-1]) plt.yticks(fontsize=12) plt.title('feature importance',fontsize=14) plt.show() # 模型预测 res = pd.DataFrame() res['真实值'] = y_test res['预测值'] = y_pred res.sample(10)

【本文地址】

公司简介

联系我们