波士顿房价预测 您所在的位置:网站首页 回归的具体意思 波士顿房价预测

波士顿房价预测

#波士顿房价预测| 来源: 网络整理| 查看: 265

作者|Nature

出品|AI机器思维

人类生活的现实社会经常遇到分类与预测的问题,目标变量可能受多个因素影响,根据相关系数可以判断影响因子的重要性。正如一个病人得某种病是多种因素影响造成的。

房价的高低也是受多个因素影响的,如房子所处的城市是一线还是二线,房子周边交通方便程度如通不通地铁,房子周边学校和医院等,这些都影响了房子的价格。

医学领域根据自变量以及某个阈值判断病因归属。生物领域根据父辈的基因经过回归分析判断对子辈的影响。

今天给大家通过案例讲讲回归分析,回归分析在经济、社会学、医学、生物学等领域得到了广泛的应用,这种技术最早可以追溯到达尔文(Charles Darwin)时期。

达尔文的表弟Francis Galton致力于研究父代豌豆种子尺寸对子代豌豆尺寸的影响,采用了回归分析。回归分析对人体健康研究也可以重要,病因分析。19世纪高斯系统地提出最小二乘估计,从而使回归分析得到蓬勃发展。

目前回归分析的研究范围可以分为如下几个部分组成:

线性回归:一元线性回归、多元线性回归和多个因变量与多个自变量的回归。

回归诊断:通过数据推断回归模型基本假设的合理性、基本假设不成立时对数据的修正、回归方程拟合效果的判断以及回归函数形式的选择。

回归变量的选择:根据什么标准选择自变量和逐步回归分析方法。

参数估计方法:偏最小二乘回归、主成分回归和岭回归。

非线性回归:一元非线性回归、分段回归和多元非线性回归。

定性变量的回归:因变量含有定性变量和自变量含有定性变量。

现实中常用的回归分析是线性回归、逻辑回归、多项式回归和岭回归。

本节以线性回归案例讲解,以波士顿房价数据集为线性回归案例数据,进行模型训练,不讲过多理论,理论大家可以自己去看资料,到处都是理论材料。

波士顿房价数据说明:此数据源于美国某经济学杂志上,分析研究波士顿房价( Boston HousePrice)的数据集。数据集中的每一行数据都是对波士顿周边或城镇房价的情况描述,下面对数据集变量说明下,方便大家理解数据集变量代表的意义。

CRIM: 城镇人均犯罪率 ZN: 住宅用地所占比例 INDUS: 城镇中非住宅用地所占比例 CHAS: 虚拟变量,用于回归分析 NOX: 环保指数 RM: 每栋住宅的房间数 AGE: 1940 年以前建成的自住单位的比例 DIS: 距离 5 个波士顿的就业中心的加权距离 RAD: 距离高速公路的便利指数 TAX: 每一万美元的不动产税率 PTRATIO: 城镇中的教师学生比例 B: 城镇中的黑人比例 LSTAT: 地区中有多少房东属于低收入人群 MEDV: 自住房屋房价中位数(也就是均价)

首先对数据分析,处理特殊异常值,然后才是模型和评估,并应用模型进行预测。

1.首先导入数据集,对数据进行分析

程序运行后结构现实特征变量如下:

对上面程序加入如下语句分析数据集数据样本总数,与特征变量个数:

程序运行后显示波士顿数据集506个样本,13个特征变量:

我们根据经验也可以看到,房价的高低在中国具体的房价就有太多维度了,比方说学区房、超市、菜场、高铁、机场、地铁、就业等等,而波士顿房价给出了13个特征维度变量预测房价,和中国比还是有很大差距的。国情不一样也影响房价。

继续对上面数据分析,查看前五条数据,看下这13个变量数据情况:

程序运行后结果显示前5条数据如下:

2.对自变量进行特征分析,并画出散点图,分析因变量与自变量的相关性,把不相关的数据剔除。

程序如下:

程序运行后结果显示如下:

CRIM: 城镇人均犯罪率

ZN: 住宅用地所占比例

INDUS: 城镇中非住宅用地所占比例

CHAS: 虚拟变量,用于回归分析

NOX: 环保指数

RM: 每栋住宅的房间数

AGE: 1940 年以前建成的自住单位的比例

DIS: 距离 5 个波士顿的就业中心的加权距离

RAD: 距离高速公路的便利指数

TAX: 每一万美元的不动产税率

PTRATIO: 城镇中的教师学生比例

B: 城镇中的黑人比例

LSTAT: 地区中有多少房东属于低收入人群

经过上面散点图的分析,可以看到数据异常的变量需要特殊处理,根据散点图分析,房屋的’RM(每栋住宅的房间数)’,‘LSTAT(地区中有多少房东属于低收入人群)’,'PTRATIO(城镇中的教师学生比例)’特征与房价的相关性最大,所以,将其余不相关特征剔除。

二、任务介绍 1、通过数据挖掘对影响波士顿房价的因素进行分析。 2、搭建一个波士顿房价预测模型。

本案例我们以每栋住宅的房间数RM研究与房价的关系。

程序如下:

程序执行后模型相关系统如下:

图形显示如下:

通过分析可以看出住宅平均房间数与最终房价一般成正相关。

对上面程序改造,我们也可以分析其他特征变量对房价的影响。具体大家可以根据案例改造学习。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有