2021年全国大学生数据统计与分析竞赛赛题B | 您所在的位置:网站首页 › 全国大数据分析大赛 › 2021年全国大学生数据统计与分析竞赛赛题B |
2021年全国大学生数据统计与分析竞赛赛题B—基于机器学习的用户消费行为预测(上)
一、赛题B:用户消费行为价值分析二、基于机器学习的用户消费行为预测1、数据简介及清洗(一)数据简介(二)数据清洗
2、数据的可视化分析(一)用户城市分布情况(二)用户登录情况
一、赛题B:用户消费行为价值分析
在互联网不断发展的今天,各领域公司都在拓展互联网获客渠道,为公司产品引入新鲜活跃的用户,提高用户购买产品的欲望,提升公司的品牌影响力。但如何判别高质量的用户和渠道,优化营销成本一直都是各公司的痛点;这需要对用户的行为数据进行分析,判别用户的价值,进而对用户制定专门的营销策略,实现小成本促销,达到提高用户转化率的目标。 现有用户信息表(user_info.csv),用户登录情况表(login_day.csv),用户访问统计表(visit_info.csv),用户下单表(result.csv),利用数据对用户行为进行数据统计与分析,并判断用户是否会下单购买。 任务1:获取数据并进行预处理,提高数据质量; 任务2:对用户的各城市分布情况、登录情况进行分析,并分别将结果进行多种形式的可视化展现; 任务3:构建模型判断用户最终是否会下单购买或下单购买的概率,并将模型结果输出为csv 文件(参照结果输出样例sample_output.csv)。要求模型的效果达到85%以上; 任务4:通过用户消费行为价值分析,给企业提出合理的建议。 竞赛网址:https://www.saikr.com/dsa/2021 二、基于机器学习的用户消费行为预测 1、数据简介及清洗 (一)数据简介 数据字段字段数样本数用户信息(user_info)ID、age、city 等8135968用户登录情况(login_day)ID、登录天数、领券数量等16135617用户访问统计(visit_info)ID、首页访问数、是否领券访问数等26135617用户下单表(result)ID、是否购买24639 (二)数据清洗由于原始数据中存在大量缺失、异常以及重复等情况,为了对用户的消费行为进行可视化和预测分析,所以本文需要对初始数据进行清洗,进一步提高数据集的质量。 首先,对缺失值进行删除。缺失数据是指数据集中存在空白或未知数据的情况。针对用户信息表中“城市”字段存在缺失(共计28209 条)问题,进行删除处理。 其次,对异常值进行清除。异常值是指在数据记录中存在不符合实际情况的数据,比如在用户登录情况表和用户访问统计表中,用户没有领券访问次数的记录却存在已经领券的情况、平台开课数为0 但用户学习课节数和完成课节数不为0 的情况、用户登录时长为0 但用户的登录天数和最后登录距期末天数的值却不为0 等多种不切实际的情况,约占整体数据的18.66%。将这些异常值进行删除,剩余有效数据共计110306 条。 再次,对重复值进行处理。重复数据是指同一数据多次出现的情况,比如在用户下单表中,用户ID 为“2000002390697240”、“2000002516432100” 和“2000002480841520”等均重复出现多次,在用户信息表中用户ID 为“2000002352923140”、“200000235 2922980”的用户均重复出现多次。因此,本文对用户信息表中的9979 条重复值、用户登录情况表与用户访问统计表中的4 条重复值、用户下单表中的13 条重复值进行删除。 由于在当时竞赛时间关系,对上述数据问题只能使用删除法进行清洗。通过上述步骤对4 个部分的数据进行清洗处理后,以用户ID 进行匹配合并,经处理后得到新的样本数据共计86776 条。 2、数据的可视化分析为找出其中的行为规律以及挖掘数据中潜在更为丰富的价值,本文根据数据清洗得到的用户消费行为数据进行可视化分析。这里主要对数据集中的用户城市分布情况、用户登录情况(包括登录天数、登录间隔、最后登录距期末天数和登录时长)两个方面进行可视化分析。 (一)用户城市分布情况 对数据中城市字段(city_num),首先按照各城市所属的省(市、自治区)进行统计划分,然后统计各省市中总用户数量和购买用户数量,最后借助ArcGIS 软件,利用自然间断法将用户数量分成5 个等级,可视化结果如图1 所示。左图为总用户数量地区分布情况,右图为下单购买的用户数量地区分布情况。由于不同地区的用户数量不同,在图中呈现出的颜色存在较大差异,颜色越深表示该省市用户数量越大,反之用户数量越小。从图中可以看出,用户数量和购买用户数量在空间分布上不均匀,呈现“东高西低、南高北低”的空间分布格局,其中购买用户数量在空间分布上的这种格局表现尤为显著。用户数量较高的地区主要集中在重庆、广东、四川、山西、山东,对应的下单购买用户数量较高,主要集中在东部沿海地区和经济发达地区。而青海、西藏等省市由于经济发展落后,人口基数小,互联网普及率相对较低,用户数量也因此较少。 从登录天数(login_time)、登录间隔(login_diff_time)、最后登录距期末天数(distance_day)和登录时长(login_time)四个方面对用户的登录情况进行分析, (1)用户登录天数情况
转载请注明原文链接:https://blog.csdn.net/qq_41390184/article/details/123298343 |
CopyRight 2018-2019 实验室设备网 版权所有 |