movielens数据集介绍及使用python简单处理

2024-01-17 23:01| 来源: 网络整理| 查看: 265

0 前言

个性化推荐中，电影推荐研究时常使用movielens上的数据集。该网站的数据集主要分两部分，

一是用于推进最新研究进展的数据集。当前最新的是发布于2019年12月份的25M数据集。

二是用于高校、组织科研的数据集。该类数据集按其是否带有标签、时间先后、数据集大小分成6种数据集。

想当时（17年）那会学术论文常见的都是使用1M数据集（2003年发布的）以及10M数据集（2009年发布的），如果是做带标签标记的电影推荐一般是tag-genome数据集（2014年发布的）。数据集中的命名ml为movielens缩写。

1 数据集解读-举例

每个数据集除了大致介绍外，其对应位置还有有一个readme文件，是该数据集的详细介绍。

1.1 1M数据集

1M数据集有rating.dat、movies.dat、users.data三份数据集。ratings是6040位用户对3900部电影的评分数据（共计1，000，209）。

1.1.1 rating文件

rating.dat文件存放的是用户对电影的评分信息，改文件中每条记录形式：UserID::MovieID::Rating::Timestamp，即用户id、电影id、该用户对此电影的评分值、时间戳。

- 用户id：从1到6040- 电影id：从1到3952- rating：从1-5的整数

readme文档中介绍该文件中的每个用户至少都有20个评分（即每个用户至少对20部不同电影进行了打分）。但当时，我做的分析，好像并不像官方文档说的这样，并且，数据都有缺失部分。

1.1.2 users.dat文件

users.dat文件存放的是用户的相关信息，包括性别、年龄、职业，该文件中每条记录形式：UserID::Gender::Age::Occupation::Zip-code。

- 性别（gender）的值为M和F。- 年龄（age）分成7组

- 职业（occupation）分成了21中类别

1.1.3 movies.dat文件

movies.dat文件存放的是电影的相关信息，该文件中每条记录形式：MovieID::Title::Genres。

- title是电影“标题”,包括电影名称及发布日期- genres是电影类型：包括动作喜剧等18种电影类型

1.2 100k数据集

100k数据集有点不同，其用户属性是单独一个文件。另外还有u1到u5五份数据（五折交叉验证，已经给分好了）。

该数据集包括了943位用户对1682部电影的评分信息（总共100,000），评分也是1-5的整数

1.2.1 100k数据集文件介绍 - u.data文件包含了100,000条评分信息，每条记录的形式：user id | item id | rating | timestamp.（分隔符是一个tab）- u1.base和u1.test是一组训练集和测试集，u1到u5是把u.data分成了5份（用于五折交叉验证实验）。可以通过运行mku.sh重新生成一组u1到u5(原来的会被覆盖)- ua和ub是把u.data分成了两份。每一份又分成了训练集和测试集。同样可以通过mku.sh重新生成一组ua和ub- mku.sh文件，每运行一次，就会随机生成一组u1--u5、ua、ub的数据集。（所以非必要不要用，不然每次实验的数据都不一样） 2 python简要分析处理movielens数据集-举例

- win10 + python3.8

- jupyter版

- pycharm版

2.1 100k数据集 2.1.1 粗略查看数据信息

2.1.2 去掉occupation为none的记录 nones = u_user[u_user['occupation'] == 'none'] u_user = u_user.drop(nones.index)

2.1.3 gender中的m、f映射成0、 1

2.1.4 对age进行分段，映射成7组

2.1.5 occupation字段数值化

2.1.6 zip_code提取前3位

2.1.7 处理好的数据保存，留待后续直接使用 u_user.to_csv('D:/d/python/u_result.csv') 3 其它 3.1 2.1的实例源码

- jupyter版

- pycharm版

3.2 2.1的pycharm版 # !/usr/bin/env python # -*- coding: utf-8 -*- # __author__ = 'QiuZiXian' http://blog.csdn.net/qqzhuimengren/ [email protected] # @time :2020/9/14 0:07 # @abstract : import pandas as pd # 粗略查看数据信息 u_data = pd.read_csv('D:/d/python/ml-100k/u.data') u_genre = pd.read_csv('D:/d/python/ml-100k/u.genre') u_info = pd.read_csv('D:/d/python/ml-100k/u.info') #u_item = pd.read_csv('D:/d/python/ml-100k/u.item') u_occupation = pd.read_csv('D:/d/python/ml-100k/u.occupation') u_user = pd.read_csv('D:/d/python/ml-100k/u.user') print(u_data.head()) print(u_user.head()) # 去掉occupation为none的记录 nones = u_user[u_user['occupation'] == 'none'] u_user = u_user.drop(nones.index) # gender中的m、f映射成0、 1 u_user['gender'] = u_user['gender'].map({'M':1, 'F':0}) print(u_user.head()) # 对age进行分段，映射成7组 def age_map(age): if age >= 1 and age = 8 and age =17 and age = 30 and age = 40 and age = 50 and age = 60: return 7 u_user['age'] = u_user['age'].apply(lambda age : age_map(age)) print(u_user.head()) # occupation字段数值化 def occupations_map(occupation): occupations_dict = {'technician': 1, 'other': 0, 'writer': 2, 'executive': 3, 'administrator': 4, 'student': 5, 'lawyer': 6, 'educator': 7, 'scientist': 8, 'entertainment': 9, 'programmer': 10, 'librarian': 11, 'homemaker': 12, 'artist': 13, 'engineer': 14, 'marketing': 15, 'none': 16, 'healthcare': 17, 'retired': 18, 'salesman': 19, 'doctor': 20} return occupations_dict[occupation] u_user['occupation'] = u_user['occupation'].apply(lambda occupation : occupations_map(occupation)) print(u_user.head()) # zip_code提取前3位 u_user['zip_code'] = u_user['zip_code'].apply(lambda zip_code : str(zip_code)[:3]) # 处理好的数据保存，留待后续直接使用 u_user.to_csv('D:/d/python/u_result.csv')

【本文地址】

公司简介

联系我们