微信聊天记录统计 您所在的位置:网站首页 怎么看微信聊天记录多少条信息 微信聊天记录统计

微信聊天记录统计

2024-07-09 03:26| 来源: 网络整理| 查看: 265

任务:获取自己和朋友A的全部微信聊天记录,并做简单的数据分析统计(如下图所示的一些数据)

根据聊天内容生成的词云 每个小时段的消息个数分布,可见夜里微信消息过多,熬夜的元凶找到了 每个月的消息个数 任务分析

整体任务分为两个大步骤,获取聊天记录和数据统计。数据统计比较容易,毕竟网上有很多教程可以借鉴。最麻烦的是第一步——获取聊天记录。

微信官方不提供聊天记录的文本导出方法。我们要想获取聊天记录,最直接的方法就是一条条复制到txt文档里,但这个方法太笨,不适合聊天记录特别多的情形。在网上一番检索,踩过一些坑后,终于成功导出。在这里把过程记录一下。

思路是这样的:手机端的微信会把消息记录存在一个数据库文件(EnMicroMsg.db)中。但这个文件加了密,需要密码才打得开。幸运的是,密码能够被计算出来。

密码的计算需要两个号码:一个是微信所用手机的串号IMEI(15-17位数字),另一个是微信的用户信息号(也就是uin,一般8-10位数字)。这两个号码按先IMEI后uin的顺序首尾拼在一起(中间不加任何字符)形成一个23~27位数字。对这长串数字做32位的MD5,得到的结果取前七位,就获得了数据库文件的密码。

注意:这里有个坑,网上都没有说,这七位中的大写字母一定要转化成小写字母才行!

获取微信聊天记录

从前面分析可知,要获取微信聊天记录,需要集齐三大法器: 数据库文件(EnMicroMsg.db)、手机IMEI和微信uin。但手机没有root的话,这三个法器也没法直接获取,只能借助手机模拟器才行。这里采用蓝叠模拟器来说明整个步骤。

借助PC微信客户端将聊天记录导入模拟器

备份聊天记录到PC 先打开PC微信客户端,将需要获取的聊天记录备份到PC上

备份聊天记录至电脑 备份聊天记录至电脑

恢复聊天记录至模拟器的微信app 打开蓝叠模拟器,安装微信app,然后登陆自己的账号,导入聊天记录,这样蓝叠就有了完整的聊天记录数据库文件

导入聊天记录

打开模拟器root权限

获取Root权限,这样才能获得上面三个信息 获取数据库文件EnMicroMsg.db

打开文件管理器

re.png

数据库的文件路径

数据库就在这个都是数字的文件夹里 数据库文件

复制数据库到自己的PC

蓝叠模拟器中,将文件复制到sdcard下,然后点击上面的Export to Windows即可复制到自己的PC 获取模拟的串号IMEI 网上很多方法都不靠谱,最简单有效的一招就是在模拟器上安装获取IMEI的app,打开这个app就能知道IMEI

获取uin 在这个文件下,好多文件里都会有uin,例如下面这个文件,里面有个uin_id的8-10位数字,记录下来

打开这个文件,能够找到uin

计算密码 打开密码计算小工具,将IMEI和uin输入左侧方框,中间不要有任何字符,中间选择32位小,右侧得到结果的前七位就是密码

md5一定要小写的才行

读取数据库的小工具 有了数据库和密码,还需要安装一个读取数据库的工具——sqlcipher.

导出聊天记录 用sqlcipher打开EnMicroMsg.db,会提示输入密码,然后就能看到数据库内容

导出聊天记录 表选择message

导入excel,导出xlsx 上面生成的csv文件,如果直接用python读取的话,会有很多问题(可能是编码格式的问题),我是先用excel打开csv,另存为.xlsx文档,这样方便后面python读取

数据分析

这一部分就不多讲了,词云是借用了词云生成方法的代码。聊天时间分布统计利用了pandas库,这个我也是第一次用,拙劣的代码如下

import datetime import pandas as pd import matplotlib.pyplot as plt import matplotlib.ticker as ticker excel_path = 'wx.xlsx' #上面第9步,生成的excel文件 dateparse = lambda x: datetime.datetime.fromtimestamp(int(x)/1000) if x else None # 导出来的时间戳比正常的多了3个0,这点要注意 df = pd.read_excel(excel_path, parse_dates=['createTime'], date_parser=dateparse) fc = df['content'].groupby(df['createTime'].dt.hour).count() # hour 表明按照小时 统计聊天频率 fc.index = fc.index.astype('int') #将横坐标转化为整数型 ############ 绘图 ################### plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False #用来正常显示负号 plt.rcParams['font.size']=23 plt.figure(figsize=(20, 10)) ax = fc.plot(kind='bar',color='#66cccc') ax.set_facecolor('#eeeeee') ax.grid(True, linestyle='-.') ax.tick_params(axis='x',labelcolor='#66cccc', labelsize='large', width=3) ax.tick_params(axis='y',labelcolor='#66cccc', labelsize='large', width=3) ax.set_xlabel(u"小时",color='#66cccc') ax.set_ylabel(u"微信消息个数",color='#66cccc') ax.set_title(u'微信聊天数据统计',color='#66cccc') plt.show()


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有