nas使用分享 篇八:群晖NAS使用分享系列一:重复文件删除 您所在的位置:网站首页 文件名photo nas使用分享 篇八:群晖NAS使用分享系列一:重复文件删除

nas使用分享 篇八:群晖NAS使用分享系列一:重复文件删除

2024-04-16 09:11| 来源: 网络整理| 查看: 265

nas使用分享 篇八:群晖NAS使用分享系列一:重复文件删除 2023-08-12 22:57:17 32点赞 390收藏 40评论

前言:作为一个多年NAS玩家,前前后后入手和使用了多款NAS,最早的猫盘、蜗牛、Mycloud、群晖DS918+、QNAP TS-551、近期的绿联DH2600,每款都各有特点,但如果非要选一个比较满意的,那只有群晖了,不得不说群晖在硬件上几乎没啥优势反而一直处于劣势,群晖就靠系统碾压一众NAS品牌,系统的优秀足以弥补硬件上的短缺,自己兜兜转转一大圈还是回到群晖系统。正因为如此,本问主要目的是分享一下自己在使用群晖系统过程中一些值得分享的使用经验,希望遇到同样这些问题可以借鉴参考,水平有限,如有不妥之处敬请谅解。

一、分享原因

使用NAS这么多年,啥问题最头疼,那无疑是NAS里重复文件太多,太杂,占用了大量的NAS有效空间,而清理起来纷繁复杂,费时费力,尤其是数据清理可谓步步惊心,生怕自己不小心清理掉了有用的数据,如果只有很少数据,那到没啥好抱怨的,但是如果数据量极大,尤其是现在NAS上的硬盘都TB起,很多人买来NAS都是用来存放各种数据,尤其是影音,照片视频等,影音到还罢了,不小心清理错,还可以重新找来下载,但是自己拍摄的照片视频要是清理错了,那找回来可非常艰难麻烦。比如自己就是之前尝试使用各种NAS,这就积累了个坏毛病,一换NAS原来存放在NAS上的数据就需要倒出来备份好,NAS换好后又需要再倒回去,一次两次到没啥,倒的次数多了,就非常害怕把数据倒的过程误删除,就这样担心数据的情况下数据累积越来越多,很多相同数据在不同的时间里被反复复制,因此自己几年前买的一个14TB和8TB的西数桌面硬盘都基本备份满,如何清理这上面的重复数据成了当务之急。

解铃还的系铃人,一切都是由NAS使用引起,那么解决这个问题也要由NAS来解决,这个重要任务就落在自己的群晖NAS上了,自己的群晖NAS是DS220+,目前版本是最新的DSM 7.2版本,属于比较新的版本,虽然设备DS220+已经有点老旧,本身硬件优势也很差,但群晖系统弥补了这个短板。

二、群晖NAS重复文件删除1、利用群晖套件“存储空间分析器”进行重复文件分析和删除

群晖系统自带套件里有个套件“存储空间分析器”,这个套件不但具有强大的存储空间分析能力,而且具有MD5验证级别的重复文件分析和删除。

安装存储空间分析套件安装存储空间分析套件

利用这个套件里的存储分析功能,对需要进行重复文件删除的设备进行分析,把自己的14TB桌面硬盘接入到群晖DS220+的前或者后USB接口,DS220+前后各1个USB 3.2 Gen 1接口(也就是原来的USB3.0的升级版)支持5Gb/s,大约600MB/s,绝对满足西数14TB桌面硬盘传输。

打开存储空间分析器,如果是第一次使用,它会立即弹出设置界面让你立即进行存储分析设置,第一次需要填写任务名称,其他可以按默认。如果不是第一使用,那么一般不会弹出设置界面你只需要在新增出新增即可。

设置重复文件任务设置重复文件任务

我命名为“14TB”,其他默认,只管下一步。

创建了1个叫14TB的任务创建了1个叫14TB的任务

选则报告项目这里,只选“潜在的重复文件”,其他不选,毕竟我们分析存储空间也只是找到重复文件。

只选潜在重复文件只选潜在重复文件

接下来需要选则需要进行分析的文件夹,自己的14TB硬盘接入群晖NAS后直接挂载到usbshare1文件夹下,只需对这个文件夹做分析即可,勾选这个文件夹。

14TB硬盘挂载到usbshare1文件夹下14TB硬盘挂载到usbshare1文件夹下

接下来的高级设置中,按下图设置,忽略文件名、忽略修改时间、这2处都不要勾选,最大重复文件处最大只能填写5000,当然这个对我那个有100多万个文件的14TB硬盘来说显然不够。其他默认即可。

最大重复文件受系统限制只能到5000个,有点不够最大重复文件受系统限制只能到5000个,有点不够

上述完成后,生产这个新建14TB任务的摘要,可以检查参数,是否需要调整修改。勾选立即生产报告。

勾选箭头处,立即开始分析勾选箭头处,立即开始分析

我4TB上120万个文件,找出5000个重复文件好耗时30多分钟,我估计要要全部找出必须先把这5000个重复文件清除后再建立分析报告才能开始,毕竟文件太多了。这个在后面其他删除重复文件软件的运行中得到了印鉴。

耗时30多分钟找了5000个重复文件耗时30多分钟找了5000个重复文件

完成后可以打开报告,查看结果,也可以把报告用csv格式下载下来分析。

查看分析报告查看分析报告

点由MD5复制,就可以看到许多重复文件,这个就需要自己判断去留,好多都是一个文件由4,5个重复文件,5000多个看着头都疼,选1个保留,面对5000多个是个极度困难的事。但这里没别的办法,群晖这个只能这样。

面对4992个重复文件项目,我手都在抖面对4992个重复文件项目,我手都在抖

当然也可以把报告下载下来,格式是csv,Excel可以打开,把重复文件名和路径过滤出来用编辑软件加工编辑,然后登陆群晖命令行下用shell脚本或者python来处理,这个显然增加了难度。

可以下载CSV格式文件用Excel打开分析查看使用可以下载CSV格式文件用Excel打开分析查看使用2、利用Linux下通用软件Fdupes和Jdupes进行重复文件删除

我们必须承认群晖已经做的很好了,但是对于重复文件太多的人来说,那个存储空间分析局限性还是太大了,毕竟一个一个文件的查看点选实在累,而下载 csv文件用编辑软件处理在到群晖上用shell脚本和python来处理又显然超出普通使用者的能力范围,那么有没有更好更便捷的办法,那是当然有的,毕竟群晖也是基于Linux为基础的系统,在Linux上有很多重复删除软件,很多都名声在外,加上Linux更广泛的应用场景,必然重复删除文件软件发展的更强大更丰富功能更多,我们知道群晖系统目前来说在Linux一众系统中算比较封闭的,不像ubutun、centos等,因此群晖上装软件基本要依赖于它自己套件中心,好在目前群晖软件这款还有其他套件中心可以使用,我们只需要到有名的SynoCommunity套件网站上就可以找到集成了Fdupes和Jdupes软件的套件。

群晖NAS使用分享系列一:重复文件删除

在Packages里我们找到SynoCli File Tools,下载这个套件就可以使用fdupes和jdupes软件。

下载SynoCli File Tools软件下载SynoCli File Tools软件

软件根据自己群晖NAS的系统版本,CPU型号下载对应的版本软件,我的是DS220+,DSM是7.2版本,下载了对应的DSM 7.1的7.1 geminilake版本,下载下来才发现,intel的cpu版本一样。

下载对应版本下载对应版本

下载好后,就可以到群晖NAS的套件中心进行安装,安装是可以忽略群晖警告安全问题,同意安装第三方套件。

手动安装手动安装选则下载好的文件选则下载好的文件同意安装第三方套件同意安装第三方套件

安装好后,据可以进入群晖命令行模式,执行上面2个命令进行重复文件删除,进入群晖命令行,需要先在群晖“控制面板”里“终端机和SNMP”中打开SSH,为了安全,SSH端口设置为2222.这样我们就可以用SSH软件进行登陆了。

启用SSH功能启用SSH功能

使用SSH软件,像putty等,SSH到群晖NAS,用登录群晖WEB页面的用户名和密码登陆。因为执行重复文件删除软件,需要有root用户权限,因此群晖登陆进去后,在当前用户名下下执行如下命令,并输入密码(和登陆WEB管理页面密码一样):

sudo -i

群晖NAS使用分享系列一:重复文件删除

在root用户下就可以选则执行fdupes还是jdupes,根据软件信息,目前可以知道jdupes是功能比fdupes更强一些,目前看fdupes版本2.2.1,最晚更新是2022年9月,jdupes版本是1.26.1最晚更新2023年7月,看来还是jdupes比较新一些。

2个软件各有千秋,版本和更新频率上jdupes更好一些2个软件各有千秋,版本和更新频率上jdupes更好一些

那么如何是使用这2个软件,其实这2个软件都是在命令行下使用,其本身有互相借鉴,因此2个软件进行重复文件查询删除上命令基本相通,只有极个别命令有区别,对于我们来说,我们只需关注这2个软件如何查询重复文件,如何删除重复文件即可,其他大可不必留意。诚然就像2个软件的开发者说的,删除重复文件时间非常有风险的事情,凡是涉及到数据安全上的任何操作都要小心再小心,仔细再仔细,一定要在执行命令前做好完全的备份操作,避免错误操作带来丢失数据的风险。这里列出2个软件查询和删除重复软件的命令供参考,请务必小心操作,做好数据备份。

查询命令:fdupes -Sr /volumeUSB1/usbshare >/volume2/homes/XXXXX/Backup/test.txt

jdupes -rSM /volumeUSB2/usbshare >/volume2/homes/XXXXX/Backup/test.txt

上述命令就是用fdupes和jdupes命令对群晖上接入的USB移动硬盘或者U盘设备进行数据查重操作,并把查询结果输入到test.txt文件中别于查看。其中2个软件的参数-r都代表查询一级一级子目录,-S都代表统计重复文件大大小,唯一不同的是jdupes多了个-M参数,这个代表查询完打印匹配并在最后总结。建议大家先用查询命令查询重复文件,并互相比照,也可以和群晖存储空间分析器的报告进行比对。这2个软件就查询这块比起群晖存储空间分析器强的地方是不受最多5000个文件的限制,速度上jdupes查询要快一些,自己测试了一下,分别查询120万个文件和150万个文件中重复文件,时间是非常漫长的,这肯定和文件太多有关系,并且2个软件在查询中要做MD5和HASH比对,因此慢很正常,从个人测试中来看,建议用jdupes,速度上更快一些。

fdupes速度相对慢一些,120万个文件查询重复文件用了大约近30个小时fdupes速度相对慢一些,120万个文件查询重复文件用了大约近30个小时群晖NAS使用分享系列一:重复文件删除

最后说一下删除命令,同查询命令一样,2个的删除命令也基本一样,都是加个-d和-N参数,-d为删除参数,-N为保留每个查询出的重复文件副本集中的第一个文件,并删除其余的文件,而不提示用户。如果文件少的话,可以不要-N参数,这样找出的重复文件就会询问你保留那些,每项重复文件都会询问你,文件少到无所谓,但是文件多了,就和群晖存储空间分析一样,每项重复文件都要挑选保留的文件,几千个,几万个,几十万个.......估计你已经崩溃!

删除命令:fdupes -rSdN /volumeUSB1/usbshare

jdupes -rSdN /volumeUSB2/usbshare

三、总结

1、群晖NAS删除重复文件有多种方法,自带的存储空间分析,每次最大只能分析出5000个重复文件项目,删除文件需要一项一项选则需要删除的文件,量小还好,量大的话对人是种折磨。

2、fdupes和jdupes都是命令行,操作起来不如图形化那么熟悉,好处是重复文件数目没有限制,可以一次搞定所有文件夹重复文件。而且速度非常快,检验手段也丰富。

3、重要的事说三遍:删除重复文件前一定要备份,备份,备份。毕竟数据无价!

以上为自己使用群晖NAS的一些分享,水平有限,文中方法方式仅供参考,欢迎大家一起学习交流。

作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有