3 HDFS 多安全级数据销毁机制
针对HDFS 不能彻底删除用户存储的数据的缺陷,文中设计了HDFS 的多安全级数据销毁机制,以达到数据的安全销毁。
3. 1 数据销毁技术
目前的数据销毁技术大致可以分两类:硬销毁技术和软销毁技术 .硬销毁技术主要包括消磁技术、物理销毁技术等。硬销毁技术主要是通过对存储介质的性破坏来达到安全要求。虽然硬销毁技术能保证删除的数据安全,但是因为完全破坏了存储介质,导致设备不能重复使用,这对于HDFS 是不能接受的,也是基本不能实现的。
软销毁技术,主要是通过软件的方法删除数据。
软销毁技术中的数据覆盖技术可以通过采用特定的覆写规则和覆写序列覆盖存储介质上的原有数据。虽然数据覆盖技术在进行覆盖后,由于磁存储介质的剩磁效应,并不能将数据彻底删除。但是通过增加覆写次数和调整覆写规则,可以在很大程度上销毁数据,防止数据被非法恢复。对于SSD 等闪存类存储器,因为没有剩磁效应,通过覆写就可以达到数据销毁效果。所以文中采用了软销毁技术中的数据覆盖技术。
目前,主流的覆写标准有DOD5220. 22-M 简单覆写标准、DOD5220. 22-M 7 次擦除标准、全零覆写标准、RCMP TSSIT OPS-II 标准和Gutmann 等标准。
不同的标准安全性不同,同时消耗的资源和时间也不相同。
3. 2 数据销毁流程
图3 给出了HDFS 多级安全级数据销毁流程图。
整个流程和原有的HDFS 数据删除流程的主要区别是:
1)加强的权限机制。在进行数据删除之前要首先根据用户的权限判别用户是否有权进行数据销毁,如果用户没有数据销毁权限,将询问用户是否使用普通的数据删除。这个过程主要是预防恶意用户通过使用高安全级别的数据删除策略,恶意覆写大规模数据,导致系统资源被过度使用;
2)根据Datanode 的存储介质判断使用的数据删除策略,而不是使用统一的数据删除方法。由于固态硬盘没有剩磁效应,所以固态硬盘使用全零覆写标准覆写就可以达到数据销毁的目的。磁介质则采取多次数据覆写标准,如DOD5220. 22-M 等。这样可以使整个HDFS 数据删除的效率更高,不会造成系统资源的浪费;
3)根据用户的安全需求,采取不同的数据覆写策略。由于不同用户对数据销毁的安全等级需求不同,或者是同一个用户对不同数据的销毁等级需求不同,所以多安全级的数据销毁机制可以满足不同用户的不同需求,如当用户删除低敏感度数据的时候可以使用DOD5220. 22-M,在删除高敏感度数据的时候采用DOD5220. 22-M 7 次擦除标准。采用不同的安全级别的数据删除策略,可以在有效销毁数据的同时避免由于统一采用高安全级别造成的系统资源大量占用的情况出现。
3. 3 覆写算法
文中采用的覆写算法有:
1)全零覆写,全零覆写只是用在固态硬盘的数据删除上;
2)DOD5220. 22-M覆写标准;
3) DOD5220. 22 -M 7 覆写标准;
4) RCMPTSSIT OPS-II 标准。在设计中并没有采用Gutman 覆写标准。
虽然该算法现在是安全的覆写算法,但是由于要覆写35 次之多,覆写速度慢,时间长。同时由于HDFS 存储的数据都是大数据量数据,很大部分是GB 级甚至TB 级以上的数据,若采用Gutman 覆写算法其效率太低,将会对系统的性能造成很大的影响。
覆写算法如下 :
●算法1 全零覆写算法往文件中全部覆写0.
●算法2 DOD5220. 22-M 覆写算法1)产生一个随机数,用该随机数覆写文件。
2)取该随机数的反码,用该反码覆写文件。
3)生成另一个随机数,用该随机数覆写文件。
●算法3 DOD5220. 22-M7 覆写算法1)产生一个随机数,用该随机数覆写文件。
2)取该随机数的反码,用该反码覆写文件。
3)产生另一个随机数,用该随机数覆写文件。
4)产生另一个随机数,用该随机数覆写文件。
5)取该随机数的反码,用该反码覆写文件。
6)产生另一个随机数,用该随机数覆写文件。
7)产生另一个随机数,用该随机数覆写文件。
●算法4 RCMP TSSIT OPS-II 覆写算法该覆写算法一共覆写8 次,奇数次产生随机数并用该随机数覆写文件,偶数次用上次随机数的反码覆写文件。
4 实验结果与性能分析
不同的覆写算法的安全性和性能在许多文章中都已经得到了验证,文中的实验主要是验证在HDFS 环境中覆写算法对Block 覆写的有效性和性能。
4. 1 实验环境和工具
实验环境如表1 所示,因为Block 存储在Datanode的本地文件系统中,并不涉及分布式环境,所以将Hadoop设置为单机伪分布模式。
仿真程序采用自主编写的Java 软件,利用File-OutputStream 类和BufferedOutputstream 类实现文件的覆写,经过多次验证,软件可以有效地覆写目标文件。
4. 2 实验结果
实验将60M 的文本文件存储在HDFS 中,产生一个64M 的Block,并对这个Block 的存储文件采取不同安全级的覆写算法进行覆写。如图4 所示,安全级越高的覆写算法,时间开销越大。覆写过后的文件,在HDFS 中已经无法正确读取,结果如图5 所示。
5 结束语
针对HDFS 文件系统中的数据销毁机制存在的缺陷,文中提出了HDFS 的多安全级数据销毁机制。云存储是将来的主要存储方式,越来越多的数据将会迁移到云端。虽然针对云中数据安全提出了许多安全措施,但是很少有措施是针对云中数据销毁问题的。文中将数据覆写技术应用到了HDFS 的数据删除机制中,彻底地销毁了数据,有效地防范了恶意恢复删除的数据。该机制的权限检测预防了恶意用户使用覆写机制造成的系统资源占用,同时安全多级可定义特性有效地平衡了安全需求和性能需求。
接下来的工作主要是完善身份机制,防止恶意删除,以及开发更适用于分布式体系的数据覆写机制,以提高数据删除的效率。
免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。