刘嘉佳1 孙雅静2
(1,国防科学技术大学 长沙 410073 2,解放军干部档案室 北京 100000 )
摘要:大数据时代逐步到来,怎样建设大数据时代的档案馆,怎样管理大数据时代的档案?首先必须解决档案大数据的存储问题,对于绝大多数档案管理单位来说,档案大数据存储系统的建设或存储服务的选择显得更为直接和重要,为此,本文分别从四个方面初步阐述和探讨了大数据时代档案存储性能的评估思路和方法,为档案管理单位建设发展档案大数据存储系统提供依据和参考。
关键词: 档案 大数据 存储性能 评估
大数据时代的档案管理系统是什么样的,或者说档案管理该怎样适应大数据时代,这是一个非常现实而紧迫的问题,档案管理单位根据自己的发展定位会选择不同的应对策略,有的单位会选择依靠自己的力量开发具有大数据处理能力的档案管理系统,选择这种策略的单位必须有相当雄厚的技术、资金实力,只有少数国家级的档案管理单位具备这样的实力。还有的单位也许会选择向专业的大数据服务应用提供商外包部分大数据的数据集成、数据存储、数据分析、语义处理与数据可视化等功能。档案大数据存储功能是这些功能中的基础,档案大数据的存储性能直接决定档案大数据管理工作的好坏,所以,无论是通过建设存储系统进行本地档案大数据存储还是通过服务外包将档案大数据托管于云端,评价档案大数据的存储设备性能是档案管理单位解决档案大数据管理的首要任务。只有知道如何评估档案大数据的存储设备性能,才能更好地论证、规划存储系统这一基础建设,为本单位的档案管理走向大数据的行列、为社会提供更加高效的档案利用服务奠定基础,本文从以下四个方面对档案大数据存储系统的性能评估思路进行了初步的分析和阐述。
一、档案大数据存储系统应该具备良好的可扩展性能
档案大数据存储结构首先必须具备可扩展能力,这是衡量档案大数据存储架构的最重要的基础能力[2],因为档案大数据的数据量的增长、访问量的增长都将是迅速的,这种增长甚至是无法预测的,如果档案大数据存储架构不具备良好的可扩展性,那么,用不了几年就会无法适应档案大数据管理的需求。这种现象在档案信息化、电子化建设初期很普遍,曾经,电子化就等同于买电脑,后来又在此基础上不断购买服务器、工作站等设施,过分强调处理速度的重要性,对存储这一基础问题上并不重视,结果导致档案管理系统整体淘汰速度太快,伴随着档案系统的更新换代过频过快出现的一种现象就是档案管理人员要花费太多的时间和精力去适应新的软硬件系统,由于存储方式和结构的改变,档案管理人员的很多很好、很实用的操作经验和习惯也不得不改变或放弃,如果档案管理系统的更新可以独立进行,即只在原有基础上增加功能,尽可能保持与存储系统的原有接口,而并不需要完全改变数据结构和存储方案,那么存储系统就有可能实现独立扩展,这样,基础档案数据就可以尽可能避免由于重新录入、组织而导致的错误、破坏等损失。档案大数据由于数据量过大,产生速度有可能极快,采取管理系统和存储系统软硬件捆绑并整体更新换代的模式势必导致档案大数据从旧存储系统向新系统拷贝、移植过程中出现时间过长、死机、数据丢失等风险。而且,将来的档案大数据存储系统或服务将会相当昂贵,再走那种完全淘汰、重新购置的路子无疑是巨大的浪费。因此,在选择档案大数据存储设备或存储服务时,首先要考察存储的可扩展性。
许多存储商都声称自己的存储系统是可扩展的,但可扩展不等于具备优良的可扩展性能。优良的档案大数据存储系统应该在多方向上具备可扩展性,为客户的各种档案大数据和档案大数据应用管理程序提供预制目录,使得档案管理单位的数据和软件很容易通过预制标识将自己的数据和程序分配进预制目录,并通过预制目录获知此目录方向的扩展能力的大致预期。
如果档案管理单位的存储基础设施具备优良的可扩展性能,档案管理系统的升级就不一定需要存储系统做相应的硬件架构的改变,而往往是升级后系统还与原有的存储单元相容,即升级是在原有的基础上扩展。并且,这种可扩展性也不是简单地增加磁盘的问题,它应该被理解为不但存储的大小是可伸缩的,而且访问的吞吐量和速度必须也是可扩展的,同时这种扩展并不导致相应的专职操作人员或操作工时的大量增加。
二、档案大数据存储系统应该具备良好的分层存储性能
存储是要为访问服务的,档案大数据的使用客户更关心的是:我要等待多长时间才能得到我所需要的档案数据?造成档案大数据响应速度慢的原因主要有两种,一种是存储介质本身的物理响应速度慢,另外一种就是在同一时间出现众多的档案大数据用户和应用程序在访问同一存储层的存储介质,造成访问在层中拥堵。第一种访问慢的问题可以通过改进存储介质的物理响应性能来逐步解决,第二种问题还可以通过分层存储技术来解决。所谓分层存储就是将不同的响应性能存储介质布置在不同的存储层上。在存储介质没有革命性突破的前提下,或者访问性能最好同时又是最容易获取、最容易实现的存储介质没有出现之前,提高档案大数据访问速度一个非常现实的办法就是将档案大数据分层存储,即存储架构自动地甚至智能地将访问频率高、访问量大或者访问可能性高的数据存放在访问性能好的存储层上,而将那些不太活跃的数据归档至访问性能较弱的存储层,这样就能显著提高档案大数据的访问响应性能。另外,分层存储还可以将访问分散在不同的存储层中,这样就能大大缓解前面提到的第二种响应慢的问题。好的档案大数据存储架构必须具备这种将档案大数据分级、将存储介质分层、将访问分散的良好算法和性能表现。
优良的档案大数据存储系统应该能做到充分发挥存储虚拟化在分层过程中的作用。所谓存储虚拟化就是指客户将数据存储至一个虚拟的地址或层中,其真正的存储位置由存储系统根据最优存储性能准则确定。简单地说,就是应用软件利用或产生的数据可能显示在“D盘”,却并不一定真正存储在传统意义上的磁盘驱动器上。虚拟化在档案挖掘、分析等应用程序和存储系统之间添加软件抽象层。这样,档案挖掘软件就可以通过抽象层共享软件接口并组合利用、分配多个存储系统的存储资源,而无须涉及物理位置,这是档案大数据分层存储的一大优势。即使没有云,只有局域网,档案大数据存储管理员也可以在虚拟化的帮助下,利用各个物理系统的存储介质高效地创建和分配存储层,而每个档案分析应用程序使用的是由这些虚拟层的子集组成的存储池。大多数情况下,虚拟化能够大大提高存储利用率。
三、档案大数据存储系统应该具备良好自我管理性能
现代存储几乎总是由多重应用系统或用户共享。某些应用系统具备足够的智能来自动迁移存储层之间的数据。但是,大多数应用系统或用户不具备这种能力,有些应用系统即使具备自动分配存储层的能力,但使用这些应用系统的管理员还是不能使用这些自动分配功能,因为这些应用系统的优先级等属性可能与另一些应用系统冲突,从而造成管理的冲突。在这种情况下,由存储系统本身自动地将数据合理地分配到闪存、快速硬盘、慢速硬盘、或磁带等存储介质上,而不是完全依赖应用系统或用户进行数据的层间迁移等存储管理,就显得非常关键。
档案大数据存储系统自我管理的第一种模式是存储系统直接按管理员的指令将档案大数据存储到指定的层。或者直接承接那些具备数据管理能力的写入型应用程序的数据管理策略,即存储系统可以使用windows或其他操作系统的通信机制,认证应用程序的数据管理能力,一旦完成认证,存储系统就可以通过API硬编码与应用程序建立起通信套接,接下来,存储系统完全按照应用程序的策略完成档案数据的存储,这种方法就是由应用程序告诉存储系统做什么,存储系统按照具备数据管理能力的应用程序的管理策略实现分层存储。这种模式的自我管理主要体现在存储系统自动与应用程序的对接管理上,这种模式是必须首先实现的自我管理模式,毕竟应用程序预判的活跃数据极有可能就是将来的高频访问数据。
档案大数据存储系统自我管理的第二种模式实现档案大数据的自动迁移,迁移档案大数据其实就是移动档案的数据:从文件夹、分割区、磁盘或磁盘子系统提取档案数据,放入其它的物理站点。大多数情况下,迁移档案数据是为了执行档案数据分类措施,实现分层存储。例如,高性能Tier1(第一层级)光纤通道磁盘中不常使用的数据可以迁移到近线SATA(串行)磁盘阵列中。随后,这些档案数据可以放入固定内容归档系统、VTL(虚拟磁带库)或者磁带库[3]。自我管理的第二种模式主要是通过建立档案大数据迁移准则来实现的,这些准则就是存储系统迁移数据的判据,如,档案大数据在多长时间内应该由较快的存储介质自动迁移到较慢的存储介质,这就是档案大数据迁移时间准则。也可以建立文件大小准则等不同的准则来触发档案大数据的迁移。例如,有一份档案大数据在100天内还没有被访问,准则判断其可以被从磁盘移动到磁带,如果突然在几天内多次被访问,那么这份旧的数据就应该被准则触发从磁带移动到磁盘。
对于第二种方式模式来说,至关重要的是,这种自我管理应尽可能的易于编程和自动化。否则,人工实现这类准则约束的档案大数据管理将导致档案管理工作人员的显著增加。此外,档案大数据存储构架还应该创建各种自我管理准则集以适应不同类型用户的需求,档案大数据高级系统管理员的自动化管理设置和一位想从五年前的档案大数据中进行一个数据集业务分析的人员的自动化管理设置应该完全不一样,因此,一个成熟的大数据存储系统应该为各种不同的用户组分配专业的自动管理接口并定制相应的自动化管理工具。
四、档案大数据存储系统应该能够确保内容高度可用和内容的高度可访
PB(1000TB)级规模的档案大数据存储即将成为档案管理单位的业务需求,档案管理单位自然会渴望保持档案大数据高度可用但不要以不断增加的管理人数或备份工作人员数量需求为代价。具备良好架构的档案大数据存储系统,首先应该利用其内部的数据管理策略引擎自动进行跨存储介质管理,并在传统的磁盘阵列架构顶部应用数据副本技术确保基础档案数据的可用性。其次,最近几年出现的一种“广域存储”技术应该受到支持,在这种技术方案中,数据被表示为对象,这些对象被分散存储,分布在多个局部或全局存储节点上。由于使用特殊的广域存储算法,当一个节点出现故障或在进行数据更新、节点升级时,该对象的数据仍然可以通过其他节点被访问,从而确保了档案大数据的高度可用性。
档案大数据的价值获得了越来越高的认可[4],从档案大数据中寻找价值的需求也会越来越高,因此,仅仅能确保档案大数据的高度可用性是不够的,档案大数据存储系统还应该具备高效的内容可访性。通常情况下,档案大数据用户在地理上是分散的,因此,存储系统能否自动将档案大数据在云中进行挪移,使之在地理上更加接近潜在的访问者,可以成为云时代评判档案大数据存储系统可访性的一项重要指标。
通过以上四个方面的阐述,本文初步分析和思考了档案大数据存储系统的性能评估方法,希望抛砖引玉,对档案管理单位在大数据时代的档案管理、开发、利用发挥参考作用。
参考文献
冯惠玲,张辑哲,档案学概论[M],中国人民大学出版社,2006.5。
孟小峰,慈祥。大数据管理:概念、技术与挑战[J]。计算机研究与发展,2013,50(1):146-169。
郑庆华。Web知识挖掘:理论、方法与应用[D]。2010,北京:科学出版社。
He Yongqiang, Lee Rubao. A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems[C]. Proceedingof the 24th International Conference on Data Engineering. InHannover, Germany. 2011: 1199-1208.