保存数字记录:哈佛库保障存储在过时格式的材料

W母鸡Digital成为恐龙,大多数人只是给予不便。但图书馆员和档案论者认真关注。

确保数字内容 - 无论是John Updace还是非常罕见的短篇小说 消失的原住民语言的音频录制 - 在过去的初始平台上生活是保存科学中最紧迫的问题之一。哈佛是一系列采用技术和过程的少数文化机构,以保护其数字内容。

哈佛的图书馆和档案馆占据数千个数字格式的数千个独特的物品,包括老化技术,如CD,软盘,磁带和盒子。为了在总过时或数字格式衰减之前检索内容,图书馆员正在使用警方或联邦调查局常用的数字法证软件来解决犯罪,这使得它们能够非识别并将其迁移到更稳定的平台上。

正在开发数字取证以创建适合作为犯罪审判中的证据的真实,无法浮动的源数据。图书馆工作人员将自己持续到同样的高标准和模型中的一些工作流程对执法实践。毕竟,改变文档字面上重写历史记录。

但图书馆员和档案馆在这项任务中面临安装紧迫感。几个世纪以来,数据意味着打印。纸张很远,距离最好的媒介,以记录和保留信息,并有充分的理由。它是相对实惠的,易于制造,并且良好地忽略了良好的疏忽。打开200年前在架子上放置的书,其页面仍将提供相同的信息,讲述同一故事。

随着对数字内容交付的相对快速转移,以及从Mark III-ERA Beemoths到今天的时尚iPhone的数字硬件的更快演变,越来越多的内容是天生的数字,创建,传播和在计算机上完全访问,如此1s和0s而不是印刷类型,刻字纹理或磁性编码 - 所有这些都比更多现代技术更强大。

现在,集合可能进入数字材料,这些材料已经下滑。数字劣化不遵循像书籍这样的稳定​​曲线。几十年的物品可以很好,然后从完全无用的方便迅速下降。对于某种格式,专家不知道该高原和下降可能是什么,它甚至可以在保持同一条件的单个物品中变化。情况为保存,访问和集合开发带来了问题。

“在该领域之外的人们预计这将迅速成为如此紧迫的问题,”大学档案馆梅根·斯里芬 - 玛琳诺夫说。 “它实际上发生过夜。”

在过去十年中,进入系列中的数字材料的存在已经呈指数级呈指数级呈指数级呈指数级,或者作为在纸上职业生涯的专业人士迁移到数字交给他们的工作到图书馆以保护。所有纸质集合都变得罕见。

当第一个混合硬拷贝和出生的数字集合在20世纪80年代进入图书馆时,数字格式被视为对象或伪像而不是内容。可能已经注意到磁盘但未访问,并且随着它与之达到的纸张被藏回来。

“我们当然有这些隐藏问题的问题,在整个系列中都散发出来,”Sniffin-Marinoff说。 “我认为人们没有想象含义的程度。它为我们的工作增加了一层复杂性,这非常令人难以置信。“

在评估进入的收藏时,档案馆现在很大。他们试图在收集中揭开这些问题 - 有时甚至在它到达门之前。大学档案工作人员乘坐捐助者,地下室,阁楼和研究的移动取证套件,并配备了在现场调查材料,就像取证贩毒团队成员一样。

哈佛的第一个通过数字取证保存的集合在商学院的贝克图书馆。最近的一个收购留下了图书馆员如何思考如何捕获出生的重要部分并将其与集合中的打印项目集成。

“我们的收藏品范围从Medici家族到雷曼兄弟,”哈佛大学祖先赛·库克图书馆的历史系列历史纪念品纪念家瑞士·威斯·努力表示,他开始了数字取证计划。为了获得最近收购的更专业知识,官员聘请了一位顾问并与其他机构合作,以了解基本工具和工作流程。自从获取初始数字集合以来,该程序已生长为包括来自新集合的光盘,例如 王立实验室公司记录 和教师研究集合。

基本上,要从过时格式检索内容,需要三个组件来对齐:硬件,软件和技术人员。一旦工作人员采购了硬件 - 一个驱动器或读者 - 数字取证软件就有很多工作。

第一和最重要的步骤是成像,其创建源介质的副本,其恢复独立于文件系统的存储设备的结构和内容。

要从5英寸软盘中检索数据,驱动器连接到“WriteBlocker”,该设备可确保信息仅流动,防止数据被覆盖。 WriteBlocker已插入计算机,该计算机提取所有内容并在新驱动器上构建磁盘映像。

HBS是第一个使用的人 FRED(证据设备的法医恢复),一个带有Myriad插件和读者功能的黑色电脑塔,结合了驱动读者和WriteBlockers。其他一些弗雷德现在正在使用图书馆。工作人员在培训课程中聚集在一起,并分享最佳实践。

到目前为止,哈佛法学学校图书馆在其集合中具有较少的格式类型,可以通过使用原始,运作,但现在 - 模糊的驱动器手动创建成像环境,并将其与WriteBlocker挂钩。进入图书馆的数字集合工作空间就像要去电脑博物馆,或跳进时间机器。各种尺寸的Zip和软盘驱动器散列。

一旦磁盘被成像并且内容关闭原始载波,可以处理内容。由于成像是更加紧迫和敏感的步骤,大多数图书馆员尽可能多地映像,并且稍后处理信息。偶尔,Bitrot(或Data Rot)损坏文件。

在处理步骤中,在成像盘上执行具有法医刀具套件的分析,保留原件。然后,必须决定如何访问材料。

有两个选项,迁移和仿真。迁移将信息从一种格式转发到另一个格式,例如将90s中的Corel Wordperfect文件转换为Adobe PDF。它是允许研究人员查看材料的最简单选择,但可能无法完全重新创建原始文件。可能会有一个像边缘或间距的变化一样的变化,或者像重新排列文本一样大。

在法学院图书馆,策展人使用 Xena.,由澳大利亚国家档案开发的开源软件,它识别数百个旧和异常的文件格式,并快速将它们迁移到当前标准格式。

仿真重新创建原始计算环境,其中创建内容,如整个软件套件,从而使文档能够以其本机形式查看。必须迁移某些类型的文件,因为在达到1S和0的比特级别保留时,缺少适当的操作系统禁止可能仿真。在任何一种情况下,在靠近其原件的形式中看到文档对研究人员来说非常有价值。

“有些关于看着这些唤起不同的时间以及教师如何研究的东西,”明智。

图书馆员在提取后对内容进行采样以确保工作成功。之后,更典型的步骤 - 纸张记录常见 - 被拍摄。这些项目被描述和编目并开放到研究人员。

以数字格式工作使有些事情变得更加容易和一些更难。 “我们可以做出高级别的决定”,“明智”解释说。 “在这个过程中有很多智慧。”

但经常有更多的决定档案馆。在纸质集合中,受试者经常无意中“策划”内容。毕竟,不可能从60年的职业生涯中保留每个纸张,而不会变成包裹。天生的材料不是那么;由于设备尺寸减小,存储尺寸增加。档案馆和图书馆员不知道在打开它之前可能是多大的数字收集,并且音量通常大得多比预期更大。

“这是一种壁橱,上面,”明智说。除了一般内容的增加外,复制常见,因为磁盘用作传输和备份以及递送工具。虽然数字法医软件可以“de-dupe”内容,但策展人必须小心。可能需要保留敏感的个人信息以获得内容的准确记录,但必须从顾客访问的文件中删除,直到足够的时间传递给待释放的所有集合。

“有很多挖掘才能完成,”玛格丽特·桃花案,在法学院图书馆数字收藏馆。除了重复外,还有音乐的受版权保护的材料,创造者听取或读取的E-出版物是在驱动器上,需要删除。 “在某些方面更容易,除了纸张加工方面的方式更加困难,”她说。

还有哪些物品首先重新格式化。由于研究员请求确实参与优先考虑库工作流程,有时会影响序列。谁是或它在确定优先级时也发挥作用。由于材料的成本和材料的成本和罕见,哈佛大学将一些这类工作提供给供应商。

每所学校都接近了不同的问题,具体取决于收集和他们的用户社区的需求,但他们经常会面,以分享最佳实践,并从其他地区学习,如哈佛 媒体保存 group.

数字考虑到数字化的图书馆管理领域。与图书馆的礼品协议重新设计用于包括访问受密码保护的网站的捐赠者帐户,如Facebook。赞助人访问政策也已经调整,因为一些材料仅限于在阅览室内部观察。

所有图书馆员和档案人都同意的一件事:即使在检索内容时,也可能需要保留原始介质。现在的进步现在允许检索以前被写入的格式作为丢失原因,例如 艾琳系统 对于视听材料,拍摄足够的信息以产生声音。

伊丽莎白沃尔特斯是哈佛库的保存图书管理员,用于视听材料,但在测量收藏时几乎看到了一切。她说这个问题不会很快消失。 “如果它是物理媒体,那么剩下的格式不陈旧或过时,”她说。

因此,收集中的技术流失将是为了保持解决的东西,但哈佛库越来越多地装备该流程,以将其纳入其收集,处理和保存工作流程。也许有一天,iPad将越过档案馆的桌子,并将作为伯尔诺利磁盘驱动器旁边的伪影。无论如何,哈佛馆藏的真正宝藏 - 写作,录音和图像 - 将迁移到一代,安全。



本新闻稿中的材料来自于始发的研究组织。可以为样式和长度编辑内容。有一个问题? 让我们知道.

订阅

每天早上有一封电子邮件,我们的最新帖子。从医学研究到空间新闻。环境的环境。技术物理学。

感谢您的订阅。

出问题了。