精于技术, 专于培训

​安全运营基础知识一网打尽

2019-01-12 11:29:57 188

安全运营基础知识一网打尽

1 运营部门的角色

运营安全是关于为保持网络、计算机系统、应用程序和环境运转并以安全和受保护的方式运行所发生的一切事情。它包括确保人员、应用程序和服务器仅拥有访问所需要的资源的权限,并通过监控、审计和报告控制来实现监督。

图片关键词

确保使用和遵循正确的策略、措施、标准和指南的持续努力,这是公司需要执行的“应尽关注”和“应尽职责”工作的重要方面。

应当标识敏感的(意味着需要受保护以不被泄露)和至关重要的(意味着必须保持始终可用)系统与操作(耍了解关于公司在涉及安全时的法律、法规和道德职责的更多内容)。

运营安全涉及配置、性能、容错、安全性以及问责和验证管理,其目的在于确保适当的操作标准与合规性要求得到满足。

2 行政管理

行政管理的一个方面是处理人员问题,包括职责分离和岗位轮换。职责分离的目标是确保一个独立行动的人通过任何方法都无法危及公司的安全。高风险的活动应该划分为几个不同的部分并指派给不同的人。通过这种方式,公司没必要对某个人过度信赖,一旦发生了欺诈行为,那么一定有人共谋犯案,这也就意味着不止一个人卷进了欺诈活动。因此,职责分离是一种防御性措施,如果某人想要做违反策略的事情,那么他必须与其他人共谋

质量保证(Quality Assurance,QA)和质量控制(Quality Control,QC).QA确保活动符合与支持文挡和专用名词相关的指定标准QC确保活动、服务、设备和人员在公认的标准内运作。

职责分离的另一个示例为一位计算机操作员的作用与一位系统管理员的作用之间的不同,在系统管理员的责任和计算机操作员的责任之间必须有一条清晰的界线。这将随环境的不同而变化,并取决于在某个环境内所需的安全级别。系统和安全管理员的责任通常是执行备份和恢复程序、设置权限、添加和删除用户和开发用户配置文件。另一方面,计算机用户可能被允许安装软件、设置初始口令、改变桌面配置和修改某些系统参数。计算机用户应该不能修改自己的安全配置文件、全局地添加和删除用户或者进行与网络资源有关的关键访问决策,上述行为都违背了职责分离的概念。

岗位轮换意味着经过一段时间,在某个公司里有很多人执行过一个岗位的任务。这使得该公司拥有不止一个人理解某个特定职位的任务和责任,从而在某个人离开了公司或不在岗位的情况下乡能提供后备人员。岗位轮换也能帮助确定欺诈活动,因此被视为一种检测性控制。假如Keith履行David的职责,他知道履行该职责所必须完成的日常任务和例程。这就可以使Keith更好地确定David是否做过不寻常的和可疑的事情。

最小特权和“知其所需”也是应该在操作环境中实现的行政管理类控制。最小特权意味着个人应该仅有足够的许可和权限来履行他在公司的任务而不超出范围。如果个人拥有过度的许可和权限,就可能打开滥用访问的方便之门,并将使公司面对更多不必要的风险。例如。假设Dusty是一家公司的技术作者,他没必要访问公司的源代码,因此控制Dusty访问资源的权限的机制应该禁止他访问源代码。这就正确履行了运营安全控制,从而适当保护了资源。

强制休假是另一种行政管理控制,确保职员休假的原因:这与确认欺诈行为和促使岗位轮换有关。如果一个会计职员通过从多个账户上提取少量资金并将这些资金存入自己的账户来实现数据欺骗,那么一旦这个职员被要求放一周或更长时间的假期,公司就将有一个很好的机会来调查此事件。当那个职员在休假时,另一个职员不得不顶替他,他可能揭露可疑的文档和以前行为的线索,或者一旦欺骗公司的职员离开一周或两周,公司可能看到某种模式上的不同。

为了便于统计,最好是让员工连续休假两周,以便有更多的时间发现欺诈证据。此外,采用强制休假这种做法基于一个理念:传统上,那些实施欺诈的员工往往都不愿意休假,因为他们害怕自己离开后组织会找到他们进行欺诈的证据

2.1 安全和网络人员

安全管理员应当不向网络管理员报告,因为他们职责的侧重点各不相同。网络管理员应当努力确保网络和资源的高可用性及性能,并为用户提供他们请求的功能。但是许多时候,这种对性能和用户功能的侧重需要以牺牲安全为代价。由于安全机制涉及各种措施(如内容过滤、病毒扫描、入侵检测防御、异常检测等),因此它常会降低处理或网络传输的性能。因为这些领域并不是网络管理员的工作重点和责任范围,所以可能会产生利益冲突。安全管理员应当处在一个与网络人员不同的需求链中,以确保安全不会被忽视或处于较低的优先级。

•实现和维护安全设备与软件尽管某些安全产品供应商声称他们的产品具有“一劳永逸”的部署特点,能够提供有效的安全保护,但安全产品需要监控和维护才能充分发挥作用。如果出现与新威胁做斗争的新功能,或者你自己在安全产品中发现脆弱性,就需要更新和升级版本。

•执行安全评估作为安全管理员向组织提供的一项保护服务,安全评估利用安全管理员的知识和经验来确定某个组织使用的系统、网络、软件和内部开发的产品中的安全脆弱性。这些安全评估使组织能了解所面临的风险,并就考虑购买的产品和服务做出明智的业务决策,以及根据选择接受、转移(通过购买保险)或规避(通过不做之前考虑完成、但不值得冒风险或为缓解风险而花费成本的某些事情)风险来决定风险缓解策略。

•创建和维护用户资料,实现和维护访问控制机制安全管理员实现最小特权安全策略,并监督现有账户及其分配到的权限和权利。

•配置和维护强制性访问控制(MAC)环境中的安全标签 MAC环境主要用在政府和军事机构内,它具有在数据客体和主体上设置的安全标签。它通过比较客体的分类和主体的许可级别,并做出访问决策。安全管理员应当负责监督这些访问控制的实现和维护。

•管理口令策略新账户必须得到保护,以防止攻击者了解设置口令的模式或者发现任何新建但未设置口令的账户,从而在授权用户访问该账户并修改口令前接管这些账户。安全管理员运行自动的新口令生成器或手动设置新口令,然后将它们分发给授权用户,使得攻击者无法猜测出新账户的初始或默认口令,以便为新账户提供持久保护。安全管理员还需要确保在整个组织的信息系统中实施和使用强密码,并经常使用密码破解程序或彩虹表定期审核这些密码,确保根据密码策略定期更改密码,以及处理用户密码重置的请求。

•检查审计日志虽然一些最强大的安全保护来自防御性控制(如阻止未授权网络活动的防火墙),但是也需要采用诸如检查审计日志的检测性控制。昨天,防火墙阻止了100000次未授权的访问尝试。要了解这是件好事还是恶意行为的征兆,唯一的方法是由安全管理员(或者他控制的自动化技术)检查这些防火墙的日志,并从中寻找某种模式。如果这100000次被阻止的访问尝试是互联网上常见的低级随机噪声。那么(可能)表示一切正常。但是,如果这些尝试来自互联网上一组集中的地址,就表示攻击者正在实施有预谋(更可能成功)的攻击。安全管理员通过检查日志即可检测到这类攻击,并有希望在它们造成实际的损失之前加以阻止。

2.2 可问责性

用户访问资源的权限必须被限制和适当地加以控制,以确保过度的特权没有机会对公司及其资源造成损害。当使用资源时,用户的访问尝试和活动需要被适当地监控、审计和记录。不同的用户ID需要记录在审计日志中,以加强个人的职责。在使用公司的资源时,每个用户都应当了解自己的职责,并对他的行为负责。

捕获和监控审计日志不仅有助于确定是否确实发生违规,或者系统和软件的重新配置是否有必要:而且有助于捕获那些超出确定范围之外的活动。如果用户的活动无法被捕获和检查,就很难确定用户是否有过度特权或者是否有未授权的访问。

2.3 阈值级别

公司可以为某些类型的错误预定义阀值,从而在被认为可疑的活动发生之前允许一定数量的错误。门限是违规活动的基线,在引发告警之前对用户来说这些活动可能是正常的。这条基线被称为一个阀值级别(clipping level)。一旦超越了这个阀值级别,进一步的违规将被记录下来以备今后回顾。使用阀值级别、审计和监控的目标是在发生重大损失之前发现问题,并在网络内部可能存在攻击活动时能及时报警。

3 保证级别

当对产品提供的可信度和保证级别进行评估时,通常操作保证和生命周期保证都是评估的一部分。操作保证(operationalassurance)关注的是产品的架构、嵌入的特征和功能,它们使客户在使用产品时能持续获得必要的保护级别。在评估过程中检查操作保证的示例为:访问控制机制、特权和用户程序代码的分离、审计和监控能力、隐蔽通道分析以及产品在不期望的环境下运行时的可信恢复。

生命周期保证(life-cycle assurance)与产品的架构及其如何开发和维护有关。在产品可被认为是高度可信前,其生命周期的每个阶段都具有必须满足的标准和期望值。生命周期保证标准的示例为设计规范、阙值级别配置、单元和集成测试、配置管理以及可信分发。供应商要使自己的产品得到某种更高的安全评级,就必须接受对这些问题的评估和测试。

4 运营责任

运营安全包含了安全措施和对策,以保护资源、信息与驻留信息和资源的硬件。它的目标是降低可能由非授权访问或滥用造成损失的可能性。

操作部门的目标往往是防止反复发生问题,将硬件和软件故障降到可接受的级别,以及减小事故或破坏的影响。这个团体应该研究任何不寻常或无法解释的事件、不定期的初始程序加载、偏离标准以及网络上其他奇怪或异常的条件。

4.1 不寻常或无法解释的事件

团队应当进行系统地工作,直至发现具体的问题。集中监视系统和事件管理解决方案有助于指出问题的根本原因,并能在诊断问题时节省时间和精力。

事件管理指使用一款产品在网络中收集各种日志。这款产品能标识模式以及人们由于各种日志数据繁多而很容易遗漏的潜在恶意活动。

4.2 偏离标准

“标准”与计算服务级别和它们如何被测定有关。每种设备都应用了特定标准,如在线的时间、在特定时段能够处理的请求数量、带宽的使用、性能计数器等。这些标准提供了一个用于确定设备是否存在问题的基线。例如,如果一台设备通常每分钟接受大约300个请求,但突然每分钟只能接受3个请求,那么操作团队就需要调查与该设备通常提供的标准的偏离。这种情况下,该设备可能出现故障或受到DoS攻击,也可能遭遇了最初实现该设备时未预见到的正当业务使用情况。

有时,标准需要重新校准,因此需要描述它当前能提供的服务级别。如果一台服务器从4核升级到16核,内存加大到4倍,交换文件增加,并新增了3个额外的硬盘,那么这台服务器的服务级别就应该被重新评估。

4.3 不定期的初始程序加载(重启)

初始程序加载(IPL)是一个大型机术语,即将操作系统的内核加载到计算机的主内存中。在个人计算机上,启动进入操作系统相当于加载初始程序。这个活动是为了准备计算机供用户操作。工作站上的IPL在营业日开始和结束时都十分正常(具体取决于组织),但在工作日本身却少见。有服务器和设备上,始终应该调度IPL,至少要由获得授权的人员或进程专门触发。

因此,操作团队需要调查那些无故重启的计算机,这可能表示此操作系统正经历重大问题或被恶意者据有。系统上的默认配置、软件或硬件故障也会导致事故的发生,因此,应在其造成严重破坏之前加以处理。最后一点,同时也是最麻烦的问题,就是攻击者可能已经成功侵入了你的系统并触发重启。正如你在这个原因清单中所见到的那样:首先,网络运营团队会对这些事故进行调查,若事故的源头违反了系统的安全性,它们就会被交由安全操作小组处理。

5 配置管理

系统控制也是运营安全的一部分。在操作系统内,必须实施某些控制,以确保指令在正确的安全上下文中执行。系统采用某些机制来限制一些类型的指令的执行,以使它们只有当操作系统在特权或管理员状态中时才能运行。这样做可保护系统的总体安全和状态,有助于确保它以稳定和可预期的方式运行。

应当制定操作措施,对如何正确地操作系统或资源进行说明。这包括系统启动与关闭顺序、错误处理以及如何从己知的良好来源进行恢复。

操作系统并不能控制较低特权的进程直接访问硬件,这些进程通常是用户应用程序所使用的进程。如果某个程序需要向硬件设备发送请求,那么该请求会传送到一个较高特权的进程。为执行特权硬件指令,进程必须在限制性的、受保护的状态下运行。这是操作系统架构的一个完整组成部分,哪些进程能够提交什么指令需要根据操作系统的控制表做决定。

许多输入/输出(I/0)指令都被定义为特权指令,并且只能由操作系统内核进程执行。如果某个用户程序需要与任何I/0活动交互,那么它必须通知在系统内环中运行的系统内核特权进程。这些进程(称为系统服务)或授权用户程序进程执行这些活动,并临时提高它们的特权状态,或者使用系统进程代表用户进程完成交互请求。下面介绍具体如何处理系统控制的自己置管理的重要方面。

5.1 可信恢复

当一个操作系统或应用程序崩溃或死机时,不应让系统处于任何类型的不安全状态。对于系统崩溃的通常原因,首先考虑的是因为系统遇到了某些它感到不安全的或不理解的事情,并认为死机、关机和重启要比执行当前的活动更安全。

系统重启(system reboot)发生在系统响应一个内核(可信计算基)故障并以受控方式关闭系统之后。如果系统发现了不一致的对象数据结构,或者一些关键表中没有足够空间,将会执行系统重启。这可释放资源,使计算机返回到更加稳定和安全的状态。

紧急系统重启动(emergency system restart)发生在一个系统故障以不受控制的方式出现之后。这可能是一个内核或介质故障,通常是由于低特权的用户进程企图访问那些受到限制的内存段引起的。系统认为这是一种不安全的活动,要是不重新启动就无法正常恢复过来。内核和用户对象可能处于不一致状态,并且数据可能丢失或受损。因此,系统进入了维护模式并从执行的动作中恢复。随后,系统恢复到一种一致的、稳定的状态。

当发生一个意外的内核或介质故障且常规的恢复措施又不能将系统恢复到更一致的状态时,就应该采用系统冷启动(system cold start)。当系统视图恢复自身时,系统、内核和用户对象可能保持在一致状态,用户或管理员可能需要进行干预才能恢复系统。

1系统崩溃后

如果系统崩溃(以及未来会出现系统崩溃),那么操作人员必须知道如伺检查故障和解决问题。下面列出了在系统崩溃后应采取的正确步骤:

(1)进入单用户或安全模式如果由于系统无法自动恢复到安全状态而发生系统冷启动,那么管理员必须进行干预。系统要么自动进入“单用户模式”,要么必须手动引导到一个“恢复控制台”。在这些模式下,系统尚未开始为用户或网络提供服务,文件系统通常仍未安装,并且只有本地控制台可以访问。因此,管理员必须手动进入控制台,或者使用外部技术,如附加到控制台串行端口上的拨入/拨回调制解调器、附加到图形控制台上的远程键盘/显示器/鼠标(Keyboard Video Mouse,KVM)切换器。

(2)修复问题并恢复文件在单用户模式下,管理员会抢救由于系统突然关闭而导致损害的文件系统,然后设法确定系统关闭的原因,以防止这种情况再次发生。有时,管理员还必须回滚或前滚用户模式下的数据库或其他应用程序。一般情况下,这些行为会在管理员让系统离开单用户模式时自动发生,或者在应用程序和服务返回到正常状态前由系统管理员手动完成。

(3)确认关键的文件和操作如果对突然关闭的原因进行调查的结果表明破坏己经发生(例如软件或硬件故障、用户/管理员重新配置、某种攻击),那么管理员必须确认配置文件的内容,并确保系统文件(操作系统程序文件、共事库文件、可能的应用程序文件等)与它们预期的状态保持一致。这些文件的密码校验和(由诸如Tripwire的程序验证)可执行对系统文件的确认。管理员必须根据系统文档来验证系统配置文件的内容。

2. 安全关注

当操作系统进入某种不稳定状态时,我们往往会考虑是系统存在某种程度的脆弱性。系统需要保护自己及其存储的敏感数据。下面列出几个在可信恢复进程中应该正确应对的安全问题。

•引导顺序(C:、A:、D:)应当不能重新配置为确保系统恢复到安全状态,设计系统时必须防止攻击者改变系统的引导顺序。例如,在Windows工作站或服务器上,应当只允许授权用户访问BIOS设置,以改变由硬件检查的可引导设备的顺序。如果认可的硬盘只有C:(主要的硬盘驱动器)而没有其他硬盘,也不允许可移动设备(如软盘、CD/DVD或USB),那么硬件配置必须禁止用户(及攻击者)改变这些选择的设备以及它们的使用顺序。如果用户或攻击者能改变选择的可引导设备或引导顺序,并让系统重启(通常需要物理访问系统才有可能),那么他们就能引导自己的媒介并攻击系统上的软件或数据。

•不应避开在系统日志中写入动作系统日志和系统状态文件必须通过职责分离和访问控制加以保护,防止用户/攻击者试图隐藏他们的动作或改变系统下次重启所进入的状态。如果任何系统配置文件可被未授权用户修改,那么用户就可找到方法使系统重启,新的(可能不安全的)配置就会生效。

•应当禁止系统被迫关闭为降低未授权配置修改生效的可能性,避免通过不适当的关闭而拒绝服务的可能性,应当只允许关键系统在管理员的指示下关闭。

•应禁止输入变更路线系统的诊断性输出中可能包含敏感信息。诊断性日志文件(包括控制台输出)必须通过访问控制进行保护,防止其被未授权用户以外的其他人读取。未授权用户不得改变诊断日志和控制台输出的目的地。

5.2 输入与输出控制

应用程序的输入和输出有直接的关联关系。因此,需要监控输入中的任何错误和可疑的活动。

应用程序本身也需要编程为只接收某种类型的输入值,并对收到的输入值进行某种逻辑检查。

组织必须实施前面提到的所有控制,使它们继续以可预测的、安全的方式运行,从而确保系统、应用程序以及总体环境的可操作性。让我们来了解更多处理不当可能会造成的1/0问题。

·输入到系统中的数据应格式正确并经过确认,以确保这样的数据不是恶意的。

·事务应该是原子的,这意味着它们不能在所提供的输入和输出的过程之间中断(原子性可防止称为检验时间/使用时间,或TOCTOU的一类攻击)。

·在线交易必须记录在案并添加时间标记。

·应该防御措施来确保输出安全到达目的地:

•加密散列或更好的消息认证码(即数字签名哈希)应用于确保关键文件的完整性。

•输出应明确标注,以表示数据的敏感度或分类。

•创建输出后,必须对它实现适当的访问控制,无论它采用针么格式(纸质文件、数字、磁带)。

•如果一份报告中不含信息(无报告内容),那么应当包含“没有输出”。

5.3 系统强化

我们还必须确保那些传输重要信息的网络物理组件的安全:

•配线柜应该上锁。

•如果网络交换机和集线器不能放在上锁的配线柜内,就应安装在上锁的小房间里。

•公共场合的网络端口(如触屏计算机甚至是电话)应防止他人物理访问。

管理与保护工作站的最好方法是开发标准加固镜像,有时也称为母盘(GM)。要建立母盘(GM),首先要确定系统镜像的所有用户需要哪些应用与服务。然后为所有软件开发安全配置,并确保它们仍可提供用户所需的功能,且能与网络其他部分相互兼容。下一步,对镜像进行彻底的漏洞扫描,在理想状态下进行渗透测试。最终,通过将镜像复制到所有用户工作站的硬盘上将其推出。当后续基线需要变化时(例如,组织需要一个新应用时,只需要回到第一步并重新开始建立新母盘(GM)。

没有安装的应用程序或没有激活的系统服务不可能受到攻击。即使在禁用的系统服务中也可能包含会被高级攻击利用的脆弱组件,因此最好删除环境不需要的组件。那些在安装系统时无法放弃以及因集成到系统中而无法删除的组件应被禁用,从而使除授权系统管理员以外的其他人无法重新激活它们。每个已安装的应用程序,特别是每项操作服务,都必须包含在总体的配置管理数据库中,以追踪这些组件中的脆弱性。

对于既不能放弃又不能禁用的组件,必须使用最保守的设置进行配置,使得系统仍能高效运行,满足那些在环境中需要使用系统的业务目标。例如,数据库引擎应以非特权用户(而不是根或系统用户)运行。如果一个系统运行多项应用程序服务,那么每项服务都应在它的用户ID下运行,以防其中一项服务的攻击者能够访问系统中的其他服务。就像应删除系统中不需要的服务一样,应当尽可能不安装一项服务中不需要的部分,或以其他方式禁用它们。

锁定的系统称为堡垒主机。

公司应制定一个可接受的使用策略AUP,该策略说明用户能够安装什么软件,并告知用户公司将经常对环境进行检查,以核实用户确实遵循了使用策略。同时,还应实施技术性控制,从而防止未授权用户在环境中安装未授权软件。

5.4 远程访问安全

远程访问是正常操作的一个组成部分,也是组织在面临某些类型的灾难时保持恢复力的重要保证。如果一场地区性灾难使得大量员工无法到达他们平时工作的地点,但数据中心(或者远程备份数据中心)仍能运作,那么对计算机资源的远程访问就可以保证公司的许多功能几乎与平常一样继续运行。通过减少必须拥有或租赁的、配备完整的、清洁的、有制冷和供暖的、提供停车场地(因为员工不能在家里工作)的办公场所的数量,远程访问可降低正常的运营成本。远程访问还是实现移动劳动力的唯一方式,如出差旅行的销售员,他们需要每周在不同的城市访问公司信息,以联系现有的和潜在的客户。

为利用远程访问的优势而不必承担无法接受的风险,公司必须实施可靠的远程管理。下面提供了一些远程管理指南:

•为获得最佳的安全性,需要通过双因素身份验证保护的虚拟专用网络(VPN)连接,以便从外部(如互联网)主机进入任何内部系统进行访问。

•不得以明文形式传送命令和数据(也就是说,应对它们进行加密),即使使用VPN远程连接到网络。例如,应该被使用SSH。

•应对任何管理活动实施强身份验证。

•应当在本地而不是远程管理真正关键的系统。

•应当只允许少数管理员执行这种远程功能。

6 物理安全

本地访问与远程访问同样重要,因为第一道防线就是在站点处边界部署控制,我们以此来阻止未经授权的访问。与其他防御技术一样,我们通过采用分层法来实现物理安全。

这个防御模型应当在两种模式下工作:一种模式在设施正常运作时使用,另一种模式在设施关闭时使用。设施关闭时,应将所有门锁上,并启动位于战略位置的监控机制,就可疑活动向安全人员发出警报。在设施正常运作时罗安全问题就变得更加复杂,因为此时你需要区分授权人员与未授权人员。周边安全涉及设施和人员访问控制、外部边界保护机制、入侵检测和纠正动作。

6.1 设施访问控制

从物理安全的角度看,访问控制需要通过物理和技术组件来实施。物理访问控制使用一些机制来识别试图进入设施或区域的个人。它允许相关人员进入,将那些不应该进入的人被排除在外,并提供这些活动的审计跟踪。在敏感区内安排人员进行防范是最佳的安全控制之一,因为他们可以亲自调查可疑的行为。然而,这些人需要进行培训,从而他们可以了解什么样的活动是可疑的,以及如何报告这样的活动。

锁是廉价的、被人们广泛接受和采用的访问控制机制。它们被视为延迟入侵者进入设施的设备。

锁应该作为保护方案的一部分,而不是全部。

机械锁主要分为两类:暗锁和弹簧锁。暗锁是最基本的挂锁,它具有一个中间插有凹槽的弹簧锁簧。钥匙插入插槽,将锁簧从锁定位置滑动到开锁位置。这种锁里面有锁孔,即围绕着锁眼的金属凸条。与某个暗锁配套的钥匙具有与这些凸条相合的凹槽,另一个凹槽来回滑动锁簧。这些是价格最低廉的锁,因为它们非常简单,而且很容易被撬开。

弹簧锁(tumbler lock)的零件更多一些。钥匙插入锁芯,将锁中的金属条推升至正确高度,让锁簧滑动到锁定或开锁位置。一旦所有金属条都到达正确的位置,就可以转动锁内的锁簧。与这种锁配套的钥匙上的凹槽的大小和顺序与锁内的金属条相匹配,从而能将它们移动至正确位置。

盘簧锁(也称为晶圆门锁)是经常能在文件柜上看到的小圆锁。这种锁里面使用平盘(晶片)而不是插销,常用作为车锁和书桌锁。由于这种锁很容易撬开,因此不能提供太强的保护。

密码锁(cipher lock,也称为可编程锁)没有钥匙,它使用袖珍键盘控制人员进出一个区域或设施。打开这种锁的方法是从键盘输入一个号码组合或者刷卡,要么两者都需要。

以下是密码锁的一些可选功能,使用它们可提高密码锁的性能以及提升安全级别:

•开门延迟时间如果一扇门长时间打开,将触发一个报警器,以警告员工可能有可疑活动。

•密码重置可以编写特定号码组合,在紧急情况下用于重量通常使用的号码或者管理重置。

•万能钥匙使管理人员能改变开锁密码和密码锁的其他特性。

•被困报警如果一个人被困在里面,那么他可通过某个号码组合与保安或警察联系。

如果门上安装了密码锁,那么应当安装相应的视觉防护装置,以防止旁边的人看到输入的开锁密码。自动密码锁一定要配备备用的电池系统,在断电时应该能够自动将门打开,以防止员工在紧急状态下被困在里面。

一些更复杂的密码锁允许给某些人分配特定的密码。这种锁提供了更强的可问责性,因为每个人都负责对他们的密码进行保密,他们进入和离开设施的活动将被记录和跟踪。这类锁通常称为智能锁(smart lock),其原因在于只允许授权人员在特定时间从某个门进入。

行政管理责任公司不仅需要选择用途得当的锁,而且必须遵循适当的维护与措施,这一点十分重要。锁应由设施管理部门分配,并将分配过程记录在案。措施应当详细说明如何对锁进行分配和保存、在必要时如何销毁以及在钥匙遗失时该怎样处理。公司应任命设施管理团队的某个成员负责监督钥匙与密码组合的维护。

多数组织机构的设施管理人员都拥有万能钥匙和分钥匙。万能钥匙可打开设施内部的所有锁,而分钥匙可打开一把或几把锁。每把锁都有与之配套的钥匙。因此,如果设施内有100间办公室,那么每间办公室的工作人员都应有自己的钥匙。在紧急情况下,安全人员可使用万能钥匙打开所有办公室。如果一名保安负责监控一半办公室的安全,那么可以向他分配一把只能打开这些办公室的分钥匙。

因为万能钥匙和分钥匙功能强大,所以必须对它们加以适当保护,并且禁止几个人共用一把钥匙。安全策略应当说明设施的哪些部分以及哪些设备需要上锁。作为一名安全人员,你必须了解不同锁最适用的情形、各种锁能提供的保护级别以及如何撬开这些锁。

锁的强度

基本上,锁的强度分为3级:

• 1级商业和工业用途。

• 2级重要的住宅区/次要的商业区。

• 3级居民/消费者消耗物。

锁内的锁芯主要分为3类:

•低等安全不提供防撬或防钻能力(可用于以上3种级别的锁)。

•中等安全提供一定的防撬能力(使用更紧更复杂的钥匙槽(凹槽组合),可用于以上3种级别的锁)。

•高度安全通过不同的机制提供防撬保护(仅用在1级和2级锁中)。

撞锁开锁(lock bumping)也是一种方法,入侵者通过使用被称为撞匙的特殊钥匙来使销簧锁内的锁销滑动至打开位置。锁材料的强度越大,这种撬锁(Circumventing Lock)攻击的成功机会就越小。

6.2 人员访问控制

在控制对设施或区域的授权访问时,常见的一个问题是“混入(piggybacking)”,也就是一个人通过使用其他人的合法凭证或访问权利来获取未授权访问。通常,某人可以紧跟另一个人进入,而无须提供任何凭证。防止混入问题发生的最佳方法是在入口安排一个保安,并对员工进行良好的安全教育和实践培训。

用户激活式读卡器(user-activated reader),这表示用户必须做出某种行为,如刷卡或输入PIN。系统感应访问控制读卡器(system sensing access controlreader,也称为邻近设备或发射机应答器)能在特定区域内识别出接近的物体。这种系统并不要求用户刷卡,读卡器会送出询问信号,并且在用户不需要采取任何行动的情况下就可以从卡上获得访问代码。

电子访问控制(Electronic Access Control,EAC)令牌是一个用于描述邻近身份验证设备(邻近读卡器、可编程锁或生物测定学系统)的通用术语。在允许用户进入实施了物理控制的区域之前,这种设备会对他们进行身份标识和身份验证。

6.3 外部边界保护机制

边界保护组件常用于提供以下一种或几种服务:

•控制行人和车流量。

•针对不同安全区域的各种保护级别。

•阻止强行闯入的缓冲和延迟机制。

•限制和控制进入点。

使用下列控制类型能够提供上述服务:

·访问控制机制锁和钥匙、电子卡访问系统、员工意识。

·物理屏障栅栏、大门、墙、门、窗、受保护的通风口、车辆障碍。

·入侵检测周边传感器、内部传感器、通报机制。

·评估保安、CCTV摄像头。

·响应保安、当地执法机构。

·威慑标志、照明、环境设计。

有几种边界保护机制和控制可用于保护一家公司的设施、资产和人员。它们能够阻止潜在的入侵者、检测入侵者和异常活动,并在发生这些问题时提供应对措施。边界安全控制可以是自然控制(山、河流)或人为控制(栅栏、照明、大门),景观美化则组合了这两种控制。CPTED方法以及如何使用这种方法来减少犯罪的可能性。景观美化是在CPTED方法中使用的一种工具。

1栅栏

栅栏是一种有效的物理屏障。虽然栅栏只能拖延坚定的入侵者进入设施的时间,但它可作为一种心理威慑,表明公司十分关注自身的安全保护。

栅栏可对人群进行控制,并有助于对入口和设施进行访问控制。

• 3~4英尺高的栅栏仅能阻止那些无意的进入者。

• 6~7英尺高的栅栏被认为是不可能爬上的。

• 8英尺高的栅栏(而且顶上可能有带刺的金属线)往往意味着你在保护财产方面是很严肃的,这能够阻止更高明的入侵者。

•安全性极高 0.375英寸网眼、11丝号。

•安全性非常高 1英寸网眼、9丝号。

•安全性高 1英寸网眼、11丝号。

•安全性较高 2英寸网眼、6丝号。

•普通行业安全性 2英寸网眼、9丝号。

边界入侵检测和评估系统(Perimeter Intrusion Detection andAssessment System,PIDAS)是一种栅栏,其线网上和栅栏底部装有传感器。PIDAS用于检测入侵者剪断或攀爬栅栏的企图。如果检测到入侵行为,那么传感器会发出警报。PIDAS非常敏感,经常会导致误报。

2.护柱

护柱(bollard)通常指的是树立在大楼外的小型水泥柱。有时,公司会对这些护柱进行装饰,在它们里面栽上花或安装电灯,从而达到美化环境的目的。放置在大楼侧面的护柱能防止最直接的威胁,如攻击者驾驶车辆撞击外墙。护柱通常放置在设施与停车场之间以及/或者设施与靠近外墙的道路之间。

3.照明

安全人员应当认识到,组织机构需要安装适当的照明装置,并在光源之间不留死角(即没有照明的区域),同时为人员经过的区域提供适当照明。此外,安全人员还应了解各种类型的照明装置及其适用的场所。

在安装照明装置时,它应当指向潜在入侵者最可能出现的区域,并偏离安全人员所处的位置。例如,灯光应当指向大门或外部进入点,保安所在的位置应处在阴影中或使用亮度更低的照明,这是针对安全人员的眩光保护(glare protection)。如果你熟悉军事,就会知道,接近一个军事进入点时,会有一座加固的警卫建筑,并有灯光指向进入的车辆。同时,一个巨大的招牌指示你关闭车前灯,以免警卫因为车灯照射而看不见物体,从而保证他们的视野清晰。

组织机构安全边界内使用的灯光应朝向外侧,使安全人员处于相对黑暗中,这使得他们能够立即发现越过公司边界的入侵者。

为某个区域提供均匀照明的一组灯光常称为连续照明(continuous lighting)。连续照明的示例有停车场内均匀分布的灯柱、建筑物外安装的照明装置或者车库内的日光灯组。

IDS检测到可疑活动时打开某个特殊区域内的灯光,这种情况称为响应区域照明(responsive area illumination)。如果自动化IDS产品集成了这种技术,那么很有可能产生误报。此时,你不必不断派遣保安前去检查,只需要安装CCTV摄像头在相关区域寻找入侵者即可。

4.监视设备

通常,安装栅栏和照明装置并不能提供公司钳户其设施、设备和员工所需的保护级别。某些区域应处于被监视的状态下,从而可在损害发生前发现不适当的活动并加以关注。可通过视觉检测或使用复杂方法检测异常行为或未知情况的设备来进行监视。重要的是,每个组织机构都应组合采用照明、安全人员、IDS、监视技术和技巧来实现监控。

5. 录像设备

由于监视是建立在感官知觉的基础之上,因此监视设备经常与保安和其他监控机制结合起来使用,这样能够扩大探测的范围并提高反应的能力。闭路电视(CCTV)系统是许多组织机构常用的监控设备,但在购买和安装CCTV之前,你需要考虑以下问题:

•使用CCTV的目的检测、评估和/或标识入侵者。

• CCTV摄像头工作环境的类型内部区域或外部区域。

•所需的视野监控区域的大小。

•环境中的灯光数量有照明的区域、没有照明的区域、受阳光影响的区域。

•与其他安全控制的结合保安、IDS、警报系统。

今天使用的大多数CCTV摄像头都采用了一种名为电荷祸合器(Charge Coupled Device,CCD)的光敏芯片。CCD是一种电子电路,它从镜头接收输入光并将其转换成电子信号,然后在监视器上显示。图像通过CCD芯片表面的一个镜头聚焦,而CCD芯片则使用电子信号来表示光学图像。这种技术能拍摄出极其清晰和精确的物体图像,因为它使用了红外线传感器,扩大了人类感知的范围。

CCTV主要使用两种镜头:固定焦距镜头和变焦镜头。镜头的焦距(focal length)定义了它在水平和垂直角度拍摄物体的效果。焦距值与镜头能够达到的拍摄角度相关联。短焦距的镜头提供的视野更宽,而长焦距镜头提供的视野更窄。焦距决定监视器上显示图像的大小以及一个摄像头所覆盖的区域。例如,如果公司在仓库中安装一个CCTV摄像头,那么镜头的焦距应在2.8~4.3毫米(mm)之间,以便监视整个区域。如果公司在入口处安装有CCTV摄像头,那么镜头的焦距应在8毫米左右,因为此时监视的区域范围较小。

在需要监视一个较大的区域时,我们应使用焦距较小的镜头。

而变焦镜头则具有较强的灵活性,它允许观察者改变视野的角度和距离。通常,安全人员会将一个遥控组件集成到CCTV中央监视区,从而能在必要时移动摄像头以及放大和缩小物体。如果同时需要宽视野和特定拍摄,那么最好使用变焦镜头。这种镜头可将焦距由宽角度改变为远摄角度,同时保持图像的清晰度。

景深(depth of field)指的是在监视器上显示的环境的焦点部分。景深的大小取决于透镜孔径、聚焦物体的距离以及镜头的焦距。透镜孔径的程度加大、物体距离增加或者镜头的焦距减小,景深也随之增加。因此,如果希望覆盖较大的区域,但不聚焦某些特定物体,那么最好使用广角镜头和小透镜孔径。

CCTV镜头上具有光圈(iris),它能控制进入镜头的光量。CCTV镜头的手动光圈镜头(manual iris lens)外有一个圆环,使用于转动它可以控制焦距。因为光圈不能自我调整,所以带有手动光圈的镜头用于使用固定照明的区域。自动光圈镜头(auto iris lens)应当用在光照不断变化的环境中,如室外场所。

6.4 入侵检测系统

IDS用于检测未授权访问,同时向相关负责实体发送报警,要求其响应。这些系统能够监控入口、门、窗、设备或者仪器的可移动遮盖物。许多设备往往与磁接触器或振动探测器一起使用,这些仪器对环境的各种变化非常敏感。如果IDS设备检测到一个变化,那么本地警报就会响起,甚至会向本地和远处的警察或岗亭同时发出警报。

IDS能用于检测以下变化:

• 光束

• 声音和振动

• 移动

• 各种场(微波、超声波、静电)

• 电子电路

机电系统(electromechanical system)可检测到电路的变化或中断。电路可能是植入或连接到窗户的箔条。如果窗户被捅破,那么箔条切断,同时会响起警报。振动探测器能够检测到墙壁、屏风、天花板和地板的运动,因为此时嵌入到这些结构中的细线将被拉断。此外,还可在窗户和门上安装磁接触开关。如果窗户或门被打开,接触器就会断开,警报随之响起。压力垫是另一种机电检测器。它放在地毯下,或作为地毯的一部分,在数小时后激活。如果有人踩上垫子,那么会响起警报,因为此时不应该有人在指定的区域出现。

光电系统(photoelectric system)或光度系统(photometric system)能检测光束的变化,因此可用在没有窗户的房间中。这种系统的工作原理与光电烟雾检测器的工作原理类似,它发出一道光束,射向接收器。如果这道光束被遮断,就会响起警报。光电管射出的光束可以是横截式的,可为可见或不可见的光束。横截(cross sectional)指一个区域内有几道不同的光束穿过。

被动红外系统(Passive Infrared System,PIR)能标识其所监控区域中的热波变化。如果空气中微粒的温度升高,那么表示可能出现入侵者,因此就会响起警报。

声学检测系统(acoustical detection system)使用安装在地板、墙壁或天花板上的麦克风来检测入侵者,其目的是检测入侵者在强行进入过程中发出的任何声响。虽然这些系统安装起来很容易,但是由于它们非常灵敏,因此不能用在接近声源或拥有交通线路的区域。振动传感器(vibration sensor)的作用与声学检测系统非常类似,它也可用于检测强行进入。金融机构可能会选择在外墙上安装这种传感器,以防止银行抢劫犯驾车撞穿墙壁。振动传感器还经常安装在金库的天花板和地板附近,以检测未授权进入银行的入侵者。

邻近检测器(proximity detector)或电容检测器(capacitance detector)能发出一个可测量的磁场。检测器监控这个磁场,如果它被破坏,那么会发出警报。这些设备常用于保护特殊物体(艺术品、密室或保险箱),而不是保护整个房间或区域。静电场中的电容变化可用于抓获入侵者,但你首先必须了解电容变化意味着什么。静电IDS能建立一个静电磁场,也就是一个与静电电荷有关的电场。所有物体都带有静电荷,电荷由许多亚原子微粒构成。当一切物体处于稳定、静止状态时,亚原子微粒组成一个完整电荷,这表示电容和电感之间建立了某种平衡关系。现在,如果入侵者进入该区域,那么他的亚原子微粒将破坏静电场中的这种平衡,使得电容发生变化,同时响起警报。

IDS是用于检测和警告入侵企图的支持机制。它们不能阻止或逮捕入侵者,因此应将IDS视为组织机构安全队伍的辅助力量。

入侵检测系统的特点

在每个物理安全计划中,IDS都是很有价值的控制。但在实施这种控制之前,你必须了解下面几个问题:

• 它们非常昂贵,在响应报警时需要人为干预。

• 它们需要冗余电源和应急备用电源。

• 它们可连接到一个中央安全系统上。

• 它们应具有故障防护配置,这个配置默认为“激活” 。

• 它们应检测和防止破坏。

6.5 巡逻警卫和保安

使用保安和/或巡逻警卫对公司的场地进行监控是最佳方法之一。这种安全控制比其他安全机制更灵活,对可疑活动的响应更好,而且威慑力更强。然而,这种措施的成本较高,因为人员需要薪水、津贴以及休假。有时,使用人力的可靠性比较有限。在选择保安时,进行筛选和保证可靠性非常重要,但是这样的做法只能提供一定的保证级别。其中一个问题是,保安是否会对不遵循组织机构的核准策略的人网开一面。因为人的本性是信任和帮助其他人,所以看似好心的举动可能使组织机构面临危险。

最佳安全措施应当结合各种安全机制,而不仅依赖于一个安全组件。因此,在使用保安时,还需要采用其他监视和检测机制。

6.6 安全狗

安全狗无法在所有时候都能将授权进入的人和未经授权进入的人区分开。因此,如果某个雇员在下班时间仍在工作,那么他可能会遇到一些无法预见的情形。安全狗能够提供一种很好的安全补充机制,或者公司可以要求保安在遇见可疑的人时再使用安全狗。无论采用何种方式,都是十分有效的。

因为使用护卫犬时,人身安全具有重大风险,所以包括狗在内的考试答案可能不正确。需要注意这一点。

6.7 对物理访问进行审计

物理访问控制系统可使用软件和审计特性来进行审计跟踪,或访问与访问尝试相关的日志。以下信息应当被记录和检查:

•试图访问的日期和时间。

•访问尝试的进入点。

•访问尝试时使用的用户身份。

•不成功的访问尝试,特别是在未经授权期间发生的访问。

对于由计算机生成的审计日志来说,它们只有在有关人员检查时才能发挥作用。保安可以被要求检查这些日志,不过安全专家和部门经理也应该定期检查审计日志。管理层需要知道设施的入口点在哪里以及谁在试图使用它们,这是十分重要的。

审计和访问日志都是检测性的,而不是预防性的。它们用于在事实发生之后拼凑一个场景,而不是用于预防访问尝试。

7 安全资源配置

物理访问控制系统可使用软件和审计特性来进行审计跟踪,或访问与访问尝试相关的日志。

配置的核心是必须以安全方式提供这些服务。换言之,我们必须确保服务本身就是安全的。我们也必须确保用户或系统可以根据他们自己的授权及最低权限原则,安全地使用这些服务。

7.1 资产清单

保护我们信息系统最重要的是要知道我们在防护什么。

  1. 1. 跟踪硬件

需要有一个全面的监控流程用来积极搜索这些设备,从而确保所有设备按组织的安全策略运行。

很多情况下,监控处所中的设备可以十分简单罗就像安全或信息技术小组的成员在组织的每个空间随意漫步,以寻找不合适的东西一样。若这个成员下班之后还这样做,并将寻找无线网络作为漫步的一部分,就会让这项工作变得更有效。或者,可使用设备管理平台和各种传感器来完成大部分工作。

  1. 2. 跟踪软件

• 应用白名单。白名单是指允许在单一或成套设备中运行的一系列软件的列表。采用这一方法不仅可阻止安装未经许可或授权的软件,也可防止各种类型的恶意软件。

• 使用母盘。母盘是标准镜像工作站或服务器,它包括适当配置和授权的软件。组织可有多种镜像代表不同的用户群。尤其当用户无权对其进行修改时,使用母盘会简化新设备的供应与配置。

• 执行最低权限原则。若特定的用户无法在其设备上安装任何软件,那么恶意应用程序就更难出现在我们的网络中。此外,如果我们采用这一方法,就能够降低受到大量攻击时的风险。

• 自动扫描。应定期扫描网络中的每台设备,以确保其仅运行适当配置,以及经过批准的软件。记录对此政策的偏离,并由信息或安全小组进行调查。

7.2 配置管理

当我们能够处理好组织中现有的硬件和软件后,接下来就需要确保可以(并保持)优化配置这些资产。可惜,遗憾的是大部分默认配置都不安全。这意味着当我们配置新硬件或软件时,若不配置安全性,我们的系统无疑将受到攻击。配置管理(CM)是在所有系统上建立并保持基线的程序。

1. 变更控制过程

一个结构良好的变更管理过程应该尽量协助全体成员适应环境的诸多改变。这个过程将被布置在变更控制策略中。虽然变更的类型不同,但是一个流程标准列表有助于保证该过程受到控制并以可预测的方式执行。下面的步骤是流程类型的示例,这应当是任何变更控制策略的一部分:

(1)请求发生一个变更 请求应当提交给某个个体或小组,他们负责批准变更和检查在一个环境内发生的变更活动。

(2)变更的批准 请求变更的今体必须证明原因,并明确说明变更的好处和可能的缺陷。在变更被批准之前,请求者常会被要求进行更多研究和提供更多信息。

(3)变更的文档 一旦变更被批准,它应该加入变更日志中。当过程逐步完成时,日志应该不断更新。

(4)测试和提交 变更必须被彻底地测试,以发现任何不可预测的结果。根据变更和公司组织机构的严格程度,变更和实现可能需要提交给一个变更控制委员会。这有助于显示变更目的和结果的不同方面以及可能的分支。

(5)实现 一旦变更己进行了彻底的测试和改善,就应该制定一个规划表。规划表中概述了将要实现的变更的规划阶段和必要的里程碑。这些步骤都应该完全归档,并且过程应该受到监控。

(6)提交变更报告给管理层 一个完整的报告应该提交给总结变更的管理层。这个报告应尽可能定期地提交,以保持管理的更新和确保持续的支持。

2. 变更控制文档化

不记录系统和网络变更完全是自寻烦恼,因为没有人会记得公司6个月内对DMZ中的一台服务器做过什么,或者去年主路由器出现故障时对它进行了哪些修复。多数环境都会改变软件配置和网络设备,完全记忆这些细节是不可能的,除非有人保留了这些活动的日志。

公司中可能发生的变更有:

• 新计算机的安装。

• 新应用程序的安装。

• 不同配置的实现。

• 补丁和更新的安装。

• 新技术的集成。

• 策略、措施和标准的更新。

• 新规章和需求的实现。

• 网络或系统问题的标识和修复实现。

• 不同网络配置的实现。

• 网络集成新的网络互联设备。

• 公司被另一家公司收购或合并。

7.3 配置云资产

云计算一般分为三种类型的服务:基础设施即服务(IaaS)、平台即服务(PaaS)以及软件即服务(SaaS)。

当我们配置基础设施即服务(IaaS)时,我们的用户人群仅限于IT部门。要了解这背后的真实原因,我们只需要考虑非云端(即实际服务)的等效服务:配置新服务器或路由器。因为这些资产通常会影响到组织中的大量用户,在计划与测试它们的配置时,我们必须非常谨慎。相应地,这些配置行为通常需要得到高层领导或变更控制委员会的批准。只有极少数IT人员能够执行这样的配置。

在组织影响方面,平台即服务(PaaS)与基础设施即服务(IaaS)类似,但往往范围更有限。这种情况下提起一个平台,通常是指Web或数据库管理服务。尽管通常由IT小组处理这些配置,在某些情况下组织中的其他人也会进行处理。试想一下,例如配置一种开发(仅限于内部网)Web服务以测试编码团队正在开发的Web应用程序。根据范围、环境和可访问性,可将此配置委任给任何一名开发人员,尽管IT人员也许会首先限制平台以确保只有该小组可访问它。

最后,软件即服务(SaaS)可由更大的用户群根据组织政策在IT小组设定的限制条件中进行配置。如果给定的用户群有权使用客户关系管理(CRM),那么这些用户应该可以登录他们的账户,并自主配置他们有权使用的任何其他应用程序。

如你所见,根据组织的影响和特定资产的风险概况,我们应该不断严格控制云资产的配置。保护配置的关键是精心设置云计算的环境,以便当授权用户需要时便可及时获得恰当配置的应用程序、平台和基础设施。毕竟,云计算的好处之一就是确保近乎实时的自助服务配置

8 网络和资源可用性

•准备进行“热交换”的冗余硬件 通过提供信息的多个副本(镜像)或足够的额外信息,在局部损失时重建信息(奇偶校验、纠错),从而保护高度的信息可用性。热交换允许管理员替换出现故障的组件,使系统继续运行,信息仍然有效。虽然系统性能往往因此降低,却避免了无法预料的系统中断。

•容错技术 在防止个体存储设备故障甚至是整个系统故障的同时保证了信息可用性。容错技术可能是最昂贵的解决方案,通常组织只对最关键的信息采用这种技术。所有技术最终都会出现故障。对于由于计划外的系统中断而遭到无法挽回的伤害,或者因为一个十分平常的、无法预料的中断雨造成数百万美元损失的公司,它们可能会采用价值昂贵的容错系统。

•服务级别协定(SLA) 有助于服务提供商(无论是内部IT运营商还是外包商)决定采用何种可用性技术。组织可以根据这个决定设定服务价格或IT运营预算。公司也可以在开发SLA的过程中受益。虽然一些公司已经进行了这种类型的反省,但许多公司还没有这样做,在被迫给它们的内部IT运作或外部采购做预算的过程中经受考验,这样可以帮助公司理解信息的真正价值。

•确保信息可用性还需要制定稳健的操作措施。如果没有将操作措施、培训和持续改善整合到公司的操作环境中,那么采用旨在实现最快的平均修复时间、具有最高冗余或容错能力的最可靠硬件就是对资金的一种浪费:IT管理员的一个错误(如按错键)就可能中断最可靠的系统。

8.1 平均故障间隔时间(MTBF)

平均故障间隔时间(Mean Time Between Failures,MTBF)是我们期望一台设备能可靠运行的估计时间。平均故障间隔时间(MTBF)通常需要通过测定系统故障之间的平均时间来计算。

使用平均故障间隔时间(MTBF)的原因在于了解特定设备大概何时需要维修或更换。它被视为设备可靠性的基准之一。

平均故障间隔时间(MTBF)测试提示意味着设备或部件可修复。若无法修复,我们则使用平均无故障时间(MTTF)。

对使用的设备长期使用MTBF的组织机构能在制造厂商承诺的平均时间之前确认出现故障的设备,并采取相应的行动。例如,若设备仍在保修期内,组织可与制造商联系要求更换:若不在保修期内,组织可决定在大规模故障和操作中断发生之前预先更换设备。

8.2 平均修复时间(MTTR)

平均修复时间(Mean Time To Repair,MTTR)是指修复一台设备并使其重新投入生产预计所需的时间。对于冗余队列中的硬盘来说,MTTR是指实际产生和发现故障后有人替换坏硬盘冗余队列并完成在新硬盘上重写信息之间的时间间隔。这可能需要以小时来评估。对于台式PC上的非冗余硬盘而言,MTTR是指用户大骂然后打电话给服务人员与被替换的硬盘已经安装操作系统、软件和属于该用户的任何备份数据之间的时间间隔。这一时间可能需要以天数来评估。对于计划外的重启,MTTR是指系统发生故障直至操作系统已经重新启动、检查它的磁盘状态(希望找不到文件系统无法处理的故障)、重启它的应用程序、应用程序己经检查了数据的一致性(希望找不到日志无法处理的问题)、并再次开始处理事务的这段时间。对于运行结构合理的优质操作系统和软件的可靠硬件来说,这段时间可能仅以分钟评估。对于没有使用高性能日志文件系统和数据库的曰用设备而言,这段时间可能以小时评估,或者如果自动化恢复/回滚功能无法运行,并需要从磁带中恢复数据,那么可能要以天数评估:

• MTTR涉及修复一个组件或设备、替换该设备或者可能要参考供应商的SLA。

• 如果对于一台关键设备而言MTTR过长,那么应使用冗余设备。

8.3 单点失败

单点失败会给一个网络带来许多潜在的风险, 因为如果一台设备出现故障,都会给一段或整个网络造成负面影响。可能发生单点失败的设备包括防火墙、路由器、网络访问服务器、Tl线路、交换机、网桥、集线器、身份验证服务器等。防御这些单点失败的最佳方法有:适当维护、经常备份以及建立兀余。

1. RAID

独立磁盘冗余阵列(RAID)是一种用于冗余和性能改善的技术。RAID把几个物理磁盘组合起来,并将它们合并成逻辑阵列。在保存数据时,数据会被写入所有磁盘。对应用程序和其他设备来说,RAID就像是一个单独磁盘驱动器.

在所有磁盘上写入数据时,系统采用条带化技术。它将数据划分开来,写到若干驱动器上。使用这种技术,写入性能并未受到影响,但读取性能得到显著提高,因为同时有几个磁头在检索数据。

如果一个驱动器发生故障,那么主要由奇偶校验提供指令,告诉RAID系统如何在新硬盘上重建丢失的数据。奇偶校验用于重构一个新驱动器,以恢复所有信息。多数RAID系统都有一个热切换磁盘,表示它们可在系统运行时更换驱动器。更换或增加一个驱动器时,系统使用奇偶校验数据在刚增加的新磁盘上重构数据

RAID级别10实际上是RAID1级和0级的结合;

RAID0

条带化

数据条带化到几个驱动器上,不具有冗余或奇偶校验。

RAID1

镜像

驱动器镜像。数据一次写入两个驱动器。如果一个驱动器发生故障,

RAID2

汉明码奇偶校验

数据按位条带化到所有驱动器上。奇偶校验重建数据

RAID3

字节级奇偶校验

数据条带化到所有驱动器上, 奇偶校验数据保存在一个驱动器上。

RAID4

分组级奇偶校验

除了以分组而非字节创建奇偶校验外, 其他方面与级别3相

RAID5

间插奇偶校验

数据写入所有驱动器的磁盘扇区单元。奇偶校验也写入所有驱动器

RAID6

第二奇偶校验数据(双奇偶校验)

与级别5类似, 增加了容错功能, 它是写入所有驱动器的第二组奇偶

RAID10

条带化和镜像

数据同时在凡个驱动器上建立镜像和条带, 能支持多个驱动器故障

2.直接访问存储设备

直接访问存储设备(DirectAccess Storage Device,DASD)是磁性磁盘存储设备使用的一个常用术语;历史上,它曾用在大型机和小型计算机环境内。廉价磁盘冗余阵列(RAID)就是一种DASD。直接访问和顺序访问存储设备之间的主要差别在于,在直接访问存储设备时,任何位置都可以立即到达;而顺序访问存储设备则需要穿越当前位置与目标位置之间的距离才能到达目标位置。磁带驱动器属于顺序访问存储设备。一些磁带驱动器拥有最小限度的直接访问智能,多轨磁带设备就属于这类驱动器,它将主要数据段的起始位置保存在磁带的特定点上和磁带驱动器的缓存中,允许磁带驱动器更迅速地到达某个轨道及轨道上的某个点,从这个索引点开始,只需要穿越较少的数据即可到达目标点。虽然这种功能使得这类磁带驱动器的速度比其他纯粹的顺序驱动器要明显快许多,但顺序访问存储设备与直接访问存储设备之间的性能仍存在几个数量级的差距。

3.大规模非活动磁盘阵列

大规模非活动磁盘阵列(MAID)是最近才进入中型存储设备(数百TB)市场的一种产品。MAID的适用范围相对特殊,它支持存储数百TB的数据,但主要执行写操作。较小的存储需求通常不适合采用MAID,因为这会增加购置成本和操作复杂性。多数数据需要保持活动状态的中到大规模的存储需求也不能体现MAID的真正价值,因为这类应用需要更多磁盘来保持活动状态,这超出了MAID所能提供的数量,使得它的性能明显降低。至于需要大量写操作的最高端的存储需求,磁带驱动器仍是最经济的解决方案,因为磁带存储每单元的成本较低,而且随时需要保持在线的总介质数量也较少。

在MAID中,安装在机架上的磁盘阵列要断开所有非活动磁盘的电源,只有磁盘控制器处于活动状态。当某个应用程序需要数据时,控制器给一定数量的磁盘驱动器加电,传输所需数据,然后再次断开驱动器的电源。由于很少访问的驱动器的电源被断开,因此能耗明显减少,磁盘驱动器的使用寿命也随之延长。

4.独立冗余磁带阵列

独立冗余磁带阵列(RAID)与RAID类似,但使用的是磁带驱动器而非磁盘驱动器。在保存大量数据时,磁带存储的成本最低,但与磁盘存储相比,它的速度更慢。在使用MAID并不划算且需要比传统的磁盘存储性能更高的、非常大型的、一些操作为主的存储应用时,就适合采用RAIT。

就像RAID1中的条带化一样,在RAIT中,数据被平均条带化到几个磁带驱动器上,并可以使用(也可以不使用)冗余奇偶校验驱动器。这样做能以传统磁带存储的低成本实现较高的容量,而且其数据传输速率比平常的磁带更快,数据完整性更优。

5. 存储区域网络

类似于局域网(LAN)、广域网(WAN)、城域网(MAN)等概念,存储区域网络(SAN)包含大量存储设备,它们由一个高速专用网络和存储专用交换机连接起来。这形成了一种结构,允许用户依附于一个透明模式并与之交互。如果某位用户提出一个文件访问请求,那么他不必知道该文件位于哪台服务器或磁带存储设备,SAN软件会找到该文件并将其提供给用户。

许多将数据分布到整个网络并追踪必要信息的基础设施不仅性能低下,而且备份所有必要的数据也是一项富有挑战性的任务。

SAN提供冗余、容错、可靠性和备份能力,并允许用户和管理员作为一个虚拟实体与SAN交互。由于通过SAN传送数据的网络与公司的常规数据网络相互分离,因此SAN的性能、可靠性和灵活性并不影响到网络中系统的数据网络互联功能。

6.群集

群集是一种类似于冗余服务器的容错服务器技术,其中的每台服务器都参与提供所需的处理服务。服务器群集由一组服务器构成,用户可以将它们逻辑上看成一台服务器,并可将它当作一个单独的逻辑系统来管理。群集提供可用性和可扩展性。它将物理配置各不相同的系统集中起来,对这

些系统进行逻辑组合,从而提供容错功能,同时改善性能。群集工作起来就像是一个平衡流量的智能单元,访问群集的用户并不知道他们在访问不同系统。对用户而言,群集中的服务器都被看成一个单元。群集也可称为服务器农场。

如果群集内的一个系统发生故障,那么由于剩下的系统接管负载,虽然性能可能会降低,但处理过程不会中断。与配备一台辅助(冗余)服务器在旁边等待以防主服务器发生故障的配置相比,这种群集式配置更有吸引力。因为这台辅助服务器可能会闲置很长一段时间,所以这是一种浪费。如果使用群集,那么所有系统都用于处理请求,而没有系统在后台闲置等待其他系统发生故障。群集是使用冗余服务器的逻辑产物。想象一下,如果一台服务器需要具有高可用性,就给它分配一台热备用冗余服务器。对于每一台需要高可用性的服务器,都必须购买另一台冗余服务器。由于几台主服务器不可能同时发生故障,因此仅购置少量备用服务器就比较划算,其中任何一台服务器都可以接管出现故障的主服务器的负载。群集的作用就在于此。

群集不仅能够提供可用性,而且可以实现负载平衡(每个系统都承担一部分处理工作)、冗余和故障切换(如果一个系统出现故障,那么其他系统可以继续工作)。

7.网格计算

网格计算是另一种平衡负载的大规模并行计算方法,它类似于群集,但使用的是可随机加入和离开网格的、松散相合的系统。许多计算机都拥有额外的、极少使用的CPU处理能力。某些聪明人认为这是一种浪费,于是想出一种方法来利用所有这些额外的处理能力。就像是电网根据需要(如果支付了电费)为实体提供电力一样,计算机可自愿决定将它们的额外处理能力分配给不同团体的不同项目使用。第一个使用网格计算的项目为SETI(搜索外星智能),在这个项目中,人们允许系统参数参与扫描整个宇宙,寻找尝试与我们对话的外星人。

虽然这听起来类似于群集,但在群集中有一个中央控制器负责向用户和群集节点分配资源,群集中的节点(在同一个信任域中)进行集中管理:而在网格计算中,节点彼此并不信任,也不进行集中控制。

技术上适合在网格中运行的应用程序能享受到网格低廉的大规模计算能力带来的经济优势。然而,需要保密的计算机可能并不适于作为网格计算机,因为网格并不能向个体网格成员保证分配给一个网格成员的工作负载单元的内容的保密性。另外,由于网格成员的容量和可用性各不相同,并且彼此并不信任,因此网格计算并不适用于那些需要密切交互以及需要在多个工作负载单元之间进行协调调度的应用程序。这意味着,敏感数据不应通过网格进行处理,同时这种技术不适用于对时效性要求较高的应用程序。

网格计算更适用于财务建模、天气,建模和地震模拟等项目。以上每个项目都包含数量庞大的变量和输入,需要继续进行计算。这种方法还用于检验和破解算法,并用于生成彩虹表。

彩虹表中包含以散列格式表示的所有可能的口令,这使得攻击者能够比实施字典或蛮力攻击更快地查明口令。

8.4 备份

软件备份和硬件备份是网络可用性的两个主要组成部分。如果一个硬盘出现故障、发生灾难或某种软件出错,就需要有恢复数据的能力。

应该制定一个策略来规定备份哪些内容、多久备份一次以及如何进行备份。如果用户在工作站上保存有重要信息,那么操作部门需要提出一个方法,规定应该对用户工作站上的某些目录进行备份,或者要求用户每天工作结束时把关键数据转移到一个共享服务器,以保证数据得到备份。备份可一周进行一两次、每天一次或每三小时一次,这要由公司来决定。备份越频繁,工作人员就要花更多时间,因此有必要在备份成本和丢失数据的实际风险之间取得平衡。

层次存储管理(HSM)提供持续的在线备份功能,它将硬盘技术与更低廉的、更缓慢的光盘或磁带库结合起来。HSM系统可对复制到速度和成本各不相同的存储介质设备中的文件的存储和恢复进行动态管理。速度最快的介质保存经常访问的数据,而很少使用的文件则保存在速度较慢的设备或近线设备中。存储介质包括光盘、磁盘和磁带。这种功能在后台进行。

TFTP服务器常用于保存网络设备的配置设置。但是TFTP并不是一种可靠的协议,某些网络设置非常敏感,必须加以保密。这样一来,攻击者可首先令网络设备失效,然后攻击TFTP的下载自己置并加载一个恶意配置,从而对使用TFTP加载配置的网络设备实施协同攻击。因此,我们应寻找替换TFTP的方案。

8.5 应急计划

在发生事故时,仅知道如何从备份中还原数据是不够的。我们还需要了解一些详细措施,这些措施概述了保持关键系统可用以及确保操作和处理不会中断所需的活动。应急管理定义在事故过程中和事故之后应做的事情。为响应紧急事件、保持操作连续性以及处理重要中断而需要采取的行动必须记录在案,并让操作员工能随时获取。这份文档应至少保留3份:在现场保留原件和一份副本,并在某个受保护的、防火的异地场所保留一份副本。

应急计划只有在测试后才能被信任。组织应进行演习,确保员工充分了解他们的职责以及如何履行这些职责。如何使这些计划保持最新是另一个需要考虑的问题。由于我们所处的动态联网环境在不断变化,在必要时保障这些环境安全的计划也必须不断更新。

在安全行业,虽然“应急计划”和“业务连续性计划(BCP)”通常可以互换,BCP说明如何在灾难发生后保证组织的正常运作。它考虑的是组织的存活能力,确保关键功能在灾难发生后仍能运行。应急计对则处理不能称为灾难的小型事故,包括电源中断、服务器故障、互联网通信连接中断或软件错误。但是,组织必须做好准备,处理它们可能遇到的各种问题,这一点尤为重要。

提高资源可用性的技术总结

• 冗余服务器

• RAID、MAID、RAIT

• 直接访问存储设备

• 存储区域网络

• 群集

• 网格计算

• 备份


51hacking专注于渗透测试培训,咨询,提供行业顶级安全证书的培训,CEH,OSCP, PenTest+ 等,关注微信,公众号获取更多信息

网络安全培训|渗透测试|道德黑客CEH|OSCP培训|DevOps,SCRUM培训网络安全培训|渗透测试|道德黑客CEH|OSCP培训|DevOps,SCRUM培训