使用 Centreon 进行业务监控

我们已经很久没有讨论这个有趣的话题了, 具有作可视化, 对我们业务的控制, 一种了解维持公司运营的服务状态的方法! 我想发个帖子与大家分享我们面临的可能性.

众所周知, 得益于 Centreon 等监控系统, 我们可以监控我们的基础设施. 全面监控, 结合深入分析,我们将了解提供服务的基础设施的任何关键点. 这些服务将是我们提供给自己用户的服务, 客户或供应商.

嗯,就是这个想法, 将您自己的基础设施监控扩展到更高的级别, 在一个级别, 其中非技术人员, 如果不是需要实时了解其业务状况的经理或高管. Web 控制面板,让您了解运营服务可能受到影响的原因, 这使您能够直觉并了解事情为什么会奏效, 面板,用于执行模拟,例如“会发生什么…’, 他们知道为每个业务服务提供的 SLA…

我们将在这篇文章中介绍的所有内容都是基于 100% 开源, 尽管 Centreon 或其他产品确实可能会在付费产品下提供类似的东西. 在 这些旧帖子 我们已经看到了技术部分, 如何组装.

今天,我们来看一个实际的例子, 我们将举一个简单的例子, 我的公司, “开放服务 IT”, 一家提供 IT 服务的公司. 所以, 知道公司需要什么才能执行其性能,我们将监控的服务相互关联以创建不同的依赖关系.

让我们了解第一个面板, 负责人可以了解业务状况的地方. 在这种情况下, 这样 Open Services IT 公司就可以高效且功能齐全, 需要:

  • 技术人员可以为客户提供服务并满足他们的任何需求. 这就是我们称之为“客户服务”的商业服务.
  • 该部门. 的管理可以开具发票, 否则, 我们不吃东西, 这将是我们的“发票”业务服务.
  • 我们还有一个重要的项目,叫做“业务连续性”, 这将是我们提供的任何服务,以便在面对任何灾难时, 公司可以继续工作; 或预测任何阻止其执行的情况.
  • 什么都没有, 最后一项重要服务, 但我不想在这里让你感到厌烦的是,“Domotic”环境是有效的, 没有它, 公司不会开门, 您将失去对某些自动化的控制, 不会收取工资… 我说了什么, 不要重视此项目.

除了已经说过的, 我们可以在接口本身上指示 SLA, 在 % 或我们展示的每项服务. 能够看到它多长时间是好的或完美的, 警告或处于危险状态, 以及 Critical 或服务可能会受到影响.

负责人将能够在不同的面板之间穿梭,并了解不同服务提供的 SLA. 在此示例中,我们看到 “顾客服务” ,由以下部分组成:

  • 使事件系统正常工作, 以便客户或技术人员可以管理, 插补…
  • 通过“Reporting Service”’ 技术人员或客户将能够实时了解我们管理的基础设施的状态, 以及访问小时使用情况报告, 条例 草案…
  • 我们有一个系统,允许技术人员与客户会面, 显然,如果这停止了, “Customer Service” 可能会受到影响. 我们还将其用于与客户的远程会话,以连接到他们的工作站…
  • 我们集中向用户交付应用程序和桌面, 这样任何员工都可以在任何地方工作. 如果这不起作用, 没有人有应用程序, 工具…
  • 显然,技术人员和客户需要通过电子邮件进行沟通. 在这里,我们将控制电子邮件工作所需的一切, 让服务器没问题, 我们不在垃圾邮件列表中…
  • 就像邮件一样, 电话就是这样, 技术人员需要能够与客户沟通 (反之亦然). 如果电话系统提供的服务出现故障, 嗯,没有总机, 电话要么不进来,要么去出去…
  • 我们有一个 Wiki 环境,技术人员可以在其中查阅知识库或记录任何事件,以免将来浪费时间. 这对于技术人员的良好工作是必要的.
  • 为了与客户/供应商交换信息,我们有一个必须有效的系统, 没有它,他们将无法访问我们拥有的关于他们的文档, 条例 草案, 临时交换…
  • 当然,互联网是有效的! 没有互联网, 技术人员什么都不是 😉

正如我们所看到的,环境是 100% 可定制且完全企业化, 当然,我们可以添加任何链接 (前往产品…)…如果我们继续往下走, 您将能够了解所说的内容, 对某些东西的所有依赖性使其工作. 对于“Reporting Service”, 我们需要知道的是功能性的:

一方面,它必须在内部工作:

  • 嗯,首先, 提供服务的产品本身是否有效, 在这种情况下,它基于 Grafana, 嗯,(s) 机器(s) 提供服务的人是健康的, 以及您需要工作的任何事物 (港口, 过程, 分贝…).
  • 我们心爱的“Active Directory”’ 它必须适用于身份验证和权限系统才能在 Grafana 本身内工作.
  • 虚拟化服务必须正常工作, 没有它, 未运行任何虚拟机, 我们的 Grafana 是虚拟化的.
  • 内部网络必须正常工作, 如果内部通信中断, 系统将受到影响,并且无法相互通信.
  • 和其他关键基础设施服务, 例如 DNS 服务, 没有它,就没有名字的解析; 或者 NTP 服务如此重要.

另一方面, 因为它是为客户提供的公共服务, 因为我们还将控制某些依赖项的实现:

  • 公共站点必须正常运行, 不仅如此,他回应, 而且港口是开放的, 证书不会过期, 不要使您自己的域过期, 或在 SSLLABS 中提供经过认证的安全性 (我了解什么)…
  • 显然,如果互联网出现故障 (无论它们是什么 WAN), 可能无法访问 Reporting Service…
  • 就像我们有一个公共 balancer 一样 (在本例中,我们使用 NetScaler), 好吧,让它工作吧, 让他做他的工作.

为了树立我能树立的最快榜样, 如果在上一个面板中我们单击 Grafana, 好吧,我们会看到提供这项服务的机器. 所说的, 这个例子非常简单, 但其他服务允许更具体和有趣的旅行. 滚动到一边, 我们看到机器的现状, 通过集成和可视化您的消费…

业务影响分析

我们还可以进行业务影响分析, 我们将很快能够知道任何“如果”问题的答案. 这意味着, 例如, 我们可以手动指示有物体掉落, 这样我们就能知道受影响的服务. 这样我们就可以预测任何问题, 了解如果我们移除电缆会发生什么情况, 如果证书过期, 如果我们关闭一台机器…

我们将从我们的业务监控主页访问此影响分析, 如果你看帖子的第一张图片, 在右下方,我们有一些指向不同访问的链接, 一个将在这里.

可以根据平台的当前状态进行模拟, 或在必要时强制一切正常.

我们将能够穿越我们定义的业务流程的树,直到找到我们想要拆除的内容.

按照帖子的示例进行作… 例如,如果 Grafana 端口或进程出现故障,会发生什么情况, 它会对我产生什么影响,如何?

好吧,我们将能够看到“客户服务”’ 受到影响, 因为 Reporting 服务将关闭…

井, 想象一下您公司的每个流程, 知道如何行动, 实时了解我们向客户提供的 SLA 或服务水平协议, 用户或供应商. 适用于任何非技术公司资料的简单导航界面. 认为在帖子中做完整的练习非常复杂, 但是,请考虑您的依赖项树以及如何实时可视化其状态.

照常, 希望您感兴趣, 如果您觉得有趣,非常感谢您在社交网络上的分享,我们将继续发布类似的帖子, 让我们利用数据并简化其交付!

推荐文章

作者

nheobug@bujarra.com
Autor del blog Bujarra.com Cualquier necesidad que tengas, 请随时与我联系, 我会尽我所能帮助你, 分享就是生活 ;) . 享受文档!!!