作者
Mesh Flinders
Staff Writer
IBM Think
Ian Smalley
Staff Editor
IBM Think
什么是日志分析?
日志分析是对日志数据的检查;日志数据是计算机系统、应用程序或网络内发生事件的详细记录。
日志分析可帮助 IT 专业人员更好地了解系统运行情况,提高系统性能并增强安全性。
日志文件也称为“日志数据”,是设备、应用程序和软件程序等各种计算资源生成的系统活动记录。日志文件对于 IT 运营来说是必不可少的,它为系统性能、优化和潜在的安全漏洞提供了宝贵的洞察分析。然而,随着生成式 AI 等富数据技术的兴起,企业需要分析的数据量呈指数级增长。根据最近的一份报告,需要在企业层面进行分析的数据日志在过去 5 年中同比增长了 250%。1
随着生成式 AI 和其他数据密集型技术的持续扩展与普及,IT 领导者正深入探索如何利用日志分析,确保其组织所依赖的系统始终保持峰值性能。
最新的 AI 新闻 + 洞察分析
在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。
立即订阅
日志分析中使用的日志文件类型
IT 专业人员在进行日志分析时重点关注三种日志文件:访问日志、错误日志和事件日志。
访问日志:访问日志是指记录常见应用程序服务器请求(例如,带有时间戳的 IP 地址)和用户请求的目的地(例如,网址)的日志。访问日志非常重要,因为它们可以帮助系统监控人员跟踪用户行为,并识别潜在的安全威胁。
错误日志:错误日志包含与安全事件相关的数据;例如,用户或应用程序尝试连接数据库但被拒绝访问。错误日志对于日志管理至关重要,IT 团队依靠该流程来收集、处理和存储日志数据。当业务中断后需要恢复正常业务运营时,错误日志可以帮助团队进行故障排查。此外,在事件发生后研究错误日志有助于最大限度地减少未来的停机时间并改善客户使用体验。
事件日志:事件日志有助于 IT 团队更好地了解一段时间内系统内部发生的情况。它们记录系统上发生的所有情况,例如系统何时启动或关闭、何时特定用户登录或注销以及何时对其配置进行任何更改。安全漏洞出现后,IT 团队经常仔细研究事件日志,以追踪未经授权的访问尝试,并试图更好地了解网络攻击的性质。
日志分析是如何工作的?
为了进行有效的日志分析,网络管理员、开发运维 (DevOps) 工程师及其他 IT 专业人员通常需遵循以下四个步骤:
数据收集
数据处理
数据分析
数据可视化
数据收集
日志分析始于工程师从待分析系统的相关数据源收集数据。通常,这些数据源包括网络设备、服务器、应用程序和软件程序等硬件与软件系统的组合。
数据收集对于日志分析的整体成功至关重要。如果没有彻底完成,可能会导致缺少日志源、应用程序或未提交数据的程序,以致无法完整地了解系统的运行情况。
数据处理
在数据处理过程中,工程师专注于为日志建立索引和将之规范化,这个过程称为解析。解析涉及按时间戳、来源、事件类型和其他特征对数据进行分类,以使其更易于理解。
数据处理对于将由非结构化数据组成的原始日志转换为经整理的、可操作的数据日志至关重要;转换后的数据日志便于工程师更轻松地从中提取洞察分析。
数据分析
一旦数据被处理,就可以进行分析,而分析可以说是整个过程中最重要(也是最耗时)的一步。在数据分析过程中,工程师会仔细研究数据处理过程中从日志中提取的可操作的数据,寻找特定系统或应用程序无法运行的线索。
如今,数据分析几乎总是由人工智能 (AI) 和机器学习 (ML) 工具提供帮助,这些工具利用其先进的模式识别功能帮助缩短实现价值的时间并提高日志分析的准确性。
数据可视化
日志数据的价值取决于使用其生成的有关系统整体健康状况的洞察分析。数据可视化,通过全面的仪表板显示数据和洞察分析,有助于将原始信息转化为实时系统健康的生动画面。
在 AI 和 ML 工具的帮助下,现今的仪表板通过可视化中央处理器 (CPU) 使用率、网络延迟等关键指标来帮助 IT 团队识别性能问题。
Think 2025
利用混合云规模化释放 AI 价值
了解精心设计的混合架构如何整合数据、发挥高性能计算优势并提升安全性,为 AI 规模化应用铺就成功之路。
立即点播观看 Think 2025
日志分析的类型
IT 团队通常依靠五种不同的日志分析来检测各种系统中的问题:
模式识别:在模式识别(也称为日志分析)中,分析师试图识别日志数据中可能是问题证据的特定模式或趋势。模式识别算法是能够在大型数据集中发现模式的高级算法,广泛用于模式识别,帮助数据科学家识别可能表明存在更广泛问题的重复故障或异常活动。
异常检测:异常检测涉及识别偏离寻常、标准或预期,使其与数据集中的其余数据不一致的信息。模式识别侧重于识别数据中重复出现的模式,而异常检测则试图发现这些正常模式中的偏差。ML 算法通常用于异常检测,帮助系统工程师发现站点流量的异常峰值、可能是更广泛问题证据的用户行为或其他异常情况。
根本原因分析:与模式和异常检测不同,根本原因分析是一种日志分析,试图确定导致问题的原因或根本条件。在根本原因分析中,数据科学家和工程师追踪导致系统故障或意外停机的事件序列。根本原因分析既耗时又费力,通常需要仔细检查大量数据。
语义分析:语义分析涉及检查和解释日志数据,研究模式、异常甚至根本原因,然后试图了解系统整体状况的更广泛情况。自然语言处理 (NLP) 是 AI 的一个分支,它试图教会计算机像人脑一样理解语言,通常用于语义分析,帮助科学家了解系统或应用程序失败的原因。
性能分析:在性能分析中,工程师和数据科学家通过查看与性能相关的日志数据来优化系统或应用程序。性能分析可以通过识别阻碍系统维持运行效率峰值的瓶颈,解决响应迟缓、CPU 使用率和操作系统 (OS) 启动时间等各种性能问题。
日志分析的优势
现代企业需要不断寻找让其系统和应用程序更高效地运行的方法,而日志分析在这种持续的工作中发挥着至关重要的作用。以下是日志分析的一些最受欢迎的优点。
提高安全性
数据泄露可能给企业带来数百万美元的损失。根据IBM 商业价值研究院最近的一份报告,去年数据泄露的平均成本上涨了 10%,达到 480 万美元。日志分析可帮助 IT 系统管理员提高检测到安全漏洞时的事件响应能力,并防止恶意软件、网络钓鱼、勒索软件和其他类型的未经授权的访问尝试。许多现代组织依靠一种称为安全信息和事件管理 (SIEM) 的实践作为其日志分析方法的一部分。SIEM 帮助组织识别并应对潜在的安全威胁,以及检测和消弭漏洞。
提升合规性
随着合规要求不断变化,组织采用日志分析来主动满足交易记录和数据保留法规。例如,支付卡行业数据安全标准(又名“PCI DSS”)要求企业保留至少一年的网络历史日志审计追踪记录。日志分析在保留这些记录并确保其遵守所有适用法律方面发挥着重要作用。
更快解决问题
IT 部门在很大程度上根据他们解决工单的妥善和彻底程度进行评分。日志分析有助于加快解决各种问题,并确保关键业务流程不会中断。例如,通过根本原因分析,工程师可以确定系统或应用程序发生故障的原因,并在造成严重停机之前进行修复。
更深入的客户洞察分析
日志分析支持 DevOps 工程师更深入地洞察分析用户行为,并识别优化系统和应用程序性能的机遇。例如,针对热门电子商务网站,日志分析可以显示用户交互频率最高的功能以及关注度不足的功能,从而深入洞察分析客户行为并修改网站设计。
日志分析用例
DevOps
现代 DevOps 团队依靠日志分析软件实现可观测性,从而提高其对系统和应用程序运行状态的感知能力。通过使用率、网络流量、登录等指标,日志分析可以向 DevOps 团队展示其代码的优势和有待改进之处。它还有助于发掘开发新功能的机遇。现代 DevOps 平台通常配备日志分析工具,用于聚合来自各种来源的数据并部署 AI 和 ML 以识别模式,从而确定问题。
网络安全
日志分析在网络安全以及保护系统、应用程序和人员免受网络威胁方面发挥着关键作用。它能提高网络安全团队对其负责的系统和应用程序的可视化管理能力,并提供包含潜在攻击证据的登录记录和用户行为详细数据。高级网络安全日志分析工具甚至可以自动检测可疑活动,在发生某种行为时向 IT 管理人员发出警报。
IT 运营 (ITOps)
可见性不仅可以帮助 IT 运营团队防止网络攻击,还可以帮助日常运营,确保组织的 IT 系统和应用程序按照设计的方式运行。IT 运营 (ITOps) 团队依靠有效的日志分析工具来访问和观察大量数据并识别性能问题。日志分析有助于集中团队的战略方法,全面了解整个企业的系统和应用程序的运行情况。