还在用电子表格进行大数据分析吗?——高级数据分析软件来了!

应用高级分析软件工具可加速数据清理、可视化、搜索、情境化和建模过程。使工程师能够专注于数据分析、协作和问题解决,而不是数据整理工作。

过 程工业公司收集制造数据已经有几十年了。随着硬件和软件的不断发展进步,在制造企业内会产生更多的数据,收集的数据用于描述过程工况、供应链指标和其它生产信息。然而,企业难以将大量数据转换为有用的信息和见解。这样可以提高过程装置、工厂以及业务的可靠性、安全性。但随着数据量的增长,随之而来的挑战也在不断增加。

在计算机化、传感器和无线技术不断发展的基础上,一场由工业物联网 (IIoT) 推动的工业革命正在如火如荼的进行着——这极大地扩展了存储和分析的数据类型和数量。

从历史上看,过程生产制造商使用电子表格来组织以表格形式收集的数据。电子表格最初用于会计和财务,但它从来都不是大量时间序列相关数据的最佳处理工具。但是,它们允许构建支持软件的公式,以及进行跨多个工作表的计算。

因此,工程师们习惯采用电子表格用于项目的数据分析,但该过程会耗费大量的人力和时间。此外,使用电子表格在成果分享以及与他人合作方面有一定的困难。随着企业积累的数据越来越多,他们希望找到更有效的方法在企业内共享数据驱动的信息。

大数据带来的挑战

显然,高级分析软件是应对这些挑战和障碍的一个方法。为了理解这些先进特性,让我们先看看电子表格的不足,以及如何通过分析解决方案应对这些不足。

过程制造和监控系统每天都会产生海量的数据,用于显示过程工况、运行/ 产品流程和设备状况。与控制系统有关的数据以不同的形式生成。一般是将与调查有关的所有数据收集到电子表格中,然后进行分析。从多个来源收集的大量数据,很快会削弱进行有效分析的能力。

在进行分析之前,必须对数据进行排序和清理,并减少电子表格中的数据点数量。仪表信号被重新格式化,以适应电子表格行/ 列的模式(如图1 所示)。微软Excel 电子表格的上限约为100 万行。例如,常见的过程系统传感器采样频率为每分钟一次,相当于Excel 中每年有50 万行。如果采样频率为每30 秒一次,或者用户想要查看两年的数据,则不可能以适当的分辨率查看所有数据。

图1 :时间是评估过程数据的关键因素,通常必须对信号数据重新格式化来统一格式,以便在电子表格中使用。本文图片来源:Seeq 公司

此外,超过电子表格容量限制的文件可能会遇到性能问题。在多组数据和计算中的分层,可以同时打开大量大型文件,并链接到其它应用程序和宏,这些都会妨碍电子表格的可用性。工程师或科学家的过程数据工作流,通常需要所有这些功能。使用电子表格用户必须对数据段的类型和采样做出妥协。

数据孤岛

虽然与最大容量相关,但数据隔离是一个单独的问题。例如,每次团队成员访问过程数据时,他们首先将其下载到一个单独的、复制的文件中。这是一次性快照提取。如果数据发生更改或更新,则必须重新做查询。这可能会对后续计算、清理和见解产生影响。大型文件很难在整个企业中共享并保持同步,尤其是在多个用户查看相同数据集和数据源的情况下。

考虑到IIoT 和云的应用,创建更多和更大的数据库是一个持续的趋势。此外,并非所有数据、数据库和用户都位于同一个区域。远程数据库和用户进一步使向用户获取适当数据的任务变得复杂。一旦相关数据被集成到电子表格中,用户如何找到数据驱动的信息?工程师们最感兴趣的是数据在一段时间内的行为以及与其它系统部件的关系。例如,温度、压力、原料质量和转化率,都随时间变化并且彼此之间具有某种关系。

与任何分析一样,用户首先必须确定最感兴趣的过程点,如最佳稳态工况、关键设备振动趋势、停机、排放事件和其它参数。对每个数据来讲,时间都是其中的一个因素。工程师分析跨班次、周数、月或年份汇总的数据,以确定趋势和根本原因。

要在电子表格中执行此操作,用户可以对列和行进行排序,以识别感兴趣的数据点。这种排序/ 清理是通过电子表格自带功能完成的,但微软列出的Excel 表格最常用的十大功能中,有70%是用于数据整理,并不包括数据分析,但问题是数据分析才是价值所在。在开发电子表格应用程序中,数据处理所花费时间占到50%到90%(如图2 所示)。电子表格算法可以对数据进行排序和切片,但数据处理/ 计算方法不透明,难以记忆,也难以与同事共享。

图2 :识别和共享源自电子表格分析所得的数据是一个费时、费力的过程。

例如,在装置月度报告或季度排放评估中,必须重新查询数据,并且手动复制或通过宏的自动化来实现。如果分析频率不高,或由不同的人执行,那么学习或重新学习电子表格数据的工作机理,可能需要很长时间。一些团队有单独的文档来描述工作流程,但开发的宏缺乏透明性,这就会影响分析的复用性。

受限的合作

对大数据集进行排序和筛选后,如何共享和分发数据驱动的信息?从电子表格分析中提取信息并共享信息的功能有限,而且计算的不透明性,使协作和结果再现变得困难。此外,出于大小和简化等方面的原因,通常共享的是图片格式的分析结果,而不是电子表格本身。

此外,由于数据隔离和密集操作的限制,使用电子表格完成的工作成果必须集中放置,可访问并提供严格的维护。一旦结果转换成另一种形式并进行分发,这就变得很困难。报告和共享通常包括复制和粘贴工作,或插入/ 链接/ 查询/ 重新查询(文件崩溃)工作流。高级分析软件可解决电子表格在这些方面的限制,以提供更高效的分析,如下面的例子所示。

电子表格面临的困境

一个谷物制造工厂的能源管理团队正在负责寻找可降低能源消耗的潜在因素。谷物处理过程中的分批熏蒸步骤消耗了大量的过热水。该项目需要过程运营工程师与能源管理项目负责人之间的合作。过程运营和能源管理团队在寻找节能措施方面面临着挑战。

分批熏蒸锅炉需要消耗大量热水以维持适当温度。为了优化能源消耗,提出了一种新的热水添加歧管,该管具有控制淡水添加的软件。通过更严格的温度控制策略,可以减少前一批排出的流体,最大限度地减少热水添加量,同时保持所需的熏蒸温度。该程序通过减少新过热水的添加量来节省能量。

为了针对上述问题开发数据驱动的解决方案,过程运营工程师将批处理数据从过程历史记录和执行系统中导出到单独的电子表格中。因为安装了一个新的控制系统,所以工程师放弃了旧系统的数据并重新开始分析。数据量限制了导出功能,并要求将分析从一年缩小到最近一个季度。此外,历史数据库和执行系统的时间序列数据不匹配也是一个问题。正是由于这些差异,需要对两个系统之间的数据进行手动时间同步。通过最原始的方法,过程运营工程师从几个批次中创建了一个压缩的、低分辨率的数据视图,并通过差值方法获得一年的数据。

尽管过程工程师努力挖掘可用的配方熏蒸数据,但结果好坏参半。新的电子表格仍然太大,无法与能源管理团队轻松分享。由于数据规格和复杂性,电子表格在包含计算和图表后时不时的会崩溃。过程运营和能源管理团队都投入了大量时间对数据操作进行筛选和排序,以期找到实际结果(如图3 所示)。

图3 :能源管理团队和过程运营小组花费大部分时间来处理数据而不是分析数据,只有一个人能够理解并使用电子表格来创建报告。

快速回顾显示,过程工程师将大部分时间都用于清理、分类、筛选、复制和粘贴感兴趣的数据到电子表格中。而只花了很少的时间对实际的运营变化进行分析,尽管这项任务仍然非常繁重。在项目执行期间,负责的工程师晋升到了新职位,一名新工程师接管了这项任务。两个过程工程师之间数据准备方法不同,也让结果出现了差异。这个案例历史说明了使用电子表格分析过程数据时所面临的挑战。尽管工程师们付出了很多努力,但是过程运营小组和能源管理团队不断重复相同的步骤来整理数据。问题不在于缺乏数据,通常任何工业设施都是这样的。相反,问题出在数据时间不同步、格式不统一、数据保存在不同区域。使用电子表格与不同部门共享数据也很困难,有效的可视化和报告工作几乎是不可能的任务。

应用高级数据分析

高级数据分析软件可访问其所在的数据。不需要复制和粘贴,因为该软件整合了多个数据源的高分辨率数据(图4)。简单的查询命令便于数据定位,并支持简化排序、清理和组合历史数据库以及其它来源所需的数据。高级分析软件还支持基础演算和工程师用于将数据转换为趋势以及相关数据可视汇总的其它数学函数。有价值的数据更容易整合和情景化以供将来建模使用。此外,新用户只需要较少的培训。

图4 :使用高级分析软件替换基于电子表格的分析,使能源管理团队能够快速获得结果并分享见解。

应用高级分析软件工具可加速数据清理、可视化、搜索、情境化和建模过程。使用这些工具,工程师能够专注于知识获取、协作和问题解决,而不是数据整理工作。

(0)

相关推荐