过程工程是化学、物理、生物过程的设计、运行、控制、优化与强化。涉及大量的工业领域,如化学、材料、农业、制药、生物技术工业等。
过程工程领域广泛使用过程流程图 (PFD) 以及过程和仪表图 (P&ID) 来表示过程流程和设备配置。然而,P&ID 和 PFD(以下称为流程图)可能包含导致安全隐患、低效操作和不必要费用的错误。纠正和验证流程图是一个繁琐的手动过程。
来自荷兰代尔夫特理工大学的研究人员提出了一种新颖的生工智能方法,用于自动识别流程图中的错误并向用户建议更正,即自动更正流程图。
受到用于人类语言语法自动校正的大型语言模型(LLM)突破的启发,研究人员研究了用于流程图自动校正的 LLM。模型的输入是可能错误的流程图,模型的输出是对更正流程图的建议。以监督的方式在合成数据集上训练其自动校正模型。
该模型在合成生成的流程图的独立测试数据集上实现了 80% 的 top-1 准确度和 84% 的 top-5 准确度。结果表明该模型可以学习自动更正合成流程图。该流程图自动校正将成为化学工程师的有用工具。
在科学文献中,有一些关于工艺流程图的错误检测和纠正的初始出版物。这些工作基于两个主要概念:(i) 基于规则的方法和 (ii) 基于机器学习 (ML) 的方法。
基于规则的方法将常见错误的工程规则编码为图形模式,然后例如通过图形操作来检测和纠正错误。然而,这种方法依赖于图同构来查找 P&ID 图中的图模式,这在计算上是昂贵的。此外,基于规则的方法仅限于硬编码规则,难以开发、维护和扩展。
除了基于规则的方法之外,最近还提出了一些基于机器学习的初始方法来进行纠错。大多数机器学习方法一次仅单独检查一个组件。因此,它们无法检测丢失的组件、不正确的连接或涉及两个或多个组件的工程错误。此外,一次分析一个组件的计算成本与 P&ID 中的组件数量呈线性关系,这可能会导致大型 P&ID 的运行时间较长。
对于人类语言的语法错误纠正,LLM 被证明是成功的。在化学工程流程图的背景下,最近证明了 LLM 可以自动完成流程图。该技术使用 SFILES 2.0 表示法将流程图表示为字符串,并使用 Transformer 语言模型自动完成流程图。此外,最近将 P&ID 的开发表述为机器翻译问题,其中没有控制结构的流程图被翻译为具有控制结构的流程图。
在该研究中,研究人员建议将流程图的自动更正制定为机器翻译问题,其中潜在错误的流程图被翻译为正确的流程图。特别是,使用流程图对训练 Transformer 语言模型,其中输入是可能错误的流程图,输出是正确的流程图。因此,该模型可以从完整流程图背景下的数据和错误中学习复杂的错误模式。对于训练,生成具有预定义错误模式的合成流程图对。
自动校正模型基于使用 T5-small transformer 模型的序列到序列 Transformer 模型。模型的输入是一个流程图,以 SFILES 2.0 表示法编码为字符串。然后,模型生成一个新的流程图,它是输入的修正版本。可以通过比较模型输入和模型输出,从新流程图中得出纠正建议。由于模型生成完整的流程图,方法不限于单个组件的修改。
为了优化模型的超参数,研究人员执行网格搜索。最终模型有 790 万个可训练参数。模型的 top-1 和 top-5 准确率分别为 80.1% 和 83.6%。
图 2 为来自独立测试集的说明性案例研究的模型预测。该案例研究过程包括与气态产物的反应,气态产物通过蒸馏塔分离成两个产物流。案例研究的输入流程图包含两个潜在的设计错误。首先,反应器缺少压力。其次,塔前的热交换器缺少温度。
自动校正模型会检测这两个错误并在输出流程图中进行校正。该模型在热交换中添加了一个温度,并将其连接到产品流和流量。此外,该模型在反应器中增加了压力来控制泄压。模型建议的修正对应于目标流程图(即修正后的流程图),因此被认为是正确的模型预测。值得注意的是,可能存在输入流程图的其他可行修正。
总的来说,结果表明所提出的自动更正模型可以学习自动更正流程图。特别是,该模型可以添加缺失的组件/连接,删除组件/连接,甚至重新排列组件,这比以前的工作有显著的优势。
首先,当前模型仅限于流程图的拓扑信息。将来,应该将更多信息添加到模型中。例如,流程图和图神经网络的图表示是未来研究的一个方向。
其次,当前的模型是根据合成数据进行训练的,限制了其工业应用和相关性。未来,可建立一个与行业相关的训练数据集。此外,进一步的规则可以提高合成数据的质量。
第三,可以探索各种其他模型架构,例如其他 LLM、扩散模型、(变分)自动编码器或图到序列。
研究人员表示:「设想一下,我们的自动更正方法将成为化学过程工程中的标准工具,就像 Word 中的文本自动更正一样。此外,自动校正的方法可以转移到其他学科,包括机械、土木或电气工程中的技术图纸。」