您的位置:首页>AI>

视觉分析工具从精心设计的数据集中提取难以捉摸的模式

从材料科学和地球系统建模到量子信息科学和网络安全,许多领域的专家进行模拟并进行实验,以收集科学进步所需的大量数据。但是从这些数据中收集有用的见识可能是一个挑战,特别是当多个复杂变量影响研究结果时。

为了更好地分析所谓的多元数据,能源部橡树岭国家实验室的研究人员开发了一种开源的,可定制的可视化分析系统,称为CrossVis。与倾向于集中于数值数据并提供结果的单一视觉表示的类似工具不同,CrossVis会处理基于数值,分类和基于图像的数据,同时提供这些数据和其他数据类型的多个动态,协调视图。

ORNL研究人员John Goodall,Junghoon Chae,Artem Trofimov和ORNL视觉信息科学与技术进步实验室(VISTA)主任Chad Steed使CrossVis 在线可用,并发布了该系统在图形和视觉计算方面的独特功能。

Steed说:“ CrossVis是一站式商店,用于分析许多不同类型的数据,它揭示了不仅仅是两个变量之间的关系。”

该工具的主视图由平行坐标图或PCP组成,它是一种流行的信息可视化技术。PCP将数据表的列显示为垂直轴,将其行显示为折线,折线是连接到轴的相互依赖的线段的链。在这种情况下,CrossVis界面超出了传统PCP的范围,以包含非自然数据和时间或基于时间的非数值数据。

此外,CrossVis还提供了散点图,图像窗格和其他补充主视图的选项,以帮助用户识别异构,多变量数据中的关键模式和有趣的异常情况。为了缩小焦点,用户还可以选择在所有视图中同时突出显示变量,生成新数据或输入参数以过滤现有数据。

“以前,科学家必须使用单独的程序来分析图像数据,数值数据和分类数据,然后手动比较结果,” Steed说。“ CrossVis使他们可以在一个框架内完成所有这些步骤。”

该团队将系统应用到ORNL纳米相材料科学中心(CNMS)的研究人员领导的基因工程项目中,利用该系统分析分类和图像数据的能力,该项目涉及验证来自人工神经网络或人工神经网络的结果。扫描硅藻的电子显微镜图像。硅藻是藻类的一种,会产生坚固的二氧化硅,可用于工业目的,包括药物输送和水过滤。

具体而言,CNMS小组对硅藻上的孔进行了表征,以区分这些生物的未经修饰的或野生的硅藻与基因修饰的形式。最终,这些见解可以帮助科学家优化和模拟硅藻生物矿化作用,这是这些生物体用来生产二氧化硅的过程。

该团队使用CrossVis检查了硅藻参数之间的关系,该工具的许多视图揭示了这两种类别之间的细微差异。例如,研究人员确定,野生硅藻的毛孔要比改良的硅藻小,而修饰的对应硅藻的毛孔要小得多。

Steed说:“人工神经网络自动得出图像分类,将毛孔识别为分离两种类型的硅藻的重要特征。” “但是,这些结果并不能清楚地说明为什么该算法选择采用这种方法对毛孔进行分类,因此CrossVis使CNMS科学家能够解释和验证他们的发现。”

“没有CrossVis,我们不会基于这些关键参数(即平均面积和毛孔密度)彻底了解如何区分野生和改良的硅藻图像,”负责CNMS项目的ORNL研究人员Artem Trofimov补充说。

为了在更大范围内证明CrossVis的价值,Stee和他的合作者还与ORNL领导的团队合作,开发了能源百亿分之一地球系统模型以帮助验证气候建模技术。此外,该团队使用CrossVis验证了美国国家海洋与大气管理局(National Oceanic and Atmospheric Administration)的大西洋飓风数据库中的数据,该数据库包含21列和超过50,000行的有关飓风的位置,大小和其他特征的统计信息。

Steed说:“这是一个很好的用例,因为它是一个更大的数据集,具有更多变量。” “我们发现的模式可以确认已知的飓风条件,这表明CrossVis可以在更大范围内有效地验证实际结果。”

展望未来,CrossVis团队旨在进一步改善这一资源。例如,研究人员计划扩大CrossVis的规模,使其在高性能计算系统上运行。借助ORNL的Summit之类的超级计算机的处理能力,CrossVis可以更有效地完成复杂的计算。

通过结合自动机器学习技术,团队计划更积极地捕获用户与数据的交互。科学家将标记数据样本,然后内置的人工智能算法将识别,标记和编译数据看不见的部分中的相似模式,从而使用户能够快速分析整个数据集并潜在地进行意外发现。

Steed说:“如果您尝试手动整理飓风数据集或气候模拟数据之类的数据,则将需要一生。” “这种人机合作将领域专家的创造力和直觉与计算机的数据处理能力结合在一起,是进行更有效的数据分析的关键。”

免责声明:本文由用户上传,如有侵权请联系删除!