随着人工智能的兴起,毫无疑问,它将以前所未有的速度转变业务和组织。但是一个不容忽视的事实是,随着AI的兴起,数据量也随着其复杂性的增加而增长。其中,AI和ML是可以帮助数据科学家将数据过滤为相关价值的重要技术。
从培训模型到见解输入,数据都位于AI解决方案的心脏和灵魂中。即使对于企业AI,数据收集也是一个连续的过程,迫使AI项目必须按照现代化的数据收集和管理策略进行操作。因此,组织和企业需要更多地关注AI数据基础架构,以使其数据驱动和支持AI的流程平稳,快速地运行。
以下是适当的AI数据基础结构的一些重要属性。
基础设施应具有可扩展的元数据,其中元数据是指“数据换数据”。元数据有两种类型-一种是系统生成的,另一种是用户定义的。元数据中使用的数据标签应反映一些重要的提法,包括项目名称,数据源,数据是否包含个人身份信息或从数据本身派生的几乎无限多种特征。
而且,高效的数据基础架构应支持系统生成的元数据,该元数据来自不同的地方-对象存储,文件系统,云存储库,仅举几例。它还应支持用户定义的元数据。此外,AI数据基础结构应具有提供机制的能力,这些机制可使这些标签可供更高级别的ML框架访问,同时又不致于强调底层存储技术。
考虑到标签是此过程中的重要功能,必须确认可以减少与标签数据相关的工作量并节省时间的解决方案。理想情况下,有效的数据基础架构应支持自动标记,这意味着从现有元数据中提取标记。它还可以使用深度检查策略,通过各种工具直接从原始数据文件中提取文本和元数据。
但是,数据提取工具可以是预先训练的模型。它可能是一个程序,用于对图像进行分类或从不同的通信样式中解释客户的情绪。
此外,由于数据以不同的形式出现,因此AI数据基础结构应足够灵活以允许多协议数据访问。这种可访问性将大大抑制昂贵且效率低下的数据重复,并增加数据管道的执行。
此外,为了协助各种协议,AI数据基础设施应支持自动分层和多温度存储,这意味着数据属于活动项目时可以驻留在热存储层中,而转移到不那么频繁时可以在较冷的存储层中传输访问的项目。此外,对于高效,有效的支持AI的数据基础架构,规模和性能也被视为至关重要的方面。
因此,从数据管道,数据摄取和边缘分析,到核心数据中心中的数据准备和培训,再到将其存储在适当的位置,设计适用于AI的数据基础架构都需要一种整体方法。了解性能要求和数据服务需求对于开发AI数据基础架构至关重要。