Verta Enterprise(一种开放式端到端MLOps平台)的提供商Verta.ai宣布推出ModelDB 2.0,这是一种用于进行机器学习的开源模型版本控制系统(ML)开发和部署可靠,安全且可重现。
在一个快速发展但缺乏基础结构来操作和控制模型的领域中,ModelDB 2.0提供了跟踪和版本化整个建模过程(包括基础数据和培训配置)的能力,从而确保团队始终可以返回并重新创建模型,以补救生产事故还是回答法规问题。
“在保险业中,许多模型必须提交给监管机构进行审计和记录。但是,创建模型的过程更像是研究。这需要时间,并且是临时性的。对我们的团队来说,记录和复制模型是一项艰巨的任务,精算师花了数周的时间来回答监管机构的问题。因此,对于我们和许多受监管的公司而言,使模型和分析具有可重现性对我们的业务至关重要。”剑桥移动远程信息处理公司首席科学家Samuel Madden说,剑桥移动远程信息处理公司是领先的InsureTech公司,使用数据和ML来提高驾驶员的安全性。
ModelDB 2.0引领了模型版本控制,类似于代码的源版本控制
虽然软件中有健壮的系统可用于关键操作,例如源代码管理,敏捷交付和操作;ML模型缺少这些系统,这对公司将ML集成到其核心产品中提出了挑战。
ModelDB 2.0完全重新考虑了模型版本系统应该提供什么以及应该如何构建。Verta的ModelDB 2.0使用来自代码版本控制系统(如Git)的同类最佳构造,并使它们适应重现ML模型的特殊要求,从而可以对ML模型进行完整的管理,审核,版本控制和协作。
ModelDB 2.0已获得Apache V2的许可,现已普遍可用,它为开源社区提供了以下新功能:
能够对模型的关键要素进行版本控制,包括代码,数据,配置和环境
能够复制使用ModelDB协议版本化的任何模型
集成到流行的ML框架中,例如PyTorch,Tensorflow和scikit-learn
具有身份验证,授权,组织和团队的用户管理
Verta.ai的ModelDB 2.0帮助组织将敏捷性带入数据科学
麻省理工学院开发的ModelDB的第一个版本专注于跟踪模型元数据(例如,谁创建了模型,用于模型训练的确切配置等),许多研究和商业系统都继续采用ModelDB引入的这种方法。但是,多年建立和部署ML模型的经验以及在受监管行业工作的机会向Verta团队强调了这种方法的不足之处。
“虽然元数据很有用,并且可以告诉您诸如谁建立了特定模型的信息,但是它没有提供例如追溯到过去并重新创建该模型以回答监管问题的能力。随着模型制定关键的业务决策,业界要求我们在模型的创建和使用方式上承担更大的责任和安全性。
模型版本控制为诸如打包,部署,操作和监视之类的下游MLOps提供了坚实的基础,Verta看到了将Verta Enterprise置于ModelDB的强大模型版本控制系统中的优势。