毫不奇怪,消费者数据被包括地方政府,营销机构和社交媒体公司在内的各种组织不断收集。这些组织在收集此数据时会确保匿名性和机密性,但是,现有的数据隐私法律并不能保证不会发生数据泄露事件。根据最近的一份报告,仅在2019年就发生了2,000多次确认的数据泄露,其中34%是由员工等内部参与者执行的。此外,市政府和州政府机构收集法律要求它们与公众共享的敏感数据-由开放数据运动和《信息自由法》提供。
数据隐私法要求进行加密,在某些情况下,需要将原始数据转换为“受保护的数据”,然后再发布给外部各方。但是对于像Drexel大学LeBow商学院决策科学和管理信息系统助理教授Matthew Schneider博士这样的研究人员来说,这还不够。
他说:“加密肯定有帮助,但不能防止数据泄露。”“这类似于保护您的电子邮件密码。具有加密密钥访问权限的内部参与者很容易导致数据泄露。从风险的角度来看,保守的做法是假定所有数据最终都会泄漏出去,应该先进行转换,然后再在内部任何位置共享组织。”
范德比尔特大学的Schneider和Dawn Iacobucci博士在最近发表在《市场营销分析杂志》上的论文中,提出了一种新的方法,该方法可以永久性地改变调查数据集,以保护消费者的隐私(当数据共享时),同时仍然保持水平这些数据集的合理准确性。
这组作者说,调查数据通常保存在组织内部,其用途超出了收集数据的原始原因。施耐德说:“数据库和客户信息已成为一种当代资产,在结盟时使一种业务对另一种业务具有吸引力。”“即使是具有高标准数据安全性的公司也可能发现保护消费者数据的隐私具有挑战性。”
这组作者说,另一种不太常见但过于真实的威胁是员工非法从其以前的公司获取数据到新雇主的职位上,其原因包括从新员工那里获得良好印象。公司,以损害旧公司,甚至必须提供数据作为工作机会的条件。
对于施耐德而言,实现数据隐私承诺的解决方案被证明是一种技术。
施耐德说:“调查数据越来越多地用于响应者级别的分析,例如与其他专有数据集的链接,在随后的大量数据使用中,不能保证隐私承诺。”“机密性不能保证匿名。在一项调查中,大约需要三到四个精心提出的问题才能唯一地识别任何人。”
在本文中,作者分析了由德克萨斯州奥斯汀市于2015年收集的调查数据集,并在开放数据运动后向公众发布。其他城市也有类似的运动,包括纽约和费城。
施耐德说:“开放数据中存在很多隐私风险,因为它们不保护隐私,而且联邦政府拥有大量预算和资源来聘请统计学家,经济学家或计算机科学家来解决这一技术问题,”施耐德说。“保护通常取决于如何使用数据。”
奥斯丁市对居住在该市的2614名亚裔美国人进行了一项调查,以探索该市发展最快的人口之一的健康和服务需求,旨在建立更高水平的社区参与度,制定政策并确定资源来满足老年人的需求。亚裔美国人社区。奥斯汀的官员根据需要发布了他们的数据集,以使用户可以随时使用。
在一个调查数据集中,每个受访者被问到自己的种族血统,共有32个类别。年龄,有77个类别;邮政编码,共有61个类别;和性别。
施耐德说:“几乎每个人都可以识别这四个变量,其中一些变量比其他变量更为明显。”“一旦识别出他们,这项调查就会揭示出其他敏感的反应,例如就业状况,宗教信仰,家庭收入,住房负担能力以及许多态度问题。”
同样,纽约市的出租车和豪华轿车委员会遇到了一个开放数据问题,该行可以追踪1.24亿条驾驶路线到驾驶员的住所。
在考虑有效更改参与者数据的方法时,一个主要挑战是以一种不会大大改变调查结果准确性的方式来做到这一点。作者提出的方法是建立在基因组测序应用程序中的一种技术之上的,该技术能够掩盖消费者的身份,同时将洞察的准确性保持在5%以内。
施耐德说:“我们的方法本质上将“洗牌”调查数据集中的人口统计数据。”“但是,与以前的方法不同,我们仅在保持对分析人员至关重要的重要变量之间的相关性时才对数据进行混洗。受保护的数据是在消费者级别上模拟的,但对于最终用户仍然有价值。如果此数据集散发出来,则只有该组织的见解将是众所周知的。”