新闻资讯

大数据:大数据带来大责任

发布日期:2021-08-01 08:38:59浏览量:9

大数据帮助我们抗击大流行并建立更清洁的技术——以及许多其他好处。我们收集暴露数据以控制和追踪冠状病毒的传播。基因组数据库可以帮助开发更好的药物和疫苗。

个性化医疗最终可能会战胜癌症。我们收集家庭能源消耗,以构建有助于节约能源和支持可再生能源的智能电网。汽车和拼车服务与电动汽车相结合,最终将彻底改变交通运输方式并显着降低碳排放。

大数据
所有这些服务都是基于大数据、个人数据的收集、处理和共享。它们带来了巨大的社会效益,但如果处理不当,也会带来风险。存储在公司大型存储库中的个人数据经常因数据泄露而泄露。西方社会中几乎每个人的数据都在几乎总是多次数据泄露中受到暴露。民族国家行为者被曝对个人和公司进行网络间谍活动。虽然现在是 2021 年,但乔治奥威尔的小说 1984 年在今天是一个明显的可能性。因此,我们必须问自己:我们如何将西方的公民自由与无处不在的数据收集技术的进步结合起来?

这是一个多方面、跨学科的问题,涉及法律、政治和技术的各个方面。作为一名技术专家,我感到有责任教育各种可能性——好的和坏的——并推进数据安全和隐私方面的最新技术和实践水平。一方面,数据科学是处理从传感器测量到有用见解和预测的科学学科。它分为五个步骤:数据收集、准备、管理、分析和使用。

对于这些步骤中的每一个,已经开发了特定的技术,并且这些技术和步骤中的每一个都伴随着特定的安全和隐私挑战。另一方面,计算机安全、隐私和密码学处理静态数据(例如,存储在永久介质上)、传输中(例如,通过网络传输)或使用中(例如,在计算机中处理数据时)的安全)。我们拥有不同的技术,擅长在这些步骤中提供保护。但是,我们没有处理整个数据科学过程的集成的端到端技术堆栈。我想强调一些使这项任务变得困难的挑战:

Human-in-the-loop:数据科学主要由人类(数据科学家)驱动和执行。从传感器读数成功转换为洞察力的许多步骤都需要人工干预。虽然我们可以控制电子形式的数据,但它不同于控制暴露给人类的数据。几乎所有最近的犯罪小​​说现在都涉及调查人员获取有关嫌疑人的电子记录——无论是合法的还是欺骗的。我们需要以人为本来设计我们的数据保护机制。

意想不到的副作用:原始数据会在整个数据科学过程中留下痕迹。例如,荷马的攻击表明,聚合基因组研究可用于推断这些研究参与者的健康状况信息,并促使 NIH 从公共领域中删除一些基因组研究和数据。Sweeney 的攻击通过结合匿名患者记录和选民登记册恢复了马萨诸塞州州长的健康记录。隐私研究人员一直在检测新的此类数据泄漏。我们需要设计尊重数据科学过程的原则性保护机制。

不同的应用程序要求:存在不同的数据保护技术,但并非所有技术都同样适用于所有应用程序。例如,一项关于疫苗效率的研究无法处理排除许多保护机制的汇总或干扰数据。然而,数据是在一个非常受控的环境中收集的。虽然移动电话数据是由许多利益相关者(网络提供商、平台提供商和应用程序开发商)收集的,但对于许多用途,聚合数据就足够了。

技术缺陷:数据保护机制存在固有的局限性,需要在设计尊重隐私的数据科学过程时进行权衡。例如,我认为不可能将关系数据库有效地外包给单个服务提供商而不泄露有关正在处理的数据的信息[1]。我和我的团队表明,当训练数据有偏差时,机器学习模型的可能可证明的安全保护机制会失败[2]。我们需要了解当前数据保护技术的局限性,并努力改进或开发更好的技术。

驾驶数据保护技术
这些挑战凸显了推动数据保护技术从开始和设计到最终在数据科学过程中的采用和部署是多么困难,但也非常重要。这需要学术界、工业界和政府的共同努力。每一方都需要适应以迎接挑战。学术界需要了解并努力应对与工业或社会相关的挑战。它需要为追求科学卓越提供坚实的基础。

行业需要了解技术并拥抱社会的动力。虽然不受约束的数据收集提供了最高的直接收入,但它对社会有害,不再被接受。许多商业模式完全基于数据收集的公司正在实施自我施加的限制并增加对尊重隐私的技术的使用。政府需要引导和平衡将舆论和经济利益转化为社会规范和法规的过程。

进步
在技​​术和治理方面已经取得了几项重要的进步,我们需要继续跟上步伐。加拿大国家网络安全联盟及其隐私网络旨在将加拿大的所有这些利益相关者聚集在一起,以建立从发明到产品和服务的改进创新渠道。对联系人追踪技术[3] 隐私需求的共识有助于在加拿大部署注重隐私的应用程序。

 

标签:, ,

相关推荐