技术如何使数据泄漏成为可能

这些数字令人难以置信:共计1.15亿份文件,包括4800万封电子邮件,2100万份PDF,1100万张图像和320,000份文本文件巴拿马文件泄漏的大小,以26太字节的数据泄露,使举报人之前的任何泄密事件都黯然失色为了说明这一点,巴拿马文件泄漏的数据量是2010年维基解密国务院电报数量的2000倍

试图手动筛选这样的数据将是一项Sisyphean任务,因此需要技术进入已知的澳大利亚公司Nuix该软件公司与基于DC的国际调查记者联盟(ICIJ)合作了四年多,使他们可以免费访问他们的软件,这些软件可以获取大量非结构化数据,并将其转换为索引和搜索数据库Nuix本周以前所未有的漏洞占据了中心位置,暴露了来自巴拿马城律师事务所Mossack Fonseca的deacdes的价值文件,这家公司表示,世界上超级富豪庇护他们的财富并通过像英属维尔京群岛这样的避税天堂这样的避税天堂隐瞒其起源,该公司说,记者根本无法讲述巴拿马论文的故事“它会不能通过手动工作流程进行调查,“来自Nuix的高级顾问Carl Barron告诉国际商业时报

在这种情况下,Nuix与德国报纸SüddeutscheZeitung(SZ)合作,其记者Bastian Obermayer通过加密聊天联系关于泄密消息来源,他仍然是匿名的,说他们的生命处于危险之中,但他们希望提供信息“将这些罪行公之于众”在建立联系之后,消息来源在一段时间内为记者提供了大量的数据

几个月尽管有大量的数据,巴伦说Nuix的平台是如此强大,以至于考虑到合适的硬件,它可以通过所有的文档只用了一天半的时间,但由于零碎的数据交付,索引过程需要两个月的时间才能完成

结果是一个谷歌风格的界面,允许近400名最终在漏洞上进行合作的记者访问索引数据非常容易“一旦数据被索引,它就在Nuix平台上,这是完全可搜索的,”Barron说“它全部在我们的索引中构建,允许你根据文件类型进行过滤;您可以根据电子邮件附件甚至是无法搜索的项目进行过滤“查看位于巴拿马城的Mossack Fonseca律师事务所办公大楼外的建筑物,2016年4月4日照片:RODRIGO ARANGUA / AFP / Getty Images此外, ICIJ开发人员构建了一个受双因素身份验证保护的搜索引擎,并通过加密电子邮件与系统工作的记者共享系统的URL该系统包括一个实时聊天系统,以帮助记者协作并提供实时翻译服务对于外语文档虽然文本文件相对容易搜索,但这种泄漏成功的真正关键是能够索引和搜索图像和PDF等文档,包括合同,护照和其他扫描文件使用光学字符识别(OCR),Nuix的软件能够从图像中选择文本并将名称和位置链接到数据中其他地方找到的文本“一旦所有索引一旦所有OCR工作完成,[记者]可以简单地搜索所有信息并开始连接点,“Barron说Barron强调说Nuix在任何时候都没有访问有问题的数据它在SZ向ICIJ寻求帮助以分析泄漏事件之后很早就被带到了船上“我们被告知了一个简短的概述,在这种情况下非常典型,”巴伦说,并透露该公司甚至没有意识到这个故事将在周日晚上破裂2016年4月5日,位于澳大利亚悉尼市中心的办公室的Nuix软件公司的员工照片:路透社/大卫·格雷斯为SZ提供了许多软件许可证,据巴伦所说,安装在报纸总部防火墙后面的高性能计算机上的数据存储在从未连接到互联网的系统上,以保护它免受那些可能寻求摧毁它 Nuix软件最初是由一群科学家在2000年开发的,他们希望创建一个处理引擎,为非结构化数据提供结构

经过16年研发的成果是Nuix的专利并行处理引擎,该公司声称可以搜索几乎无限制具有“无与伦比的速度和精度”的大量数据巴伦表示,市场上没有任何其他软件可以用Nuix所做的速度和准确度处理巴拿马论文

除了与ICIJ建立长期合作关系外,Nuix软件还是可能之所以选择是因为它每天处理这种规模的数据“这只是电子发现或监管调查领域的中型文件集 - 我们的一些客户每天处理大量数据,”Eddie Sheehy,该公司首席执行官在电子邮件声明中表示,Nuix在全球65个国家/地区销售其软件,并与该部门等组织合作ed Nations和美国特勤局以及许多其他执法机构和政府除了将其软件的免费许可证捐赠给巴拿马文件之外,该公司还销售一种名为Proof Finder的产品,该产品被称为完全 - 该软件的特色版本可以“彻底调查高达15GB的数据集”,每年只需100美元所有从Proof Finder销售中获得的资金都归于非营利组织Room to Read,它致力于建立学校并提高识字能力

亚洲和非洲的儿童,全力支持女孩完成高中学业

上一篇 :时代公司可能寻求雅虎竞购合作伙伴
下一篇 iOS 11.3 Beta 2在设置中显示新的电池健康功能