德塔赛

德塔赛

德塔赛 DataSci 是专注数据科学的播客,每期节目会访谈一位数据科学领域的研究者和工程师。欢迎访问我们的官方网站 detasai.com。

Episodes

  1. 10/30/2017

    数据科学中的隐私保护

    本期嘉宾:宋爽(UCSD 博士候选人) 话题:差分隐私 在淘宝购物、在豆瓣网上打一个分数的同时,我们也无条件地把自己的大量隐私信息交给了不同的网站、商家,因为我们知道自己的信息会相对安全,即使公布也会做匿名化处理。然而我们拱手交给互联网的信息真的那么安全吗?2006年,Netflix 举办的机器学习竞赛所用的数据集中的隐私泄露让我们意识到隐私保护远远比简单的匿名化复杂的多。尽管 Netflix 把数据集中的用户ID和识别码等的识别用户的信息都抹去了,两位研究者通过挖掘一些包含用户信息的电影浏览记录,把这些记录和 Netflix 数据集里的浏览记录进行匹配,反向识别出了在 Netflix 数据集中的个体对应的是哪些人,从而获得了这些用户的其他信息。在这期节目中,我们来讨论在数据收集、公布、使用的过程中,有哪些方法可以减少用户隐私的泄露。其中,宋爽主要介绍了近几年的主流方法,差分隐私(Differential Privacy)。 提到的一些内容 Differential Privacy 这个概念是由 C Dwork, F McSherry, K Nissim and A Smith 等人在2006年提出的。 宋爽提到了早期的保护隐私的方法 k-anonymity,通过降低数据的精度,使得数据集中的每条记录不可识别。 基于 Stochastic Gradient Descent (SGD) 可以满足 differential privacy,并且很多深度学习模型可以用 SGD 来训练,Ian Goodfellow 等人将差分隐私进一步引入了深度学习。具体文章可见 M Abadi, A Chu, I Goodfellow, H. B McMahan, I Mironov, K Talwar, L Zhang(2016)。 在 Boosting 的那期节目中,张家鹏也和我们分享了 Boosting 在差分隐私上的应用,具体的工作可以参见 C Dwork, G.N Rothblum and S Vadhan(2010)。 苹果在官方网站上特意提到他们使用差分隐私技术保护用户数据安全,参见 保护隐私的措施

    22 min
  2. 10/22/2017

    生成对抗网络:两个神经网络的对弈

    从大家广泛运用电子邮件的那天起,很多研究者和程序员就开始了和垃圾邮件分类的斗争。垃圾邮件分类的算法越来越精进,就意味着更加逼真的垃圾邮件也可以成功的被筛选出来。站在垃圾邮件生成者的角度考虑,为了能够传播他们的邮件,他们就需要把垃圾邮件设计的和普通邮件更相似,更难以区分。 基于类似的思路,本期节目我们和大家聊一聊 2014年Ian Goodfellow提出的生成对抗网络模型(Generative Adversarial Nets)。生成对抗网络把生成器和判别器同时联系起来,生成器用来生成数据集,判别器用来判断某一条数据是人工合成还是在原本数据集中。随着生成的数据和真实数据越来越接近,判别器也就需要更加敏锐。利用生成器和判别器的对弈,达到两者同时进步的目的。 提到的一些内容 生成对抗网络(Generative Adversarial Nets)是2014年由Ian Goodfellow提出的。现在提到生成对抗网络,一般用GAN这个缩写。 刘爽提到了可以将一张现实中的图片转化为梵高风格的油画的工具Deep Dream。其实Deep Dream不仅限于某一种风格,只要可以找到足够样例的图片风格都可以作为转换的目标。 节目中我们还提到了利用GAN可以将视频中的一匹普通的奔跑的马变成斑马。视频和具体的解释可以在这里找到。

    22 min

Ratings & Reviews

5
out of 5
6 Ratings

About

德塔赛 DataSci 是专注数据科学的播客,每期节目会访谈一位数据科学领域的研究者和工程师。欢迎访问我们的官方网站 detasai.com。