谈话的好处从数据压缩多好
想免费听这篇文章吗?
完成下面的表格来解锁访问所有音频文章。
阅读时间:
降维是什么?
“大数据”是什么意思?大多数指的是巨大的数据集包括数以百万计的数据点。它已经成为我们tech-reliant文化的一个基本组成部分。到目前为止,惊人的500亿张照片上传到Instagram, 2500亿Facebook。我们习惯于听到机器学习如何利用这些越来越多的大型数据集分析趋势和产生新颖的见解。然而,“大”“大数据”也可以指的是数据点自己。
智能手机现在体育4 k相机。这些决议3840 x 2160,导致高达800万像素的图像,或在24位精度24 mb的文件大小。一个医学图像可以更大。一个典型的三维核磁共振成像扫描可能512 x 512 x 128的分辨率,3300万年产生的体素(3 d像素)存储使用128 mb的内存(32位的精度)。一名医生真的3300万年得出结论从单个扫描?
最终,这取决于我们感兴趣的是什么样的结论。例如,医生癌症分期从医学扫描需要知道有多少肿瘤,其位置、大小和其他特征。此信息可以写下来而不需要3300万个变量。图像在更高的分辨率提高检测是诱人的,但相关的符号信息包含的数量仍相对较小。
对话来到这个如何?
想象你朋友描述你梦想的家。
“这是海边的悬崖上,由红砖、两层楼,一个烟囱和巨大的窗户。”
降维的谈话:
Autoencoders包含一个编码器,E映射输入x z .这是低维版本然后由D给x̂解码。通常E和D是神经网络训练,所以x̂匹配尽可能(在一些预定义的“亲密”的定义)。
这里,演讲作为低带宽的信息传递媒介。你不得不压缩或编码的房子在你脑海中单词,然后解码的侦听器。希望他们创造的形象就像最初的设想。的本质,你的话你想说什么。
降维的在这个例子中,我们假设世界和它所有的复杂性可以充分捕捉到的单词。显然,和沮丧的作家,我们永远不能完整地描述世界。在这个过程中我们总是失去一些细微差别,不能保证我们的言语解释每次都以同样的方式阅读。没有两个人阅读本文将想象同样的房子。技能很好的演说家和作家是共享的最大化他们传达相关信息的数量在给定数量的单词。
然而,之间有一个权衡留住我们关心的信息同时最小化压缩格式的大小。任何降维、重建或去噪技术,线性回归、主成分分析或autoencoders,走这条线。有损压缩格式JPEG和MP3等基于同样的原理。
所以为什么不完全绕过对话呢?为什么要压缩的概念呢?
压缩的好处一样躺在这个过程中自己是最后的结果。回想一下,autoencoders训练来重建数据。这可能看起来像一个毫无意义的任务;有什么用复制你已经拥有什么?关键是在一个信息瓶颈的存在,这对人类的沟通通常是演讲,手势和肢体语言。
你有没有获得更好的理解别人的想法通过解释它?如果我们分手,两件事情在这里发生。多余的细节被透露这个概念在其最简单的形式,这是同时重组变得更容易理解。在机器学习前被称为去噪,后者为解开纠结1。两者都是autoencoders固有的属性2和熟练健谈。本质上,你的观点变得更加可翻译的在你自己的心里在你试图让别人更容易理解。
这已经不是什么秘密,不是每一个工程师都喜欢谈话。一些Elon Musk,去寻求解决的” 数据率问题 “人类的交流。麝香的公司Neuralink发展方式绕过演讲完全通过连接机器,从而增加人类通信的带宽。
这在理论上听起来不错,我们永远不会知道直到我们经历的所有好处和后果。想知道别人的想法和感受完全一样。这种亲密关系可能帮助我们看到过去的表面差异。但是我们可能会失去我们的思想的构建对话需要吗?
如果我们不能组织和解释自己的想法和感受,我们怎么能指望被理解,或者理解别人。应该我们接受,我们永远无法真正了解对方的思想吗?
如果你知道我的意思。
引用:
1。考维尔,Bengio Y,文森特·p·表示学习:审查和新观点。arXiv: 12065538 (cs)。http://arxiv.org/abs/1206.55382014年4月23日在线发表。2021年6月30日通过。
2。Rolinek M, Zietlow D, Martius g .变分autoencoders追求PCA方向(偶然)。 arXiv: 181206775 (cs,统计) 。 http://arxiv.org/abs/1812.06775 2019年4月16日在线发表。2021年6月30日通过。
广告