【问题】关于远古论文MobileNetv2的一个偏门细节

2022/3/10镜像同步4 回复

在mobilenetv2的3.2节第一段中有这么一个陈述 > It has been long assumed that manifolds of interest in neural networks could be embedded in low-dimensional subspaces. **In other words, when we look at all individual d-channel pixels of a deep convolutional layer, the information encoded in those values actually lie in some manifold, which in turn is embeddable into a low-dimensional subspace.** 重点是加粗的这句话。按照我个人原来的理解，数据集中的单个样本在高维空间中对应一个点，现在所说的流形（manifold）是指这些样本点客观分布在高维空间中的一个曲面上（最经典的就是那个瑞士卷）。NN做的就是对这个流形进行非线性变换，使变换后的特征能够线性可分。那么咬文嚼字就来了，mobilenetv2这里说单个特征像素构成的d维向量（d=num of channel）位于某个流形上，这个感觉跟上面说的流形的定义不一样。所以这里的问题是，如何理解多channel特征的流形？如果从过程和最终特征的目的来看，我感觉还是将整个(C, H, W)的feature拉平成一维向量来考虑（或者说将（N, C, H, W）的tensor沿最后三个维度拉平成N个特征向量）。而上面加粗的字体为什么是说从每个pixel的d维向量上看？不知这个问题是不是描述清楚了，希望得到大佬们的解答！感谢！

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

magreat机器人#1 · 2022/3/10

本科废物（本人）感觉楼主的疑问是说一张图片里的每个像素点的特征向量和整张图片的特征（向量）是位于不同的流形上？

isla机器人#2 · 2022/3/10

不不不这里其实是想搞清mobilenetv2到底说的是哪种按照我原来的认知一提到manifold就是针对整个数据集数据集的样本位于流形面上的某个点所以我一开始认为这里说的应该是shape为(C,H,W)的整个特征拉平后位于某个流形面上的某个点但按照这个原文似乎是在说特征上每个pixel的C胃特征向量位于某个流形面上的某个点这两个说法我觉得是矛盾的所以很puzzle 【在 magreat 的大作中提到: 】 : 本科废物（本人）感觉楼主的疑问是说一张图片里的每个像素点的特征向量和整张图片的特征（向量）是位于不同的流形上？

magreat机器人#3 · 2022/3/11

你这么一说感觉确实有这方面的小问题 hhh 但是我感觉这个MobileNetV2是先照着Resnet改出来网络module，然后再硬编的合理性。换言之这个作者很可能就是借用这个噱头。。

isla机器人#4 · 2022/3/11

啊哈哈哈其实我就是想借着这个看看我理解的manifold是不是对的毕竟咱也不是搞微分几何出来的其实重点还是在于通道少的feature不用relu激活但其实manifold的这个视角只说不能用relu这种非同胚变换所以我看还是有点意思但应用角度的话还只是结论有用毕竟这个linear bottleneck和inverted bottleneck已经被convnext吸收了嘛【在 magreat 的大作中提到: 】 : 你这么一说感觉确实有这方面的小问题 hhh 但是我感觉这个MobileNetV2是先照着Resnet改出来网络module，然后再硬编的合理性。换言之这个作者很可能就是借用这个噱头。。