Week7 DataProcessionMethod
Week7 DataProcessionMethod
Questions
降维技术可以分为线性和非线性两大类:
★线性降维技术。侧重让不相似的点在低维表示中分开。
①PCA(Principle Components Analysis,主成分分析)
②MDS(Multiple Dimensional Scaling,多维缩放)等
★非线性降维技术(广义上“非线性降维技术”≈“流形学习”,狭义上后者
是前者子集)。这类技术假设高维数据实际上处于一个比所处空间维度低的非
线性流形上,因此侧重让相似的近邻点在低维表示中靠近。
①Sammon mapping
②SNE (Stochastic Neighbor Embedding,随机近邻嵌入),t-SNE 是基于 SNE
的。
③Isomap(Isometric Mapping,等度量映射)
④MVU(Maximum Variance Unfolding)
⑤LLE(Locally Linear Embedding,局部线性嵌入)等
Shepard Diagram:可视化方案
目标:针对降维的数据,提供可视化主体内容及辅助信息,从而帮助受众
更好地认知数据应该从哪些角度去分析、获取信息
全局视角:
1.形状探索(数据区分度)
通过标签打标看看不同类型人群的形状及分布(这里打标的方式可以是点
击 、 收 藏 加 购 之 类 的 动 作 , 也 可 以 是 不 同 定 向 类 型 的 人 群 ) 。 通 过 Grid
Search,尝试多种参数结果,将其聚类找到主要的几种空间布局结构。并通过
定量的方式反应降维的效果
2.密度区分:tSNE,UMAP 等概率密度公式中均在低维抛弃了密度参数,
可以通过密度图辅助还原密度信息
局部视角:
1. 子群探索(显著特征分析):探索某一特定的子群,相较其他人群显著
的特征是什么:
2. 特征空间分布分析
3. 边界构成及相关因素分析