admin 管理员组文章数量: 1086019
2024年4月18日发(作者:ascii码相邻字母差多少)
第
38
卷第
2
期
2021
年
2
月
统计研究
StatisticalResearch
Vol.38,No.2
Feb.2021
大数据下张量充分降维方法
及其应用研究
*
马少沛孙庆慧武雅萱田茂再
内容提要
:
在大数据时代
,
金融学
、
基因组学和图像处理等领域产生了大量的张量数据
。Zhong
等
(2015)
提出了张量充分降维方法
,
并给出了处理二阶张量的序列迭代算法
。
鉴于高阶张量在实际生活
中的广泛应用
,
本文将
Zhong
等
(2015)
的算法推广到高阶
,
以三阶张量为例
,
提出了两种不同的算法
:
结
构转换算法和结构保持算法
。
两种算法都能够在不同程度上保持张量原有结构信息
,
同时有效降低变
量维度和计算复杂度
,
避免协方差矩阵奇异的问题
。
将两种算法应用于人像彩图的分类识别
,
以二维和
means
聚类方法
、t-SNE
非线性三维点图等形式直观展现了算法分类结果
。
将本文的结构保持算法与
K-
多维主成分分析
、
多维判别分析和张量切片逆回归共五种方法进行对比
,
结果表明本文所提降维方法
、
方法在分类精度方面有明显优势
,
因此在图像识别及相关应用领域具有广阔的发展前景
。
关键词
:
张量
;
充分降维
;
迭代算法
;
图像识别
DOI:10.19343/j.cnki.11
-
1302/c.2021.02.009
中图分类号
:O212
文献标识码
:A
文章编号
:1002
-
4565(2021)02
-
0114
-
21
ResearchonTensorSufficientDimensionReduction
MethodandItsApplicationinBigData
MaShaopeiSunQinghuiWuYaxuanTianMaozai
Abstract:Intheeraofbigdata,alargeamountoftensordataaregeneratedinmanyfieldssuchas
finance,genomicsandimageprocessing.Zhongetal.(2015)proposetensorsufficientdimensionreductionand
presentasequentialiterativealgorithmforsecond-ordertensors.Inviewofthewideapplicationofhigh-order
ordertensors.tensorsinreallife,thispaperextendstheiterativealgorithmofZhongetal.(2015)tohigher-
Takingthird-ordertensorsasanexample,twodifferentalgorithmsareproposed:structuraltransformation
algorithmandstructuralmaintenancealgorithm.Thetwoalgorithmscaneffectivelyreducethevariabledimension
andcomputationalcomplexitywhilemaintainingtheoriginalstructuralinformationoftensors,avoidingthe
singularproblemofcovariancematrix.Thetwoalgorithmsareappliedtotheclassificationandrecognitionof
colorfacialimages.Then2-Dand3-Dscatterplotsareusedtodisplaytheclassificationresultsofthe
SNEalgorithms.ComparingthestructuralmaintenancealgorithmwiththeK-meansclusteringmethod,t-
nonlineardimensionreductionmethod,multilinearprincipalcomponentanalysis,multilineardiscriminant
analysisandtensorSIR,thepapershowsthattheproposedmethodhasobviousadvantagesinclassification
accuracy,andhasbroaddevelopmentprospectinimagerecognitionandrelatedfieldsofapplication.
Keywords:Tensor;SufficientDimensionReduction;IterativeAlgorithm;ImageRecognition
*
基金项目
:
中国人民大学科学研究基金
(
中央高校基本科研业务费专项资金资助
)
项目
“
高维复杂数据充分降维的稳健方
(20XHN106)。
法
”
第
38
卷第
2
期马少沛等
:
大数据下张量充分降维方法及其应用研究
·115·
一
、
引言
科学技术的飞速发展使人们拥有海量的数据来挖掘变量之间的结构性关系
,
并由此进行深入
的数据分析和趋势预测
。
田茂再
(2015)
对大数据时代下统计学理论研究中的热点问题做了前瞻
高维数据下的维数灾难问题受到了社会的广泛关注
。
当预测变量的维度远远超性的介绍
。
其中
,
过样本量时
,
往往会面临函数逼近
、
参数估计
、
信息提取等方面的困难
。
因此
,
在保留重要信息的前
提下
,
对预测变量进行降维处理非常有必要
。
常用的降维方法有两类
:
变量选择和低维投影
。
变量选择的基本思想是从所有待选择的变量
中
,
挑选出对响应变量影响最大的一个变量子集
。
低维投影的目的是找到一组投影方向
,
使得原始
主要方法有主成分回归的高维变量在该方向上的投影能够包含与响应变量有关的绝大部分信息
,
投影寻踪法和充分降维法
。
陈道铨等
(2010)
通过蒙特卡洛模拟对不同的投影子空间估计方法法
、
进行了比较和推广
。
现有的文献对基于向量的变量选择和降维问题已有较深入的研究
。
然而
,
在大数据时代
,
仅仅依靠向量这种表示形式难以全面考虑原始数据各个维度的变化情
况
,
并且容易丢失有效信息
。
作为向量的扩展
,
张量是一个多方向的数组
,
能够最大化地保留数据
更好地适应了实际生产对高通量数据的储存和处理要求
。
随着社会科学
、
成像技的原始结构信息
,
术等领域的快速发展
,
张量的处理和应用也变得越来越重要
。
以往文献对张量型数据的主要处理方法是对其进行向量化处理
,
然后应用基于向量的传统方
法进行降维分析
。
但是简单的向量化操作极易破坏原始的数据结构
,
并使算法陷入维数灾难
,
带来
Cheng
等
(2020)
对现有的张复杂的计算问题
。
因此许多学者开始考虑直接对张量结构进行降维
,
主要分为无监督和有监督两类
。
量研究方法做了总结
,
在无监督学习方法中
,
主成分分析
(PCA)
具有极高的应用价值
,
因此很多文献对主成分分
Yang
等
(2004)
提出对于二阶张量的主成分分析
,
析方法进行了不同形式的张量型推广
。
例如
,
了
2
-
DPCA
算法
,
对矩阵形式的输入变量进行线性变换以达到降维目的
。
为了处理更高阶的张
Lu
等
(2008)
提出了多维主成分分析
(MPCA),
在满足投影数据方差最大的要求下
,
可量数据
,
Hung
等
(2012)
研究了二阶张量的以将任意阶的张量投影到低维空间加以分析
。
在理论方面
,
主成分所具有的渐近分布和渐近效率等理论性质
。
在实际数据应用中
,
为了进一步降低张量维
Chen
等
(2014)
利用两阶段
PCA
方法对低温电子显微镜
(cryo-EM)
图像数据进行了聚类度
,
分析
。
作为一种有监督的降维方法
,
线性判别分析
(LDA)
方法在张量数据中也得到了极大的推广和
发展
。Ye
等
(2005)
较早地提出了
2DLDA
方法
,
将矩阵的行列结构同时进行线性变换
,
从而得到低
但存在迭代算法不收敛的问题
。Tao
等
(2007)
提出了一般张量判别分析
(GTDA)
方维投影矩阵
,
法
,
在散点差值准则下首次提出了具有收敛性质的算法
,
但其表现效果依赖于准则中调节参数的选
避免了参数选择的问题
,
同时能够提高时择
。Li
等
(2014)
在此基础上改进后得到了
DGTDA
方法
,
同时指出
LDA
方间效率和分类精度
。Tao
等
(2017)
从张量秩保持的角度对判别分析进行了研究
,
法通常需要较大的样本量才能获得良好的模型表现
,
因此经常面临小样本问题
。
而张量充分降维是监督学习框架下的一种新兴处理张量数据的方法
,
近年来得到学者们的广
泛关注
。
该方法旨在从原有的张量结构中找到一组低维解释变量
,
使其能够包含类别标签或回归
响应中的绝大部分信息
。Li
等
(2010)
率先提出了一种维数折叠的思想
,
并进一步提出了
Folded-
SIR,Folded-SAVE
等方法
,
可以对矩阵或数组形式的自变量进行多方向降维
;
但这些方法在处理高
阶张量时
,
存在计算效率较低的问题
。Ding
和
Cook(2015)
把传统的
SIR
方法拓展到一般的
m
阶
·116·
统计研究
2021
年
2
月
张量预测变量中
,
得到了一种高阶张量的充分降维方法
。Zhong
等
(2015)
进一步探寻更小的降维
SIR
等方法更简练的降维结通过假定投影向量的
m
阶可分解结构
,
得到了比上述
Folded-
子空间
,
构
。
但是
Zhong
等
(2015)
在求解投影方向时
,
仅针对二阶张量
(
矩阵
)
形式的数据提出了序列迭代
算法
,
并没有对算法和相关估计量的理论性质进行证明
。
因此
,
本文在
Zhong
等
(2015)
的研究基础上
,
对高阶张量充分降维的迭代算法进行了研究
,
主
要针对在实际应用中最广泛的三阶张量数据
,
提出两种不同的降维算法
:
张量结构转换算法和张量
结构保持算法
。
首先在理论上证明了算法的收敛性和一定条件下输出的投影向量的相合性
,
补充
——
人了目前已有的部分文献在理论方面的研究欠缺
;
继而将其应用于当前模式识别的研究热点
—
means
聚类方法
、t-SNE
非线性降维方法
、
脸彩色图像的识别问题
;
并将分类结果与
K-
多维主成分
分析
、
多维判别分析和张量切片逆回归共五种方法进行对比
,
通过二维和三维散点图的形式进行了
展现了本文方法的实际应用价值
。
直观的可视化比较
,
文章内容的结构安排如下
:
第二节介绍了张量充分降维模型
;
第三节在充分降维框架下
,
提出
了基于三阶张量的序列迭代算法
:
张量结构转换算法和张量结构保持算法
;
第四节以
GeorgiaTech
人脸数据为样本
,
对算法的分类性能进行了检验
,
并比较了转换算法和保持算法的差异
;
最后将结
构保持算法与文献中已有的其他降维方法进行对比讨论
,
发现使用本文提出的张量充分降维方法
进行人脸识别效果突出
,
在实际数据分析中具有良好的实证表现
。
二
、
张量充分降维模型
(
一
)
充分降维方法
(SDR)
X
=
(x
1
,…,x
p
)
T
∈瓗
p
为预测变量
,cov(X)
=
X
。
假设
Y
∈瓗为响应变量
,
满足
E(X)
=
0,
Li(1991)
提出了充分降维模型
,Chen
和
Li(1998)、Cook
等
(2004)、
对于变量维数
p
非常大的情况
,
Zhong
等
(2012)
对此模型进行了不断的丰富和发展
。
模型形式如下
:
TT
Y
=
f(
β
1
X,…,
β
K
X,
ε
)(1)
…,
上的未知连接函数
,
β
1
,
β
K
是
p
维向量
,
ε是与
X
独立的随机误差项
。f(·)
是定义在瓗其中
,
K
+
1
p
维变量
X
被投影到由β
1
,…,…,
当模型
(1)
成立时
,
β
K
张成的
K
维子空间
S
=
span{
β
1
,
β
K
}
中
。
该
子空间包含了
Y
的全部信息
,
即
Y
⊥
X|P
S
X(2)
P(·)
是基于标准内积的投影算子
,S
是预测变量空间的子空间
,“
⊥
”。
其中
,
代表
“
相互独立
”
SDR
模型假设
Y
和
X
在给定
P
S
X
的条件下是相互独立的
,
这意味着高维预测变量可以投影到低维
子空间而不会丢失信息
。
…,
未知系数向量β
1
,
β
K
被称为
SDR
方向
,
由这些方向张成的空间称为
SDR
子空间
。SDR
方
…,
法意味着
X
中包含的所有关于
Y
的信息都含在了
K
个投影β
1
X,
β
K
X
中
。
目前已有很多降维方法可以用来估计
SDR
方向
,
例如切片逆回归
(SlicedInverseRegression)、
切片平均方差估计
(SlicedAverageVarianceEstimation)、
主海森方向
(PrincipalHessianDirection)
等
。
其中
Li(1991)
提出的切片逆回归
(SIR)
凭借其良好的性质成为目前广泛使用的降维方法
。
p
Li(1991)
证明了当自变量向量满足线性设计条件
,
c
1
,…,c
K
,
即对任意的
b
∈
瓗
,
存在常数
c
0
,
TTTTT
…,
使得
E(b
X|
β
1
X,
β
K
X)
=
c
0
+
c
1
β
1
X
+
…
+
c
K
β
K
X
时
,
中心化的逆回归曲线
E(X|Y)
-
E(X)
包
TT
…,K)
张成的线性子空间中
。
因此
,…,
含在由Σ
X
β
k
(k
=
1,
对
SDR
方向β
1
,
β
K
的估计可以转化为以
下的特征值分解问题
:
第
38
卷第
2
期马少沛等
:
大数据下张量充分降维方法及其应用研究
·117·
{
Σ
X|Y
u
i
=
λ
i
Σ
X
u
i
u
T
i
=
1,…,p
i
Σ
X
u
i
=
1,
λ
1
≥λ
2
≥
…
≥λ
p
-
1
E(X|Y)]。
与Σ
X
…,K)
即其中
,
Σ
X|Y
=
cov[
Σ
X|Y
的前
K
个最大特征值对应的特征向量
u
k
(k
=
1,
为待求的充分降维方向
,
将其称为
SIR
方向
。
实质上
,
切片逆回归与以下寻找最优投影方向的方法具有等价性
:
即
SIR
方向实际上就是使得
因变量与投影自变量之间的线性相关程度达到最大的投影方向
。
2
…,
从变量转换和投影追踪的角度出发
,
寻找
SDR
方向β
1
,
β
K
也可以通过对
P(
η
)
进行最大
化得到
:
T
P
2
(
η
)
=
max
corr
2
(T(Y),
η
X)
T
(3)
p
T(Y)
代表对因变量
Y
进行的某种变换
,corr(·,·)
计算两个变量间的相关其中
,
投影方向η∈
瓗
,
T
P
2
(
η
)
旨在寻找某种变换形式
T,
系数
。
使得变换后的因变量
T(Y)
与投影变量η
X
之间的相关系
T2
此时
P
(
η
)
有以下数平方达到最大值
。Chen
和
Li(1998)
证明了最优变换为
T(Y)
=
E(
η
X|Y),
解析形式
:
T
ηΣ
X|Y
η
E(X|Y)]
η
cov[
η
P
(
η
)
=
TT
ηΣ
X
ηη
cov(X)
η
2
T
(4)
p2
因此
,
求得的第一投影方向η
1
∈
瓗
,
使得
P(
η
1
)
达到最大
;
之后
,
在与η
1
正交的方向上
,
寻找
p2
…,
η
2
∈
瓗
,
使得
P(
η
2
)
达到次大
;
以此类推
,
重复以上过程
,
直至找到一组相互正交的基向量η
1
,
η
K
,
从而张成
K
维的
SDR
子空间
。
-
1
…,K)
刚好是对应Σ
X
由上述分析可知
,
η
k
(k
=
1,
Σ
X|Y
的第
k
个最大特征值的特征向量
。
因
此
,
切片逆回归方法和上述相关系数最大化方法得到的充分降维方向是完全一致的
,
且有特征根
2
k
=
1,…,K。
关于Σ
X|Y
的计算
,Li(1991)
用切片的思想构造了Σ
X|Y
的加权样本协方差
λ
k
=
P
(
η
k
),
矩阵估计
。
(
二
)
张量充分降维
(TSDR)
当观测到的自变量是二阶或更高阶的张量时
,
本文需要考虑将传统的充分降维方法推广到张
量型的预测变量
。TSDR
模型假设响应变量依赖于一些张量的低维投影
,
但连接函数的形式未知
。
Zhong
等
(2015)
通过假设投影方向满足某种张量结构
,
大大减少了参数个数
,
能够重建一个包含预
测变量重要回归信息的低维子空间
。
假设
X
∈
瓗
p
1
×
…
×
p
m
vec(X)
表示向量化的
X。
设γ
j
=
β
(
j
1)
…
β
(
j
m)
是向量是一个
m
阶张量
,
(1)(m)(i)
pp
×
…
×
p
m
…,
β
j
,
β
j
的
Kronecker
乘积
,
其中β
j
∈
瓗
i
。
给定张量预测变量
X
∈
瓗
1
和响应变量
Y
∈
瓗
,
TSDR
模型的形式如下
:
TT
Y
=
f(
γ
1
vec(X),…,
γ
K
vec(X),
ε
)(5)
f(·)
为未知函数
,j
=
1,…,K
为回归指标
,
其中
,
γ
j
,
ε为与
vec(X)
独立的随机误差项
。
TT
TSDR
模型假设在给定
(
γ
1
vec(X),…,Y
与
vec(X)
是相互独立的
。
因此
,
γ
K
vec(X))
的情况下
,
为了保持张量结构和模型
(5)
中指标的可解释性
,
现引入可分解张量的概念
。
称向量γ∈
瓗
瓗
p
m
p
1
…
p
i
=
1,…,m。
记
R
是是
m
阶
-
可分解的
,
如果它能写成ν
1
…
ν
m
的形式
,
其中ν
i
∈
瓗
i
,
p
m
瓗
p
1
…
瓗
中所有可分解向量的集合
。
回顾
Li(1991)
定理
3.1
可知
,
经典的切片逆回归方法要求自变量向量
X
的分布满足一定的线
·118·
统计研究
2021
年
2
月
…,
性设计条件
。
因此
,
当把张量
X
向量化为
vec(X)
后
,
为了估计投影方向γ
1
,
γ
K
,
同样需要考虑
vec(X)
的分布条件
。
记
cov(vec(X))
=
Σ
vec(X)
Σ
v
,…,
Γ
=
(
γ
1
,
γ
K
)。
受到
Li
等
(2010a)
的启发
,
TT
本文发现只要
vec(X)
的分布仍然满足线性条件
,
即
E(vec(X)|
Γ
vec(X))
是Γ
vec(X)
的线性
…,K)
张成的组合
,
则中心化的逆回归曲线
E(vec(X)|Y)
-
E(vec(X))
将包含在由Σ
v
γ
k
(k
=
1,
…,
线性子空间中
。
根据
Li(2018),
相对于协方差矩阵Σ
v
,
到中心子空间
S
Y|vec(X)
=
span{
γ
1
,
γ
K
}
的
T
投影矩阵定义为
P
Γ
(
Σ
v
)
=
Γ
(
ΓΣ
v
Γ
)
-
1
ΓΣ
v
。
则有以下引理成立
:
T
T
引理
:
假设Γ
Σ
v
Γ是正定的
,
当
vec(X)
的分布满足线性假设条件时
,
有
E[vec(X)
-
E(vec(X))|
Γ
T
vec(X)]
=
P
T
vec(X)
-
E(vec(X))]
Γ
(
Σ
v
)[
下面将从与
Li(1991)
定理
3.1
不同的角度出发
,
对
vec(X)
在满足线性设计条件下的性质进
行证明
。
证明
:
不失一般性
,
假设
E(vec(X))
=
0。
则有
E(vec(X)|Y)
=
E[E(vec(X)|
Γ
T
vec(X),Y)|Y]
=
E[E(vec(X)|
Γ
T
vec(X))|Y]
=
E[P
T
]
Γ
(
Σ
v
)vec(X)|Y
=
P
T
vec(X)|Y]
Γ
(
Σ
v
)E[
T
其中
,
第二个等式成立是因为
Y
⊥
vec(X)|
Γ
vec(X);
第三个等式根据线性假设条件和上述引理
-
1
-
1T
vec(X)|
即可得出
。
因为
P
Γ
(
Σ
v
)
=
Σ
v
P
Γ
(
Σ
v
)
Σ
v
,
所以第四个等式右边可以写成Σ
v
P
Γ
(
Σ
v
)
Σ
v
E[
Y]
的形式
,
因此有
:
E[vec(X)|Y]
=
Σ
v
P
Γ
(
Σ
v
)
Σ
v
-
1
E[vec(X)|Y]
-
1
vec(X)|Y]
∈
span{P
Γ
(
Σ
v
)}
=
S
Y|vec(X)
。
当
E(vec(X))
≠
0
时
,
所以可得
,
Σ
v
E[
只需将中心化后
的逆回归曲线代入上述过程即可得证
。
证毕
。
因此
,
当
vec(X)
的分布满足线性设计条件时
,
从相关系数最大化的角度可以得到式
(3)
的推
广形式
:
T
P
2
(
η
)
=
max
corr
2
(T(Y),
η
vec(X))
T
P
2
(
η
)
有以下其中
,
对应的投影向量η∈
R。
与式
(4)
类似
,
根据
Chen
和
Li(1998)
的证明过程
,
等价的表示形式
:
T
E(vec(X)|Y)]
η
cov[
η
P
(
η
)
=
T
η
cov(vec(X))
η
2
2
通过对
P(
η
)
最大化可以得到第一投影方向
(
充分降维方向
)
γ
1
为
:
2
γ
1
=
argmaxP
(
η
)
η∈
R
(6)
…,K
-
1)
以后
,
为了求解出全部的充分降维方向
,
在得到γ
j
(j
=
1,
需要在与γ
j
正交的方向上
2
由张量展开得到的继续寻找γ
j
+
1
使得
P(
γ
j
+
1
)
达到次大
。
式
(6)
与式
(4)
最大的不同之处在于
,
vec(X)
通常有较高的维数
,
不能通过简单的谱分解技术直接计算
。
Zhong
等
(2015)
提出了一种迭代算法来寻找充分降维方向针对二阶张量
(m
=
2)
的情况
,
γ
j
。
假设
X
∈
瓗
β
1
(2)
T
p
2
×
p
1
(1)(2)
T
,vec(X)
是
X
的向量化
,
对于任意的η
=
β
1
β
1
∈
R
,
有η
vec(X)
=
(1)(i)
p
(1)(2)
X
β
1
,i
=
1,2。
因此
,
其中β
1
∈
瓗
i
,
式
(6)
的最大化等价于最大化关于β
1
,
β
1
的下式
:
P
(
β
2
(1)
1
,
β
(2)
1
)
=
(2)
T
(1)
cov[E(
β
1
X
β
1
|Y)]
(2)
T
(1)
cov(
β
1
X
β
1
)
(7)
为了求解式
(7),
采用下面的迭代算法
:
第
38
卷第
2
期马少沛等
:
大数据下张量充分降维方法及其应用研究
·119·
表
1
二阶张量充分降维的序列迭代算法
二阶张量的序列迭代算法
y
(i)
)
i
=
1,
y
(i)
∈
瓗
。
已知样本
(X
(i)
,
其中
X
(i)
∈
瓗
p
2
×
p
1
,
…,n
,
(2)
1.
设定β
1
的初值
。
(2)(2)(2)
2.
对给定的β
1
,),cov[E(X
T
β
1
|Y)]
的样本估计值
。
计算
cov(X
T
β
1
p
1
2
3.
关于ξ
1
∈
瓗
,
对
P
1
(
ξ
1
)
进行最大化
,
其中
T
^
T
(2)
ξ
1
cov
[E(X
β
1
|Y)]
ξ
1
=
P
2
()
ξ
11
T
^
(2)
cov
(X
T
β
1
)
ξ
1
ξ
1
(1)
2
(1)(1)
4.
令β
1
=
argmaxP
1
(
ξ
1
),),cov[E(X
β
1
|Y)]
的样本估计值
。
计算
cov(X
β
1
ξ
1
5.
关于ξ
2
∈
瓗
p
2
,
对
P
2
其中
2
(
ξ
2
)
进行最大化
,
T
^
(1)
E(X
β
1
|Y)]
ξ
2
ξ
2
cov
[
P
2
2
(
ξ
2
)
=
T
^
(1)
cov
(X
β
1
)
ξ
2
ξ
2
(2)
2
6.
令β
1
=
argmaxP
2
(
ξ
2
)。
重复步骤
2~6,
直至算法收敛
。
ξ
2
在上述算法中
,
对协方差矩阵的估计以及最大化问题的求解均是基于切片逆回归的思想
。
通
22
(1)(2)
不断更新β
1
和β
1
直至收敛
,
最终获得第一投影方向γ
1
=
过对
P
1
(
ξ
1
)
和
P
2
(
ξ
2
)
的迭代最大化
,
(1)(2)
222
β
1
β
1
。
由于
P
1
(
ξ
)
和
P
2
(
ξ
)
均以
1
为上界
,
且迭代最大化方法确保了在循环过程中
P(
η
)
的
非减性
,
从而使算法的收敛性得到保证
。
三
、
推广的
TSDR
算法
Zhong
等
(2015)
针对二阶张量提出的迭代算法
,
在上一节中
,
可以对矩阵形式的数据结构进行
投影分析
。
在实际应用中
,
三阶及以上的张量结构往往更加普遍且受到更多关注
,
但由于其具有更
高的阶数和复杂度
,
不能直接利用
Zhong
等
(2015)
的算法求解
;
因此本节对二阶张量的迭代算法
使其能够适用于三阶张量的降维过程
。
进行了两种形式的推广
,
(
一
)
结构转换算法
假设
X
∈
瓗
p
1
×
p
2
×
p
3
是一个三阶张量
,
则
X
可以看作是由
p
3
个
p
1
×
p
2
维的矩阵
X
i
依次排列得到
p
1
×
p
2
p
,i
=
1,…,p
3
。
其中
,X
i,
瓗
1
为矩阵
X
i
的第
j
列
,
j
∈
…,X
i,
的
。
为方便表达
,
记矩阵
X
i
=
(X
i,1
,
p
2
)
j
=
1,…,p
2
,
具体来说
,
即为
:
X
1
=
(X
1,
X
1,
…,X
1,1
,
2
,
p
2
)
X
2
=
(X
2,
X
2,
…,X
2,1
,
2
,
p
2
)
X
p
3
=
(X
p
3
,
X
p
3
,
…,X
p
3
,1
,
2
,
p
2
)
p
1
×
p
2
p
1
×
p
2
p
1
×
p
2
vec(X
i
)
和
vec(X)
分别是
X
i
和
X
的向量化表示
,
故有
:
1
X
i,
X
i,2
,
vec(X
i
)
=
i
=
1,…,p
3
X
p
2
i,
vec(X
1
)
vec(X
2
)
vec(X)
=
vec(X
)
p
3
·120·
统计研究
2021
年
2
月
vec(X
i
)
是
p
1
×
p
2
维的列向量
,vec(X)
是
p
1
×
p
2
×
p
3
维的列向量
。
其中
,
为使以上的三阶张量结构
X
适用于
Zhong
等
(2015)
提出的迭代算法
,
本节依据张量
X
的结
构
,
构造了新的
p
1
p
2
×
p
3
维的矩阵
X:
X
=
(vec(X
1
),vec(X
2
),…,vec(X
p
3
))
1
X
1,
2
X
1,
=
X
p
2
1,
p
1
p
2
×
p
3
X
2,1
X
2,2
X
2,p
2
…
…
…
X
p
3
,1
X
p
3
,2
X
p
3
,p
2
则有
vec(X)
=
vec(X)。
(3)(2)(1)(i)
p
i
=
1,2,3。
则容易得出
,
设η
=
β
1
β
1
β
1
,
其中β
1
∈
瓗
i
,
有以下等式成立
:
T
(3)(2)(1)
T
η
vec(X)
=
(
β
1
β
1
β
1
)
·vec(X)
(3)(12)
T
=
(
β
1
β
1
)
·vec(X)
(3)(12)
T
=
(
β
1
β
1
)
·vec(X)
(12)
T
(3)
=
β
1
X
β
1
其中
,
β
1
(12)(2)(1)
=
β
1
β
1
。
(12)(3)
因此
,
对于三阶张量
X,
最大化式
(6)
等价于关于β
1
和β
1
,
最大化下式
:
(12)
T
(3)
cov[E(
β
1
X
β
1
|Y)]
P
(
β
2
(12)
1
,
β
(3)
1
)
=
cov(
β
(12)
T
1
X
β
(3)
1
)
(8)
(12)(3)(3)(12)
利用第二节中的迭代算法
,
即可求解出β
1
和β
1
。
本文寻找的第一投影方向γ
1
=
β
1
β
1
。
以上过程对张量结构进行了变换
,
通过对
X
分块拉伸
,
使其转化为二阶张量
,
因此即使对于三
阶张量的降维问题
,
该方法也只需要进行两个方向的迭代计算
。
在张量维数较小时具有计算简便
的特点
,
但由于其仍在一定程度上造成了矩阵维度扩张
,
因此本文提出了进一步的改进方法
。
(
二
)
结构保持算法
为避免矩阵拉伸带来的信息损失问题
,
本小节将基于张量的原有结构对投影方向γ进行迭代
求解
。
设
X
∈
瓗
p
1
×
p
2
×
p
3
p
,b
∈
瓗
p
2
,a
∈
瓗
p
1
。
由上一小节的结论可知
:
γ
=
c
b
a,
其中
c
∈
瓗
3
,
TT
γ
vec(X)
=
(b
a)X·c
=
((b
a)
T
vec(X
1
),…,(b
a)
T
vec(X
p
3
))·c
=
(a
T
X
1
b,…,a
T
X
p
3
b)·c
≡
:
δ
c
T
…,a
T
X
p
3
b)。
其中
,
行向量δ
=
(aX
1
b,
…,c
p
3
)
T
,
假设
c
=
(c
1
,
则同时有下式成立
:
TTTT
γ
vec(X)
=
c
1
aX
1
b
+
c
2
aX
2
b
+
…
+
c
p
3
aX
p
3
b
=
a
T
(c
1
X
1
+
c
2
X
2
+
…
+
c
p
3
X
p
3
)b
T
≡
:aMb
其中
,
矩阵
M
=
c
1
X
1
+
c
2
X
2
+
…
+
c
p
3
X
p
3
。
b
和
c,
因此
,
对于三阶张量
X,
对式
(6)
的最大化即为关于
a、
最大化下式
:
第
38
卷第
2
期马少沛等
:
大数据下张量充分降维方法及其应用研究
·121·
cov[E(
γ
T
vec(X)|Y)]
P
(a,b,c)
=
cov(
γ
T
vec(X))
2
=
cov[E(
δ
c|Y)]
cov(
δ
c)
(9)
cov[E(a
T
Mb|Y)]
=
cov(a
T
Mb)
为了求解式
(9),
针对三阶张量
,
本节提出的序列迭代算法见表
2。
表
2
三阶张量的序列迭代算法
三阶张量的序列迭代算法
1.
分别设定向量
a
和
b
的初值为
a
(0)
和
b
(0)
。
2.
计算对应δ
(0)
的值以及
cov(
δ
T
cov[E(
δ
T
)]
的样本估计值
。
(0)
),
(0)
|Y
p
3
3.
关于ξ
3
∈
瓗
,
求解最优向量
c
(0)
,
使其满足
T
^
cov
[E(
δ
T
)]
ξ
3
ξ
3
(0)
|Y
=
c
(0)
argmax
(10)
T
^
ξ
3
cov
(
δ
T
ξ
3
(0)
)
ξ
3
4.
根据
a
(0)
和
c
(0)
的值
,cov[E(M
T
)]
的样本估计值
。
计算对应
M
(0)
的值以及
cov(M
T
(0)
a
(0)
),
(0)
a
(0)
|Y
p
2
5.
关于ξ
2
∈
瓗
,
求解最优向量
b
(1)
,
使其满足
T
^
cov
[E(M
T
)]
ξ
2
ξ
2
(0)
a
(0)
|Y
=
b
(1)
argmax
(11)
T
^
ξ
2
cov
(M
T
ξ
2
(0)
a
(0)
)
ξ
2
6.
根据
c
(0)
和更新后的
b
(1)
,cov[E(M
(0)
b
(1)
|Y)]
的样本估计值
。
计算
cov(M
(0)
b
(1)
),
p
1
7.
关于ξ
1
∈
瓗
,
求解最优向量
a
(1)
,
使其满足
T
^
cov
[E(M
(0)
b
(1)
|Y)]
ξ
1
ξ
1
a
(1)
=
argmax
(12)
T
^
ξ
1
cov
(M
(0)
b
(1)
)
ξ
1
ξ
1
8.
根据更新后的
a
(1)
和
b
(1)
,cov[E(
δ
T
)]
的样本估计值
。
计算δ
(1)
的值以及
cov(
δ
T
(1)
),
(1)
|Y
p
3
9.
关于ξ
3
∈
瓗
,
求解最优向量
c
(1)
,
使其满足
T
^
cov
[E(
δ
T
)]
ξ
3
ξ
3
(1)
|Y
c
(1)
=
argmax
(13)
T
^
ξ
3
cov
(
δ
T
)
ξ
3
ξ
(1)
3
2
10.
计算
P
(a
(1)
,b
(1)
,c
(1)
),
b
(1)
和
c
(1)
分别更新
a
(0)
、b
(0)
和
c
(0)
的值
。
重复步骤
4~10,
并用新向量
a
(1)
、
不断更新迭代
,
直至
算法收敛
。
5、7
和
9
中
,
值得注意的是
,
在算法的步骤
3、
对最大化问题的求解与式
(4)
的处理方法类似
,
b
(1)
和
c
(1)
只需取为各自均是通过矩阵谱分解技术得到的
。
因此在每一次循环中
,
最优向量
a
(1)
、
最大特征值对应的特征向量即可
。
整个算法收敛性的证明见附件
①
。
对于算法收敛的向量所具备的估计性质
,
根据
Zhong
等
(2014)
的研究
,
在一定条件下
,
算法最
b
(1)
和
c
(1)
均是相合估计量
。
下面给出具体阐述和简要证明
。
终输出的结果
a
(1)
、
当给定
Y
时
,
假设
X
∈
瓗
p
1
×
p
2
×
p
3
为随机张量
,
并且
X
的每个元素都有有限的均值
、
方差和四阶
~
~
~~
b、c
为最大化式
(9)
的解
,c
(1)
为算法的输出结果
。
若算法中的
a
(0)
和
b
(0)
分别是
a
矩
。
记
a
、
~
P
~
n
-
相合估计
,
和
b
的
槡
则当
n
→
∞
时
,
有
c
(1)
→
c
成立
。
~~~
~
~
T
~
T
~
…,a
X
p
3
b
)。
因为
a
(0)
和
b
(0)
分别是
a
和
b
的
槡
n
-
相合估证明如下
:
记δ
=
(aX
1
b
,
~~
E(
δ
T
)]
=
cov[E(
δ
T
|Y)]
+
O(1/
槡
n)
和
计
,
所以δ
(0)
是δ的相合估计
,
由此可得
cov[
(0)
|Y
~
^
[
cov(
δ
T
cov(
δ
T
)
+
O(1
/
槡
n)。
同时由协方差阵的估计过程可知
,cov
E(
δ
T
)]
=
(0)
)
=
(0)
|Y
①
《
统计研究
》
因篇幅所限
,
迭代算法收敛性的证明以证明
1
展见
,
见网站所列附件
。
下同
。
·122·
统计研究
2021
年
2
月
^
(
T
)
=
cov(
T
)
+
O(1
/n)。
^
[
cov[E(
δ
T
)]
+
O(1/
槡
n)
以及
cov
E(
δ
T
)]
δ
(0)
δ
(0)
由此可得
cov
(0)
|Y
(0)
|Y
槡
~
^
(
T
)
=
cov(
~
T
)
+
O(1
/n)。
=
cov[E(
δ
T
|Y)]
+
O(1/
槡
n)
和
cov
δ
(0)
δ
进而有下式成立
:
槡
~
T
^
T
[E(
δ
T
)]E(
δ
T
|Y)]
ξ
3
cov
ξ
3
ξ
3
cov[
ξ
3
(0)
|Y
→
T
^
~
T
(
δ
T
ξ
3
cov
T
(0)
)
ξ
3
ξ
3
cov(
δ
)
ξ
3
1990)
可知
,
由矩阵对应特征向量的摄动理论
(Stewart
和
Sun,
算法输出的向量
c
(1)
依概率收敛
~
到真值
c
。
证毕
。
~
~
~~
a
(1)
和
b
(1)
将依概率收敛到真值
a
和
b
。
由前文可知
,
γ
=
c
同理可以证明在一定条件下
,
~
~
b
a
处在中心子空间中
,
所以算法输出的向量γ
1
=
c
1
b
1
a
1
能够依概率收敛于真实的充
分降维方向
。
通过上述算法可以得到充分降维的第一投影方向γ
1
=
c
1
b
1
a
1
。
当中心子空间的结构维
…,K)
进行估计
。
一般地
,
数
K>1
时
,
本文仍可以在该算法的框架下依次对γ
i
(i
=
2,
假设已知前
k
个充分降维方向Γ
k
=
(
γ
1
,…,…,K
-
1。
γ
k
),
接下来对γ
k
+
1
进行估计
k
=
1,
pp
首先
,
记Γ
k
张成的子空间为
S
k
。
从空间
瓗
1
瓗
2
瓗
p
3
到子空间
S
k
的投影矩阵为
P
k
=
Σ
vec(X)
Γ
k
(
Γ
k
Σ
vec(X)
Γ
k
)
1/2T
-
1T1/2
(k)
Γ
k
Σ
vec(X)
,
其中Σ
vec(X)
=
cov(vec(X))。
令
vec(X
)
为
vec(X)
在
S
k
的补
(k)
ppp
空间的投影
,
即
vec(X)
=
(I
-
P
k
)vec(X)。
记
R
k
为空间
瓗
3
瓗
2
瓗
1
中所有与
S
k
正交的可分
解张量的集合
。
则γ
k
+
1
满足下式
:
γ
k
+
1
T
E(vec(X
(k)
)|Y)]
η
cov[
η
=
argmax
T
η∈
R
k
vec(X
(k)
)]
η
cov[
η
因此γ
k
+
1
仍可以利用上述算法进行类似估计
。
循环以上过程
,
最终得到
K
个充分降维方向
。
对于结构维数
K
的确定
,
当没有足够的先验信息时
,
可以利用
Li(1991)
提出的卡方检验方法来
决定
。
四
、
实证研究
(
一
)
数据来源及介绍
图像是人类活动中最常用的信息载体
,
可依据
RGB
原理转化为典型的三阶张量数据
。
本文的
数据来自
GeorgiaTechfacedatabase(
以下简称
GT
数据库
),
该开源数据集可以从网站
http://www.
anefian.com/research/face
r
eco.htm
获取
。GT
数据库包含
50
位志愿者
,
每人
15
张不同角度
、
不同表
情的正面彩色照片
,
图片像素为
640
×
480。
该数据集的特点是图像的背景杂乱
,
识别难度相对较大
,
是人脸识别领域常用的样本集
。
本文
从
GT
数据库中随机抽取
12
个人
,
每个人选取
14
张照片作为样本集
,
并将其均分为训练集与测试
集
,
故每个集合均有
84
张照片
。
为方便分析
,
首先将图片进行排序和标号
。
对于每一个集合
(
训练集或者测试集
),
第一个人
“1,2,…,7”,79,…,84”。
考虑到原始图的七张图片分别标号为依次类推
,
最后一个人标号为
“78,
片存在信息冗余问题
,
在预处理阶段先将所有图片的像素压缩为
64
×
64
大小
,
只保留主要特征
,
便
于统计分析
。
处理后的部分人像彩图见附件
①
。
①
因篇幅所限
,
人像彩图以附图
1
展示
。
第
38
卷第
2
期马少沛等
:
大数据下张量充分降维方法及其应用研究
·123·
借助
R
软件将人像图片转换为三阶张量数据
。
由色度分解的
RGB
原理可知
,
每张彩色图片
j,k),i,j
=
1,…,64,k
=
1,2,3。
因此共得到
168
个张量
,
均对应一个
64
×
64
×
3
的三阶张量
X(i,
每
属于典型的高维问题
。
个张量中含有
12288
个参数
,
(
二
)
描述性统计分析
“
泼墨效应
”,
为了避免样本量过大带来的从每个人的
14
张照片中随机抽取
7
张
,
总共选取
84
张图片
,
借助调和曲线图和平行坐标图对人像彩图所对应的高维变量进行初步描述性分析
。
1.
调和曲线图
。
调和曲线图的基本思想是将高维空间中的一个样本对应到二维平面的一条曲线
,
是展现多元
数据统计特性的有效方法
。
当
X
是高维变量时
,
排在后面的分量对曲线形状贡献极少
,
其重要程度也会被掩盖
。
因此
,
本
将第
i
张图片对应的张量
X
(i)
内的每一个矩阵文进行两步预处理操作
:
首先将张量
X
分片处理
,
X
(i)
(j)
按列展成一个
64
×
3
维的向量ξ
j
,…,84,j
=
1,…,64。
每个ξ
j
都包含
192
个变量
,
其中
i
=
1,
代表图片第
j
列像素点的颜色特征
,
然后对ξ
j
使用主成分分析
,
利用提取的主成分和相应的成分排
序来绘制调和曲线图
。
图
1
展示了
84
张图片第
10
列
、
第
30
列和第
50
列像素变量对应的调和曲线图
,
其中不同色度
和线型代表来自不同的人
。
由曲线的走势可以直观看到同一个人的照片曲线具有聚集现象
。
其
(a)
中第
4、6、8
个人对应的曲线变化幅度较图
1(a)
和
(c)
中调和曲线的特征表现较为明显
,
中
,
(c)
中第
1、2、12
个人对应的曲线也与其他曲线明显分离
,
大
,
说明变量ξ
10
和ξ
50
的主成分分别抓
取到了对应人群的重要特征
。
但另一方面
,
图
1(b)
中的各条曲线相对较为分散
,
没有明显的集群
因此无法从图线中发掘到有效的分类信息
,
说明变量ξ
30
的主成分在同一个人的不同照片之效应
,
不能对分类起到主要影响
。
间具有较大方差
,
图
1
调和曲线图
2.
平行坐标图
。
平行坐标图将高维空间中的点表示为一条拐点在
p
条平行坐标轴的折线
,
能直观展示数据的
趋势特征
。
图
2
分别展示了
84
张图片第
20
列
、
第
40
列和第
60
列像素变量的
5
个主成分对应的平行坐标
5、10
个人对应的线条呈现相近图
,
其中不同色度的折线代表不同的人
。
由图
2(a)
可以明显看出第
1、
“M”
形走势
,
说明变量ξ
20
的主成分在这三人身上具有相似的特征
,
且能与其他人有明显区别
。
图
2
的
(b)
中的各条折线分布较为混乱
,
说明变量ξ
40
的主成分上不存在重要的分类特征
。
与此形成对比
,
图
2(c)
中的各条折线走势明晰
,
同一类线条有明显的集中趋势
,
说明ξ
60
的主成分变量刻画出了不同人
使其类间方差较大
,
而类内方差较小
,
对图像的分类识别有重要作用
。
像的主要特征
,
·124·
统计研究
2021
年
2
月
图
2
平行坐标图
(
三
)
结果分析
在张量充分降维模型下
,
分别应用本文提出的结构转换算法和结构保持算法
,
对
GT
人脸数据
集进行分类识别
。
首先利用训练集和已知的分类信息求解出有效的投影方向
,
然后将测试集样本
达到充分降维的目的
。
为了检验算法对人脸数据的分类对应的三阶张量数据投影到低维子空间
,
效果
,
同时实现结果的可视化
,
本文分别将训练集和测试集样本的投影结果以二维和三维散点图的
形式进行直观的展示
。
1.
结构转换算法
。
结构转换算法将三阶张量转换为二阶张量进行计算
,
若选取像素为
64
×
64
的图像
,
则得到
64
×
64
×
3
的三阶张量数据
,
将第二和第三个维度合并后
(64
×
3
=
192),
需要对维度为
64
×
192
的矩阵进
行处理
,
计算量较大且可能出现矩阵不可逆现象
。
由于图片的相邻像素点具有一定的相似性
,
故可
合并三阶张量数据的后两个维度
,
即对
16
×
48
的矩阵进行训练
,
得到先将图片像素压缩为
16
×
16,
最优的投影方向
。
图
3
分别展示了将原始张量数据投影到一维与二维空间的效果
。
图中横轴和纵轴分别表示图
Dim2)。
为方便识别
,
本文用灰度和序号对图中的点进行标识
,
右侧图例片序号和投影坐标
(Dim1、
则说明算法得到的投影方向保留了为
12
个人的序号及其对应颜色
。
若同色点有明显的聚集效应
,
从而能够对相应个体进行正确识别
。
有效的分类信息
,
图
3
结构转换算法
16
×
16
训练集一维
、
二维投影效果图
从图
3
中可以发现
,
投影到一维时
,
不同人的坐标之间存在比较接近的情况
,
无法实现对
12
个
人的完全分类
。
当投影到二维平面时
,
同色点有较明显的聚集效应
,
基本上可以完成聚类
,
但是仍
7、9、10
个人不能很好地区分
。
存在相似类别无法精确识别的问题
,
如第
5、
为进一步检验结构转换算法的效果
,
利用投影向量对测试集样本进行识别
,
结果如图
4
所示
。
第
38
卷第
2
期马少沛等
:
大数据下张量充分降维方法及其应用研究
·125·
结果显示
,
测试集的分类效果与训练集较为接近
,
并且测试样本点在二维图中的分布区域与训练集
基本保持一致
,
因此可以利用训练集已知的分类信息对测试集样本进行识别
,
但由于训练集的分类
导致无法对测试集样本做到更加有效的分类
。
效果不够理想
,
图
4
结构转换算法
16
×
16
测试集一维
、
二维投影效果图
2.
结构保持算法
。
采用结构保持算法对像素为
16
×
16
的图像进行处理
,
即直接对
16
×
16
×
3
的三阶张量数据进行
训练
。
图
5
展示了训练集样本的一维和二维投影效果
。
可以发现
,
在一维投影下大致可以分为五
2
个人一类
,7、8
个人为一类
,
即第
1、
第
4、
第
9
个人一类
,
第
10
个人一类
,
其余人为一类
。
当投类
,
影到二维平面时
,
每个人的图像都高度集中在一个点上
,
可以实现对
12
个人的完全分类
,
且整体效
果非常好
。
图
5
结构保持算法
16
×
16
训练集一维
、
二维投影效果图
接下来
,
利用测试集样本对结构保持算法的性能进行测试
,
结果如图
6
所示
。
可以看出
,
测试
集结果表现出与训练集相同的特点
,
集聚现象仍然非常明显
,
且同一个人的图像分布位置与训练集
基本一致
,
除了第
10
张图片有轻微偏离外
,
其他样本点均可以正确分类
,
表明结构保持算法的降维
效果非常理想
。
从以上结果中可以看出
,
与结构转换算法相比
,
结构保持算法的分类性能有了明显的提升
,
样
本点分布更加密集
,
可以对不同的人脸图像进行精确识别
。
这表明
,
结构保持算法基本没有损失张
量结构信息
,
可以更加充分地利用图像有效特征
,
从而达到更好的识别效果
。
此外
,
从运行时间的角度来讲
,
结构保持算法因降维更充分
,
在计算复杂度和时间消耗上也体
222
结构转换算法的时间复杂度为
T
1
(n)
=
(2p
1
p
2
p
3
+
p
1
+
p
2
p
3
)n·k
1
+
现出了明显的优势
。
具体来说
,
222
C
1
,
而结构保持算法的时间复杂度为
T
2
(n)
=
(3p
1
p
2
p
3
+
p
1
p
2
+
p
2
p
3
+
p
1
p
3
+
p
1
+
p
2
+
p
3
)n·k
2
+
C
2
,
·126·
统计研究
2021
年
2
月
图
6
结构保持算法
16
×
16
测试集一维
、
二维投影效果图
p
1
、p
2
、p
3
分别为图像对应的三阶张量的维数
,n
为样本量
,k
1
,k
2
分别为对应算法的迭代次数
,
其中
,
C
1
,C
2
为仅与
p
1
、p
2
、p
3
有关
,
与样本量
n
无关的常数
。
在本节像素为
16
×
16
的图片数据下
,p
1
=
16,p
2
=
16,p
3
=
3,
T
2
(n)
=
3177n。
在
R
软件下分别运行转换算法和保持
计算可得
T
1
(n)
=
4096n,
算法
,
所需时间分别为
2.96s
和
1.75s。
因此可知
,
两种算法的复杂度均为线性时间阶
,
但结构保持
在计算方面更具优势
。
算法降低了矩阵维度
,
综合以上考虑
,
相比于结构转换算法
,
结构保持算法有更加良好的性能
,
故在下文中对结构保
持算法进行深入讨论
。
3.
结构保持算法的进一步研究
。
128
×
128
和结构保持算法可以实现更加充分的降维
,
因此本文将其分别应用到像素为
64
×
64、
256
×
256
的数据集中
,
以测试不同维度下算法的降维效果
。
结果表明
,
结构保持算法在三种情况下
都能实现正确分类
,
且识别效果非常相似
。
为节省篇幅
,
本节仅以像素为
64
×
64
的图片为例进行
即对
64
×
64
×
3
的三阶
RGB
张量数据进行降维
,
得到的一维与两维投影效果如图
7
所示
。
说明
,
图
7
结构保持算法
64
×
64
训练集一维
、
二维投影效果图
图
7(a)
结果表明
,
经过一维投影之后
,
样本中的个体有了初步分离
,
但有部分样本点的投影坐
标相距较近
,
故一维投影不能完全包含数据集中的代表性信息
。
进一步将样本投影至前两维
,
图
7
(b)
结果表明
,
二维投影可以使之前集聚的样本分散到不同的位置
,
从而使不同人的图像得到进一
步分离
。
为了获得更加全面的信息
,
本文尝试增加新的投影方向
,
绘制三维效果图
,
如图
8
所示
。
图
8
是不同观察角度下的三维投影图
,
不同的色度对应不同人的照片
。
可以看出
,
训练集中同
84
张图片被正确分为
12
类
,
且分类界限清晰
,
故训练集数据在一类样本点被投影到了相邻位置
,
经过结构保持算法的投影作用后
,
不仅维度明显降低
,
能够进行可视化操作
,
而且提取出了重要的
第
38
卷第
2
期马少沛等
:
大数据下张量充分降维方法及其应用研究
·127·
分类特征
,
达到了对人像彩图的识别目的
。
图
8
结构保持算法
64
×
64
训练集三维投影效果图
i
=
1,2,3,
为了求解
3
个投影方向γ
1
、
γ
2
、
γ
3
,
其中γ
i
=
c
i
b
i
a
i
,
整个算法需要进行
3
个循
53
次和
30
次
。
为了更深入地探究结构保持算法的收敛性能
,
环过程
,
分别迭代了
97
次
、
在空间中
图
9(a)
和
(b)
分别是第一次和第二次循环的过程绘制出三维向量
b
i
的迭代轨迹进行可视化展示
,
1,1)
是对
b
i
设定的初值
。
以图
9(a)
为例
,b
1
从初值图解
。
其中
,
点
(1,
可以看到在第一次迭代中
,
第二次经过小的跳动迭代至离最优解更近的范围内
,
接下来
b
1
向最优解逐迅速跃至最优解附近
,
最终满足精度
,
停止循环
。
整体来看
,
算法的收敛速度相对较快
,
尤其是在刚开始
,
会有向渐靠近
,
最优解大幅度跳跃的过程
。
图
9——
三维图示向量
b
i
的迭代过程
—
同前面的讨论类似
,
本文利用训练集得到的投影向量对测试集样本进行投影
,
分别得到一维和
二维的分类结果如图
10
所示
,
三维结果如图
11
所示
。
图
10
与图
11
结果表明
,
在一维投影下同类别图像已经初步表现出集聚现象
,
二维投影基本可
以实现对
12
个人的正确分类
,
各类别的确定可以通过对照训练集相应的投影分布得到
,
三维投影
下的聚类效果更加明显
,
可以从立体角度观察不同类别样本点的分布特征
,
在保留重要判别信息的
前提下实现充分降维
。
以上讨论均是基于散点图对人像识别结果进行定性分析
,
在此指出
,
当得到张量在低维子空间
的投影向量以后
,
可以进一步建立回归模型进行定量分析
。
例如
,
令
Y
代表样本点的实际类别
,
取
Z
=
(Z
1
,…,Z
d
)
T
代表张量投影后得到的低维向量
,
值为
1~12。
可以使用前两个投影方向
,
则令
d
=
·128·
统计研究
2021
年
2
月
图
10
结构保持算法
64
×
64
测试集一维
、
二维投影效果图
图
11
结构保持算法
64
×
64
测试集三维投影效果图
2。
由于因变量
Y
为无序多分类变量
,
因此可以考虑建立无序多分类
Logistic
回归模型
,
实现对测
试集样本更加简便而准确的分类
。
五
、
对比讨论
为了进一步衡量本文提出的结构保持算法的性能
,
本节将文献中已有的另外
5
种方法
:K-
t
-
分布式随机邻域嵌入方法
(t-SNE)、
means
方法
、
多维主成分分析方法
(MPCA)、
多维线性判别分
SIR),K-
析方法
(MDA)
和张量切片逆回归方法
(T-
分别应用于上述人像彩图的分类问题
。
其中
,
means
方法和
t-SNE
方法是以向量数据为基础
,
即先把张量数据按列拉伸成向量
,
再利用对应的方
MDA
和
T-SIR
方法均是直接对原始的张量数据进行多方向降维
,
是法进行降维和分类
;
而
MPCA、
张量处理的代表性方法
。
通过对不同方法得到的分类结果进行二维点图的可视化展示
,
讨论了不
直观展现出本文同方法的分类性能
;
并与上节中结构保持算法得到的结果
(
图
10(b))
进行对比
,
方法在该图像分类问题上的优势
。
(
一
)K-means
聚类方法
means
方法对像素为
64
×
64
的测试集图像进行分类
。
根据
k-means
算法的原本小节利用
k-
理
,
首先选择推荐聚类数目
k
=
10,
对测试样本进行聚类
,
并利用
R
软件的
“fviz_cluster”
函数进行
可视化展示
,
效果如图
12(a)
所示
。
k-means
方法将前两个人
(1~14
号
)
混为一类
,
图
12(a)
结果表明
,
将第
5
个人
(29~35
号
)
与
总体正确率为
66.7%,
分类效果不佳
。
第
12
个人
(78~84
号
)
混为一类
,
第
38
卷第
2
期马少沛等
:
大数据下张量充分降维方法及其应用研究
·129·
图
12k-means
聚类效果图
本文猜想该结果可能是由
k
取值偏小导致的
,
因此取
k
=
12
再次进行分类
,
效果如图
12(b)
所
k-means
方法的表现反而更加糟糕
:
虽然前两个人的图像得到分离
,
示
。
可以看到
,
当
k
=
12
时
,
但
第
2
个人的一张照片
(10
号
)
被单独聚为一类
,
并且混杂情况仍然存在
,
如第
4
个人
(22~28)
与第
7
个人
(43~49)
错分为一类
,
第
9
个人的图片
(57~63)
被拆分为两类等
。
可见即使将
k
取为正确的
k-means
方法并未如愿得到良好的分类结果
。k-means
算法的时间复杂度为
O(n),
分类数
,
整体运
k-means
方法的识别效果明显不行时间为
1.12s,
虽然时间较短
,
但与第四节的图
10(b)
比较可知
,
如本文提出的张量结构保持算法
。
(
二
)t-SNE)
分布式随机邻域嵌入方法
(t-
t-distributedstochasticneighborembedding)
是由
Laurensvander
分布式随机邻域嵌入方法
(t-
Maaten
和
GeoffreyHinton
提出的一种用于挖掘高维数据内在特征的非线性降维算法
,
适合将高维
数据降至低维进行可视化
,
因此受到广泛的认可和欢迎
。
t-SNE
方法基于在邻域图上随机游走的概率分布寻找数据内在结构
,
可以利用
R
语言的
“Rtsne”SNE
算法需要预先设置困惑度
(perplexity),
包实现
。
使用
t-
该参数表示一个点附近的有效
选择不同的困惑度
,
得到的分类结果如图
13
所示
。
近邻点个数
。
若将图像数据的维度降至
2
维
,
图
13
结果表明
,
当困惑度选择为
2
时效果极差
,
无法从图像中区分不同类别
。
当困惑度取为
4
和
6
时
,
可以较为准确地区别出
12
类人像
,
分类效果较好
。
但是当困惑度增大至
15
时
,
类内个
体趋于分离
,
部分类别间没有明显的界限
,
出现了混合交叉的现象
。
t-SNE
算法的问题在于设定相同的困惑度水平
,
可能会观察到不同的分类形状
,
图
14
展示了
SNE
图进行分析
,
将困惑度设为
15
时得到的不同运行结果
。
因此本文不能基于单个
t-
在评估之前
SNE
算法得到理想的分类必须对多个图像综合观测
,
从而导致时间的极大消耗
。
在本例中
,
利用
t-
效果需要进行多次参数调节
,
共用时
3.53s。
2
SNE
算法需计算成对的条件概率
,
同时
t-
训练速度非常慢
,
时间复杂度为
O(n)。
而且该算法
倾向于保留局部特征
,
无法做到将本征维数很高的数据集完整地映射到二维或三维空间
。
因此
,
同
样作为一种数据降维和可视化技术
,
保持张量原有结构的充分降维方法在人像图片的识别效果上
SNE
算法具有更强的稳健性
。
比
t-
(
三
)
多维主成分分析方法
(MPCA)
多维主成分分析方法
(MPCA)
是对
PCA
方法在张量数据中的推广
。
利用
Lu
等
(2008)
提出的
MPCA
方法对本文的图像数据进行降维时
,
d
2
,d
3
)。
为了观
需要事先指定降维子空间的维数
(d
1
,
d
2
=
2、d
3
=
1,
察
MPCA
方法的降维效果
,
首先令
d
1
=
2、
将原始的
64
×
64
×
3
的三阶张量数据降维至
2
×
2
的矩阵形式
,…、Dir4
共
4
个变量
。
借助散点图矩阵对降维结果进即每个样本点对应有
Dir1、
·130·
统计研究
2021
年
2
月
图
13t-SNE
方法在不同困惑度设置下的分类效果
(2dim)
图
14t-SNE
方法在困惑度为
15
时的不同结果
第
38
卷第
2
期马少沛等
:
大数据下张量充分降维方法及其应用研究
·131·
行展示
,
如图
15
所示
。
图
15MPCA
方法降至
4
维时的散点图矩阵
图中的同色点代表同一个人的不同照片
。
可以看出
,
基本上同色点都有一定程度的聚集现象
,
说明利用
MPCA
方法将张量降至
4
维时
,
能够保持原图像的大部分特征
。
为了实现进一步降维
,
d
2
=
2、d
3
=
1,
设置
d
1
=
1、
即利用
MPCA
方法将图像的三阶张量数据降至
2
维
,
画出散点图
,
如图
16(a)
所示
。
可以发现
,
此时有大量的样本点聚集在坐标右下角位置
,
不同类别的点集互相交叉叠
分类效果较差
,
说明使用
MPCA
方法直接得到的
2
维子空间不能刻画出样本的主要特征
。
合
,
图
16MPCA
方法的二维散点图
——
在通按照
Chen
等
(2014)
的思路
,
为了达到进一步降维的目的
,
尝试借助两阶段
PCA
方法
—
对
4
维向量再次进行主成分分析
,
选取解释能力最强过
MPCA
方法得到上述
2
×
2
的矩阵数据后
,
PC2)
作为样本点坐标
,
的前两个主成分
(PC1、
得到如图
16(b)
所示的结果
。
由于主成分中包含更
多的样本信息
,
因此分类效果明显好于左图
MPCA
直接降维的结果
。
但图
16(b)
中仍有部分类别
5,8,9
个人的样本点分离效果不太理想
。
例如在最右侧
,
第
3,
出现混合情况
,
(
四
)
多维线性判别分析方法
(MDA)
多维判别分析方法在卫星遥感
、
模式识别等领域有广泛的研究和应用
。
该方法能够在类别标
签的监督下
,
学习到能使类内样本尽可能接近的投影方向
,
但一般需要较多的训练样本才能得到良
好的分类效果
。
d
2
=
2、
利用
MDA
方法对本文的图像数据进行降维和判别分析
,
设定降维子空间的维数
d
1
=
2、
d
3
=
1,
将原始张量投影至四维子空间
,
得到如图
17
所示的散点图矩阵
。
在图
17
中
,
几乎所有的样本点都混杂在一起
,
不同类别之间没有明显的分界
,
即利用
MDA
方
法得到的
4
维投影向量无法对图片进行有效的判别分类
。
究其原因
,
可能是由于
MDA
方法对训练
·132·
统计研究
2021
年
2
月
图
17MDA
方法的散点图矩阵
样本量有一定要求
,
而本文的图像数据共分为
12
类
,
每类有
7
个样本点
,
容易产生小样本问题
,
从
d
2
,d
3
)
=
(1,2,
而致使
MDA
方法的表现效果较差
。
因此当进一步把降维子空间的维数设定为
(d
1
,
1)
或
(2,1,1)
时
,
均不能得到满意的分类结果
,
故此处省略其散点图示
。
(
五
)
张量切片逆回归方法
(T-SIR)
SIR
方法的改进
,
张量切片逆回归方法是维数折叠
Folded-
能够对高阶张量数据进行充分降维
,
i
=
1,…,m,
其中
m
为张量阶数
。
原始数据的中心张量子空间即为
span(B
m
得到降维矩阵
B
i
,
…
B
1
)。
将
T-SIR
方法应用至本文的图像数据
,
d
2
=
2、d
3
=
1,
首先设定子空间的维数
d
1
=
2、
可
画出散点图矩阵
,
如图
18
所示
。
以得到四维投影向量
,
图
18T-SIR
方法的散点图矩阵
T-SIR
方法的四维散点图矩阵分类效果明显好于
MDA
方法
,
图
18
结果表明
,
可以将大部分的
容易出现错分现同类样本点汇聚至一簇
;
但同时也存在个别不同类别的点集分布过于密集的情况
,
d
2
,d
3
)
=
(1,2,1)
和
(2,1,1),
象
。
进一步将降维子空间的维数设定为
(d
1
,
分别得到图
19(a)
和
(b)
的二维结果
。
图
19
结果表明
,
虽然同样是降至
2
维子空间
,
但不同的维度设置会显著影响样本的分类情况
。
d
2
,d
3
)
=
(1,2,1),
图
19(a)
中设置了
(d
1
,
得到的投影变量对不同类别的样本点区分度较低
,
有明
d
2
,d
3
)
=
(2,1,1),
分类效果明显好于左图
,
能够实现对大显的混杂现象
;
图
19(b)
中设置了
(d
1
,
多数样本的有效聚类
,
但在图
19(b)
的右上角也存在一定程度的样本点重叠现象
。
综合比较上述五种方法的分类效果
,
可以发现
,
一般而言
,
基于张量的降维方法能得到比经典
的向量降维方法更好的测算结果
。
但多维判别分析
(MDA)
方法由于受到样本量较小的限制
,
分类
第
38
卷第
2
期马少沛等
:
大数据下张量充分降维方法及其应用研究
·133·
图
19T-SIR
方法的二维散点图
SIR)
方法
。
其效果低于预期
,
表现较好的有多维主成分分析
(MPCA)
方法和张量切片逆回归
(T-
MPCA
方法需要借助两阶段
PCA
降维
,SIR
方中
,
才能得到有助于判别分析的二维投影子空间
;T-
d
2
,d
3
)
=
(2,1,1)
的维度设置下
,
才能实现相对优良的投影分类效果
;
一般情况下
,
法需要在
(d
1
,
上述两种方法都需要借助四维投影向量所建立的散点图矩阵进行综合分析和判断
。
相比之下
,
本
用低维坐标提取图像的主要特征
,
而且操作文的结构保持算法不仅能实现对张量数据的充分降维
,
简便
,
利用二维散点图即可得到较为满意的识别结果
。
六
、
总结
本文主要研究了基于大数据背景下张量的充分降维方法
,
将原有的二阶张量迭代算法推广至
提出结构转换算法和结构保持算法
。
这些算法均保留了张量数据的原始结构信息
,
因此在降高阶
,
维过程中能够提取更有效的特征
,
使投影结果更加准确
,
同时达到更高的计算效率
。
在实证研究
中
,
从
GT
数据库中选取人像彩图作为张量数据的来源
,
以人脸识别的分类效果作为判断张量降维
并利用散点图进行直观展示
,
发现方法是否有效的依据
。
分别应用结构转换算法和结构保持算法
,
具有一定的局限性
,
相比之下结构保持算法在各方面都具有更明显结构转换算法对数据要求较高
,
means
方法
、t-SNE
方法
、MPCA
方法
、MDA
方法本文将结构保持算法与已有的
K-
的优越性
。
最后
,
SIR
方法的降维结果进行了可视化比较
。
综合分析发现
,
和
T-
张量充分降维模型是解决高维问题
而本文提出的张量结构保持算法相比于其他方法具有明显优势
,
在图像识别及相关领的有效工具
,
域有广阔的发展前景
。
参考文献
[1]
陈道铨
,J].
统计与决策
,2010(4):8
-
10.
田茂再
.
分片逆回归中不同方法的比较研究
[
[2]
田茂再
.
大数据时代统计学重构研究中的几个热点问题
[J].
统计研究
,2015,32(5):3
-
12.
[3]ChenCH,LiKC.CanSIRBeasPopularasMultipleLinearRegression[J].StatSin,1998,8(2):289
-
316.
[4]ChenTL,HsiehDN,HungH,etal.
γ
-SUP:AClusteringAlgorithmforCryo-electronMicroscopyImagesofAsymmetricParticles
[J].TheAnnalsofAppliedStatistics,2014,8(1):259
-
285.
[5]ChengYH,HuangTM,HuangSY.TensorDecompositionforDimensionReduction[J].WileyInterdisciplinaryReviews:
ComputationalStatistics,2020,12(2):e1482.
[6]CookRD.TestingPredictorContributionsinSufficientDimensionReduction[J].TheAnnalsofStatistics,2004,32(3):1062
-
1092.
[7]DingS,CookRD.TensorSlicedInverseRegression[J].JournalofMultivariateAnalysis,2015,133:216
-
231.
[8]HungH,WuP,TuI,etal.OnMultilinearPrincipalComponentAnalysisofOrder-twoTensors[J].Biometrika,2012,99(3):569
-
583.
·134·
统计研究
2021
年
2
月
[9]LiB.SufficientDimensionReduction:MethodsandApplicationswithR[M].ChapmanandHall/CRC,2018.
[10]LiB,KimMK,AltmanN.OnDimensionFoldingofMatrix
-
orArray-valuedStatisticalObjects[J].TheAnnalsofStatistics,2010,
38(2):1094
-
1121.
[11]LiKC.SlicedInverseRegressionforDimensionReduction[J].JournaloftheAmericanStatisticalAssociation,1991,86(414):316
-
327.
[12]LiQ,SchonfeldD.MultilinearDiscriminantAnalysisforHigher-orderTensorDataClassification[J].IEEETransactionsonPattern
AnalysisandMachineIntelligence,2014,36(12):2524
-
2537.
[13]LuH,MemberS,IEEE,etal.MPCA:MultilinearPrincipalComponentAnalysisofTensorObjects[J].IEEETransactionsonNeural
Networks,2008,19(1):18
-
39.
[14]StewartGW,SunJ.MatrixPerturbationTheory[M].NewYork:AcademicPress,1990.
[15]TaoD,GuoY,LiY,etal.TensorRankPreservingDiscriminantAnalysisforFacialRecognition[J].IEEETransactionsonImage
Processing,2017,27(1):325
-
334.
[16]TaoD,LiX,WuX,etal.GeneralTensorDiscriminantAnalysisandGaborFeaturesforGaitRecognition[J].IEEETransactionson
PatternAnalysisandMachineIntelligence,2007,29(10):1700
-
1715.
[17]YangJ,ZhangDD,FrangiAF,etal.Two-DimensionalPCA:ANewApproachtoAppearance-BasedFaceRepresentationand
Recognition[J].IEEETransPatternAnalMachIntell,2004,26(1):131
-
137.
[18]YeJ,JanardanR,LiQ.Two-DimensionalLinearDiscriminantAnalysis[C].AdvancesinNeuralInformationProcessingSystems,
2005:1569
-
1576.
[19]ZhongW,SuslickK.MatrixDiscriminantAnalysiswithApplicationtoColorimetricSensorArrayData[J].Technometrics,2014,57
(4):524
-
534.
[20]ZhongW,XingX,SuslickK.TensorSufficientDimensionReduction[J].WileyInterdisciplinaryReviewsComputationalStatistics,
2015,7(3):178
-
184.
[21]ZhongW,ZhangT,ZhuY,etal.CorrelationPursuit:ForwardStepwiseVariableSelectionforIndexModels[J].JournaloftheRoyal
2012,74(5):849
-
870.StatisticalSocietySeriesB(Methodological),
作者简介
马少沛
,
中国人民大学统计学院博士生研究生
。
研究方向为充分降维
,
变量选择
。
孙庆慧
,
中国人民大学统计学院博士生研究生
。
研究方向为复杂数据分析
。
武雅萱
,
中国人民大学统计学院博士生研究生
。
研究方向为复杂数据建模
。
“
天山学者
”“
兴隆学者
”
田茂再
(
通讯作者
),
新疆财经大学特聘教授
,
兰州财经大学特聘教授
,
中国人民大学
二级教授
、
博士生导师
、
杰出学者
。
研究方向为复杂数据分析
。
电子邮箱
:mztian@ruc.edu.cn。
(
责任编辑
:
董倩
)
版权声明:本文标题:大数据下张量充分降维方法及其应用研究 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/p/1713384847a631950.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论