admin 管理员组文章数量: 1087139
2024年4月15日发(作者:jfinal框架教程全套)
圆园23
年第
17
期
总第
547
期
耘悦韵晕韵酝陨悦砸耘杂耘粤砸悦匀郧哉陨阅耘
经济研究导刊
晕燥援17,2023
杂藻则蚤葬造晕燥援547
基于Lasso降维的不平衡数据处理方法在股票中的应用
严涛,王舒梵,姜新盈
(上海工程技术大学数理统计学院,上海201620)
摘要:为了在高维财务股票数据中选出重要的特征以及如何选出优质股票是每个投资者所面临的问题。为了减少特征
选择过程中人为因素的干扰,提出一种基于Lasso降维的股票分类方法(LR-SC)。首先将高维的财务股票数据放入Lasso进行
特征选择,对于降维后的数据,选择每股收益前10%的为少数样本,之后计算每个少数类样本到svm生成的超平面的距离,通
过Random-SMOTE算法来生成新的少数类样本,并选择距离超平面最远的后50%的多数类样本来剔除,以此来达到样本之间
的平衡。实验结果表明,其选出优质股的精度有所提高,证明了该算法在股票选股上的可行性和有效性。
关键词:股票选股;不平衡数据;lasso降维;Random-SMOTE
中图分类号:F830.2文献标志码:A文章编号:1673-291X(2023)17-0070-04
一、研究背景
当今,我国金融市场欣欣向荣,股票市场得到了越
来越多的关注,如何从众多的股票中选择优质股对于
投机人来说就显得尤为重要。从股票的选择来看,就是
对那些上市大公司的价值进行估计,而一个公司的财
务数据可以很明显地反映一个公司的经营情况,而且
已经有许多的研究者对股票的涨幅情况和财务数据做
了相关研究,成果都表明它们之间有重要的联系。
对于股票数据来说,优质股票毕竟是占一小部分,
所以数据是极度不平衡的。现如今在不平衡问题上分
类方法主要有两个方面,一是算法方面的处理,有代
价敏感学习
[1]
、集成学习
[2]
和单类学习,集成学习算法
是通过将一些弱分类器进行组合来提高分类器的性
能,如Adaboost
[3]
算法等。二是数据处理方面,有两大
类,分别是过采样和欠采样。欠采样就是对少数类样本
进行增加已达到数量上和多数类样本持平。过采样的
基本算法就是SMOTE
[4]
算法,它是通过对少数样本进
行随机的线性插值,依此来创造新样本。但由于参与
合成的样本是随机选择,这就导致新合成的新样本质
量不高。Borderline-SMOTE
[5]
算法首先确定出边界集,
对其边界集上的样本进行插值,董燕杰等人用
Random-SMOTE算法把插值放入三角形内,缓解了少
数类样本分布稀疏的问题
[6]
。文献
[7]
所提出的SVMOM
算法通过少数类样本的密度和距离权重来选择样本,
进而缓解噪声样本带来的影响。DouzasGeorgios等人
提出了G-SOMO:一种基于自组织映射和几何SMOTE
的过采样方法,该算法以知情的方式确定创建人工数
据实例的最佳区域,并在数据生成过程中利用几何区
域来增加其可变性
[8]
。通过实验结果,表明G-SOMO始
终优于初始的过采样方法。欠采样算法是对多数类
冗余的样本进行剔除。
根据上述的研究,针对股票分类问题,本文提出一种
基于股票分类方法(BasedonLasso-R.
SMOTEstockclassificationmethod,LR-SC)。首先通过
Lasso算法对高维的股票财务数据进行压缩。将降维后
的股票财务数据放入SVM支持向量机内产生超平面。
对于少数类的股票财务数据,通过Random-SMOTE算
法来产生新的少数类样本,再选择距离超平面距离最远
的后50%的多数类样本数据来剔除,以达到少数类和多
数类样本的平衡。实验结果表明,本文所提出的LR-SC
算法相较于其他算法,分类效果更好。
二、相关理论
(一)Random-SMOTE算法
Random-SMOTE算法是在三个样本内产生新样本,
算法流程如下:一是随机选择一个初始样本以及和周围
的两个样本a、b组成一个三角形;二是在样本a、b上
进行随机线性插值产生临时样本y;三是在初始样本和
临时样本之间通过如下公式产生新的少数类样本X
new
:
X
new
=X+rand(1,0)×(y-x)
(二)LASSO算法
现在大多数关于股票的研究,其特征的选取往往
是基于研究人员的检验来选取,这样掺杂主观性的选
择或多或少会带来一定的误差或是特征的遗漏。为了
尽可能地去减少这方面所引起的误差,本文选择Lasso
(1)
作者简介:严涛(1997-),男,安徽合肥人,硕士研究生,从事不平衡数据分类研究;王舒梵(1997-),女,江苏扬州人,硕士研究生,从
事不平衡数据研究;姜新盈(1996-),女,山东聊城人,硕士研究生,从事数据挖掘、不平衡数据分类研究。
-70-
Copyright©博看网. All Rights Reserved.
方法来进行降维处理。Lasso方法就是在普通的线性模
型中增加了一个L
1
的惩罚项,这是由于当数据的维数
过高而导致不是列满秩,进而无法采用最小二乘法来
求解。惩罚项就是对部分参数进行压缩为0,而达到降
维的目的。
赞
=argmin||Y-X茁||
2
s.t.
移
|茁
|≤t,
茁
t≥0
lassoj
茁沂R
d
j=1
d
回率和查准率这两种情况,可以较为全面地反映少数类
被正确分类的精度。本文选取Re、Rp、G-mean、F1-value
值这四个指标来研究算法的分类效果。
三、LR-SC算法描述
假设在一个二分类问题中,数据集C=C
(0)
∪C
(1)
,C
(0)
∩C
(1)
=Φ,|C
(0)
|>|C
(1)
|,其中少数类样本新增加的样本为
C
New
(1)
。LR-SC算法首先是对高维的财务股票数据进行
降维,使用Lasso算法对训练集的数据进行特征选择,降
低维数。将处理好的训练集放入支持向量机SVM里来
生成超平面,通过Random-SMOTE算法来生成新的少
数类样本,并选择距离超平面距离最远的多数类样本数
据来剔除,最终合成新的训练样本。
LR-SC算法流程:
输入:高维不平衡的股票财务数据集C。
输出:低维平衡的股票财务数据集。
Step1:将高维数据集用Lasso进行降维得到新的训
练集。
Step2:将新的训练集放入SVM进行训练,生成超
平面Σ。
(0)
Step3:确定少数类样本生成数量|C
(1)
New
|=
|C|
-|C
(1)
|。
2
(2)
等价于:
赞
lasso
=argmin茁(||Y-X茁||
2
+姿
移
|茁
j
|)
茁沂R
d
d
j=1
(3)
其中姿为调和参数。
d
令t
0
=
移
|β
(|,当t 0 时,一部分系数就会被 j OLS) j=1 压缩至0,以达到降维的目的。 (三)评价指标 不平衡数据的特殊性,使得传统的平衡数据的评 价指标已不再适合,这是因为错分的代价是不一样的, 所以需要选择更加合理的评价指标。本文所选择的是 混淆矩阵结合G-mean和F1-value [9] 的评价方法,其中 F1-value和G-mean值是处于同等重要地位。 表1混淆矩阵 预测少类 实际少类 实际多类 TP FP 预测多类 FN TN Step4:对于少数类样本,通过Random-SMOTE产 生其新样本C (1) New 。 Step5:C New (1) 和C (1) 合并形成新的训练集Train_data_ min。 Step6:对于多数类样本,选取距离超平面Σ最远 的后50%样本进行剔除,形成新的多数类样本Train_ data_most。 Step7:将Train_data_min和Train_data_min合并为 (4) Train_data,放入分类器里进行训练。 四、数据集描述和处理 (5) 本文从wind金融数据库选取了2019年300家A 股制造业行业上市公司财务报表年报的相关数据作为 训练时的数据特征,其中包括每股指标、现金流量、资 (6) (7) (8) 本结构、偿债能力、盈利能力、收益率、运营能力共35 组特征,其训练标签选择的是2020年的每股收益,用 此数据集来验证本文所提出算法的有效性。对于股票 其中,TP表示实际为少数类且预测为正确样本数 量,FN是实际为少数类且预测错误的样本数量,FP是 实际为多数类且预测错误的样本数量,TN是实际为多 数类且预测正确的样本数量。 (1)Re:少数类样本被成功分类的精度: Re= TP TP+FN TN FP+TN (2)Re:多数类样本被成功分类的精度: R P = (3)Pr:分类器的分类精度: Pr= TP TP+FP (4)G-mean值: G-mean= 姨 Re伊Rp (5)F1-value值: F1-value= 2伊Re伊Pr Re+Pr 财务数据,把股票每股收益在前10%的记做阳性样本, 即优质股,其余的样本记做阴性样本。为了去除不同量 纲对实验结果的影响,对数据进行归一化处理。处理方 法如下: X*= X-min max-X (9) 由于G-means值仅考虑了少数和多数类被正确分 类的情况,其值只会随着少数类样本和多数类样本正确 分类精度的提高而提高。F1-value值是综合考虑了召 Copyright©博看网. All Rights Reserved. -71- 上式中Max,min为一组特征值的最大和最小值。 本文使用十折交叉验证来估计Lasso算法中的姿 值,从图中可以看出,λ的值不断增大MSE(误差平方 和)呈现先降后升的趋势,其曲线的最低点对应的就是 MSE的最小值,此时的λ=0.0027,Lasso最终筛选出13 个特征。将最后降维后的数据放入SVM中进行训练。 为了测试本文中LR-SC算法的可行性,也为了验 证Lasso算法可以得到更好降维结果,于是设计了和把 该算法和Borderline-SMOTE算法、SMOTE算法、ISMOTE 算法、SMOTE+TOMEK算法和RU-SMOTE分别在另外 三种降维算法:主成分分析方法、因子分析方法和线性 判别分析方法进行精准度的打分比较,为了确保实验结 果的准确性,每次使用的训练集和测试集统一按照7∶3 进行划分,本文采取MATLAB2016b为仿真环境,其他 算法均由imbalance-learn提供支持。本文SMOTE算法 的K近邻选取为5。 通过图1的结果,将Lasso降维过后的财务数据用 来实验,将本文算法和其他五种算法在不同的降维方 法下进行打分比较。表2是各种降维算法在F1-value指 标上的打分情况,表3是各种降维算法在G-mean指标 的打分情况,图2是六种算法在各种降维方法下的打 分情况。 从表2的结果可以看出,在四种降维算法中,Lasso 方法的最终均值最高,在Lasso方法的内部也可以看 出,本文提出的LR-SC算法相较于其他五种不平衡数 据的处理方法,F1-value值得分最高,这是有Lasso方 图1交叉验证确定惩罚力度图 法在特征选择的时候降低了人为的因素,减少误差,对 表2各种降维算法的F1-value值 F1-value值 LR-SC SMOTE B-SMOTE RU-SMOTE SMOTE+TOMEK ISMOTE 均值 Lasso方法 0.8281 0.8009 0.8203 0.7966 0.8166 0.8176 0.8133 主成分分析方法 0.8002 0.7749 0.7888 0.7933 0.8017 0.7905 0.7915 因子分析方法 0.8120 0.8103 0.7984 0.8022 0.8176 0.7898 0.8050 线性判别分析方法 0.8211 0.8031 0.8222 0.7986 0.8204 0.8119 0.8288 少数类样本的采样是在三角形内完成的,提高生成样 本的质量。 从表2的结果可以看出,在四种降维算法中,Lasso 方法的最终均值比线性判别分析方法稍低,只低了不到 0.005。从Lasso方法的内部来看,只有ISMOTE算法高 于本文的算法,这是由于LR-SC算法提高了少数类样 本的分类精度,降低了对多数类的分类精度,以至于提 高了F1-value的值而牺牲了G-mean的得分。但是,从 整体而言,本文所提出的算法相较于其他算法都是有优 势的,这也验证了LR-SC算法思想的有效性。 为了可以更加直观明了地展示LR-SC算法在不 同的降维算法下与其他算法的打分情况,绘制了六种算 表3各种降维算法的G-mean值 G-mean值 LR-SC SMOTE B-SMOTE RU-SMOTE SMOTE+TOMEK ISMOTE 均值 Lasso方法 0.8002 0.7726 0.7985 0.7567 0.7825 0.8010 0.7852 主成分分析方法 0.8012 0.7692 0.7806 0.7724 0.7889 0.7903 0.7837 因子分析方法 0.7717 0.7913 0.7762 0.7763 0.7919 0.7709 0.7797 线性判别分析方法 0.7996 0.7818 0.7584 0.7772 0.7486 0.7810 0.7808 -72- Copyright©博看网. All Rights Reserved. 图2六种算法在各种降维方法下的打分情况 法在各种降维方法下的打分情况(见图2),纵坐标反映 的是各种算法的得分范围是从0-1,横坐标是Lasso方 法、主成分分析方法、因子分析方法和线性判别分析方 法这几种降维算法。从结果上来看,Lasso方法对于高维 股票财务数据降维效果更优秀,本文所提出的LR-SC 算法在整体上更优。 五、结束语 本文针对股票财务数据分类问题,提出了一种基 于Lasso降维的股票分类方法(LR-SC),LR-SC算法是 参考文献: [1]蔡艳艳,宋晓东.针对非平衡数据分类的新型模糊SVM模型[J].西安电子科技大学学报,2015,42(5):120-124,160. [3] [4] [5] [7] gineerning&ServiceScience,2017. Research,2011,16(1):321-357. [2]张银峰,郭华平,职为梅,等.一种面向不平衡数据分类的组合剪枝方法[J].计算机工程,2014,40(6):157-161,165. 通过Lasso算法对高维股票财务数据进行特征选择,对 处理后的数据通过Random-SMOTE算法来产生新的 少数类样本,并通过距离来确定多数类样本剔除的数量。 最后将样本数量相等的平衡数据放入SVM进行训练。 这样一方面保证避免了特征选择时的人为因素干扰, 也保证了少数类及多数类样本在生成和剔除时的合理 性,LR-SC算法在一定程度是提高了股票分类的精度。 本文提出的算法也存在些许不足之处,例如,在使用SVM 时,所使用的参数是默认值,参数调优以及对于噪声点 等问题并没有考虑在内,这些都是今后的研究重点。 MaS.,etectionalgorithmbasedonAdaboostandnewHear-likefeature[C].IEEEInternationalConferenceonSoftwareEn- ChawlaN.V.,BwoyerK.W.,HallL.O.,:syntheticminorityover-samplingtechnique[J].JournalofArtificialIntelli-gence [6]陶新民,张冬雪,郝思媛,等.基于谱聚类欠取样的不均衡数据SVM分类算法[J].控制与决策,2012,27(12). [8]董燕杰.不平衡数据集分类的Random-SMOTE方法研究[D].大连:大连理工大学,2009. er,Berlin,Heidelberg,2005:878-887. 2005InternationalConferenceonAdvancesinIntelligentComputing-VolumePartI,2005. HanH.,WangW.Y.,line-SMOTE:anewover-samplingmethodinimbalanceddatasetslearning[C].Proceed-ingsofthe HanH.,WangW.Y.,line-SMOTE:anewover-samplingmethodinimbalanceddatasetslearning[C]//International [9],,ImageRecognitionbyL1-normTwin-ProjectionSupportVectorMachine[J].Neurocomputing,2017(223):1-11. [责任编辑白雪] Copyright©博看网. All Rights Reserved. -73-
版权声明:本文标题:基于Lasso_降维的不平衡数据处理方法在股票中的应用 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/p/1713179611a622740.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论