基于Lasso_降维的不平衡数据处理方法在股票中的应用-Linux大棚

admin 管理员组

文章数量: 1087139

2024年4月15日发(作者：jfinal框架教程全套)

圆园23

年第

期

总第

547

期

耘悦韵晕韵酝陨悦砸耘杂耘粤砸悦匀郧哉陨阅耘

经济研究导刊

晕燥援17，2023

杂藻则蚤葬造晕燥援547

基于Lasso降维的不平衡数据处理方法在股票中的应用

严涛，王舒梵，姜新盈

（上海工程技术大学数理统计学院，上海201620）

摘要：为了在高维财务股票数据中选出重要的特征以及如何选出优质股票是每个投资者所面临的问题。为了减少特征

选择过程中人为因素的干扰，提出一种基于Lasso降维的股票分类方法（LR-SC）。首先将高维的财务股票数据放入Lasso进行

特征选择，对于降维后的数据，选择每股收益前10%的为少数样本，之后计算每个少数类样本到svm生成的超平面的距离，通

过Random-SMOTE算法来生成新的少数类样本，并选择距离超平面最远的后50%的多数类样本来剔除，以此来达到样本之间

的平衡。实验结果表明，其选出优质股的精度有所提高，证明了该算法在股票选股上的可行性和有效性。

关键词：股票选股；不平衡数据；lasso降维；Random-SMOTE

中图分类号：F830.2文献标志码：A文章编号：1673-291X（2023）17-0070-04

一、研究背景

当今，我国金融市场欣欣向荣，股票市场得到了越

来越多的关注，如何从众多的股票中选择优质股对于

投机人来说就显得尤为重要。从股票的选择来看，就是

对那些上市大公司的价值进行估计，而一个公司的财

务数据可以很明显地反映一个公司的经营情况，而且

已经有许多的研究者对股票的涨幅情况和财务数据做

了相关研究，成果都表明它们之间有重要的联系。

对于股票数据来说，优质股票毕竟是占一小部分，

所以数据是极度不平衡的。现如今在不平衡问题上分

类方法主要有两个方面，一是算法方面的处理，有代

价敏感学习

[1]

、集成学习

[2]

和单类学习，集成学习算法

是通过将一些弱分类器进行组合来提高分类器的性

能，如Adaboost

[3]

算法等。二是数据处理方面，有两大

类，分别是过采样和欠采样。欠采样就是对少数类样本

进行增加已达到数量上和多数类样本持平。过采样的

基本算法就是SMOTE

[4]

算法，它是通过对少数样本进

行随机的线性插值，依此来创造新样本。但由于参与

合成的样本是随机选择，这就导致新合成的新样本质

量不高。Borderline-SMOTE

[5]

算法首先确定出边界集，

对其边界集上的样本进行插值，董燕杰等人用

Random-SMOTE算法把插值放入三角形内，缓解了少

数类样本分布稀疏的问题

[6]

。文献

[7]

所提出的SVMOM

算法通过少数类样本的密度和距离权重来选择样本，

进而缓解噪声样本带来的影响。DouzasGeorgios等人

提出了G-SOMO：一种基于自组织映射和几何SMOTE

的过采样方法，该算法以知情的方式确定创建人工数

据实例的最佳区域，并在数据生成过程中利用几何区

域来增加其可变性

[8]

。通过实验结果，表明G-SOMO始

终优于初始的过采样方法。欠采样算法是对多数类

冗余的样本进行剔除。

根据上述的研究，针对股票分类问题，本文提出一种

基于股票分类方法（BasedonLasso-R.

SMOTEstockclassificationmethod，LR-SC）。首先通过

Lasso算法对高维的股票财务数据进行压缩。将降维后

的股票财务数据放入SVM支持向量机内产生超平面。

对于少数类的股票财务数据，通过Random-SMOTE算

法来产生新的少数类样本，再选择距离超平面距离最远

的后50%的多数类样本数据来剔除，以达到少数类和多

数类样本的平衡。实验结果表明，本文所提出的LR-SC

算法相较于其他算法，分类效果更好。

二、相关理论

（一）Random-SMOTE算法

Random-SMOTE算法是在三个样本内产生新样本，

算法流程如下：一是随机选择一个初始样本以及和周围

的两个样本a、b组成一个三角形；二是在样本a、b上

进行随机线性插值产生临时样本y；三是在初始样本和

临时样本之间通过如下公式产生新的少数类样本X

new

：

new

=X+rand（1，0）×（y-x）

（二）LASSO算法

现在大多数关于股票的研究，其特征的选取往往

是基于研究人员的检验来选取，这样掺杂主观性的选

择或多或少会带来一定的误差或是特征的遗漏。为了

尽可能地去减少这方面所引起的误差，本文选择Lasso

（1）

作者简介：严涛（1997-），男，安徽合肥人，硕士研究生，从事不平衡数据分类研究；王舒梵（1997-），女，江苏扬州人，硕士研究生，从

事不平衡数据研究；姜新盈（1996-），女，山东聊城人，硕士研究生，从事数据挖掘、不平衡数据分类研究。

-70-

方法来进行降维处理。Lasso方法就是在普通的线性模

型中增加了一个L

的惩罚项，这是由于当数据的维数

过高而导致不是列满秩，进而无法采用最小二乘法来

求解。惩罚项就是对部分参数进行压缩为0，而达到降

维的目的。

=argmin||Y-X茁||

s.t.

移

|茁

|≤t，

茁

t≥0

lassoj

茁沂R

j=1

回率和查准率这两种情况，可以较为全面地反映少数类

被正确分类的精度。本文选取Re、Rp、G-mean、F1-value

值这四个指标来研究算法的分类效果。

三、LR-SC算法描述

假设在一个二分类问题中，数据集C=C

(0)

∪C

(1)

，C

(0)

∩C

(1)

=Φ，|C

(0)

|>|C

(1)

|，其中少数类样本新增加的样本为

New

(1)

。LR-SC算法首先是对高维的财务股票数据进行

降维，使用Lasso算法对训练集的数据进行特征选择，降

低维数。将处理好的训练集放入支持向量机SVM里来

生成超平面，通过Random-SMOTE算法来生成新的少

数类样本，并选择距离超平面距离最远的多数类样本数

据来剔除，最终合成新的训练样本。

LR-SC算法流程：

输入：高维不平衡的股票财务数据集C。

输出：低维平衡的股票财务数据集。

Step1：将高维数据集用Lasso进行降维得到新的训

练集。

Step2：将新的训练集放入SVM进行训练，生成超

平面Σ。

(0)

Step3：确定少数类样本生成数量|C

(1)

New

|C|

-|C

(1)

|。

（2）

等价于：

lasso

=argmin茁（||Y-X茁||

+姿

移

|茁

|）

茁沂R

j=1

（3）

其中姿为调和参数。

令t

移

|β

（|，当t

时，一部分系数就会被

OLS）

j=1

压缩至0，以达到降维的目的。

（三）评价指标

不平衡数据的特殊性，使得传统的平衡数据的评

价指标已不再适合，这是因为错分的代价是不一样的，

所以需要选择更加合理的评价指标。本文所选择的是

混淆矩阵结合G-mean和F1-value

[9]

的评价方法，其中

F1-value和G-mean值是处于同等重要地位。

表1混淆矩阵

预测少类

实际少类

实际多类

预测多类

Step4：对于少数类样本，通过Random-SMOTE产

生其新样本C

(1)

New

。

Step5：C

New

(1)

和C

(1)

合并形成新的训练集Train_data_

min。

Step6：对于多数类样本，选取距离超平面Σ最远

的后50%样本进行剔除，形成新的多数类样本Train_

data_most。

Step7：将Train_data_min和Train_data_min合并为

（4）

Train_data，放入分类器里进行训练。

四、数据集描述和处理

（5）

本文从wind金融数据库选取了2019年300家A

股制造业行业上市公司财务报表年报的相关数据作为

训练时的数据特征，其中包括每股指标、现金流量、资

（6）

（7）

（8）

本结构、偿债能力、盈利能力、收益率、运营能力共35

组特征，其训练标签选择的是2020年的每股收益，用

此数据集来验证本文所提出算法的有效性。对于股票

其中，TP表示实际为少数类且预测为正确样本数

量，FN是实际为少数类且预测错误的样本数量，FP是

实际为多数类且预测错误的样本数量，TN是实际为多

数类且预测正确的样本数量。

（1）Re：少数类样本被成功分类的精度：

Re=

TP+FN

FP+TN

（2）Re：多数类样本被成功分类的精度：

（3）Pr：分类器的分类精度：

Pr=

TP+FP

（4）G-mean值：

G-mean=

姨

Re伊Rp

（5）F1-value值：

F1-value=

2伊Re伊Pr

Re+Pr

财务数据，把股票每股收益在前10%的记做阳性样本，

即优质股，其余的样本记做阴性样本。为了去除不同量

纲对实验结果的影响，对数据进行归一化处理。处理方

法如下：

X*=

X-min

max-X

（9）

由于G-means值仅考虑了少数和多数类被正确分

类的情况，其值只会随着少数类样本和多数类样本正确

分类精度的提高而提高。F1-value值是综合考虑了召

-71-

上式中Max，min为一组特征值的最大和最小值。

本文使用十折交叉验证来估计Lasso算法中的姿

值，从图中可以看出，λ的值不断增大MSE(误差平方

和)呈现先降后升的趋势，其曲线的最低点对应的就是

MSE的最小值，此时的λ=0.0027，Lasso最终筛选出13

个特征。将最后降维后的数据放入SVM中进行训练。

为了测试本文中LR-SC算法的可行性，也为了验

证Lasso算法可以得到更好降维结果，于是设计了和把

该算法和Borderline-SMOTE算法、SMOTE算法、ISMOTE

算法、SMOTE+TOMEK算法和RU-SMOTE分别在另外

三种降维算法：主成分分析方法、因子分析方法和线性

判别分析方法进行精准度的打分比较，为了确保实验结

果的准确性，每次使用的训练集和测试集统一按照7∶3

进行划分，本文采取MATLAB2016b为仿真环境，其他

算法均由imbalance-learn提供支持。本文SMOTE算法

的K近邻选取为5。

通过图1的结果，将Lasso降维过后的财务数据用

来实验，将本文算法和其他五种算法在不同的降维方

法下进行打分比较。表2是各种降维算法在F1-value指

标上的打分情况，表3是各种降维算法在G-mean指标

的打分情况，图2是六种算法在各种降维方法下的打

分情况。

从表2的结果可以看出，在四种降维算法中，Lasso

方法的最终均值最高，在Lasso方法的内部也可以看

出，本文提出的LR-SC算法相较于其他五种不平衡数

据的处理方法，F1-value值得分最高，这是有Lasso方

图1交叉验证确定惩罚力度图

法在特征选择的时候降低了人为的因素，减少误差，对

表2各种降维算法的F1-value值

F1-value值

LR-SC

SMOTE

B-SMOTE

RU-SMOTE

SMOTE+TOMEK

ISMOTE

均值

Lasso方法

0.8281

0.8009

0.8203

0.7966

0.8166

0.8176

0.8133

主成分分析方法

0.8002

0.7749

0.7888

0.7933

0.8017

0.7905

0.7915

因子分析方法

0.8120

0.8103

0.7984

0.8022

0.8176

0.7898

0.8050

线性判别分析方法

0.8211

0.8031

0.8222

0.7986

0.8204

0.8119

0.8288

少数类样本的采样是在三角形内完成的，提高生成样

本的质量。

从表2的结果可以看出，在四种降维算法中，Lasso

方法的最终均值比线性判别分析方法稍低，只低了不到

0.005。从Lasso方法的内部来看，只有ISMOTE算法高

于本文的算法，这是由于LR-SC算法提高了少数类样

本的分类精度，降低了对多数类的分类精度，以至于提

高了F1-value的值而牺牲了G-mean的得分。但是，从

整体而言，本文所提出的算法相较于其他算法都是有优

势的，这也验证了LR-SC算法思想的有效性。

为了可以更加直观明了地展示LR-SC算法在不

同的降维算法下与其他算法的打分情况，绘制了六种算

表3各种降维算法的G-mean值

G-mean值

LR-SC

SMOTE

B-SMOTE

RU-SMOTE

SMOTE+TOMEK

ISMOTE

均值

Lasso方法

0.8002

0.7726

0.7985

0.7567

0.7825

0.8010

0.7852

主成分分析方法

0.8012

0.7692

0.7806

0.7724

0.7889

0.7903

0.7837

因子分析方法

0.7717

0.7913

0.7762

0.7763

0.7919

0.7709

0.7797

线性判别分析方法

0.7996

0.7818

0.7584

0.7772

0.7486

0.7810

0.7808

-72-

图2六种算法在各种降维方法下的打分情况

法在各种降维方法下的打分情况（见图2），纵坐标反映

的是各种算法的得分范围是从0-1，横坐标是Lasso方

法、主成分分析方法、因子分析方法和线性判别分析方

法这几种降维算法。从结果上来看，Lasso方法对于高维

股票财务数据降维效果更优秀，本文所提出的LR-SC

算法在整体上更优。

五、结束语

本文针对股票财务数据分类问题，提出了一种基

于Lasso降维的股票分类方法（LR-SC），LR-SC算法是

参考文献：

[1]蔡艳艳，宋晓东.针对非平衡数据分类的新型模糊SVM模型[J].西安电子科技大学学报，2015，42（5）：120-124，160.

[3]

[4]

[5]

[7]

gineerning&ServiceScience，2017.

Research，2011，16（1）：321-357.

[2]张银峰，郭华平，职为梅，等.一种面向不平衡数据分类的组合剪枝方法[J].计算机工程，2014，40（6）：157-161，165.

通过Lasso算法对高维股票财务数据进行特征选择，对

处理后的数据通过Random-SMOTE算法来产生新的

少数类样本，并通过距离来确定多数类样本剔除的数量。

最后将样本数量相等的平衡数据放入SVM进行训练。

这样一方面保证避免了特征选择时的人为因素干扰，

也保证了少数类及多数类样本在生成和剔除时的合理

性，LR-SC算法在一定程度是提高了股票分类的精度。

本文提出的算法也存在些许不足之处，例如，在使用SVM

时，所使用的参数是默认值，参数调优以及对于噪声点

等问题并没有考虑在内，这些都是今后的研究重点。

MaS.，etectionalgorithmbasedonAdaboostandnewHear-likefeature[C].IEEEInternationalConferenceonSoftwareEn-

ChawlaN.V.，BwoyerK.W.，HallL.O.，：syntheticminorityover-samplingtechnique[J].JournalofArtificialIntelli-gence

[6]陶新民，张冬雪，郝思媛，等.基于谱聚类欠取样的不均衡数据SVM分类算法[J].控制与决策，2012，27（12）.

[8]董燕杰.不平衡数据集分类的Random-SMOTE方法研究[D].大连：大连理工大学，2009.

er，Berlin，Heidelberg，2005：878-887.

2005InternationalConferenceonAdvancesinIntelligentComputing-VolumePartI，2005.

HanH.，WangW.Y.，line-SMOTE：anewover-samplingmethodinimbalanceddatasetslearning[C].Proceed-ingsofthe

HanH.，WangW.Y.，line-SMOTE：anewover-samplingmethodinimbalanceddatasetslearning[C]//International

[9]，，ImageRecognitionbyL1-normTwin-ProjectionSupportVectorMachine[J].Neurocomputing，2017（223）：1-11.

[责任编辑白雪]

-73-

本文标签：样本算法数据股票进行

版权声明：本文标题：基于Lasso_降维的不平衡数据处理方法在股票中的应用内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/p/1713179611a622740.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于Lasso_降维的不平衡数据处理方法在股票中的应用

更多相关文章

ChatGPT 数据分析与处理使用详解

Wi-Fi数据帧类别

Chrome浏览器中清除特定网站的Cookie数据

R语言导入csv数据后，所有列变成一列怎么办？

操作系统经典题型——死锁避免之银行家算法

死锁的处理策略_预防死锁_避免死锁（银行家算法）_检测和解除（有例题！！！）

常用免费DEM数据汇总（含下载使用方法）

【开源】基于协同过滤算法的宠物用品商城的设计与实现（计算机毕业设计）Java Spring 衍生为任何商城系统 毕业论文

【光通信】可见光通信系统的RFID接口过程以及ALOHA防碰撞算法【含Matlab源码 M009期】

c语言超大数计算,c语言中怎么办一个特别大的数据的运算

CDO（气象数据处理软件）安装的坑总结

使用Charles抓包Android App数据

android点击链接跳转到app,android实现通过浏览器点击链接打开本地应用（APP）并拿到浏览器传递的数据...

卷王指南，大学计算机专业，面临分专业，计科，软工，大数据，物联网，网络工程，该选什么？

元数据管理系统

《CWAP-404》，第7章：MAC操作（7.1，分析数据帧交换）

安卓OKhttp请求接口数据失败,postman也失败,用浏览器却能正常请求数据

excel出现为了防止数据流失，无法移走非空单元格怎么办

【愚公系列】2024年02月 大数据教学课程 016-Hadoop预备知识

免费教学Windows Server评估版永久转换为数据中心版攻略

发表评论

推荐文章

javascript - Prevent XSS in Symfony - Stack Overflow

javascript - Dropdown component for Dash that supports clicking on selected items - Stack Overflow

javascript - Get Elapsed Weekdays Between Two Dates Using MomentJS - Stack Overflow

How to de-structure a data class with private property in Kotlin? - Stack Overflow

javascript - Vue watch on v-model property only fired once - Stack Overflow

热门文章

使用sony assist键启动VAIO Care恢复和还原系统

javascript - Click event - get the target where the mousedown started instead of the mouseup - Stack Overflow

javascript - Why is the val I&#39;m adding to an unordered list vanishing right after I add it? - Stack Overflow

python - Google Gemini not calling the tools - Stack Overflow

javascript - Replace input field with read only text in AngularJS - Stack Overflow

javascript - how can i add Line break in JSON? - Stack Overflow

javascript - Property does not exist on type &#39;T&#39; - Generic problems - Stack Overflow

node.js - Need to call multiple api in serial order, one after the other in javascript - Stack Overflow

r - Handeling of missing values (NA) in a column of hyperlinks with openxlsx2 - Stack Overflow

Windows单语言版显示语言限制解析与专业版升级指南

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

Windows 安装和连接使用 PgSql数据库

cmd打开计算机D盘,Win7利用cmd命令进入d盘文件夹的操作方法

如何在VMare中制作Windows Embedded Standard 7 (WES 7)

开机、注销后自动登录Windows

【教程】Python Flask快速学习

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

【开源】基于协同过滤算法的宠物用品商城的设计与实现（计算机毕业设计）Java Spring 衍生为任何商城系统毕业论文

【愚公系列】2024年02月大数据教学课程 016-Hadoop预备知识

javascript - Why is the val I'm adding to an unordered list vanishing right after I add it? - Stack Overflow

javascript - Property does not exist on type 'T' - Generic problems - Stack Overflow