⑴ 量化交易策略有哪些
一、交易策略
一个完整的交易策略一般包括交易标的的选择,进出场时机的选择,仓位和资金管理等几个方面。
按照人的主观决断和计算机算法执行在策略各方面的决策中的参与程度的不同,可以将交易策略分为主观策略和量化策略。
二、主观策略
主观策略主要依靠投资者的主观判断。
期货市场的投资者通过对产业上中下游、供需、宏观经济预期等的调查做出自己的判断。
类似的,股票市场的主观投资者通过深入研究行业的各个方面,调查行业内的上市公司,形成交易决策。
另外,无论是股票市场还是期货市场,大量的主观投资者是依赖技术分析做出决策的。
三、量化策略
量化策略主要依赖于计算机算法进行交易。
投资者将初步的交易逻辑输入计算机,并运用大量的历史数据做统计和回测,在此基础上做出适当的修改、扬弃,以形成可接受的交易策略。策略在形成后,往往各个决策条件就已经确定,实盘中按照既定的程序执行。
对比而言,部分主观策略在对单个标的的研究深度上有优势,可以通过深度研究提供专家级的意见。而量化策略由于运用计算机决策,可以处理大量的数据,因此在广度上有优势。另外,量化策略在执行中不会受人的状态、情绪等不确定性的影响,因而执行更为严格和精确。
四、常见策略
常见的量化交易策略可以大致分为趋势策略和市场中性策略,趋势策略常见的有双均线策略、布林带策略、海归交易法和多因子选股策略等。
常见的市场中性策略包括统计套利策略、Alpha对冲策略等,着名的网格交易法更多的是一种交易方法,可以用在不同类型的策略中。
下面我们对这几个常见策略做一个简单介绍,想深入了解某个策略的读者可以借助互联网获得更多资料。
(1) 双均线策略
双均线策略在趋势交易中有广泛的应用。该策略根据长短两根不同周期的移动平均线的金叉和死叉来交易。在短周期均线上穿长周期均线(金叉)时做多,在短周期均线下穿长周期均线(死叉)时做空。双均线系统可以进一步扩充为多均线系统。
(2) 布林带策略
布林带由三条线构成,其中的中线是一根移动平均线,上线是由中线加上n倍(如2倍)标准差构成,下线是中线减n倍标准差。当行情上穿上线时做多,下穿下线时做空。
(3) 海归交易法
海归交易法由商品投机家理乍得·丹尼斯的推广而闻名。该法则涵盖交易的进出场,资金和仓位管理的各各方面,是一套完整的交易系统。关于该策略的具体交易模式几个字不容易说清楚,详细的了解大家可以参考《海归交易法则》这本书,特别是后面的附录。
(4) 多因子选股
多因子选股模型是股票交易中常见的策略。建立过程包括选取候选因子,在历史数据检验的基础上挑选有效因子并剔除冗余因子等几个过程,最后是根据因子选择要交易的股票,确定出入场时机。
(5) 统计套利
统计套利可以用于期货市场的跨品种和跨期套利,也可以用于相关性高的股票之间的价差套利。它是利用相关性高的标的之间的价差或者价比回归的性质,在价差或价比偏离均衡位置时进场,在价差或价比回到均衡位置时出场。
(6) Alpha对冲策略
Alpha对冲策略同时持有方向相反的两种头寸对冲Beta风险。在国内市场常见的是持有股票多头的同时,持有股指期货空头,该策略是否能够获得超额收益依赖于选取的股票是否具有高的Alpha正值。
(7) 网格交易法
网格交易法的核心是网格间距和中轴线的确定。我们以螺纹钢期货合约为例说明,目前螺纹价格3000,我们建立初始仓位,比如50%仓位。随后螺纹钢每涨50点卖出10%,每跌50点买入10%。这里的3000就是中轴,50点是网格宽度。该策略的收益波动很大
⑵ 如何解释spss因子分析的结果
1.KMO和Bartlett的检验结果:
首先是KMO的值为0.733,大于阈值0.5,所以说明了变量之间是存在相关性的,符合要求;然后是Bartlett球形检验的结果。
在这里只需要看Sig.这一项,其值为0.000,所以小于0.05。那么也就是说,这份数据是可以进行因子分析的。
2.公因子方差:
公因子方差表的意思就是,每一个变量都可以用公因子表示,而公因子究竟能表达多少呢,其表达的大小就是公因子方差表中的“提取”。
“提取”的值越大说明变量可以被公因子表达的越好,一般大于0.5即可以说是可以被表达,但是更好的是要求大于0.7才足以说明变量能被公因子表的很合理。
在本例中可以看到,“提取”的值都是大于0.7的,所以变量可以被表达的很不错。
3.解释的总方差和碎石图:
简单地说,解释地总方差就是看因子对于变量解释的贡献率(可以理解为究竟需要多少因子才能把变量表达为100%)。
这张表只需要看图中红框的一列,表示的就是贡献率,蓝框则代表四个因子就可以将变量表达到了91.151%,说明表达的还是不错的
都要表达到90%以上才可以,否则就要调整因子数据。再看碎石图,也确实就是四个因子之后折线就变得平缓了。
4.旋转成分矩阵:
这一张表是用来看哪些变量可以包含在哪些因子里,一列一列地看:第一列,最大的值为0.917和0.772,分别对应的是细颗粒物和可吸入颗粒物。
因此可以把因子归结为颗粒物。第二列,最大值为0.95对应着二氧化硫,因此可以把因子归结为硫化物。第三列,最大值为0.962,对应着臭氧。
因此可以把因子归结为臭氧。第四列,最大值为0.754和0.571,分别对应着二氧化氮和一氧化碳。
(2)多因子趋势算法扩展阅读
因子分析与主成分分析的区别:
主成分分析是试图寻找原有变量的一个线性组合。这个线性组合方差越大,那么该组合所携带的信息就越多。也就是说,主成分分析就是将原始数据的主要成分放大。
因子分析,它是假设原有变量的背后存在着一个个隐藏的因子,这个因子可以可以包括原有变量中的一个或者几个,因子分析并不是原有变量的线性组合。
因子分析还是非常好用的一种降维方式的,在SPSS中进行操作十分简单方便,结果一目了然。python也可以做因子分析,代码量也并不是很大。
但是,python做因子分析时会有一些功能需要自己根据算法写,比如说KMO检验。
⑶ 机器学习怎样应用于量化交易
曾有朋友问过,国内现在量化领域机器学习应用的少,是否因为效果不如简单的策略。其实,把机器学习应用在量化交易上始终面临着两难,却并不是无解的两难。很多时候并不是机器学习不work,而是真正懂如何用正确科学的统计思维使用Machine Learning的人才太少。
机器学习涉及到特征选择、特征工程、模型选择、数据预处理、结果的验证和分析等一整套建模流程,广义角度来说就不单单是模型选择的问题。所以,如果认为“用支持向量机成功预测股票涨跌” 这样的研究,就是把机器学习应用于量化交易,这种狭义的认识无疑是买椟还珠,对机器学习领域散落遍地的珍珠视而不见。如果把机器学习的崛起放在历史进程中考量,无非就是趋势的延续:现在,可通过系统的数据分析证实过去模糊不定的经验,机器学习算法将未曾被察觉的规律得以浮现纸面。
在我看来,未来的发展概有两个方向:
1.针对量化交易的统计学习算法被提出,使其适合于噪声大,分布不稳定的金融数据分析;
2.对于机器学习的热情回归理性,从工具为导向回归到问题为导向。
针对如何以问题为导向,在机器学习算法中挑选合适的工具,分享一些思路。
1.多因子模型的因子权重计算
当我们在构建多因子模型且已经选定了一系列因子之后,要如何根据不同的市场情况调整各个因子的权重呢?在以往的研究中发现,与其它算法相比较,随机森林算法对于存在非线性、噪音和自变量共线性的训练集的分析结果更出色。所以,目前在多因子模型的权重上,采用当期收益率对上期因子进行随机森林回归分析,以确定下一期多因子模型的因子权重。
2.缺失值处理
处理缺失值在金融的量化分析中是个无可避免的问题。选取合理的缺失值处理方法,依赖于数据本身的特点、数据缺失的情况、其对应的经济学意义,以及我们需要使用数据进行何种计算。在尝试构建多因子模型时,我们选择了两种缺失值替换方法:(1)采用期望最大化算法来用同一变量的已知数据对缺失值进行极大似然估计。(2)把模型中包含的所有因子作为特征变量,并赋予其相同的权重,再采用机器学习中的K-近邻算法来寻找最相似的标的,保证缺失值替换后,不会强化一部分因子的影响力。
其实在量化领域,机器学习解决着线性模型天生的缺陷或弊端,所以还是有着很深的介入的。除去凸优化、降维(提取市场特征)等领域的应用,目前“非动态性”和“非线性”是两个重要的弊端。金融关系之间并非静态,很多时候也不是线性的。统计学习的优势此时就会体现出来,它们能够迅速地适应市场,或者用一种更“准确的”方式来描述市场。
在国内,机器学习在量化内应用跟领域有很大的关系,跟频率也有很大的关系。比如,CTA的运用可能就要多于股票,它处理数据的维度要远小于股票,获取市场的长度和动态又强于股票。股票市场的momentum要弱于期货市场的momentum,它的趋势与股票相比更明显和低噪声。这些特征对于机器学习发挥作用都更加有利。
很可能国内一些交易执行算法的设计上就借鉴了机器学习。我们可以通过学习订单薄特征,对下一期盘口变化做一些概率上的预测,经过一定样本的训练之后,可以显着地提升算法表现。
而我仍谨慎看好深度学习等机器学习方法的原因在于,在认识市场上,现行的大部分方法与这些方法并不在一个维度上,这个优势让它们与其他方法相比,捕捉到更多的收益。也就是说,一个新的认识市场的角度才能带来alpha。
⑷ 因子分析法的概念
1.主成分分析
主成分分析主要是一种探索性的技术,在分析者进行多元数据分析之前,用他来分析数据,让自己对数据有一个大致的了解,这是非常有必要的。主成分分析一般很少单独使用:a、了解数据。(screening the data),b、和cluster analysis(聚类分析)一起使用,c、和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成分对变量简化(rece dimensionality),d、在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。
2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。
4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。
5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。
在算法上,主成分分析和因子分析很类似,不过在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。
2.聚类分析(Cluster Analysis)
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。
在市场研究领域,聚类分析主要应用方面是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品的细分市场,并且可以描述出各细分市场的人群特征,以便于客户可以有针对性的对目标消费群体施加影响,合理地开展工作。
3.判别分析(Discriminatory Analysis)
判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。
费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。
距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。
4.对应分析(Correspondence Analysis)
对应分析是一种用来研究变量与变量之间联系紧密程度的研究技术。
运用这种研究技术,我们可以获取有关消费者对产品品牌定位方面的图形,从而帮助您及时调整营销策略,以便使产品品牌在消费者中能树立起正确的形象。
这种研究技术还可以用于检验广告或市场推广活动的效果,我们可以通过对比广告播出前或市场推广活动前与广告播出后或市场推广活动后消费者对产品的不同认知图来看出广告或市场推广活动是否成功的向消费者传达了需要传达的信息。
5.典型相关分析
典型相关分析是分析两组随机变量间线性密切程度的统计方法,是两变量间线性相关分析的拓广。各组随机变量中既可有定量随机变量,也可有定性随机变量(分析时须F6说明为定性变量)。本法还可以用于分析高维列联表各边际变量的线性关系。
注意
1.严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的相关形式。
2.典型相关模型的基本假设和数据要求
要求两组变量之间为线性关系,即每对典型变量之间为线性关系;
每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系,可先线性化:如经济水平和收入水平与其他一些社会发展水之间并不是线性关系,可先取对数。即log经济水平,log收入水平。
3.典型相关模型的基本假设和数据要求
所有观测变量为定量数据。同时也可将定性数据按照一定形式设为虚拟变量后,再放入典型相关模型中进行分析。
6.多维尺度分析(Multi-dimension Analysis)
多维尺度分析(Multi-dimension Analysis) 是市场研究的一种有力手段,它可以通过低维空间(通常是二维空间)展示多个研究对象(比如品牌)之间的联系,利用平面距离来反映研究对象之间的相似程度。由于多维尺度分析法通常是基于研究对象之间的相似性(距离)的,只要获得了两个研究对象之间的距离矩阵,我们就可以通过相应统计软件做出他们的相似性知觉图。
在实际应用中,距离矩阵的获得主要有两种方法:一种是采用直接的相似性评价,先将所有评价对象进行两两组合,然后要求被访者所有的这些组合间进行直接相似性评价,这种方法我们称之为直接评价法;另一种为间接评价法,由研究人员根据事先经验,找出影响人们评价研究对象相似性的主要属性,然后对每个研究对象,让被访者对这些属性进行逐一评价,最后将所有属性作为多维空间的坐标,通过距离变换计算对象之间的距离。
多维尺度分析的主要思路是利用对被访者对研究对象的分组,来反映被访者对研究对象相似性的感知,这种方法具有一定直观合理性。同时该方法实施方便,调查中被访者负担较小,很容易得到理解接受。当然,该方法的不足之处是牺牲了个体距离矩阵,由于每个被访者个体的距离矩阵只包含1与0两种取值,相对较为粗糙,个体距离矩阵的分析显得比较勉强。但这一点是完全可以接受的,因为对大多数研究而言,我们并不需要知道每一个体的空间知觉图。
多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支。在自然科学和社会科学的许多学科中,研究者都有可能需要分析处理有多个变量的数据的问题。能否从表面上看起来杂乱无章的数据中发现和提炼出规律性的结论,不仅对所研究的专业领域要有很好的训练,而且要掌握必要的统计分析工具。对实际领域中的研究者和高等院校的研究生来说,要学习掌握多元统计分析的各种模型和方法,手头有一本好的、有长久价值的参考书是非常必要的。这样一本书应该满足以下条件:首先,它应该是“浅入深出”的,也就是说,既可供初学者入门,又能使有较深基础的人受益。其次,它应该是既侧重于应用,又兼顾必要的推理论证,使学习者既能学到“如何”做,而且在一定程度上了解“为什么”这样做。最后,它应该是内涵丰富、全面的,不仅要基本包括各种在实际中常用的多元统计分析方法,而且还要对现代统计学的最新思想和进展有所介绍、交代。
主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。
例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。
可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。
因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。
⑸ 致远期货:多因子模型和统计套利模型有什么本质区别
2009年以来,一股“量化基金”的热潮悄然掀起,中海基金、长盛基金、光大保德和富国基金先后推出了自己的量化产品,而富国正在推出的富国300增强基金还属于第一只增强型的指数基金,就是因为量化概念的引入。关于量化基金,国际资本市场,尤其是美国市场已经有了长足的发展并形成了相当的规模,量化基金通过数理统计分析,选择那些未来回报可能会超越基准的证券进行投资,以期获取超越指数基金的收益。区别于普通基金,量化基金主要采用量化投资策略来进行投资组合管理,总的来说,量化基金采用的策略包括:量化选股、量化择时、股指期货套利、商品期货套利、统计套利、期权套利、算法交易、资产配置等。
⑹ 矩阵分解算法隐含因子越多越好么
题主问的应该是latent factor的数量吧
简单的答案就是 不是
如果latent factor的数量过多 就会导致过度fit输入的矩阵
同时latent factor的数量过多 会导致计算跟存储的复杂度过大
⑺ 请教BP神经网络 多因子组合分析的算法。
不好意思,我好久不登陆了,刚刚看到,估计你都毕业了吧,问题应该已经解决了吧?
⑻ 最小二乘法、回归分析法、灰色预测法、决策论、神经网络等5个算法的使用范围及优缺点是什么
最小二乘法:通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。优点:实现简单,计算简单。缺点:不能拟合非线性数据.
回归分析法:指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。优点:在分析多因素模型时,更加简单和方便,不仅可以预测并求出函数,还可以自己对结果进行残差的检验,检验模型的精度。缺点:回归方程式只是一种推测,这影响了因子的多样性和某些因子的不可测性,使得回归分析在某些情况下受到限制。
灰色预测法:
色预测法是一种对含有不确定因素的系统进行预测的方法 。它通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况。它用等时间距离观测到的反应预测对象特征的一系列数量值构造灰色预测模型,预测未来某一时刻的特征量,或者达到某一特征量的时间。优点:对于不确定因素的复杂系统预测效果较好,且所需样本数据较小。缺点:基于指数率的预测没有考虑系统的随机性,中长期预测精度较差。
决策树:在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。优点:能够处理不相关的特征;在相对短的时间内能够对大型数据源做出可行且效果良好的分析;计算简单,易于理解,可解释性强;比较适合处理有缺失属性的样本。缺点:忽略了数据之间的相关性;容易发生过拟合(随机森林可以很大程度上减少过拟合);在决策树当中,对于各类别样本数量不一致的数据,信息增益的结果偏向于那些具有更多数值的特征。
神经网络:优点:分类的准确度高;并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系;具备联想记忆的功能。缺点:神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值;不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。
⑼ 正定矩阵因子分解法(PMF)
3.2.4.1 方法建立
就全国范围而言,我国地下水质量总体较好,根据国家《地下水质量标准》(GB/T 14848—93),我国63%的地区地下水可直接饮用,17%经适当处理后可供饮用,12%不宜饮用,剩余8%为天然的咸水和盐水,由此可见,不宜饮用的地下水和天然咸水、盐水占到了20%,对于这些地下水型水源地饮用水指标并不一定受到污染而存在超标现象,其水质可能受到地下水形成演化影响更为明显,因此,考虑选择反映地下水形成、演化的地下水水化学类型常规指标,进行影响因素解析。地下水水质指标在取样与分析过程中,由于取样和样品处理、试剂和水纯度、仪器量度和仪器洁净、采用的分析方法、测定过程以及数据处理等过程均会产生测量误差(系统误差,随机误差,过失误差)。从取样到分析结果计算误差都绝对存在,虽然在各个过程中进行质量控制,但无法完全消除不确定性的影响,为确保分析结果的可靠性,采用PMF法对地下水水质指标考虑一定的不确定性误差,使分析数据能够准确地反映实际情况。
PMF(Positive Matrix Factorization)与主成分分析(PCA)、因子分析(FA)都是利用矩阵分解来解决实际问题的分析方法,在这些方法中,原始的大矩阵被近似分解为低秩的V=WH形式。但PMF与PCA和FA不同,PCA、FA方法中因子W和H中的元素可为正或负,即使输入的初始矩阵元素全是正的,传统的秩削减算法也不能保证原始数据的非负性。在数学上,从计算的观点看,分解结果中存在负值是正确的,但负值元素在实际问题中往往是没有意义的。PMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法,在求解过程中对因子载荷和因子得分均做非负约束,避免矩阵分解的结果中出现负值,使得因子载荷和因子得分具有可解释性和明确的物理意义。PMF使用最小二乘方法进行迭代运算,能够同时确定污染源谱和贡献,不需要转换就可以直接与原始数据矩阵作比较,分解矩阵中元素非负,使得分析的结果明确而易于解释,可以利用不确定性对数据质量进行优化,是美国国家环保局(EPA)推荐的源解析工具。
3.2.4.2 技术原理
PMF:模型是一种基于因子分析的方法,具有不需要测量源指纹谱、分解矩阵中元素非负、可以利用数据标准偏差来进行优化等优点。目前PMF模型此方法成功用于大气气溶胶、土壤和沉积物中持久性有毒物质的源解析,已有成熟的应用模型 PMF1.1,PMF2.0,PMF3.0等。PMF模型基本方程为:
Xnm=GnpFpm+E (3.7)
式中:n——取样点数;
m——各取样点测试的成分数量;
p——污染源个数;
Xnm——取样点各成分含量;
Gnp——主要源的贡献率;
Fpm——源指纹图谱。
基本计算过程如下:
1)样品数据无量纲化,无量纲化后的样品数据矩阵用D表示。
2)协方差矩阵求解,为计算特征值和特征向量,可先求得样品数据的协方差矩阵,用D′为D的转置,算法为:
Z=DD′ (3.8)
3)特征值及特征向量求解,用雅各布方法可求得协方差矩阵Z的特征值矩阵E和特征向量矩阵Q,Q′表示Q的转置。这时,协方差矩阵可表示为:
Z=QEQ′ (3.9)
4)主要污染源数求解,为使高维变量空间降维后能尽可能保留原来指标信息,利用累计方差贡献率提取显着性因子,判断条件为:
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中:n——显着性因子个数;
m——污染物个数;
λ——特征值。
5)因子载荷矩阵求解,提取显着性因子后,利用求解得到的特征值矩阵E和特征向量矩阵Q进一步求得因子载荷矩阵S和因子得分矩阵C,这时,因子载荷矩阵可表示为:
S=QE1/2 (3.11)
因子得分矩阵可表示为:
C=(S′S)-1S′D (3.12)
6)非负约束旋转,由步骤5求得的因子载荷矩阵S和因子得分矩阵C分别对应主要污染源指纹图谱和主要污染源贡献,为解决其值可能为负的现象,需要做非负约束的旋转。
7)首先利用转换矩阵T1对步骤5求得的因子载荷矩阵S和因子得分矩阵C按下式进行旋转:
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
C1=T1C (3.14)
式中:S1——旋转后的因子载荷矩阵;
C1——旋转后的因子得分矩阵;
T1——转换矩阵,且T1=(C∗C′)(C∗C′)-1(其中:C∗为把C中的负值替换为零后的因子得分矩阵)。
8)利用步骤7中旋转得到的因子载荷矩阵S1构建转换矩阵T2对步骤5中旋转得到的因子载荷矩阵S1和因子得分矩阵C1继续旋转:
S2=S1T2 (3.15)
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中:S2——二次旋转后的因子载荷矩阵;
C2——二次旋转后的因子得分矩阵;
T2——二次转换矩阵,且T2=(S′1+S1)-1(S′1+
9):重复步骤7、8,直到因子载荷中负值的平方和小于某一设定的误差精度e而终止,最终得到符合要求的因子载荷矩阵S,即主要污染源指纹图谱。
3.2.4.3 方法流程
针对受体采样数据直接进行矩阵分解,得到各污染源组分及其贡献率的统计方法(图3.5)。
图3.5 方法流程图
(1)缺失值处理
正定矩阵因子分析是基于多元统计的分析方法,对数据有效性具有一定的要求,因此在进行分析之前首先对数据进行预处理。根据已有数据的特征结合实际情况主要有以下5种处理方法。
1)采样数据量充足的情况下直接丢弃含缺失数据的记录。
2)存在部分缺失值情况下用全局变量或属性的平均值来代替所有缺失数据。把全局变量或是平均值看作属性的一个新值。
3)先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
4)采用预测模型来预测每一个缺失数据。用已有数据作为训练样本来建立预测模型,如神经网络模型预测缺失数据。该方法最大限度地利用已知的相关数据,是比较流行的缺失数据处理技术。
5)对低于数据检测限的数据可用数据检测限值或1/2检测限以及更小比例检测限值代替。
(2)不确定性处理
计算数据不确定性。
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中:s——误差百分数;
c——指标浓度值;
l——因子数据检出限。
(3)数据合理性分析
本研究所用数据在放入模型前以信噪比S/N(Signal to Noise)作为标准进行筛选,信噪比S/N为:
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中:xij——第i采样点第j个样品的浓度;
sij——第i采样点第j个样品的标准偏差。
信噪比小,说明样品的噪声大,信噪比越大则表示样品检出的可能性越大,越适合模型。
(4)数据输入及因子分析
与其他因子分析方法一样,PMF不能直接确定因子数目。确定因子数目的一般方法是尝试多次运行软件,根据分析结果和误差,Q值以及改变因子数目时Q值的相对变化等来确定合理的因子数目。
3.2.4.4 适用范围
PMF对污染源和贡献施加了非负限制,并考虑了原始数据的不确定性,对数据偏差进行了校正,使结果更具有科学的解释。PMF使用最小二乘方法,得到的污染源不需要转换就可以直接与原始数据矩阵作比较,PMF方法能够同时确定污染源和贡献,而不需要事先知道源成分谱。适用于水文地质条件简单,观测数据量较大,污染源和污染种类相对较少的地区,运用简便,可应用分析软件进行计算。
3.2.4.5 NMF 源解析
NMF在实现上较PMF算法简单易行,非负矩阵分解根据目的的不同大致可以分为两种:一是在保证数据某些性质的基础上,将高维空间的样本点映射到某个低维空间上,除去一些不重要的细节,获得原数据的本质信息;二是在从复杂混乱的系统中得到混合前的独立信息的种类和强度。因此,基于非负矩阵分解过程应用领域的不同,分解过程所受的约束和需要保留的性质都不相同。本书尝试性地将NMF算法应用于水质影响因素的分离计算中(表3.2)。
表3.2 RMF矩阵分解权值表
依照非负矩阵分解理论的数学模型,寻找到一个分解过程V≈WH,使WH和V无限逼近,即尽可能缩小二者的误差。在确保逼近的效果,定义一个相应的衡量标准,这个衡量标准就叫作目标函数。目标函数一般采用欧氏距离和散度偏差来表示。在迭代过程中,采用不同的方法对矩阵W和H进行初始化,得到的结果也会不同,算法的性能主要取决于如何对矩阵W和H进行初始化。传统的非负矩阵算法在对矩阵W和H赋初值时采用随机方法,这样做虽然简单并且容易实现,但实验的可重复性以及算法的收敛速度是无法用随机初始化的方法来控制的,所以这种方法并不理想。许多学者提出改进W和H的初始化方法,并发展出专用性比较强的形式众多的矩阵分解算法,主要有以下几种:局部非负矩阵分解(Local Non-negative Matrix Factorization,LNMF)、加权非负矩阵分解(Weighted Non-negative Matrix Factorization,WNMF)、Fisher非负矩阵分解(Fisher Non-negative Matrix Factorization,FNMF)、稀疏非负矩阵分解(Sparse Non-negative Matrix Factorization,SNMF)、受限非负矩阵分解(Constrained Non-negative Matrix Factorization,CNMF)、非平滑非负矩阵分解(Non-smooth Non-negative Matrix Factorization,NSNMF)、稀疏受限非负矩阵分解(Nonnegative Matrix Factorization with Sparseness Constraints,NMF-SC)等理论方法,这些方法针对某一具体应用领域对NMF算法进行了改进。
本书尝试应用MATLAB工具箱中NNMF程序与改进的稀疏非负矩阵分解(SNMF)对研究区11项指标(同PMF数据)进行分解,得到各元素在综合成分中的得分H,初始W0,H0采用随机法取初值。r为分解的基向量个数,合适的r取值主要根据试算法确定,改变r值观察误差值变化情况,本书利用SMNF算法计算时,r分别取2,3,4,采用均方误差对迭代结果效果进行评价,结果显示当r取2,4时误差值为0.034,取3时误差值为0.016,因此r=3是较合理的基向量个数。采用NNMF算法进行计算时,利用MATLAB工具箱提供的两种计算法分别进行计算,乘性法则(Multiplicative Update Algorithm)计算结果误差项比最小二乘法(Alternating Least-squares Algorithm)计算误差值小且稳定,但总体NNMF计算误差较大,改变初始W0,H0取值和增加迭代次数误差均未明显减小,调整r取值,随着r值的增大误差逐渐减小。
对比SNMF和NNMF算法所得权值结果,两种方法所得权值趋势一致,但得分值有所不同,由于SNMF算法对矩阵进行了稀疏性约束,计算结果中较小的权值更趋近于0,两次结果中在三个基向量上总体权值较大的元素项为T-Hard、
⑽ 因子分析法如何确定主成分及各个指标的权重
(1)首先将数据标准化,这是考虑到不同数据间的量纲不一致,因而必须要无量纲化。
(2)对标准化后的数据进行因子分析(主成分方法),使用方差最大化旋转。
(3)写出主因子得分和每个主因子的方程贡献率。 Fj =β1j*X1 +β2j*X2 +β3j*X3 + ……+ βnj*Xn ; Fj 为主成分(j=1、2、……、m),X1、X2 、X3 、……、Xn 为各个指标,β1j、β2j、β3j、……、βnj为各指标在主成分Fj 中的系数得分,用ej表示Fj的方程贡献率。
(4)求出指标权重。 ωi=[(m∑j)βij*ej]/[(n∑i)(m∑j)βij*ej],ωi就是指标Xi的权重。
(10)多因子趋势算法扩展阅读
产品特点
1、操作简便
界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。
2、编程方便
具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。
对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。
3、功能强大
具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。