❶ 中國徵信行業存在的問題
第一,法律環境有待完善;
完善的法律體系可以為徵信行業的蓬勃發展保駕護航。我國現行徵信行業法律體系主要包括2013年國務院下發的《徵信業管理條例》和《徵信機構管理辦法》,以及為進一步明確徵信機構的運行規范,由央行於2015年下發的《徵信機構監管指引》。相比歐美成熟市場,我國徵信行業立法還不夠健全,處於初期探索階段,僅為行政法規或部門規章,兩者的法律效力較低。並且,當前我國還沒有在數據採集以及個人隱私方面建立健全法律體系,導致徵信行業在個性化數據採集方面,面臨隱私保護困擾。
第二,覆蓋人群有待增加;
社會對徵信信息需求巨大,而徵信系統收錄不全,政府主導的徵信體系難以完全滿足金融市場運行的需要。美國對企業和個人的信用信息的覆蓋率高達80%,即便如此,美國的徵信機構仍然在持續投資開發獨家的數據源,通過對新數據的分析,提升資料庫的深度、廣度和質量,為徵信提供了堅實的基礎。而根據我國央行徵信系統的統計,截至2015年末,個人徵信系統收錄8.8億自然人數,其中3.8億人有信貸記錄,5億人只有簡單的身份信息,另有5億多人不在央行徵信系統內。實際上,消費金融公司的目標客戶群主要集中於中低階層消費群體,這類群體以年輕人為主,比如剛參加工作不久的上班族,以及收入不高的群體等。而這部分真正需要消費金融服務的用戶群體,恰恰在我國央行徵信系統中缺乏個人信貸記錄。
第三,市場滲透率有待提升;
艾瑞咨詢數據顯示,中國個人徵信行業的市場滲透率總體維持在 9%左右,2015年中國個人徵信行業潛在市場規模為1,623.6億元,實際市場規模只有 151.4億元。隨著個人消費和交易習慣的改變,徵信的應用場景不斷增加。除了信貸、信用卡消費外,租房、租車、購物、簽證等非金融領域也對個人徵信信息提出需求,市場滲透率有待進一步提升。
第四,數據採集標准有待統一;
數據採集是徵信的基礎,為此,美國全國信用管理協會制定了標準的數據報告格式和標准數據採集格式,將信用數據標准化,便於徵信數據在機構間共享。然而,國內各類數據缺乏有效的共享機制,導致數據孤島問題嚴重,而且現有數據同質化嚴重,多為公開渠道可獲取的數據,缺失個性化獨家數據源。與此同時,各類數據參差不齊,缺乏統一的標准,直接影響徵信報告的質量。
第五,數據分析能力有待提高。
數據分析能力直接決定徵信服務的質量,因此,數據分析是徵信企業將信用數據轉化為徵信產品的關鍵環節。美國的數據分析技術起步很早,早在1956年就推出了FICO評分系統,經過半個多世紀的不斷改進,應用已十分廣泛。目前包括Experian、Equifax和TransUnion在內的90%以上大型徵信機構均採用FICO評分系統。2009年,美國ZestFinance公司將信用分數過低或缺乏信用記錄造成借貸成本畸高的人群(FICO分500以下)作為服務對象,在信用評估分析中融合了多源數據,引入機器學習的預測模型和集成學習的策略,進行大數據挖掘。ZestFinance的核心競爭力在於數據挖掘能力和模型開發能力。據了解,在其模型中,往往要用到3500個數據項,從中提取70,000個變數,利用10個預測分析模型,如欺詐模型、身份驗證模型、預付能力模型、還款能力模型、還款意願模型以及穩定性模型,進行深度學習,並得到最終的消費者信用評分。每個模型平均半年就會誕生一個新版本,替代舊的版本。新版本通常會加入更多的變數和數據源。ZestFinance採用的演算法來自Google的大數據模型。此外還有數千種來源於第三方(如電話賬單等)和借貸者的原始數據被錄入系統,尋找數據間的關聯性並對數據進行轉換,在關聯性的基礎上將變數重新整合成較大的測量指標,最後把這些較大的變數輸入到不同的數據分析模型中,將每一個模型輸出的結論按照模型投票的原則形成最終的信用分數。與傳統信貸管理業務相比,ZestFinance的處理效率提高了將近90%,風險控制方面,ZestFinance的模型相比於傳統信用評估模型性能提高了40%。反觀國內徵信行業,數據分析剛剛起步,數據分析的效率和精準度有待進一步提高
❷ 數據挖掘技術在信用卡業務中的應用案例
數據挖掘技術在信用卡業務中的應用案例
信用卡業務具有透支筆數巨大、單筆金額小的特點,這使得數據挖掘技術在信用卡業務中的應用成為必然。國外信用卡發卡機構已經廣泛應用數據挖掘技術促進信用卡業務的發展,實現全面的績效管理。我國自1985年發行第一張信用卡以來,信用卡業務得到了長足的發展,積累了巨量的數據,數據挖掘在信用卡業務中的重要性日益顯現。
一、數據挖掘技術在信用卡業務中的應用數據挖掘技術在信用卡業務中的應用主要有分析型客戶關系管理、風險管理和運營管理。
1.分析型CRM
分析型CRM應用包括市場細分、客戶獲取、交叉銷售和客戶流失。信用卡分析人員搜集和處理大量數據,對這些數據進行分析,發現其數據模式及特徵,分析某個客戶群體的特性、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體下一步的消費行為,然後以此為基礎,對所識別出來的消費群體進行特定產品的主動營銷。這與傳統的不區分消費者對象特徵的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而能為銀行帶來更多的利潤。對客戶採用何種營銷方式是根據響應模型預測得出的客戶購買概率做出的,對響應概率高的客戶採用更為主動、人性化的營銷方式,如電話營銷、上門營銷;對響應概率較低的客戶可選用成本較低的電子郵件和信件營銷方式。除獲取新客戶外,維護已有優質客戶的忠誠度也很重要,因為留住一個原有客戶的成本要遠遠低於開發一個新客戶的成本。在客戶關系管理中,通過數據挖掘技術,找到流失客戶的特徵,並發現其流失規律,就可以在那些具有相似特徵的持卡人還未流失之前,對其進行有針對性的彌補,使得優質客戶能為銀行持續創造價值。
2.風險管理
數據挖掘在信用卡業務中的另一個重要應用就是風險管理。在風險管理中運用數據挖掘技術可建立各類信用評分模型。模型類型主要有三種:申請信用卡評分卡、行為信用評分卡和催收信用評分卡,分別為信用卡業務提供事前、事中、和事後的信用風險控制。
申請評分模型專門用於對新申請客戶的信用評估,它應用於信用卡徵信審核階段,通過申請人填寫的有關個人信息,即可有效、快速地辨別和劃分客戶質量,決定是否審批通過並對審批通過的申請人核定初始信用額度,幫助發卡行從源頭上控制風險。申請評分模型不依賴於人們的主觀判斷或經驗,有利於發卡行推行統一規范的授信政策。行為評分模型是針對已有持卡人,通過對持卡客戶的行為進行監控和預測,從而評估持卡客戶的信用風險,並根據模型結果,智能化地決定是否調整客戶信用額度,在授權時決定是否授權通過,到期換卡時是否進行續卡操作,對可能出現的使其提前進行預警。催收評分模型是申請評分模型和行為評分模型的補充,是在持卡人產生了逾期或壞賬的情況下建立的。催收評分卡被用於預測和評估對某一筆壞賬所採取措施的有效性,諸如客戶對警告信件反應的可能性。這樣,發卡行就可以根據模型的預測,對不同程度的逾期客戶採取相應措施進行處理。以上三種評分模型在建立時,所利用的數據主要是人口統計學數據和行為數據。人口統計學數據包括年齡、性別、婚姻狀況、教育背景、家庭成員特點、住房情況、職業、職稱、收入狀況等。行為數據包括持卡人在過去使用信用卡的表現信息,如使用頻率、金額、還款情況等。由此可見,數據挖掘技術的使用,可以使銀行有效地建立起事前、事中到事後的信用風險控制體系。
3.運營管理
雖然數據挖掘在信用卡運營管理領域的應用不是最重要的,但它已為國外多家發卡公司在提高生產效率、優化流程、預測資金和服務需求、提供服務次序等問題的分析上取得了較大成績。
二、常用的數據挖掘方法
上述數據挖掘技術在信用卡領域的應用中,有很多工具可用於開發預測和描述模型。有些用統計方法,如線性回歸和邏輯回歸;有些有非統計或混合方法,如神經網路、遺傳演算法、決策樹及回歸樹。這里僅討論幾種常見的典型方法。
1.線性回歸
簡單線性回歸分析是量化兩個連續變數之間關系的一種統計技術。這兩個變數分別是因變數(預測變數)。使用這一方法,可以發現一條穿過數據的線,線上的點使對應數據點的方差最小。為市場營銷、風險和客戶關系管理建立模型時,通常有多個自變數,用多個獨立自變數來預測一個連續變數稱為多元線性回歸,用線性回歸方法建立的模型通常具有魯棒性。
2.邏輯回歸
邏輯回歸是使用最廣泛的建模技術,與線性回歸很相似。兩者的主要區別在於邏輯回歸的因變數(想預測變數)不是連續的,而是離散的或者類型變數。如申請評分模型可運用邏輯回歸方法,選取關鍵變數確定回歸系數。以申請者的關鍵變數x1,x2,…xm為自變數,以y=[1 申請者是壞客戶;0 申請者是好客戶,為因變數,則對於二分類因變數,一般假設客戶變壞的概率為 p(y=1)=eβ0 β1×1 … βmxm/1 eβ0 β1×1 … βmxm式中,β0,β1…,βm是常數,即1n(p/1-p)=β0 β1×1 … βmxm
3.神經網路
神經網路處理和回歸處理大不相同,它不依照任何概率分布,而是模仿人腦功能,可以認為它是從每一次經驗中提取並學習信息。神經網路系統由一系列類似於人腦神經元一樣的節點組成,這些節點通過網路彼此互連。如果有數據輸入,它們便可以進行確定數據模式的工作。神經網路由相互連接的輸入層、中間層(或隱藏層)、輸出層組成。中間層由多個節點組成,完成大部分網路工作。輸出層輸出數據分析的執行結果。
4.遺傳演算法
與神經元網路類似,遺傳演算法也不遵循任何概率分布,是源自「適者生存」的進化過程。它首先將問題的可能解按某種形式進行編碼,編碼後的解稱為染色體。隨機選取n個染色體作為初始種群,再根據預定的評價函數對每個染色體計算適應值,性能較好的染色體有較高的適應值。選擇適應值較高的染色體進行復制,並通過遺傳運算元產生一群新的更適應環境的染色體,形成新的種群,直至最後收斂到一個最適應環境的個體,得到問題的最優化解。
5.決策樹
決策樹的目標是逐步將數據分類到不同的組或分支中,在因變數的值上建立最強劃分。由於分類規則比較直觀,所以易於理解。圖1為客戶響應的決策樹,從中很容易識別出響應率最高的組。
三、實例分析
以下以邏輯回歸方法建立信用卡申請評分模型為例,說明數據挖掘技術在信用卡業務中的應用。申請評分模型設計可分為7個基本步驟。
1.定義好客戶和壞客戶的標准
好客戶和壞客戶的標准根據適合管理的需要定義。按照國外的經驗,建立一個預測客戶好壞的風險模型所需的好、壞樣本至少各要有1000個左右。為了規避風險,同時考慮到信用卡市場初期,銀行的效益來源主要是銷售商的傭金、信用卡利息、手續費收入和資金的運作利差。因此,一般銀行把降低客戶的逾期率作為一個主要的管理目標。比如,將壞客戶定義為出現過逾期60天以上的客戶;將壞客戶定義為出現過逾期60天以上的客戶;將好客戶定義為沒有30天以上逾期且當前沒有逾期的客戶。
一般來講,在同一樣本空間內,好客戶的數量要遠遠大於壞客戶的數量。為了保證模型具有較高的識別壞客戶的能力,取好、壞客戶樣本數比率為1:1。
2.確定樣本空間
樣本空間的確定要考慮樣本是否具有代表性。一個客戶是好客戶,表明持卡人在一段觀察期內用卡表現良好;而一個客戶只要出現過「壞」的記錄,就把他認定為壞客戶。所以,一般好客戶的觀察期要比壞客戶長一些、好、壞客戶可以選擇在不同的時間段,即不同的樣本空間內。比如,好客戶的樣本空間為2003年11月-2003年12月的申請人,壞客戶的樣本空間為2003年11月-2004年5月的申請人,這樣既能保證好客戶的表現期較長,又能保證有足夠數量的壞客戶樣本。當然,抽樣的好、壞客戶都應具有代表性。
3.數據來源
在美國,有統一的信用局對個人信用進行評分,通常被稱為「FICO評分」。美國的銀行、信用卡公司和金融機構在對客戶進行信用風險分析時,可以利用信用局對個人的數據報告。在我國,由於徵信系統還不完善,建模數據主要來自申請表。隨著我國全國性徵信系統的逐步完善,未來建模的一部分數據可以從徵信機構收集到。
4.數據整理
大量取樣的數據要真正最後進入模型,必須經過數據整理。在數據處理時應注意檢查數據的邏輯性、區分「數據缺失」和「0」、根據邏輯推斷某些值、尋找反常數據、評估是否真實。可以通過求最小值、最大值和平均值的方法,初步驗證抽樣數據是否隨機、是否具有代表性。
5.變數選擇
變數選擇要同時具有數學統計的正確性和信用卡實際業務的解釋力。Logistic回歸方法是盡可能准確找到能夠預測因變數的自變數,並給予各自變數一定權重。若自變數數量太少,擬合的效果不好,不能很好地預測因變數的情況;若自變數太多,會形成過分擬合,預測因變數的效果同樣不好。所以應減少一些自變數,如用虛擬變數表示不能量化的變數、用單變數和決策樹分析篩選變數。與因變數相關性差不多的自變數可以歸為一類,如地區對客戶變壞概率的影響,假設廣東和福建兩省對壞客戶的相關性分別為-0.381和-0.380,可將這兩個地區歸為一類,另外,可以根據申請表上的信息構造一些自變數,比如結合申請表上「婚姻狀況」和「撫養子女」,根據經驗和常識結合這兩個欄位,構造新變數「已婚有子女」,進入模型分析這個變數是不真正具有統計預測性。
6.模型建立
藉助SAS9軟體,用逐步回歸法對變數進行篩選。這里設計了一種演算法,分為6個步驟。
步驟1:求得多變數相關矩陣(若是虛擬變數,則>0.5屬於比較相關;若是一般變數,則>0.7-0.8屬於比較相關)。
步驟2:旋轉主成分分析(一般變數要求>0.8屬於比較相關;虛擬變數要求>0.6-0.7屬於比較相關)。
步驟3:在第一主成分和第二主成分分別找出15個變數,共30個變數。
步驟4:計算所有30個變數對好/壞的相關性,找出相關性大的變數加入步驟3得出的變數。
步驟5:計算VIF。若VIF數值比較大,查看步驟1中的相關矩陣,並分別分析這兩個變數對模型的作用,剔除相關性較小的一個。
步驟6:循環步驟4和步驟5,直到找到所有變數,且達到多變數相關矩陣相關性很而單個變數對模型貢獻作用大。
7.模型驗證
在收集數據時,把所有整理好的數據分為用於建立模型的建模樣本和用於模型驗證的對照樣本。對照樣本用於對模型總體預測性、穩定性進行驗證。申請評分模型的模型檢驗指標包括K-S值、ROC、AR等指標。雖然受到數據不幹凈等客觀因素的影響,本例申請評分模型的K-S值已經超過0.4,達到了可以使用的水平。
四、數據挖掘在國內信用卡市場的發展前景
在國外,信用卡業務信息化程度較高,資料庫中保留了大量的數量資源,運用數據技術建立的各類模型在信用卡業務中的實施非常成功。目前國內信用卡發卡銀行首先利用數據挖掘建立申請評分模型,作為在信用卡業務中應用的第一步,不少發卡銀行已經用自己的歷史數據建立了客戶化的申請評分模型。總體而言,數據挖掘在我國信用卡業務中的應用處於數據質量問題,難於構建業務模型。
隨著國內各家發卡銀行已經建立或著手建立數據倉庫,將不同操作源的數據存放到一個集中的環境中,並且進行適當的清洗和轉換。這為數據挖掘提供了一個很好的操作平台,將給數據挖掘帶來各種便利和功能。人民銀行的個人徵信系統也已上線,在全國范圍內形成了個人信用數據的集中。在內部環境和外部環境不斷改善的基礎上,數據挖掘技術在信用卡業務中將具有越來越廣闊的應用前景。
❸ 如何將數據挖掘技術應用與互聯網金融
互聯網金融,目前需要演算法的是主要是風控模型。能查到的有IPC、FICO、WeCash之類的。
當然你可以自己拿一些模型比如」邏輯回歸「來實現對用戶打分卡及細分,計算貸款利率、期限、額度。數據挖掘嘛,首先是要定位一個商業問題,然後再評估該問題在進度、資源、數據等各個約束下的可行性,往往還是分析思路是關鍵。數據挖掘和互聯網金融相結合需要軟體作為橋梁,目前好一些的軟體公司有高達軟體,百會,用友,金蝶等
❹ 芝麻信用補全資料的話,能漲分嗎
芝麻信用補全資料的話,能漲分嗎?
如今支付寶錢包的芝麻信用分,每一個月的六號升級一次,每一次都是有許多借款未還、信譽度欠佳的客戶減少成績,也是有許多根據各種各樣的渠道,健全個人信息、消費服務項目等提升了成績,我接單子詳細介紹下怎樣補齊你的信息,有房有車高文憑的客戶迅速就能提高成績哦!
2、多選購支付寶錢包和螞蟻聚寶上的投資理財產品,例如支付寶余額寶、娛樂寶、招財寶和股票基金。盡管支付寶余額寶預估年收益率下挫,但也比銀行活期強,再不然還能夠選購招財寶。
3、常用手機轉賬、送紅包。留意,這必須 在自身了解且信用好的朋友開展,轉賬、送紅包的頻次和目標越多,內在聯系月經常牢固,人際關系品質越高。
4、多應用支付寶錢包的各種各樣服務項目作用。如大城市生活服務類、話費充值、酒店餐廳飛機票預訂和店家折扣等作用。
❺ 區塊鏈真的有發展前景嗎
區塊鏈毋庸置疑的有發展前景,而有發展前景的必要條件,就是進入主流市場。
北美區塊鏈基礎設施The OAN(前Aion Network)創始人及CEO Matt Spoke 7月24日在福布斯發表了一篇標題為《為了成功進入主流市場,區塊鏈項目必須「吃狗糧」》的文章,Matt在文中提到了自己對區塊鏈該如何進入主流市場的看法——"吃狗糧"。
在科技圈中,有一句行話叫"吃狗糧"(dogfooding,也稱為吃自己的狗糧),指的是公司使用自己的產品,成為自己產品的用戶。許多高增長公司(如微軟、Facebook、亞馬遜、蘋果、Netflix和谷歌)也都會通過「吃狗糧」的方式進行產品測試,或幫助產品建立信譽。「吃狗糧」雖經常被用來發現和修復bug,但它還有另一個價值:為公司的產品創造可靠的用例。
這一點很值得區塊鏈項目學習,因為區塊鏈項目常常抱著"建好了,他們(用戶)自然會來"的想法,習慣性地把創造新鮮、有趣的區塊鏈應用的責任交給第三方。
這種態度極為普遍,就連知名的區塊鏈峰會Consensus 2019(2019共識大會)也舉辦了題為 "建好了,他們(用戶)自然會來:打造一個全球區塊鏈中心"的圓桌論壇,討論世界各國政府如何在平衡監管、投資和創新需求的同時,為吸引區塊鏈項目做出努力。
平心而論,這種策略對於僅以幣圈人士為受眾的區塊鏈來說可能是有效的。對於證券型代幣,特別是交易這類代表的交易所來說,就更加說得通——「供給創造需求」在這里是慣常的思路,尤其是考慮到實現這些交易需要搭建復雜的基礎設施。
相比之下,「吃狗糧」更有可能被那些尋求主流受眾(比如金融業、製造和供應鏈、身份管理等領域的受眾)的區塊鏈項目開發者所採用。區塊鏈技術要想打入這些主流領域,區塊鏈公司必須先「吃狗糧」。這樣不僅可以清楚地證明區塊鏈技術在幣圈之外也是可行的,還可以凸顯出區塊鏈不光優化現有用例,也能創造新用例。
而The OAN團隊就是一直秉持著這一理念,並依靠著多年來打造的The OAN和Aion的技術棧,開發出了面向獨立工作者的金融科技平台Moves。
Matt表示,在開發和發展Moves這款產品時,團隊希望The OAN區塊鏈網路的相關功能可以得到充分的發揮,所以重點將從以下三個方面進行考量:
1. 如何使用The OAN區塊鏈網路來提高產品的信貸效率。
提高信貸效率主要考量的點有兩個:1)可否借鑒DeFi市場的機制降低資金成本;2)可否利用區塊鏈技術來增加外界對於Moves的授信過程的信任。在這里,Moves將形成一種「匯集眾智」的機制,讓所有人都能夠為降低信用風險和增加授信過程的可信度做出貢獻,甚至可能在未來發展出一種微擔保機制。因此,用戶將可以作為借方、貸方或者擔保方參與到平台建立的市場中。
2. 如何使產品與用戶的利益一致化。
具體來說,就是通過將Moves與The OAN網路相連接,藉助數字資產Aion,在產品和用戶之間形成一種利益一致化的關系,從而讓用戶能夠切身體會到Moves產品開展的成功與否,同時也能直接參與到支持Moves的區塊鏈網路——The OAN之中。
3. 如何以Moves開創金融信譽數據開放系統的先河。
這種開放系統可能會成為傳統信貸分數或者相關機制的替代品。多年來,銀行和金融機構一直將Equifax,FICO或者其他類似機構的評分作為風險指標,而Moves團隊認為其正在打造的產品將會是一個很好的開端——一個更完善的、更現代化的金融信譽系統的開端。這是一個長期目標。
Moves支持北美主流拼車、外賣等零工經濟平台,將是The OAN在其區塊鏈網路上開發的旗艦版開放應用程序。在6月,Moves的業務運營范圍已經從最初的安大略省再擴大兩地——亞伯達省和不列顛哥倫比亞省,挺進加拿大西部。
The OAN團隊的種種舉措,都是秉持著「吃狗糧」精神,為了讓區塊鏈技術能盡快進入主流市場而努力。區塊鏈並不是面向小眾,而是面向主流,除了The OAN團隊,區塊鏈業內的很多項目、機構也都是朝著這一目標,這么優秀、這么有目標的區塊鏈,你能說沒發展前景嗎?
❻ 談談我國大數據發展面臨著哪些制約因素
1.很少有優質可用的數據
這幾年數據交易機構如雨後春筍,「數據變現」成為很多擁有數據積累的傳統企業的新的生財法。目前,我國大數據需求端以互聯網企業為主,覆蓋面不廣,在O2O趨勢下,大型互聯網廠商嘗試引入外部數據支撐金融、生活、語音、旅遊、健康和教育等多種服務。
然而在具體的領域或行業內,我國普遍未形成成型的數據採集、加工、分析和應用鏈條,大量數據源未被激活,大多數數據擁有者沒有數據價值外化的路徑。比如,各醫療健康類應用收集了大量的數據,但沒有像那樣面向醫葯公司售賣數據。與國外相比我國的政府、公共服務、農業應用基本缺位,電信和銀行業更缺少與外部數據的碰撞。
另外,其實數據交易這件事本身就是一個悖論。數據作為一種商品有一定的特殊性,我用了別人也可以用,沒有任何消耗,可以在市場賣很多遍。這就產生一個問題,你這個數據到市場賣,根據經濟學觀點它的價值是零,你賣給我我可以用更低的價格賣給別人,所以數據交易理論上來說也是不可行的。
大數據概念火了以後,很多機構覺得數據存起來就是寶,於是積攢了大量零碎數據放在那裡,到底能發揮什麼作用也未可知。而在和許多真正想用數據做些事情的機構的合作中我們發現,即便是政府機構這樣的權威數據持有方,也存在很多數據缺失、數據錯誤、噪音多各方面的問題。
我們常常在講大數據就用大數據方法,小數據就用小數據方法,完美的數據是永遠等不來的。但這樣會導致什麼問題呢?在實際項目實施過程中,我們的數據科學家們不得不花費大量時間在數據清洗上,這其實是對本來就緊缺的數據人員的一種浪費。
理論上我們中國有很多數據,但不同部門數據存在在不同的地方,格式也不一樣。政府內部本身整合各部門的數據就已經是一件很頭大的事情,更不要提大規模的數據開放。同時數據開放面臨一個嚴重問題就是隱私問題,脫敏遠遠不夠,隱私問題是一個無底洞。比如我們把一個人的支付寶3個月數據拿過來,就可以很輕易的知道這個人今天在門口便利店買了一瓶水,昨天在淘寶買了沙發,每隔三個月會有一筆萬元的支出。那我們就可以很容易推斷這個人剛換了一個租房子的地方,就能了解他的消費習慣。這個數據其實完全是脫敏的,沒有名字、沒有號碼,但絲毫不妨礙我們通過演算法完全的勾勒出這個人的畫像。
2.實際技術與業務之間還有很大距離
大數據行業發展至今,技術與業務之間依然存在巨大著鴻溝。首先,就是數據分析技術本身。數據源企業為實現數據價值變現,嘗試多種方法,甚至自己組建數據分析團隊,可是數據分析是個技術活,1%的誤差都會極大地影響市場份額,術業有專攻,數據變現還是需要專業的數據分析人才來實現。
大數據概念的火熱,做大數據的公司越來越多,產品做得五花八門,數據建模看似誰都可以涉足,但現在數據分析的技術,方法,模型,演算法都有了非常大的改進,跟過去六七十年代完全不一樣,不是說做幾個SAAS軟體或者RAAS軟體就是大數據了,雖然短期看市場火熱,但長遠來說這條路是走不通的,大數據行業發展,技術才是真正的發力點,提高行業准入門檻尤為重要。
其次中國的數據有它的特色,例如在金融行業,目前大部分銀行採用的是風險評分卡,運用專家經驗定義風險變數,基於定性認識進行評分,通過事後風險回檢優化評分卡,風險預警功能較差。雖然央行徵信中心與國內少數技術領先銀行使用的是風險評分模型,但模型方法相對陳舊,如央行所用FICO評分模型為上世紀80年代基於邏輯回歸演算法構建的評分體系,邏輯回歸演算法適合處理線性數據,但實際問題往往是非線性的,特別是信用風險評估場景下。此外,FICO模型沒有針對我國具體業務進行場景細分,建模邏輯並不完全符合我國實際情況,因此導致准確率不足,風險預警能力差。基於此,中國人民銀行徵信中心首次與國內大數據公司合作,這次合作中普林科技應用國際領先的大數據建模分析技術運用決策樹隨機森林,AdaBOOST,GBDT,SVM等演算法,通過對信用報告的數字化解讀與深入洞察,准確預測了違約風險,對貸款審批、貸中管理形成指導,新模型對好壞賬戶的區分度遠高於行業平均水平。此次合作表明我國的大數據難題更需要適應國情的解決方案與本土的技術人才,這對我們的市場提出了一個新問題。
3.人才稀缺
我們國家大數據發展最大的優勢就是市場大,最大的劣勢恰巧就是缺乏相應人才,人才缺乏的程度非常嚴重。首先在國際市場方面,我們要跟國外公司爭人才,然而國外大數據行業同樣十分火熱。而不論在國內還是國外,跟企業競爭人才都是一項艱巨的事業,比如在世界上最好的大學之一的美國普林斯頓大學,想找數學家也是非常困難,人才很容易被大公司挖走,每年都有非常好的數據分析人才被企業挖走。所以人才難覓不只是口頭說說,更是一個亟待解決的問題 大數據是一個交叉學科,涉及統計學,管理編程等多學科,知識點復雜,缺乏系統的學習教程。
❼ 芝麻信用的履約能力是怎麼評估的
1. 違約歷史(Payment history),權重 35%。涉及過去的違約記錄,例如斷供房產被拍賣,被催債(如拖欠信用卡被收賬公司追討)、罰款(法庭判的或者庭外和解都算)、個人破產(這個國內可能沒有)、被因為欠稅被稅務局查封財產(tax lien)等。
2. 債務負擔(Debt Burden),權重 30%。這個好理解,就是個人的杠桿率,你欠債越多,評分越低。FICO 具體的演算法沒有公布,但是信用卡信用額度利用率應該是因素之一,比如你長期都只能還最低還款額和每次還全額,差別肯定是會很大。
3. 信用歷史(Length of credit history),權重 15%。就是你有信用記錄的時間越長越好。這個很簡單,跑長跑是一項能力,一直保持信用記錄也是能力。所以,辦一張信用卡,也是有好處的哦。
4. 信用種類(Types of credit used),權重10%。這個也好理解。你用過的信用種類越多(信用卡,房貸,消費貸,等等等等),說明你金融知識越豐富,那種每次都全款,不用信用卡,不用貸款的土豪,就要吃虧了。
5. 新申請信用(Recent searches for credit),權重10%。申請信用的過程,就是提高杠桿的過程,比如要買房買車,都是需要申請貸款的,貸款的時候,是需要對你的信用進行一次查詢的。即所謂 hard pull。申請一次,會扣一定的分數,對信用分數造成一次負面影響。(當然,FICO 也考慮到了你需要從幾個不同銀行分別申請,最後決定哪家貸款便宜,在短期連續 hard pull 的時候扣分不是每查一次扣一次,會合並)
❽ FICO評分系統有什麼優缺點在國內的發展怎麼樣
本人北美信用卡領域供職,中間涉及FICO.與其他credit bureau的功能類似,美國consumer fair lending 法案要求有機構專門計算一個信用分數 從而用於從小到信用卡,大到房屋按揭的借貸。既保證公平性,同時兼備風險的考量。演算法本身還是公平的,具體的考量標准在樓上已經介紹,這里不再贅述。個人感覺缺點如下:實時性不足 比如你要買新房 需要很早准備提高信用分數 從而便於拿到更低的利率。當然有人說減少投機性,這個可以另開話題討論。各考量標准權重固定不變。由於每人消費習慣 周期長短不同 很難保證反應最真實的情況。缺乏對未來信用風險的預測 目前的分數只能反應過去跟當下 無法顯示個人的信用潛力 很顯然這個每人是不同的。而這個一部分 我們已經著手來做 從而增加我acquisition的數量跟穩定性。
❾ 介紹有關計算機的一種前端技術
大數據基礎概念
「很多人還沒搞清楚什麼是PC互聯網,移動互聯網來了,我們還沒搞清楚移動互聯的時候,大數據時代又來了。」——馬雲卸任演講
本文嘗試從三大產業的角度將大數據的核心商業價值分類討論。
首先例舉一些大數據的典型應用,然後解釋大數據的定義,最後總結大數據的價值。
我們知道:
第一次工業革命以煤炭為基礎,蒸汽機和印刷術為標志,
第二次工業革命以石油為基礎,內燃機和電信技術為標志,
第三次工業革命以核能基礎,互聯網技術為標志,
第四次工業革命以可再生能源為基礎,_________為標志。
空白處你會填上什麼?歡迎大家討論。但是目前可以預測的是,數據和內容作為互聯網的核心,不論是傳統行業還是新型行業,誰率先與互聯網融合成功,能夠從大數據的金礦中發現暗藏的規律,就能夠搶佔先機,成為技術改革的標志。
一、大數據的應用
大數據挖掘商業價值的方法主要分為四種:
客戶群體細分,然後為每個群體量定製特別的服務。
模擬現實環境,發掘新的需求同時提高投資的回報率。
加強部門聯系,提高整條管理鏈條和產業鏈條的效率。
降低服務成本,發現隱藏線索進行產品和服務的創新。
Mckinsey列出了各個行業利用大數據價值的難易度以及發展潛力。《Big data: The next frontier for innovation, competition, and proctivity》
各種Data之間的關系圖,注意Open Data是完全包含了Open government data(政府開放數據)
Mckinsey也列出了Open Data時代里七大行業潛在的經濟價值,自上而下分別是教育,運輸,消費品、電力、石油與天然氣、醫療護理、消費金融。(感謝知友安陽提供的補充鏈接資料)
大數據的類型大致可分為三類:
傳統企業數據(Traditional enterprise data):包括 CRM systems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。
機器和感測器數據(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業設備感測器,設備日誌(通常是Digital exhaust),交易數據等。
社交數據(Social data):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平台。
從理論上來看:所有產業都會從大數據的發展中受益。但由於數據缺乏以及從業人員本身的原因,第一、第二產業的發展速度相對於第三產業來說會遲緩一些。
(2).第二產業
2013年9月,工業和信息化部發布了《關於印發信息化和工業化深度融合專項行動計劃(2013-2018年)》的通知。明確提出推動物聯網在工業領域的集成創新和應用:
實施物聯網發展專項,在重點行業組織開展試點示範,以感測器和感測器網路、RFID、工業大數據的應用為切入點,重點支持生產過程式控制制、生產環境檢測、製造供應鏈跟蹤、遠程診斷管理等物聯網應用,促進經濟效益提升、安全生產和節能減排。
大數據的業務多是數據驅動型,具有數據量大、種類多、實時性高的特點。工業企業對數據的記錄以往看來主要分為兩種方法:傳統的紙筆和Excel電子表格記錄。這些操作起來看似簡單的數據管理方式為企業生產及質量監控埋下了巨大的隱患,也讓數據挖掘無從談起。
隨著信息化與工業化的融合發展,信息技術滲透到了工業企業產業鏈的各個環節。例如Sensor、RFID、Barcode、物聯網等技術已經在企業中得到初步應用,工業大數據也開始逐漸得到積累。企業中生產線高速運轉時機器所產生的數據量不亞於計算機數據,而且數據類型多是非結構化數據,對數據的實時性要求也更高。因此工業大數據所面臨的問題和挑戰很多,所以通用電氣公司(General Electric)的副總裁兼全球技術總監William Ruh認為相對於工業大數據來說,工業互聯網(Instrial Internet)才是當前急需的,因為大數據本身並沒有讓信息的提取更加智能,業務比數據本身更加重要。他舉了一個核磁共振成像掃描的例子:
Here』s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data proced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many indivials working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.
又如在工業中,壓力、溫度等數據的特點是需要語境才能理解的。燃氣輪機排氣裝置上的溫度讀數與一台機車的內部溫度是完全不同的。燃氣輪機改善熱敷需要使用非常復雜的演算法運行模型。在筆記本電腦上,一個典型的查詢要獲得答案一般需要三個星期。在基於大數據的分布式系統上發布同樣的查詢執行一種計算只需要不到一秒鍾。
第三方認證機構(TÜV NORD GROUP),工業
德國漢德技術監督服務有限公司的前身是德國鍋爐檢驗協會(簡稱TÜV)早在1869年,德國鍋爐檢驗協會就承擔了德國國內所有鍋爐運行安全的檢驗工作,保證了鍋爐生產的安全。漸漸的,德國鍋爐檢驗協會取得了德國政府的授權,開展對其他產品的檢驗工作,從采礦,電力系統開始,到壓力容器,機動車輛,醫療設備,環境保護,宇航工業,醫療產品等等,現在的德國漢德技術監督服務有限公司已經成為了許許多多產品的安全代號。主要體系認證包括企業質量管理體系,生產環境體系,生產碳排放方案等。TÜV當前從建築綠色標准體系方面提出了對於大數據能源管理的探索,以微軟新總部,蒂森克虜伯電梯總部為例,在整個項目實施中引入大數據能源管理,在建築的設計規劃階段、施工階段、運營階段等多個階段通過數據化的能源管理系統,實現建築的低碳、綠色、智能。
工業自動化軟體商(Wonderware ),工業
Wonderware作為系統軟體涉及的專業企業,對於大數據的計算和運用是從比較「IT」的角度出發的。Wonderware 的實時數據管理軟體能夠提供一個工廠所需要的從建立到報廢的所有實時數據。目前已經退出移動版本,工程總監在手機上就能夠隨時隨地監控設備的運行狀況。目前全球超過三分之一的工廠應用Wonderware公司的軟體解決方案。
了解更多:
大數據在電力行業的應用前景有哪些?
(3).第三產業
這一個部分的內容比較多。這里只提出一些典型的應用例子,歡迎補充。
健康與醫療:Fitbit® Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕帶可以收集有關我們走路或者慢跑的數據,例如行走步數、卡路里消耗、睡眠時長等數據與健康記錄來改善我們的健康狀況;Early Detection of Patient Deterioration等公司正在開發床墊監測感測器,自動監測和記錄心臟速率、呼吸速率、運動和睡眠活動。該感測器收集的數據以無線方式被發送到智能手機和平板電腦進行進一步分析;美國公共衛生協會(APHA: American Public Health Association)開發Flu Near You用來的症狀,通過大數據分析生成報告顯示用戶所在地區的流感活動。
視頻:互聯網電視能夠追蹤你正在看的內容,看了多長時間,甚至能夠識別多少人坐在電視機前,來確定這個頻道的流行度。Netflix 美國國內規模最大的商業視頻流供應商,收集的數據包括用戶在看什麼、喜歡在什麼時段觀看、在哪裡觀看以及使用哪些設備觀看等。甚至記錄用戶在哪視頻的哪個時間點後退、快進或者暫停,乃至看到哪裡直接將視頻關掉等信息。典型的應用是Netflix公司利用數據說服BBC重新翻拍了電視連結劇《紙牌屋》,而且成功的挖掘出演員Kevin Spacey和導演David Fincher的支持者與原劇集粉絲的關聯性,確定新劇拍攝的最佳人選。
When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.
交通:《車來了》通過分析公交車上GPS定位系統每天的位置和時間數據,結合時刻表預測出每一輛公交車的到站時間;WNYC開發的Transit Time NYC通過開源行程平台(Github:OpenTripPlanner和MTA )獲取的數據將紐約市劃分成2930個六邊形,模擬出從每一個六邊形中點到邊緣的時間(地鐵和步行,時間是上午九點),最終建模出4290985條虛擬線路。用戶只需點擊地圖或者輸入地址就能知道地鐵到達每個位置的時間;實時交通數據採集商INRIX-Traffic的口號是(永不遲到!^^),通過記錄每位用戶在行駛過程中的實時數據例如行駛車速,所在位置等信息並進行數據匯總分析,而後計算出最佳線路,讓用戶能夠避開擁堵。
電子商務:Decide 是一家預測商品價格並為消費者提出購買時間建議的創業公司,通過抓取亞馬遜、百思買、新蛋及全球各大網站上數以十億計的數據進行分析,最終整合在一個頁面中方便消費者對比查看,並且能夠預測產品的價格趨勢,幫助用戶確定商品的最好購買時機。已經於2013年被 eBay收購。
政治:奧巴馬在總統競選中使用大數據分析來收集選民的數據,讓他可以專注於對他最感興趣的選民,谷歌執行董事長Eric Schmidt當時向奧巴馬的大數據分析團隊投資數百萬美元並聚攏核心成員成立了Civis Analytics咨詢公司,該公司將會將在奧巴馬連任競選中所獲得的經驗應用到商業和非營利行業中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term)
金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill創立金融數據分析服務提供商,使用機器學習演算法和大數據為放款者提供承保模式,旨在為那些個人信用不良或者不滿足傳統銀行貸款資格的個人提供服務。公司使用分析模型對每位信貸申請人的上萬條原始信息數據進行分析,只需幾秒時間便可以得出超過十萬個行為指標。目前違約率比行業平均水平低 60%左右。另外一個不得不提到的是風險管理先驅者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通過大數據分析為銀行和信用卡發卡機構、保險、醫療保健、政府和零售行業提供服務。FICO 信用分計算的基本思想是:把借款人過去的信用歷史資料與資料庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢跟經常違約、隨意透支、甚至申請破產等各種陷入財務困境的借款人的發展趨勢是否相似。FICO 已經為三分之二的世界 100 強銀行提供服務,提高了客戶忠誠度和盈利率、減少欺詐損失、管理信貸風險、滿足監管與競爭要求並快速獲取市場份額。想了解更多的企業可以看看附錄中《經濟學人》的文章《Big data: Crunching the numbers》。
電信: 美國T-mobiles採用Informatica - The Data Integration Company平台開展大數據工作,通過集成數據綜合分析客戶流失的原因,根據分析結果優化網路布局為客戶提供了更好的體驗,在一個季度內將流失率減半;韓國 SK telecom新成立一家公司SK Planet,通過大數據分析用戶的使用行為,在用戶做出決定之前推出符合用戶興趣的業務防止用戶流失。美國AT&T 公司將記錄用戶在Wifi網路中的地理位置、網路瀏覽歷史記錄以及使用的應用等數據銷售給廣告客戶。比如當用戶距離商家很近時,就有可能收到該商家提供的折扣很大的電子優惠券。英國BT - Broadband公司發布了新的安全數據分析服務Assure Analytics—BT news releases,幫助企業收集、管理和評估大數據集,將這些數據通過可視化的方式呈現給企業,幫助企業改進決策。
一般來說盈利性質的商業公司和企業都不會輕易泄露自己的數據、建模方法和分析過程,所以還有很多大家不知道的神秘應用潛伏在黑暗裡,如同《三體》中的」黑暗森林法則「。
宇宙就是一座黑暗森林,每個文明都是帶槍的獵人,像幽靈般潛行於林間,輕輕撥開擋路的樹枝,竭力不讓腳步發出一點兒聲音,連呼吸都必須小心翼翼:他必須小心,因為林中到處都有與他一樣潛行的獵人,如果他發現了別的生命,能做的只有一件事:開槍消滅之。在這片森林中,他人就是地獄,就是永恆的威脅,任何暴露自己存在的生命都將很快被消滅,這就是宇宙文明的圖景,這就是對費米悖論的解釋。
二、大數據的定義
大數據(Big Data)是指「無法用現有的軟體工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合。」業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特徵。
數據體量巨大(Volume)。截至目前,人類生產的所有印刷材料的數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB(1EB=210PB)。
數據類型繁多(Variety)。相對於以往便於存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網路日誌、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。
價值密度低(Value)。價值密度的高低與數據總量的大小成反比。如何通過強大的機器演算法更迅速地完成數據的價值「提純」成為目前大數據背景下亟待解決的難題。
處理速度快(Velocity)。大數據區分於傳統數據挖掘的最顯著特徵。根據IDC的「數字宇宙」的報告,預計到2020年,全球數據使用量將達到35.2ZB。
看看專家們怎麼說。
舍恩伯格,大數據時代 (豆瓣)
不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關系,而是相關關系。
埃里克·西格爾,大數據預測 (豆瓣)
大數據時代下的核心,預測分析已在商業和社會中得到廣泛應用。隨著越來越多的數據被記錄和整理,未來預測分析必定會成為所有領域的關鍵技術。
城田真琴,大數據的沖擊 (豆瓣)
從數據的類別上看,「大數據」指的是無法使用傳統流程或工具處理或分析的信息。 它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。
三、大數據的價值
了解了大數據的典型應用,理解了大數據的定義。這時相信在每個人的心中,關於大數據的價值都有了自己的答案。
2010年《Science》上刊登了一篇文章指出,雖然人們的出行的模式有很大不同,但我們大多數人同樣是可以預測的。這意味著我們能夠根據個體之前的行為軌跡預測他或者她未來行蹤的可能性,即93%的人類行為可預測。
Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of indivials, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each indivial』s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.
而大數定理告訴我們,在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似於它概率。「有規律的隨機事件」在大量重復出現的條件下,往往呈現幾乎必然的統計特性。
舉個例子,我們向上拋一枚硬幣,硬幣落下後哪一面朝上本來是偶然的,但當我們上拋硬幣的次數足夠多後,達到上萬次甚至幾十萬幾百萬次以後,我們就會發現,硬幣每一面向上的次數約占總次數的二分之一。偶然中包含著某種必然。
隨著計算機的處理能力的日益強大,你能獲得的數據量越大,你能挖掘到的價值就越多。
實驗的不斷反復、大數據的日漸積累讓人類發現規律,預測未來不再是科幻電影里的讀心術。
如果銀行能及時地了解風險,我們的經濟將更加強大。
如果政府能夠降低欺詐開支,我們的稅收將更加合理。
如果醫院能夠更早發現疾病,我們的身體將更加健康。
如果電信公司能夠降低成本,我們的話費將更加便宜。
如果交通動態天氣能夠掌握,我們的出行將更加方便。
如果商場能夠動態調整庫存,我們的商品將更加實惠。
最終,我們都將從大數據分析中獲益。
四、結束語。
Here's the thing about the future.關於未來有一個重要的特徵
Every time you look at it,每一次你看到了未來
it changes because you looked at it.它會跟著發生改變 因為你看到了它
And that changes everything else.然後其它事也跟著一起改變了
數據本身不產生價值,如何分析和利用大數據對業務產生幫助才是關鍵。
祝每一個DMer都挖掘到金礦和快樂:)
❿ 芝麻分怎麼算的
「芝麻分」的數據來源包含5個維度——由信用歷史、行為偏好、履約能力、身份特質、人脈關系綜合計算得出,並參考了FICO分的評分模式。具體演算法官方沒有給出詳細答案。
希望能幫到你,如有問題請繼續追問,滿意請採納!