導航:首頁 > 源碼編譯 > 數據挖掘演算法知乎

數據挖掘演算法知乎

發布時間:2022-05-28 03:31:44

A. 數學不好可以學數據挖掘么

數據挖掘最重要的是邏輯思維,數學好多性質不重要,也就是提取信息,並且對數據做找規律、概括或計算就可以。跟數學成績好不好沒太大關系,能解決簡單的數學計算,並且有好的思維能力就可以。

數據,本質上就是海量數據的匯集,而數據總是與數字、數學離不開。作為數學基礎不好的人,擔心數學差在學習大數據上會遇到更多困難,這是正常的。但是事實上,學大數據,不必去糾結數學好不好,數學好能夠起到一定的助力作用,但是並非數學不好就學不好大數據。如果非要糾結於數學基礎對於大數據學習的幫助,下面這些相關的數學學科知識,在大數據上會有一定的用處,可以針對性去了解和掌握這些知識1概率論與數理統計2離散數學3線性代數4最優化方法

想更多了解數據挖掘,推薦上CDA數據分析師的課程。課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」。真正理解商業思維,項目思維,能夠遇到問題解決問題。點擊預約免費試聽課


B. 機器學習和數據挖掘哪個更有前途

這種問題不是很好說,兩個領域各有所長,具體發展還要看未來形式和需求。從數據分析的角度來看,數據挖掘與機器學習有很多相似之處,但不同之處也十分明顯,例如,數據挖掘並沒有機器學習探索人的學習機制這一科學發現任務,數據挖掘中的數據分析是針對海量數據進行的,等等。從某種意義上說,機器學習的科學成分更重一些,而數據挖掘的技術成分更重一些。
機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法復雜度理論等多門學科。其專門研究計算機是怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構,使之不斷改善自身的性能。
數據挖掘是從海量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數據挖掘中用到了大量的機器學習界提供的數據分析技術和資料庫界提供的數據管理技術。

想要學習了解更多機器學習和數據挖掘的知識,推薦CDA數據分析師課程。CDA數據分析師課程以項目調動學員數據挖掘實用能力的場景式教學為主,在講師設計的業務場景下由講師不斷提出業務問題,再由學員循序漸進思考並操作解決問題的過程中,幫助學員掌握真正過硬的解決業務問題的數據挖掘能力。點擊預約免費試聽課。

C. 大數據是什麼

作者:李麗
鏈接:https://www.hu.com/question/23896161/answer/28624675
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。

"大數據"是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。最後一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
"大數據"是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,"大數據"指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。
亞馬遜網路服務(AWS)、大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。
研發小組對大數據的定義:"大數據是最大的宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。" Kelly說:"大數據是可能不包含所有的信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。當你的技術達到極限時,也就是數據的極限"。 大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。
二、大數據分析
從所周知,大數據已經不簡簡單單是數據大的事實了,而最重要的現實是對大數據進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那麼越來越多的應用涉及到大數據,而這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,所以大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基於如此的認識,大數據分析普遍存在的方法理論有哪些呢?
1、可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了
2、數據挖掘演算法
大數據分析的理論核心就是數據挖掘演算法,各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統計學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據,如果一個演算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3、預測性分析能力
大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的數據,從而預測未來的數據。
4、數據質量和數據管理
大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面,當然更加深入大數據分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。
三、大數據技術
1、數據採集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
2、數據存取:關系資料庫、NOSQL、SQL等。
3、基礎架構:雲存儲、分布式文件存儲等。
4、數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
5、統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
6、數據挖掘:分類
(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or
association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text,
Web ,圖形圖像,視頻,音頻等)
7、模型預測:預測模型、機器學習、建模模擬。
8、結果呈現:雲計算、標簽雲、關系圖等。
四、大數據特點
要理解大數據這一概念,首先要從"大"入手,"大"是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
1、
數據體量巨大。從TB級別,躍升到PB級別。
2、
數據類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置信息,等等。
3、
價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
4、
處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器,無一不是數據來源或者承載的方式。
大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的"大數據"不僅指數據本身的規模,也包括採集數據的工具、平台和數據分析系統。大數據研發目的是發展大數據技術並將其應用到相關領域,通過解決巨量數據處理問題促進其突破性發展。因此,大數據時代帶來的挑戰不僅體現在如何處理巨量數據從中獲取有價值的信息,也體現在如何加強大數據技術研發,搶占時代發展的前沿。
五、大數據處理
大數據處理之一:採集
大數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。
大數據處理之二:導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
大數據處理之三:統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
大數據處理之四:挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理
六、大數據應用與案例分析
大數據應用的關鍵,也是其必要條件,就在於"IT"與"經營"的融合,當然,這里的經營的內涵可以非常廣泛,小至一個零售門店的經營,大至一個城市的經營。以下是關於各行各業,不同的組織機構在大數據方面的應用的案例,在此申明,以下案例均來源於網路,本文僅作引用,並在此基礎上作簡單的梳理和分類。
大數據應用案例之:醫療行業
[1] Seton Healthcare是採用IBM最新沃森技術醫療保健內容分析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療信息,通過大數據處理,更好地分析病人的信息。
[2] 在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鍾有超過3000次的數據讀取。通過這些數據分析,醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施,避免早產嬰兒夭折。
[3] 它讓更多的創業者更方便地開發產品,比如通過社交網路來收集數據的健康類App。也許未來數年後,它們搜集的數據能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中葯劑已經代謝完成會自動提醒你再次服葯。
大數據應用案例之:能源行業
[1] 智能電網現在歐洲已經做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多餘電的時候還可以買回來。通過電網收集每隔五分鍾或十分鍾收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網大概需要多少電。有了這個預測後,就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴。通過這個預測後,可以降低采購成本。

[2] 維斯塔斯風力系統,依靠的是BigInsights軟體和IBM超級計算機,然後對氣象數據進行分析,找出安裝風力渦輪機和整個風電場最佳的地點。利用大數據,以往需要數周的分析工作,現在僅需要不足1小時便可完成。
大數據應用案例之:通信行業
[1] XO Communications通過使用IBM SPSS預測分析軟體,減少了將近一半的客戶流失率。XO現在可以預測客戶的行為,發現行為趨勢,並找出存在缺陷的環節,從而幫助公司及時採取措施,保留客戶。此外,IBM新的Netezza網路分析加速器,將通過提供單個端到端網路、服務、客戶分析視圖的可擴展平台,幫助通信企業制定更科學、合理決策。
[2] 電信業者透過數以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業,這是全新的資料經濟。
[3] 中國移動通過大數據分析,對企業運營的全業務進行針對性的監控、預警、跟蹤。系統在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內獲知市場行情。
[4] NTT docomo把手機位置信息和互聯網上的信息結合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務。

D. python 和 r 的區別 知乎

有人說Python和R的區別是顯而易見的,因為R是針對統計的,python是給程序員設計的,其實這話對Python多多少少有些不公平。2012年的時候我們說R是學術界的主流,但是現在Python正在慢慢取代R在學術界的地位。不知道是不是因為大數據時代的到來。

Python與R相比速度要快。Python可以直接處理上G的數據;R不行,R分析數據時需要先通過資料庫把大數據轉化為小數據(通過groupby)才能交給R做分析,因此R不可能直接分析行為詳單,只能分析統計結果。所以有人說:Python=R+SQL/Hive,並不是沒有道理的。

Python的一個最明顯的優勢在於其膠水語言的特性,很多書里也都會提到這一點,一些底層用C寫的演算法封裝在Python包里後性能非常高效(Python的數據挖掘包Orange canve 中的決策樹分析50萬用戶10秒出結果,用R幾個小時也出不來,8G內存全部占滿)。但是,凡事都不絕對,如果R矢量化編程做得好的話(有點小難度),會使R的速度和程序的長度都有顯著性提升。

R的優勢在於有包羅萬象的統計函數可以調用,特別是在時間序列分析方面,無論是經典還是前沿的方法都有相應的包直接使用。
相比之下,Python之前在這方面貧乏不少。但是,現在Python有了pandas。pandas提供了一組標準的時間序列處理工具和數據演算法。因此,你可以高效處理非常大的時間序列,輕松地進行切片/切塊、聚合、對定期/不定期的時間序列進行重采樣等。可能你已經猜到了,這些工具中大部分都對金融和經濟數據尤為有用,但你當然也可以用它們來分析伺服器日誌數據。於是,近年來,由於Python有不斷改良的庫(主要是pandas),使其成為數據處理任務的一大替代方案。

做過幾個實驗:
1. 用python實現了一個統計方法,其中用到了ctypes,multiprocess。
之後一個項目要做方法比較,又用回R,發現一些bioconctor上的包已經默認用parallel了。(但那個包還是很慢,一下子把所有線程都用掉了,導致整個電腦使用不能,看網頁非常卡~)
2. 用python pandas做了一些數據整理工作,類似資料庫,兩三個表來回查、匹配。感覺還是很方便的。雖然這些工作R也能做,但估計會慢點,畢竟幾十萬行的條目了。
3. 用python matplotlib畫圖。pyplot作圖的方式和R差異很大,R是一條命令畫點東西,pylot是准備好了以後一起出來。pyplot的顏色選擇有點尷尬,默認顏色比較少,之後可用html的顏色,但是名字太長了~。pyplot 的legend比R 好用多了,算是半自動化了。pyplot畫出來後可以自由拉升縮放,然後再保存為圖片,這點比R好用。

總的來說Python是一套比較平衡的語言,各方面都可以,無論是對其他語言的調用,和數據源的連接、讀取,對系統的操作,還是正則表達和文字處理,Python都有著明顯優勢。 而R是在統計方面比較突出。但是數據分析其實不僅僅是統計,前期的數據收集,數據處理,數據抽樣,數據聚類,以及比較復雜的數據挖掘演算法,數據建模等等這些任務,只要是100M以上的數據,R都很難勝任,但是Python卻基本勝任。

結合其在通用編程方面的強大實力,我們完全可以只使用Python這一種語言去構建以數據為中心的應用程序。
但世上本沒有最好的軟體或程序,也鮮有人能把單一語言挖掘運用到極致。尤其是很多人早先學了R,現在完全不用又捨不得,所以對於想要學以致用的人來說,如果能把R和Python相結合,就更好不過了,很早看過一篇文章——讓R與Python共舞,咱們壇子里有原帖,就不多說了,看完會有更多啟發。

BTW: 如果之前沒有學過R,可以先學Python然後決定是不是學R,如果學了R,學Python的時候會更快上手。

E. 數據分析和數據挖掘的區別 知乎

1、數據析重點觀察數據數據挖掘重點數據發現知識規則KDD(Knowledge Discover in Database);
2、數據析結論智能結數據挖掘結論機器習集(或訓練集、本集)發現知識規則;
3、數據析結論運用智力數據挖掘發現知識規則直接應用預測
4、數據析能建立數模型需要工建模數據挖掘直接完數建模傳統控制論建模本質描述輸入變數與輸變數間函數關系數據挖掘通機器習自建立輸入與輸函數關系根據KDD規則給定組輸入參數組輸量
-

F. 學了數據挖掘之後能幹啥

學了數據挖掘之後能幹啥?數據挖掘職業規劃總結

文 | 宿痕

很多人不明白學習數據挖掘以後干什麼,這個問題也經常被問到。記得剛學數據挖掘的時候,有一個老師說學數據挖掘有什麼用,你以後咋找工作。當時聽了,覺得很詫異,不知道他為何有此一問。數據挖掘在國外是一份很不錯的工作。我喜歡數據挖掘,因為它很有趣。很高興以後就從事這方面的工作啦。寫論文之餘,也考慮一下數據挖掘工程師的職業規劃。

以下是從網上找的一些相關資料介紹,和即將走上數據挖掘崗位或是想往這方面發展的朋友共享:

數據挖掘從業人員工作分析

1.數據挖掘從業人員的願景:

數據挖掘就業的途徑從我看來有以下幾種,(注意:本文所說的數據挖掘不包括數據倉庫或資料庫管理員的角色)。

A:做科研(在高校、科研單位以及大型企業,主要研究演算法、應用等)

B:演算法工程師(在企業做數據挖掘及其相關程序演算法的實現等)

C:數據分析師(在存在海量數據的企事業單位做咨詢、分析等)

2.數據挖掘從業人員切入點:

根據上面的從業方向來說說需要掌握的技能。

A:做科研:這里的科研相對來說比較概括,屬於技術型的相對高級級別,需要對開發、數據分析的必備基礎知識。

B:演算法工程師:主要是實現數據挖掘現有的演算法和研發新的演算法以及根據實際需要結合核心演算法做一些程序開發實現工作。要想扮演好這個角色,你不但需要熟悉至少一門編程語言如(C,C++,Java,Delphi等)和資料庫原理和操作,對數據挖掘基礎課程有所了解,讀過《數據挖掘概念與技術》(韓家煒著)、《人工智慧及其應用》。有一點了解以後,如果對程序比較熟悉的話並且時間允許,可以尋找一些開源的數據挖掘軟體研究分析,也可以參考如《數據挖掘:實用機器學習技術及Java實現》等一些教程。

C:數據分析師:需要有深厚的數理統計基礎,可以不知道人工智慧和計算機編程等相關技術,但是需要熟練使用主流的數據挖掘(或統計分析)工具。從這個方面切入數據挖掘領域的話你需要學習《數理統計》、《概率論》、《統計學習基礎:數據挖掘、推理與預測》、《金融數據挖掘》,《業務建模與數據挖掘》、《數據挖掘實踐》等,當然也少不了你使用的工具的對應說明書了,如SPSS、SAS等廠商的《SAS數據挖掘與分析》、《數據挖掘Clementine應用實務》、《EXCEL 2007數據挖掘完全手冊》等,如果多看一些如《數據挖掘原理》 等書籍那就更好了。

數據挖掘人員需具備以下基本條件,才可以完成數據挖掘項目中的相關任務。

一、專業技能

本科或碩士以上學歷,數據挖掘、統計學、資料庫相關專業,熟練掌握關系資料庫技術,具有資料庫系統開發經驗;

熟練掌握常用的數據挖掘演算法;

具備數理統計理論基礎,並熟悉常用的統計工具軟體。

二、行業知識

具有相關的行業知識,或者能夠很快熟悉相關的行業知識

三、合作精神

具有良好的團隊合作精神,能夠主動和項目中其他成員緊密合作

四、客戶關系能力

具有良好的客戶溝通能力,能夠明確闡述數據挖掘項目的重點和難點,善於調整客戶對數據挖掘的誤解和過高期望;

具有良好的知識轉移能力,能夠盡快地讓模型維護人員了解並掌握數據挖掘方法論及建模實施能力。

進階能力要求

數據挖掘人員具備如下條件,可以提高數據挖掘項目的實施效率,縮短項目周期。

具有數據倉庫項目實施經驗,熟悉數據倉庫技術及方法論

熟練掌握SQL語言,包括復雜查詢、性能調優

熟練掌握ETL開發工具和技術

熟練掌握Microsoft Office軟體,包括Excel和PowerPoint中的各種統計圖形技術

善於將挖掘結果和客戶的業務管理相結合,根據數據挖掘的成果向客戶提供有價值的可行性操作方案

五、應用及就業領域

當前數據挖掘應用主要集中在電信(客戶分析),零售(銷售預測),農業(行業數據預測),網路日誌(網頁定製),銀行(客戶欺詐),電力(客戶呼叫),生物(基因),天體(星體分類),化工,醫葯等方面。

當前它能解決的問題典型在於:資料庫營銷(DatabaseMarketing)、客戶群體劃分(Customer Segmentation&Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(ChurnAnalysis)、客戶信用記分(Credit Scoring)、欺詐發現(Fraud Detection)等等,在許多領域得到了成功的應用。如果你訪問著名的亞馬遜網上書店會發現當你選中一本書後,會出現相關的推薦數目「Customers who bought this book alsobought」,這背後就是數據挖掘技術在發揮作用。

數據挖掘的對象是某一專業領域中積累的數據;挖掘過程是一個人機交互、多次反復的過程;挖掘的結果要應用於該專業。因此數據挖掘的整個過程都離不開應用領域的專業知識。「Business First, techniquesecond」是數據挖掘的特點。因此學習數據挖掘不意味著丟棄原有專業知識和經驗。相反,有其它行業背景是從事數據挖掘的一大優勢。如有銷售,財務,機械,製造,call center等工作經驗的,通過學習數據挖掘,可以提升個人職業層次,在不改變原專業的情況下,從原來的事務型角色向分析型角色轉變。從80年代末的初露頭角到90年代末的廣泛應用,以數據挖掘為核心的商業智能(BI)已經成為IT及其它行業中的一個新寵。

重點介紹下對數據挖掘的幾個崗位

數據採集分析專員

職位介紹:數據採集分析專員的主要職責是把公司運營的數據收集起來,再從中挖掘出規律性的信息來指導公司的戰略方向。這個職位常被忽略,但相當重要。由於資料庫技術最先出現於計算機領域,同時計算機資料庫具有海量存儲、查找迅速、分析半自動化等特點,數據採集分析專員最先出現於計算機行業,後來隨著計算機應用的普及擴展到了各個行業。該職位一般提供給懂資料庫應用和具有一定統計分析能力的人。有計算機特長的統計專業人員,或學過數據挖掘的計算機專業人員都可以勝任此工作,不過最好能夠對所在行業的市場情況具有一定的了解。

求職建議:由於很多公司追求短期利益而不注重長期戰略的現狀,目前國內很多企業對此職位的重視程度不夠。但大型公司、外企對此職位的重視程度較高,隨著時間的推移該職位會有升溫的趨勢。另外,數據採集分析專員很容易獲得行業經驗,他們在分析過程中能夠很輕易地把握該行業的市場情況、客戶習慣、渠道分布等關鍵情況,因此如果想在某行創業,從數據採集分析專員干起是一個不錯的選擇。

市場/數據分析師

1、市場數據分析是現代市場營銷科學必不可少的關鍵環節: Marketing/Data Analyst從業最多的行業: DirectMarketing (直接面向客戶的市場營銷) 吧,自90年代以來,Direct Marketing越來越成為公司推銷其產品的主要手段。

根據加拿大市場營銷組織(CanadianMarketingAssociation)的統計數據: 僅1999年一年 Direct Marketing就創造了470000 個工作機會。從1999至2000,工作職位又增加了30000個。為什麼Direct Marketing需要這么多Analyst呢? 舉個例子, 隨著商業競爭日益加劇,公司希望能最大限度的從廣告中得到銷售回報,他們希望能有更多的用戶來響應他們的廣告。所以他們就必需要在投放廣告之前做大量的市場分析工作。

例如,根據自己的產品結合目標市場顧客的家庭收入,教育背景和消費趨向分析出哪些地區的住戶或居民最有可能響應公司的銷售廣告,購買自己的產品或成為客戶,從而廣告只針對這些特定的客戶群。這樣有的放矢的篩選廣告的投放市場既節省開銷又提高了銷售回報率。但是所有的這些分析都是基於資料庫,通過數據處理,挖掘,建模得出的,其間,市場分析師的工作是必不可少的。

2、行業適應性強:幾乎所有的行業都會應用到數據, 所以作為一名數據/市場分析師不僅僅可以在華人傳統的IT行業就業,也可以在政府,銀行,零售,醫葯業,製造業和交通傳輸等領域服務。

演算法工程師

應該來說目前演算法工程師基本上都集中在中大型企業中,因為一般小公司很少用到演算法來解決問題,如果這公司就是做數據相關產業的。而演算法一般的應用場景有推薦、廣告、搜索等,所以大家常見的在廣告領域、個性化推薦方面是有不少的同仁。常見的要求是懂JAVA/PYTHON/R中其中一種,能夠知道常規的回歸、隨機森林、決策樹、GBDT等演算法,能夠有行業背景最佳等。如果是deep learning方向可能對圖論、畫像識別等方面要求更高些。

求職建議:background稍微好一些,再把一些基本的演算法都弄明白,能說清楚之間的區別和優缺點,包括常見的一些應用場景都有哪些。對於公司來說,特別是BAT這樣使用機器學習的公司,演算法工程師是很重要的一塊資產。

現狀與前景

數據挖掘是適應信息社會從海量的資料庫中提取信息的需要而產生的新學科。它是統計學、機器學習、資料庫、模式識別、人工智慧等學科的交叉。在中國各重點院校中都已經開了數據挖掘的課程或研究課題。比較著名的有中科院計算所、復旦大學、清華大學等。另外,政府機構和大型企業也開始重視這個領域。

據IDC對歐洲和北美62家採用了商務智能技術的企業的調查分析發現,這些企業的3年平均投資回報率為401%,其中25%的企業的投資回報率超過600%。調查結果還顯示,一個企業要想在復雜的環境中獲得成功,高層管理者必須能夠控制極其復雜的商業結構,若沒有詳實的事實和數據支持,是很難辦到的。因此,隨著數據挖掘技術的不斷改進和日益成熟,它必將被更多的用戶採用,使更多的管理者得到更多的商務智能。

根據IDC(InternationalDataCorporation)預測說2004年估計BI行業市場在140億美元。現在,隨著我國加入WTO,我國在許多領域,如金融、保險等領域將逐步對外開放,這就意味著許多企業將面臨來自國際大型跨國公司的巨大競爭壓力。國外發達國家各種企業採用商務智能的水平已經遠遠超過了我國。美國Palo Alto 管理集團公司1999年對歐洲、北美和日本375家大中型企業的商務智能技術的採用情況進行了調查。結果顯示,在金融領域,商務智能技術的應用水平已經達到或接近70%,在營銷領域也達到50%,並且在未來的3年中,各個應用領域對該技術的採納水平都將提高約50%。

現在,許多企業都把數據看成寶貴的財富,紛紛利用商務智能發現其中隱藏的信息,藉此獲得巨額的回報。國內暫時還沒有官方關於數據挖掘行業本身的市場統計分析報告,但是國內數據挖掘在各個行業都有一定的研究。據國外專家預測,在今後的5—10年內,隨著數據量的日益積累以及計算機的廣泛應用,數據挖掘將在中國形成一個產業。

眾所周知,IT就業市場競爭已經相當激烈,而數據處理的核心技術—數據挖掘更是得到了前所未有的重視。數據挖掘和商業智能技術位於整個企業IT-業務構架的金字塔塔尖,目前國內數據挖掘專業的人才培養體系尚不健全,人才市場上精通數據挖掘技術、商業智能的供應量極小,而另一方面企業、政府機構和和科研單位對此類人才的潛在需求量極大,供需缺口極大。如果能將數據挖掘技術與個人已有專業知識相結合,您必將開辟職業生涯的新天地!

職業薪酬

就目前來看,和大多IT業的職位一樣,數據挖掘方面的人才在國內的需求工作也是低端飽和,高端緊缺。從BAT的招聘情況來看,數據挖掘領域相對來說門檻還是比較高的,但是薪酬福利也相對來說比較好,常見的比如騰訊、阿里都會給到年薪20W+。而厲害的資深演算法專家年薪百萬也是常有的事情,所以大家在演算法方面還是大有可能。另外隨著金融越來越互聯網化,大量的演算法工程師會成為以後互聯網金融公司緊缺的人才。

大家共勉!

來自知乎

以上是小編為大家分享的關於學了數據挖掘之後能幹啥?的相關內容,更多信息可以關注環球青藤分享更多干貨

G. 如何通過數據挖掘演算法建立客戶忠誠度知乎

沒個方面都不一樣。客戶忠誠度取決於客戶關系和我們的資源優勢

H. 後台開發與數據挖掘哪個更適合研究生發展

兄弟,這種迷茫是很容易理解的,作為過來人,先讓自己安靜下來,然後再思考,不要被外面紛擾的信息打擾了自己內心的平靜。數據挖掘也好,後台開發也罷,編程能力必不可少,但是你需要明白的是,很多機器學習工程師其實是在寫軟體,而不是側重在機器學習演算法本身,而很多數據挖掘工程師其實不是在調試演算法,而是在寫SQL。真正的聚焦在機器學習和數據挖掘工程師崗位往往需要你有一些項目背景和學術背景,如果發過頂會論文和期刊論文的話那就更好。

因此,我總結一下,如果你選擇機器學習,你可以做下面的選擇【僅供參考】

  1. 如果你實驗室或者導師學術能力比較強,那麼跟著發主流領域的頂會或者期刊論文,由於你導師幾乎是放羊狀態,實驗室學術能力也不強,這個選項就不適合你了。
  2. 參加大數據和機器學習比賽,這種比賽有很多,每個側重點不一樣,你可以參與一下。

如果你選擇後台開發,後台開發有很多,鑒於你的非專業的CS出身,而且可能本科沒怎麼寫代碼,建議

  1. C++後台開發還是免了吧,因為除了學習C++,你還要學習網路編程和UNIX編程,而且目前需求也很少,能力要求高。不知道你能堅持多久。
  2. Java後台,主要是Java Web,這個是很多人的選擇,而且容易找工作。
  3. Hadoop後台,主要做Hadoop開發,Hadoop你應該知道是什麼,這里就不介紹了,當然Java基礎必不可少。
  4. Python/PHP後台,這些相對需求很少,而且也很難找到大公司的工作,因為需求不多。
  5. 求助於實驗室的師兄師姐他們,或者可以學到一點後台開發的技能。

另外,不管是什麼專業,計算機的基礎知識必不可少,數據結構+演算法,計算機組成原理等等。

最後,鑒於你的沒有太多的基礎,因此不要對自己的期望過高,否則很那達到會有挫敗感,而且這個時候一定要專注於一個領域不動搖,否則,你還是迷茫而且不知道方向在哪裡。其實努力學習一個學期是可以學到很多知識的。加油!既然是南方985,應該也不差,畢竟南方經濟發達,就業是比較容易的。


更新:

對於學習的建議


2017年12月7日更新

I. 數據挖掘 怎麼在工作中提升自己 知乎

培養數據分析的能力,簡單說就是 理論+實踐
理論:是進行分析的基礎。
1)基礎的數據分析知識,至少知道如何做趨勢分析、比較分析和細分,不然拿到一份數據就無從下手;
2)基礎的統計學知識,至少基礎的統計量要認識,知道這些統計量的定義和適用條件,統計學方法可以讓分析過程更加嚴謹,結論更有說服力;
3)對數據的興趣,以及其它的知識多多益善,讓分析過程有趣起來。
實踐:可以說90%的分析能力都是靠實踐培養的。
1)明確分析的目的。如果分析前沒有明確分析的最終目標,很容易被數據繞進去,最終自己都不知道自己得出的結論到底是用來幹嘛的;
2)多結合業務去看數據。數據從業務運營中來,分析當然要回歸到業務中去,多熟悉了解業務可以使數據看起來更加透徹;
3)了解數據的定義和獲取。最好從數據最初是怎麼獲取的開始了解,當然指標的統計邏輯和規則是必須熟記於心的,不然很容易就被數據給坑了;
4)最後就是不斷地看數據、分析數據,這是個必經的過程,往往一個工作經驗豐富的非數據分析的運營人員要比剛進來不久的數據分析師對數據的了解要深入得多,就是這個原因。

閱讀全文

與數據挖掘演算法知乎相關的資料

熱點內容
貨拉拉app在哪裡選收藏司機 瀏覽:541
如何從安卓轉移照片到ipad 瀏覽:494
馬士兵java全集 瀏覽:89
農行APP未付款訂單怎麼付 瀏覽:154
生成編譯 瀏覽:591
聯通河南伺服器dns地址 瀏覽:904
如何更改應用加密的畫面 瀏覽:815
河道斷面圖演算法 瀏覽:177
java文件夾監控 瀏覽:352
wapp管理系統源碼 瀏覽:274
我的世界伺服器進去如何從成員調成管理員 瀏覽:888
汽車壓縮機用什麼機油好 瀏覽:838
phpexcel文件上傳 瀏覽:252
如何靜音手機的某個app 瀏覽:889
半導體工藝pdf 瀏覽:782
命令和意願的一致才不會掉鏈 瀏覽:657
設計模式java裝飾模式 瀏覽:694
戀聽app哪裡下載 瀏覽:709
金鏟鏟之戰為什麼一直伺服器滿 瀏覽:74
安卓手機如何像蘋果一樣app資源庫 瀏覽:129