大數據演算法面試題_演算法面試

㈠大數據研究與應用協會市場推廣面試問題

傳統的用戶研究包括品牌研究、客戶滿意度研究、商圈研究、市場細分、渠道研究、產品定價研究以及產品測試，這些研究大多數用市場調研的方法來實現。市場調研由於調研方法帶來的諸多問題，導致結果的代表性、准確性以及研究的效率都存在不同程度的挑戰。我們相信，隨著大數據的發展，大數據將對市場與用戶研究方法將帶來革命性的變化。本文將介紹大數據目前在市場與用戶研究方面的應用與探索。
一、大數據用於品牌研究
品牌認知度、品牌形象和品牌滿意度研究是品牌研究的三大重要部分。
1）品牌認知度是品牌資產的重要組成部分，品牌認知度是衡量消費者對品牌內涵及價值的認識和理解度的標准，同時也是公司競爭力的一種體現。
2）而品牌形象是品牌在公眾心中所表現出的個性特徵，它體現公眾特別是消費者對品牌的評價與認知，以及對品牌所具有的一切聯想。品牌形象分為三個層級的形象：產品或服務本身的形象、使用者的形象、產品或提供者的形象。
3）品牌滿意度是消費者通過對一個品牌產品或服務的可感知效果與對比預期相比較後，所形成的愉悅或失望的狀態，可以不滿意、滿意、滿足、愉悅等四種情緒，一個擁有高滿意度的品牌，其顧客的購買率及重復購買率也在相應提升，因此品牌滿意度的研究也非常重要。
在傳統的市場研究中，品牌認知、品牌形象和品牌滿意度研究是通過市場調查的手段來實現。在大數據時代，我們可以利用互聯網大數據輔助品牌認知度、品牌形象和品牌滿意度研究。我們可以通過網路爬蟲技術，對新聞媒體、社會化媒體等網站實時全網監測，實時掌握網民對品牌和競品的品牌提及量、產品提及量以及提及量的趨勢，掌握自己品牌和競爭的品牌形象評價；通過品牌和產品的正負面評論的監測，及時了解對品牌消費者對品牌的滿意度情況，及時發現問題。過去，進行品牌認知度、品牌形象以及品牌滿意度的市場調研，從調查開始到報告產生，至少需要半個月到一個月，而且由於成本和操作性的限制，只能選取一些代表性的人群和地點做代表性的抽樣不夠全面。利用大數據手段，我們可以實現更快更全面以及更真實的統計，這對我們及時的了解品牌認知度、品牌形象以及品牌滿意度的現狀和趨勢非常有幫助。
專欄：企業實施大數據的五大關鍵
專欄：大數據應用於企業運營
大數據在電信行業的應用
二、大數據用於忠誠度研究
凈推薦值研究方法是客戶忠誠度研究中的重要方法。凈推薦值（NPS）研究方法由國際知名咨詢公司貝恩咨詢客戶忠誠度業務的創始人佛瑞德·賴克霍徳（Fred Reichheld）在2003《哈佛大學商業評論》文章「你需要致力於增長的一個數字」的文章中首次提到。該方法通過調查客戶問題「您有多大可能向您的朋友或同事推薦我們公司的產品或服務？（0-10分）」來獲得，根據客戶的回答分數分成三組：
第一組給公司9分或10分，稱之為「推薦者」(promoters)；他們是對公司產品或服務滿意度和忠誠度非常高的客戶，在當今社會化媒體營銷時代，他們是公司產品或服務免費營銷人員，他們會推薦朋友和親人來購買。
第二組給公司7分或8分，為「被動滿意者」(passively satisfied)；他們對公司產品或服務既無不滿意，也無滿意的客戶，較易被其他競爭者吸引。
第三組給0至6分，是「貶損者」(detractors)。他們對公司的產品或服務非常不滿意，不僅僅停止購買公司的產品或服務，他們會盡一切可能勸周圍的人不要買，同時會轉向其他競爭者。
NPS值即為推薦者所佔百分比與貶低者所佔百分比的差值（如下圖）。NPS的業務邏輯是：推薦者會繼續購買並且推薦給其他人來加速你的成長，而貶損者則能破壞你的名聲，不僅僅停止購買，而且勸說周圍朋友購買，讓你在負面的口碑中阻止成長，NPS則是反映了這兩股力量較量的結果。Fred Reichheld實證研究證明NPS和長期利潤成長有正相關性，NPS表現越好，未來企業利潤的成長就會越好。

圖：NPS計算方法
大家可能會問，NPS分數在多少為比較理想的狀態。實證研究表明，NPS分數在NPS的得分值在50%以上被認為是表現不錯，得分值在70－80%之間則證明公司擁有一批高忠誠度的好客戶（如蘋果、Google等互聯網公司的NPS超過70%），大部分公司的NPS值在5－10%之間，更差的公司NPS還可能是負值。當然，我們僅了解NPS是不夠的，NPS本身不能提供具體的改進意見，我們還需要結合影響滿意度的原因深入研究，尤其是對貶損者指標進行深入的滿意度研究，挖掘「貶損」背後的原因。
大數據技術革新傳統NPS研究方式。大部分NPS的研究其數據獲取方式都採用調查問卷的方式，這種方式很容易受到抽樣方式、客戶心態甚至活動禮品等多方面的影響，導致數據失真。在大數據時代，NPS的數據可以來源於客服系統的語音數據和評價文本數據、電商平台購物用戶的打分及用戶評論文本數據以及社會化媒體如微博、論壇等的評論文本數據，這些數據我們都稱之為「用戶反饋數據」。我們可以利用語音分析技術、文本分析技術將這些非結構化的「用戶反饋數據」結構化，從而更好的進行數據挖掘，識別「貶損者」和「推薦者」，全面和快速的計算NPS，並可以利用這些大數據，了解「貶損者」的「貶損」的原因。如果還能夠把業務系統和運營系統的「用戶行為數據」關聯整合進來，我們不僅僅通過「用戶反饋數據」了解用戶「貶損」原因，還可以了解「貶損者」的歷史「用戶行為數據，將更有利於我們更好的洞察用戶，更全面、更及時優化「貶損者」的用戶體驗和改進方向；同時可以定向為「推薦者」展開更多的優惠促銷或者附加增值服務。通過大數據手段可以更好的實時掌握NPS，還可以洞察NPS「推薦」或「貶損」的原因，為市場推廣、客戶服務、業務運營等部門的關鍵應用場景提供決策支撐，有利於進一步提升用戶親密度和忠誠度。
三、大數據用於市場細分
市場細分是按照消費者在市場需求、購買動機、購買行為和購買能力方面的差異，運用系統方法將整體市場即全部顧客和潛在顧客劃分為數個不同的消費者群（子市場），以便選擇確定自己的目標市場。市場細分的基礎是購買者對產品需求的差異性。但是，這種差異性一般很難直接度量，故常用其它比較容易度量以及和需求密切相關的變數來對市場進行細分。這些變數包括地理、人口統計學屬性、行為以及消費心態等變數：地理細分是將市場劃分為不同的區域市場，例如可按下列地理特徵將市場細分：行政區劃、城市規模、資源狀況和氣候；人口統計學細分人口統計變數來細分市場，常用來細分市場的人口學變數有年齡、性別、民族、居住地、家庭規模與生命周期等；行為和態度細分是根據消費者對產品的購買動機、購買行為和使用情況來細分；心理細分是按消費者的社會階層、生活方式、人格特徵劃分為不同的群體。市場細分既可以按照以上單維度細分，也可以組合以上維度進行多重標准細分，同時按照多重標准可以將消費者分為比較小的、同質性更高的群體。
區別於傳統的市場細分，大數據應用於市場細分在以下方面起到更為重要的作用：
1）數據採集的維度更為全面，數據採集更為實時，尤其是在行為數據的採集更為及時、細膩和全方位；
2）用大數據演算法進行細分模型建模，可以吸納更多的細分維度，從而可以細分出更小、同質性更高的細分群體；
3）數據更新更快，計算速度更快，市場細分模型更新速度更快，更能及時反映用戶需求的變化，從而可以做出更准確、及時細分；
4）市場細分可以和營銷渠道、營銷活動進行實時關聯和調優，通過大數據演算法判定的細分群體可以實時的進行最有效營銷活動推薦，並可以用大數據計算最為有效推廣渠道觸達這些細分群體。
四、大數據用於產品測試
產品測試指的是企業運用專業的技術手段和研究方法進行以獲得目標消費者（或用戶）對相關產品的認知或評價，以測試新產品的接受度或改進現有產品。產品測試在產品的各生命周期均有應用：
在產品的開發期，產品處於研發和概念階段，此時可以對已有產品進行測試，以了解消費者認為需要改進的方面；或者對尚未成型的產品進行概念性的測試，指導產品經理對正在開放的產品做調整和改進；
在產品介紹期，產品准備投放市場以及剛剛投放市場不久，企業可以通過產品測試以了解最有效的銷售渠道和促銷方式，以及對產品的包裝、價格進行測試；
在產品的成長期和成熟期，企業可以通過自身產品和競爭產品進行對比測試，及時掌握消費者（或用戶）對產品的評價和態度；
在產品的衰退期，為了延長產品生命周期，企業會進行產品的改進或者產品新方向的測試。
以上不同階段的產品測試，傳統的實施方法一般是通過市場調查方式來實現，通常是對消費者（或用戶）進行調查或者訪問，利用多種訪問或調查工具來實現。在大數據和互聯網時代，我們可以用更快和更為准確的方式來進行產品測試：
在產品的開發期，我們可以通過電商平台或者微博、論壇等社會化媒體對現有產品的網上評論進行收集，通過自然語言處理和數據挖掘手段，以了解消費者的不滿和產品改進方向；或者灰度測試來了解新版本的效果，即讓一部分用戶繼續用老版本，一部分用戶開始用新版本，如果用戶對新版本沒有什麼反對意見，那麼逐步擴大范圍，把所有用戶都遷移到新版本上面來。灰度測試和發布可以保證整體產品系統的穩定，在初始灰度的時候就可以發現、調整問題。
在產品的介紹期，產品的包裝、外觀設計和價格等也可以通過灰度測試和發布的方式來掌握消費者的反饋以進行相關的調優。
在產品的成長期和成熟期，我們同樣可以通過大數據手段對電商平台和社會化媒體收集消費者對自身產品和競爭產品的評論，通過自然語言處理和數據挖掘掌握消費者對產品的不滿，以改進我們自己的產品。像寶潔這種對傳統市場調查非常重視的企業，目前已經逐漸開始利用大數據方式進行產品測試，尤其是通過電商平台對每一個產品都能收集評價和反饋，幫助產品的改進和創新。
五、大數據與商圈研究以及空間商業智能
商圈是指商店以其所在地點為中心沿著一定的方向和距離擴展所能吸引顧客的范圍。按照離商店的距離，商圈分為三層，包括核心商圈，次級商圈和邊緣商圈。核心商圈是離商店最近，顧客密度最高，約占商店顧客的55%－70%；次級商圈是指位於核心商圈外圍的商圈，顧客分布較為分散，約占商店顧客的15-20%；邊緣商圈是於商圈的最外緣，包含商圈剩下的客戶，此商圈顧客最為分散，數量最少。
按照商圈的性質，商圈可以分為六大類，包括：
（1）商業區，商業集中的地區；
（2）住宅區，住宅區住戶數量至少1000戶以上；
（3）文教區，其附近有一所或以上的學校；
（4）辦公區，辦公大樓較多的地區；
（5）工業區，即工廠較多的地區；
（6）混合區，以上5類的混合，如住商混合、住教混合、工商混合等。
影響商圈的因素可以分為內部因素和外部因素。內部因素包括：
店鋪經營商品的種類。經營傳統商品、日常用品的店鋪吸引顧客的區域范圍較小，商圈范圍小；經營非常用品，吸引顧客的能力強，商圈范圍廣。
店鋪的經營規模。隨著店鋪經營規模的擴大，其商圈也在隨之擴大，但增大到一定規模時，商圈范圍也不會擴大；
店鋪的經營特徵。經營同類商品的兩個店鋪即便同處一地的同一條街道，其對顧客的吸引力也會有所不同，相應的商圈規模也不一樣。經營靈活、商品齊全、服務周到，在顧客中留有良好形象的店鋪，顧客競爭力強，自然商圈規模相對也會較其他同行業店鋪大；
店鋪的主體設計，包括店鋪所在樓層構成及配置，吸引顧客的設施狀況，如停車場停車位的多少以及其所處位置等。
影響商圈的外部因素包括：
店鋪的促銷手段。利用人員推銷與營業推廣活動等可以吸引更多的次級以及邊緣商圈的顧客，可以更好擴張商圈范圍；
競爭店鋪的位置。相互競爭的兩店之間距離越大，它們各自的商圈也越大。如潛在顧客居於兩家同行業店鋪之間，各自店鋪分別會吸引一部分潛在顧客，造成客流分散，商圈都會因此而縮小。但有些相互競爭的店鋪毗鄰而設，顧客因有較多的比較、選擇機會而被吸引過來，則商圈反而會因競爭而擴大；
人口流動性。人口流動是指在交通要道、繁華商業區、公共場所過往的人口。一個地區的流動人口越多，在這一地區經營的店鋪的潛在顧客就越多。
交通地理狀況。交通地理條件與商圈規模密切相關。在商業繁華地帶，交通條件發達，人口流動性強，有大量的潛在顧客，因而商圈范圍也就越大；反之，店鋪設在交通偏僻地區，顧客主要是分布在店鋪附近的居住人口，其商圈范圍一般較小。
人口統計學特徵和消費特徵。包括商圈的客戶性別、年齡、收入、家庭規模、消費支出能力等。
基於商圈的地理信息和數據挖掘可以應用於商鋪選址、銷售區域分配、物流配送路徑優化、潛在消費者空間分布、線下廣告投放優化、城市規劃等數據可以通過大數據的手段進行獲取。在這些應用中，商鋪選址應用最多，尤其是應用於銀行、快消、電信、醫葯、傢具等行業。
傳統的商圈相關信息獲取是通過市場調查的手段獲得。在大數據時代，商圈相關的位置、客流和消費者信息是可以通過大數據獲取的，尤其是通過電信運營商或具有地圖服務能力的互聯網企業。如中國聯通推出的商鋪選址大數據應用服務，中國聯通可以把城市區域進行柵格化處理，分析每個柵格（不同位置）的用戶群信息、客流信息等，為零售商進行店鋪選址的決策依據，並且已經成功的應用到煙草直營零售終端的分析和選址優化中。而國內的一些城市的相關企業也在啟動智慧商圈的基礎服務。他們藉助為公眾提供免費WiFi服務的同時，把商圈人流數據收集成為城市大數據，建立智慧商圈大數據分析平台和應用服務，通過智慧商圈服務數據分析平台的應用服務於城市管理，比如了解商圈人流、客流，為城市規劃和交通線路設計提供依據和參考，也可以為商家選址和廣告促銷提供依據。在國外，一家名為PiinPoint的企業，他們提供基於網路的分析工具，可以幫助企業和商鋪選址進行優化，它能夠收集各種數據，包括人口、稅率、交通信息和房產信息等，對不同的待選地址進行深度分析，並吸引了許多有擴張計劃的美國零售商。
對於大數據與商圈信息的結合研究，無論是工業界還是學術界都在積極探索，甚至這些研究發展已經逐步發展為空間商業智能的探索。美國密西根大學中國信息研究中心主任鮑曙明是這樣界定的空間商業智能：空間商業智能是商業智能服務的一種擴展，涉及到空間和網點的分布，周邊的人口、環境、地理等等之間的關系。大數據、移動技術以及雲計算是未來發展趨勢，如何將這些新技術和空間商業智能有機整合，提升應用的能力，並將地理智慧普及到更廣泛的商業領域，目前還處於探索階段，還需要業界同仁共同努力。
近兩年興起的室內定位技術ibeacon將會對空間商業智能的發展有著更為積極的促進作用。iBeacon是蘋果公司2013年9月發布的移動設備用OS（iOS7）上配備的新功能，通過軟體和硬體的結合，從而大大提高室內精度，從原來的幾百米或者幾十米的定位精度提高到一米以內的定位精度。這種能力將極大的強化購物體驗，如當客戶走到某個商品前，手機應用自動跳出商品的介紹和促銷信息。對於商家，也可以更加精準的判別潛在消費者，及時的向消費者進行精準營銷。隨著iBeacon的發展，商家位置信息將更為精準，線下商品信息更為豐富，尤其是極大彌補室內定位的數據源，這對空間商業智能的發展是極大的利好。
總之，大數據應用於市場和用戶研究仍仍處於探索階段，依然面臨著諸多的挑戰，尤其是數據採集的不全面的問題、數據質量的問題以及數據處理和分析技術有待加強尤其是非結構化數據的處理和分析技術。但我們不可否認的是，大數據應用與市場和用戶研究將帶來研究速度和效率的極大提升。隨著大數據相關技術的發展和成熟，我們有理由相信，利用大數據進行更好的市場洞察和用戶洞察洞察。市場與用戶研究的同仁，我們一起擁抱大數據吧。

㈡面試題-關於大數據量的分布式處理

面試題-關於大數據量的分布式處理
題目：生產系統每天會產生一個日誌文件F，數據量在5000W行的級別。文件F保存了兩列數據，一列是來源渠道，一列是來源渠道上的用戶標識。文件F用來記錄當日各渠道上的所有訪問用戶，每訪問一次，記錄一條。
請問如何快速計算出各渠道上新增的用戶？
問題分析：首先本次面試的是有關於分布式數據處理以及數據分析的職位，所以相關的面試題目可能會偏向於使用分布式的思想去解決。但無奈本人當時反應太慢，實在沒向分布式處理方向思考。
方案一：
本題最直觀的一個處理方法就是，直接拿著當日新增的5000W條訪問記錄一條一條的去匹配歷史訪問用戶。若存在歷史訪問記錄，則忽略；若不存在訪問記錄，則保存為新增記錄。很明顯，假若歷史訪問用戶有2億條記錄，則需要和2億條數據比較5000W次。比較次數可想而知。
由於本人一直在做基於資料庫的數據處理工作，很容易就想到將歷史數據保存在資料庫的一張表中，並對來源渠道和用戶標識這兩個欄位建立索引，然後遍歷日誌文件F（5000W次）。根據日誌文件F中的每一行去匹配資料庫中的歷史訪問記錄。由於歷史數據表有索引，單次查詢的速度也非常快。但是需要5000W次的資料庫查詢，很明顯效率低下。
方案二：
既然多次單一查詢無法滿足要求，於是可以先通過一種數據導入技術將當日新增數據導入到資料庫的另一張表中，並和歷史數據做左外關聯。若能關聯成功，則表示此用戶已存在；若關聯失敗，則表示此用戶不存在。
此方案暫且不說5000W條記錄的大表與2億條記錄的大表關聯效率有多高以及使用到的資料庫緩沖區的資源有多少，單就5000W條訪問記錄導入資料庫表，都是一個不小的時間花費。
方案三：
很明顯，面試時方案二的回答並未達到面試官的預期，最初被遺憾的PASS掉。一家很有潛力，自己很看好的公司，並計劃做為自己未來發展方向的職位，就這樣丟下我，揚長而去了。
這幾天又看了下分布式相關的介紹，突然想到這道題。一下子醒悟過來，其實還是因為對題目要考察的點分析得不夠透徹。當時以為只是僅僅考數據處理效率的一個題目，其實考的是一種將復雜問題拆分為簡單問題的拆分思想。了解到這一層，一種新的方式立馬在腦海中浮現出來。具體如下：
假如現在有N（N>=2）個存儲塊，並存在一個函數f（來源渠道，用戶標識），對於給定的一組（來源渠道，用戶標識），總能將其分發到一個固定的存儲塊內。那麼可以使用此函數將5000W行訪問記錄盡量均勻的分發至N個存儲塊上，並同時使用此函數將歷史訪問記錄也分發至這些存儲塊上。由於相同的一組記錄，肯定會被分配至同一個存儲塊，所以比較時，只需要分別比較各個存儲塊上當日新增記錄與歷史訪問用戶，然後將N個存儲塊上比較的結果匯總，即可得到最終結果。
假設歷史訪問用戶數據已通過函數f（來源渠道，用戶標識）被分發至了N個歷史文件H1、H2、…、HN。則詳細處理步驟如下：
1、將F中的內容使用函數f（來源渠道，用戶標識），分發至文件F1、F2、…、FN內。（可開M（M>=2）個並行，且若N-M越大，同時向同一文件寫入數據的概率越小）
2、將文件F1、F2、…、FN內的訪問記錄去重。（可開N個並行分別處理對應的N個文件）。
3、將文件Fn（1=<n<=N）去重後的結果與對應的歷史文件Hn比較得出新增用戶結果Rn。（可開N個並行分別處理對應的N個文件且當N足夠大時，實際要處理數據的量級就會相當小）。
4、合並第3步得到的結果R1、R2、…、RN即可得到當日新增用戶。（可並行）
5、為使歷史數據文件H1、H2、…、HN中的數據最全，將結果R1、R2、…、RN分別寫入對應的歷史文件中。（可並行）
本方案主要有以下優點：
1、數據的分發、處理、合並都可並行處理，明顯提高了處理效率。
2、由於每個存儲塊上的新增數據，只需要與它對應存儲塊上的歷史數據比較即可，大大減少了比較次數。（對於當日每一條記錄來說，都只需要與大約歷史的N分之一條數據去比較）
3、基本不需要考慮歷史全量數據的保存及獲取問題。
本方案缺點：
1、處理方案明顯變的復雜許多，不僅需要處理數據的分發，處理，還需要一個並行的快速收集方法。
2、可能需要多台伺服器並行處理。
本方案難點：
1、一個穩定（對於相同的一組來源渠道和用戶標識，必定會被分發至同一存儲塊）、快速（根據一條來源渠道和用戶標識數據，可以快速的計算出它將要被分發至的存儲塊）、均勻（當日新增數據及歷史數據都能盡量均勻的被分發至N個存儲塊，最理想的情況是每個存儲塊上分發到的數據都是總數據的N分之一）的分發函數至關重要。
2、如何分發、並行處理及匯總數據。

㈢ 2021年大數據工程師面試內容包括哪些

【導語】近年來，大數據發展如火如荼，很多人都選擇學習大數據專業或者轉行大數據，大數據里又包含很多就業崗位，所以在進行崗位選擇的時候，還是需要大家合理選擇，為了幫助大家更好的進入大數據行業執業，下面就把2021年大數據工程師面試內容給大家進行一下具體介紹。

1、自我介紹

一般上來就是自我介紹，談下工作經歷和項目經驗，面試官會根據你的項目經驗對你進行技術面試。在自我介紹時，一定要抓住核心說，不要太啰嗦，盡量放大自己的價值，讓面試官感受到你對工作的熱情，以及以後對公司貢獻的能力。

2、數倉開發知識技能

(1)Java是必問的，不過問的不深，把Javase部分吃透，足以應付Java部分的面試。

(2)Hadoop生態，Yarn、Zookeeper、HDFS這些底層原理要懂，面試經常被問。

(3)Maprece的shuffle過程這個也是面試被常問的。

(4)Hbase和HIve，搞大數據這些不懂真的說不過去。

(5)Mysql、Oracle和Postgres資料庫操作要回，Sql要會寫。

(6)linux操作系統，這個簡單得命令必須要懂，會寫shell腳本更好了。

(7)Kettle或Sqoop這種數據處理工具至少要會一個。8，數據倉庫建模、數據模型的問題。

3、技術方面知識技能

(1)SparkSql和SparkStreaming，底層原理、內核、提交任務的過程等等，盡量深入內幕，這個經常會跟MapRece作比較的。當然也要了解Storm和Flink，Flink這個建議要學會，以後用處會越來越廣。

(2)Redis、Kafka、ElasticSearch這些都得懂原理，深入了解，會使用，會操作，會調優。

(3)impala和kylin這些盡量也要了解會用

(4)Python這個要是有能力，有精力，建議也要往深處學習，我目前正在自學中。

(5)集群的問題，包括一些簡單的運維知識。

(6)大數據數據傾斜的問題，包括Spark JVM內存調優問題等等。

關於2021年大數據工程師面試內容，就給大家介紹到這里了，希望對大家能有所幫助，當然進入大數據行業，還需要大家在平時不斷進行技能提升，這樣才能更好的擁有一席之地。

㈣大數據面試題及答案誰能分享一下

大數據時代才剛剛開始。隨著越來越多的公司傾向於大數據運營，人才需求達到歷史最高水平。這對你意味著什麼？如果您想在任何大數據崗位上工作，它只能轉化為更好的機會。您可以選擇成為數據分析師，數據科學家，資料庫管理員，大數據工程師，Hadoop大數據工程師等。在本文中，慧都網將介紹與大數據相關的前10大數據面試問題。

以下是最重要的大數據面試問題以及具體問題的詳細解答。對於更廣泛的問題，答案取決於您的經驗，我們將分享一些如何回答它們的提示。

10個大數據面試入門級問題

無論何時進行大數據采訪，采訪者都可能會詢問一些基本問題。無論您是大數據領域的新手還是經驗豐富，都需要基礎知識。因此，讓我們來介紹一些常見的基本大數據面試問題以及破解大數據面試的答案。

1.您對「大數據」一詞有何了解？

答：大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據，這就是使用特殊工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務，並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還允許公司採取數據支持的更好的業務決策。

2.大數據的五個V是什麼？

答：大數據的五個V如下：

Volume -Volume表示體積大，即以高速率增長的數據量，即以PB為單位的數據量
Velocity -Velocity是數據增長的速度。社交媒體在數據增長速度方面發揮著重要作用。
Variety -Variety是指不同的數據類型，即各種數據格式，如文本，音頻，視頻等。
Veracity -Veracity是指可用數據的不確定性。由於大量數據帶來不完整性和不一致性，因此產生了准確性。
Value -價值是指將數據轉化為價值。通過將訪問的大數據轉換為價值，企業可以創造收入。

YARN的兩個主要組成部分：

ResourceManager-該組件接收處理請求，並根據處理需要相應地分配給各個NodeManager。
NodeManager-它在每個單個數據節點上執行任務

7.為什麼Hadoop可用於大數據分析？

答：由於數據分析已成為業務的關鍵參數之一，因此，企業正在處理大量結構化，非結構化和半結構化數據。在Hadoop主要支持其功能的情況下，分析非結構化數據非常困難

存儲
處理
數據採集

此外，Hadoop是開源的，可在商用硬體上運行。因此，它是企業的成本效益解決方案。

8.什麼是fsck？

答：fsck代表文件系統檢查。它是HDFS使用的命令。此命令用於檢查不一致性以及文件中是否存在任何問題。例如，如果文件有任何丟失的塊，則通過此命令通知HDFS。

9. NAS（網路附加存儲）和HDFS之間的主要區別是什麼？

答：NAS（網路附加存儲）和HDFS之間的主要區別 -

HDFS在一組計算機上運行，而NAS在單個計算機上運行。因此，數據冗餘是HDFS中的常見問題。相反，復制協議在NAS的情況下是不同的。因此，數據冗餘的可能性要小得多。
在HDFS的情況下，數據作為數據塊存儲在本地驅動器中。在NAS的情況下，它存儲在專用硬體中。

10.格式化NameNode的命令是什麼？

答：$ hdfs namenode -format。

歡迎咨詢慧都在線客服，我們將幫您轉接大數據專家團隊，並發送相關資料給您！

以上就是大數據面試題及答案，希望我的回答對您有幫助！

㈤尚矽谷大數據面試都會問些什麼

其實不管是哪家公司面試，都是根據你的簡歷來對你進行提問，所以自己簡歷上面寫的知識點都要全部對答如流。

還有慎用精通這樣的字眼，工作五年以上的人，也不敢說自己對哪一方面能夠達到精通的地步。

尚矽谷大數據面試的一些基本問題總結如下：

1.講講你做的過的項目。項目里有哪些難點重點注意點呢？
2.講講多線程吧，要是你，你怎麼實現一個線程池呢？
3.講一下Maprece或者hdfs的原理和機制。map讀取數據分片。
4.shuffle 是什麼？怎麼調優？
5.項目用什麼語言寫？ Scala？ Scala的特點？和Java的區別？
6.理論基礎怎麼樣，比如數據結構，裡面的快速排序，或者，樹？講一講你了解的樹的知識？
7.數學怎麼樣呢？
8.講一下資料庫，SQl ，左外連接，原理，實現？
9.還了解過數據的什麼知識？資料庫引擎？
10.Hadoop的機架怎麼配置的？
11.Hbase的設計有什麼心得？
12.Hbase的操作是用的什麼API還是什麼工具？
13.對調度怎麼理解.? 用什麼工具嗎？
14.用kettle 這種工具還是自己寫程序？你們公司是怎麼做的？
15.你們數據中心開發周期是多長？
16.你們hbase裡面是存一些什麼數據

㈥演算法面試

我在《再談「我是怎麼招程序員」》中比較保守地說過，「問難的演算法題並沒有錯，錯的很多面試官只是在膚淺甚至錯誤地理解著面試演算法題的目的。」，今天，我想加強一下這個觀點——我反對純演算法題面試！（注意，我說的是純演算法題）圖片源Wikipedia（點擊圖片查看詞條）我再次引用我以前的一個觀點——能解演算法題並不意味著這個人就有能力就能在工作中解決問題，你可以想想，小學奧數題可能比這些題更難，但並不意味著那些奧數能手就能解決實際問題。好了，讓我們來看一個示例（這個示例是昨天在微博上的一個討論），這個題是——「找出無序數組中第2大的數」，幾乎所有的人都用了O(n)的演算法，我相信對於我們這些應試教育出來的人來說，不用排序用O(n)演算法是很正常的事，連我都不由自主地認為O(n)演算法是這個題的標准答案。我們太習慣於標准答案了，這是我國教育最悲哀的地方。（廣義的洗腦就是讓你的意識依賴於某個標准答案，然後通過給你標准答案讓你不會思考而控制你）功能性需求分析試想，如果我們在實際工作中得到這樣一個題我們會怎麼做？我一定會分析這個需求，因為我害怕需求未來會改變，今天你叫我找一個第2大的數，明天你找我找一個第4大的數，後天叫我找一個第100大的數，我不搞死了。需求變化是很正常的事。分析完這個需求後，我會很自然地去寫找第K大數的演算法——難度一下子就增大了。很多人會以為找第K大的需求是一種「過早擴展」的思路，不是這樣的，我相信我們在實際編碼中寫過太多這樣的程序了，你一定不會設計出這樣的函數介面 —— Find2ndMaxNum(int* array, int len)，就好像你不會設計出 DestroyBaghdad(); 這樣的介面，而是設計一個DestoryCity( City& ); 的介面，而把Baghdad當成參數傳進去！所以，你應該是聲明一個叫FindKthMaxNum(int* array, int len, int kth)，把2當成參數傳進去。這是最基本的編程方法，用數學的話來說，叫代數！最簡單的需求分析方法就是把需求翻譯成函數名，然後看看是這個介面不是很二？！（註：不要糾結於FindMaxNum()或FindMinNum()，因為這兩個函數名的業務意義很清楚了，不像Find2ndMaxNum()那麼二）非功能性需求分析性能之類的東西從來都是非功能性需求，對於演算法題，我們太喜歡研究演算法題的空間和時間復雜度了。我們希望做到空間和時間雙豐收，這是演算法學術界的風格。所以，習慣於標准答案的我們已經失去思考的能力，只會機械地思考演算法之內的性能，而忽略了演算法之外的性能。如果題目是——「從無序數組中找到第K個最大的數」，那麼，我們一定會去思考用O(n)的線性演算法找出第K個數。事實上，也有線性演算法——STL中可以用nth_element求得類似的第n大的數，其利用快速排序的思想，從數組S中隨機找出一個元素X，把數組分為兩部分Sa和Sb。Sa中的元素大於等於X，Sb中元素小於X。這時有兩種情況：1）Sa中元素的個數小於k，則Sb中的第 k-|Sa|個元素即為第k大數；2） Sa中元素的個數大於等於k，則返回Sa中的第k大數。時間復雜度近似為O(n)。搞學術的nuts們到了這一步一定會歡呼勝利！但是他們哪裡能想得到性能的需求分析也是來源自業務的！我們一說性能，基本上是個人都會問，請求量有多大？如果我們的FindKthMaxNum()的請求量是m次，那麼你的這個每次都要O(n)復雜度的演算法得到的效果就是O(n*m)，這一點，是書獃子式的學院派人永遠想不到的。因為應試教育讓我們不會從實際思考了。工程式的解法根據上面的需求分析，有軟體工程經驗的人的解法通常會這樣：1）把數組排序，從大到小。2）於是你要第k大的數，就直接訪問 array[k]。排序只需要一次，O(n*log(n))，然後，接下來的m次對FindKthMaxNum()的調用全是O(1)的，整體復雜度反而成了線性的。其實，上述的還不是工程式的最好的解法，因為，在業務中，那數組中的數據可能會是會變化的，所以，如果是用數組排序的話，有數據的改動會讓我重新排序，這個太耗性能了，如果實際情況中會有很多的插入或刪除操作，那麼可以考慮使用B+樹。工程式的解法有以下特點：1）很方便擴展，因為數據排好序了，你還可以方便地支持各種需求，如從第k1大到k2大的數據（那些學院派寫出來的代碼在拿到這個需求時又開始撓頭苦想了）2）規整的數據會簡化整體的演算法復雜度，從而整體性能會更好。（公欲善其事，必先利其器）3）代碼變得清晰，易懂，易維護！（學院派的和STL一樣的近似O(n)復雜度的演算法沒人敢動）爭論你可能會和我有以下爭論，如果程序員做這個演算法題用排序的方式，他一定不會像你想那麼多。是的，你說得對。但是我想說，很多時候，我們直覺地思考，恰恰是正確的路。因為「排序」這個思路符合人類大腦處理問題的方式，而使用學院派的方式是反大腦直覺的。反大腦直覺的，通常意味著晦澀難懂，維護成本上升。就是一道面試題，我就是想測試一下你的演算法技能，這也扯太多了。沒問題，不過，我們要清楚我們是在招什麼人？是一個只會寫演算法的人，還是一個會做軟體的人？這個只有你自己最清楚。這個演算法題太容易誘導到學院派的思路了。是的這道「找出第K大的數」，其實可以變換為更為業務一點的題目——「我要和別的商戶競價，我想排在所有競爭對手報價的第K名，請寫一個程序，我輸入K，和一個商品名，系統告訴我應該訂多少價？（商家的所有商品的報價在一數組中）」——業務分析，整體性能，演算法，數據結構，增加需求讓應聘者重構，這一個問題就全考了。你是不是在說演算法不重要，不用學？千萬別這樣理解我，搞得好像如果面試不面，我就可以不學。演算法很重要，演算法題能鍛煉我們的思維，而且也有很多實際用處。我這篇文章不是讓大家不要去學演算法，這是完全錯誤的，我是讓大家帶著業務問題去使用演算法。問你業務問題，一樣會問到演算法題上來。小結看過這上面的分析，我相信你明白我為什麼反對純演算法面試題了。原因就是純演算法的面試題根本不能反應一個程序的綜合素質！那麼，在面試中，我們應該要考量程序員的那些綜合素質呢？我以為有下面這些東西：會不會做需求分析？怎麼理解問題的？解決問題的思路是什麼？想法如何？會不會對基礎的演算法和數據結構靈活運用？另外，我們知道，對於軟體開發來說，在工程上，難是的下面是這些挑戰：軟體的維護成本遠遠大於軟體的開發成本。軟體的質量變得越來越重要，所以，測試工作也變得越來越重要。軟體的需求總是在變的，軟體的需求總是一點一點往上加的。程序中大量的代碼都是在處理一些錯誤的或是不正常的流程。所以，對於編程能力上，我們應該主要考量程序員的如下能力：設計是否滿足對需求的理解，並可以應對可能出現的需求變化。

導航:首頁 > 源碼編譯 > 大數據演算法面試題

大數據演算法面試題

10個大數據面試入門級問題

與大數據演算法面試題相關的資料