大数据算法面试题_算法面试

㈠大数据研究与应用协会市场推广面试问题

传统的用户研究包括品牌研究、客户满意度研究、商圈研究、市场细分、渠道研究、产品定价研究以及产品测试，这些研究大多数用市场调研的方法来实现。市场调研由于调研方法带来的诸多问题，导致结果的代表性、准确性以及研究的效率都存在不同程度的挑战。我们相信，随着大数据的发展，大数据将对市场与用户研究方法将带来革命性的变化。本文将介绍大数据目前在市场与用户研究方面的应用与探索。
一、大数据用于品牌研究
品牌认知度、品牌形象和品牌满意度研究是品牌研究的三大重要部分。
1）品牌认知度是品牌资产的重要组成部分，品牌认知度是衡量消费者对品牌内涵及价值的认识和理解度的标准，同时也是公司竞争力的一种体现。
2）而品牌形象是品牌在公众心中所表现出的个性特征，它体现公众特别是消费者对品牌的评价与认知，以及对品牌所具有的一切联想。品牌形象分为三个层级的形象：产品或服务本身的形象、使用者的形象、产品或提供者的形象。
3）品牌满意度是消费者通过对一个品牌产品或服务的可感知效果与对比预期相比较后，所形成的愉悦或失望的状态，可以不满意、满意、满足、愉悦等四种情绪，一个拥有高满意度的品牌，其顾客的购买率及重复购买率也在相应提升，因此品牌满意度的研究也非常重要。
在传统的市场研究中，品牌认知、品牌形象和品牌满意度研究是通过市场调查的手段来实现。在大数据时代，我们可以利用互联网大数据辅助品牌认知度、品牌形象和品牌满意度研究。我们可以通过网络爬虫技术，对新闻媒体、社会化媒体等网站实时全网监测，实时掌握网民对品牌和竞品的品牌提及量、产品提及量以及提及量的趋势，掌握自己品牌和竞争的品牌形象评价；通过品牌和产品的正负面评论的监测，及时了解对品牌消费者对品牌的满意度情况，及时发现问题。过去，进行品牌认知度、品牌形象以及品牌满意度的市场调研，从调查开始到报告产生，至少需要半个月到一个月，而且由于成本和操作性的限制，只能选取一些代表性的人群和地点做代表性的抽样不够全面。利用大数据手段，我们可以实现更快更全面以及更真实的统计，这对我们及时的了解品牌认知度、品牌形象以及品牌满意度的现状和趋势非常有帮助。
专栏：企业实施大数据的五大关键
专栏：大数据应用于企业运营
大数据在电信行业的应用
二、大数据用于忠诚度研究
净推荐值研究方法是客户忠诚度研究中的重要方法。净推荐值（NPS）研究方法由国际知名咨询公司贝恩咨询客户忠诚度业务的创始人佛瑞德·赖克霍徳（Fred Reichheld）在2003《哈佛大学商业评论》文章“你需要致力于增长的一个数字”的文章中首次提到。该方法通过调查客户问题“您有多大可能向您的朋友或同事推荐我们公司的产品或服务？（0-10分）” 来获得，根据客户的回答分数分成三组：
第一组给公司9分或10分，称之为“推荐者”(promoters)；他们是对公司产品或服务满意度和忠诚度非常高的客户，在当今社会化媒体营销时代，他们是公司产品或服务免费营销人员，他们会推荐朋友和亲人来购买。
第二组给公司7分或8分，为“被动满意者”(passively satisfied)；他们对公司产品或服务既无不满意，也无满意的客户，较易被其他竞争者吸引。
第三组给0至6分，是“贬损者”(detractors)。他们对公司的产品或服务非常不满意，不仅仅停止购买公司的产品或服务，他们会尽一切可能劝周围的人不要买，同时会转向其他竞争者。
NPS值即为推荐者所占百分比与贬低者所占百分比的差值（如下图）。NPS的业务逻辑是：推荐者会继续购买并且推荐给其他人来加速你的成长，而贬损者则能破坏你的名声，不仅仅停止购买，而且劝说周围朋友购买，让你在负面的口碑中阻止成长，NPS则是反映了这两股力量较量的结果。Fred Reichheld实证研究证明NPS和长期利润成长有正相关性，NPS表现越好，未来企业利润的成长就会越好。

图：NPS计算方法
大家可能会问，NPS分数在多少为比较理想的状态。实证研究表明，NPS分数在NPS的得分值在50%以上被认为是表现不错，得分值在70－80%之间则证明公司拥有一批高忠诚度的好客户（如苹果、Google等互联网公司的NPS超过70%），大部分公司的NPS值在5－10%之间，更差的公司NPS还可能是负值。当然，我们仅了解NPS是不够的，NPS本身不能提供具体的改进意见，我们还需要结合影响满意度的原因深入研究，尤其是对贬损者指标进行深入的满意度研究，挖掘“贬损”背后的原因。
大数据技术革新传统NPS研究方式。大部分NPS的研究其数据获取方式都采用调查问卷的方式，这种方式很容易受到抽样方式、客户心态甚至活动礼品等多方面的影响，导致数据失真。在大数据时代，NPS的数据可以来源于客服系统的语音数据和评价文本数据、电商平台购物用户的打分及用户评论文本数据以及社会化媒体如微博、论坛等的评论文本数据，这些数据我们都称之为“用户反馈数据”。我们可以利用语音分析技术、文本分析技术将这些非结构化的“用户反馈数据”结构化，从而更好的进行数据挖掘，识别“贬损者”和“推荐者”，全面和快速的计算NPS，并可以利用这些大数据，了解“贬损者”的“贬损”的原因。如果还能够把业务系统和运营系统的“用户行为数据”关联整合进来，我们不仅仅通过“用户反馈数据”了解用户“贬损”原因，还可以了解“贬损者”的历史“用户行为数据，将更有利于我们更好的洞察用户，更全面、更及时优化“贬损者”的用户体验和改进方向；同时可以定向为“推荐者”展开更多的优惠促销或者附加增值服务。通过大数据手段可以更好的实时掌握NPS，还可以洞察NPS“推荐”或“贬损”的原因，为市场推广、客户服务、业务运营等部门的关键应用场景提供决策支撑，有利于进一步提升用户亲密度和忠诚度。
三、大数据用于市场细分
市场细分是按照消费者在市场需求、购买动机、购买行为和购买能力方面的差异，运用系统方法将整体市场即全部顾客和潜在顾客划分为数个不同的消费者群（子市场），以便选择确定自己的目标市场。市场细分的基础是购买者对产品需求的差异性。但是，这种差异性一般很难直接度量，故常用其它比较容易度量以及和需求密切相关的变量来对市场进行细分。这些变量包括地理、人口统计学属性、行为以及消费心态等变量：地理细分是将市场划分为不同的区域市场，例如可按下列地理特征将市场细分：行政区划、城市规模、资源状况和气候；人口统计学细分人口统计变量来细分市场，常用来细分市场的人口学变量有年龄、性别、民族、居住地、家庭规模与生命周期等；行为和态度细分是根据消费者对产品的购买动机、购买行为和使用情况来细分；心理细分是按消费者的社会阶层、生活方式、人格特征划分为不同的群体。市场细分既可以按照以上单维度细分，也可以组合以上维度进行多重标准细分，同时按照多重标准可以将消费者分为比较小的、同质性更高的群体。
区别于传统的市场细分，大数据应用于市场细分在以下方面起到更为重要的作用：
1）数据采集的维度更为全面，数据采集更为实时，尤其是在行为数据的采集更为及时、细腻和全方位；
2）用大数据算法进行细分模型建模，可以吸纳更多的细分维度，从而可以细分出更小、同质性更高的细分群体；
3）数据更新更快，计算速度更快，市场细分模型更新速度更快，更能及时反映用户需求的变化，从而可以做出更准确、及时细分；
4）市场细分可以和营销渠道、营销活动进行实时关联和调优，通过大数据算法判定的细分群体可以实时的进行最有效营销活动推荐，并可以用大数据计算最为有效推广渠道触达这些细分群体。
四、大数据用于产品测试
产品测试指的是企业运用专业的技术手段和研究方法进行以获得目标消费者（或用户）对相关产品的认知或评价，以测试新产品的接受度或改进现有产品。产品测试在产品的各生命周期均有应用：
在产品的开发期，产品处于研发和概念阶段，此时可以对已有产品进行测试，以了解消费者认为需要改进的方面；或者对尚未成型的产品进行概念性的测试，指导产品经理对正在开放的产品做调整和改进；
在产品介绍期，产品准备投放市场以及刚刚投放市场不久，企业可以通过产品测试以了解最有效的销售渠道和促销方式，以及对产品的包装、价格进行测试；
在产品的成长期和成熟期，企业可以通过自身产品和竞争产品进行对比测试，及时掌握消费者（或用户）对产品的评价和态度；
在产品的衰退期，为了延长产品生命周期，企业会进行产品的改进或者产品新方向的测试。
以上不同阶段的产品测试，传统的实施方法一般是通过市场调查方式来实现，通常是对消费者（或用户）进行调查或者访问，利用多种访问或调查工具来实现。在大数据和互联网时代，我们可以用更快和更为准确的方式来进行产品测试：
在产品的开发期，我们可以通过电商平台或者微博、论坛等社会化媒体对现有产品的网上评论进行收集，通过自然语言处理和数据挖掘手段，以了解消费者的不满和产品改进方向；或者灰度测试来了解新版本的效果，即让一部分用户继续用老版本，一部分用户开始用新版本，如果用户对新版本没有什么反对意见，那么逐步扩大范围，把所有用户都迁移到新版本上面来。灰度测试和发布可以保证整体产品系统的稳定，在初始灰度的时候就可以发现、调整问题。
在产品的介绍期，产品的包装、外观设计和价格等也可以通过灰度测试和发布的方式来掌握消费者的反馈以进行相关的调优。
在产品的成长期和成熟期，我们同样可以通过大数据手段对电商平台和社会化媒体收集消费者对自身产品和竞争产品的评论，通过自然语言处理和数据挖掘掌握消费者对产品的不满，以改进我们自己的产品。像宝洁这种对传统市场调查非常重视的企业，目前已经逐渐开始利用大数据方式进行产品测试，尤其是通过电商平台对每一个产品都能收集评价和反馈，帮助产品的改进和创新。
五、大数据与商圈研究以及空间商业智能
商圈是指商店以其所在地点为中心沿着一定的方向和距离扩展所能吸引顾客的范围。按照离商店的距离，商圈分为三层，包括核心商圈，次级商圈和边缘商圈。核心商圈是离商店最近，顾客密度最高，约占商店顾客的55%－70%；次级商圈是指位于核心商圈外围的商圈，顾客分布较为分散，约占商店顾客的15-20%；边缘商圈是于商圈的最外缘，包含商圈剩下的客户，此商圈顾客最为分散，数量最少。
按照商圈的性质，商圈可以分为六大类，包括：
（1）商业区，商业集中的地区；
（2）住宅区，住宅区住户数量至少1000户以上；
（3）文教区，其附近有一所或以上的学校；
（4）办公区，办公大楼较多的地区；
（5）工业区，即工厂较多的地区；
（6）混合区，以上5类的混合，如住商混合、住教混合、工商混合等。
影响商圈的因素可以分为内部因素和外部因素。内部因素包括：
店铺经营商品的种类。经营传统商品、日常用品的店铺吸引顾客的区域范围较小，商圈范围小；经营非常用品，吸引顾客的能力强，商圈范围广。
店铺的经营规模。随着店铺经营规模的扩大，其商圈也在随之扩大，但增大到一定规模时，商圈范围也不会扩大；
店铺的经营特征。经营同类商品的两个店铺即便同处一地的同一条街道，其对顾客的吸引力也会有所不同，相应的商圈规模也不一样。经营灵活、商品齐全、服务周到，在顾客中留有良好形象的店铺，顾客竞争力强，自然商圈规模相对也会较其他同行业店铺大；
店铺的主体设计，包括店铺所在楼层构成及配置，吸引顾客的设施状况，如停车场停车位的多少以及其所处位置等。
影响商圈的外部因素包括：
店铺的促销手段。利用人员推销与营业推广活动等可以吸引更多的次级以及边缘商圈的顾客，可以更好扩张商圈范围；
竞争店铺的位置。相互竞争的两店之间距离越大，它们各自的商圈也越大。如潜在顾客居于两家同行业店铺之间，各自店铺分别会吸引一部分潜在顾客，造成客流分散，商圈都会因此而缩小。但有些相互竞争的店铺毗邻而设，顾客因有较多的比较、选择机会而被吸引过来，则商圈反而会因竞争而扩大；
人口流动性。人口流动是指在交通要道、繁华商业区、公共场所过往的人口。一个地区的流动人口越多，在这一地区经营的店铺的潜在顾客就越多。
交通地理状况。交通地理条件与商圈规模密切相关。在商业繁华地带，交通条件发达，人口流动性强，有大量的潜在顾客，因而商圈范围也就越大；反之，店铺设在交通偏僻地区，顾客主要是分布在店铺附近的居住人口，其商圈范围一般较小。
人口统计学特征和消费特征。包括商圈的客户性别、年龄、收入、家庭规模、消费支出能力等。
基于商圈的地理信息和数据挖掘可以应用于商铺选址、销售区域分配、物流配送路径优化、潜在消费者空间分布、线下广告投放优化、城市规划等数据可以通过大数据的手段进行获取。在这些应用中，商铺选址应用最多，尤其是应用于银行、快消、电信、医药、家具等行业。
传统的商圈相关信息获取是通过市场调查的手段获得。在大数据时代，商圈相关的位置、客流和消费者信息是可以通过大数据获取的，尤其是通过电信运营商或具有地图服务能力的互联网企业。如中国联通推出的商铺选址大数据应用服务，中国联通可以把城市区域进行栅格化处理，分析每个栅格（不同位置）的用户群信息、客流信息等，为零售商进行店铺选址的决策依据，并且已经成功的应用到烟草直营零售终端的分析和选址优化中。而国内的一些城市的相关企业也在启动智慧商圈的基础服务。他们借助为公众提供免费WiFi服务的同时，把商圈人流数据收集成为城市大数据，建立智慧商圈大数据分析平台和应用服务，通过智慧商圈服务数据分析平台的应用服务于城市管理，比如了解商圈人流、客流，为城市规划和交通线路设计提供依据和参考，也可以为商家选址和广告促销提供依据。在国外，一家名为PiinPoint的企业，他们提供基于网络的分析工具，可以帮助企业和商铺选址进行优化，它能够收集各种数据，包括人口、税率、交通信息和房产信息等，对不同的待选地址进行深度分析，并吸引了许多有扩张计划的美国零售商。
对于大数据与商圈信息的结合研究，无论是工业界还是学术界都在积极探索，甚至这些研究发展已经逐步发展为空间商业智能的探索。美国密西根大学中国信息研究中心主任鲍曙明是这样界定的空间商业智能：空间商业智能是商业智能服务的一种扩展，涉及到空间和网点的分布，周边的人口、环境、地理等等之间的关系。大数据、移动技术以及云计算是未来发展趋势，如何将这些新技术和空间商业智能有机整合，提升应用的能力，并将地理智慧普及到更广泛的商业领域，目前还处于探索阶段，还需要业界同仁共同努力。
近两年兴起的室内定位技术ibeacon将会对空间商业智能的发展有着更为积极的促进作用。iBeacon是苹果公司2013年9月发布的移动设备用OS（iOS7）上配备的新功能，通过软件和硬件的结合，从而大大提高室内精度，从原来的几百米或者几十米的定位精度提高到一米以内的定位精度。这种能力将极大的强化购物体验，如当客户走到某个商品前，手机应用自动跳出商品的介绍和促销信息。对于商家，也可以更加精准的判别潜在消费者，及时的向消费者进行精准营销。随着iBeacon的发展，商家位置信息将更为精准，线下商品信息更为丰富，尤其是极大弥补室内定位的数据源，这对空间商业智能的发展是极大的利好。
总之，大数据应用于市场和用户研究仍仍处于探索阶段，依然面临着诸多的挑战，尤其是数据采集的不全面的问题、数据质量的问题以及数据处理和分析技术有待加强尤其是非结构化数据的处理和分析技术。但我们不可否认的是，大数据应用与市场和用户研究将带来研究速度和效率的极大提升。随着大数据相关技术的发展和成熟，我们有理由相信，利用大数据进行更好的市场洞察和用户洞察洞察。市场与用户研究的同仁，我们一起拥抱大数据吧。

㈡面试题-关于大数据量的分布式处理

面试题-关于大数据量的分布式处理
题目：生产系统每天会产生一个日志文件F，数据量在5000W行的级别。文件F保存了两列数据，一列是来源渠道，一列是来源渠道上的用户标识。文件F用来记录当日各渠道上的所有访问用户，每访问一次，记录一条。
请问如何快速计算出各渠道上新增的用户？
问题分析：首先本次面试的是有关于分布式数据处理以及数据分析的职位，所以相关的面试题目可能会偏向于使用分布式的思想去解决。但无奈本人当时反应太慢，实在没向分布式处理方向思考。
方案一：
本题最直观的一个处理方法就是，直接拿着当日新增的5000W条访问记录一条一条的去匹配历史访问用户。若存在历史访问记录，则忽略；若不存在访问记录，则保存为新增记录。很明显，假若历史访问用户有2亿条记录，则需要和2亿条数据比较5000W次。比较次数可想而知。
由于本人一直在做基于数据库的数据处理工作，很容易就想到将历史数据保存在数据库的一张表中，并对来源渠道和用户标识这两个字段建立索引，然后遍历日志文件F（5000W次）。根据日志文件F中的每一行去匹配数据库中的历史访问记录。由于历史数据表有索引，单次查询的速度也非常快。但是需要5000W次的数据库查询，很明显效率低下。
方案二：
既然多次单一查询无法满足要求，于是可以先通过一种数据导入技术将当日新增数据导入到数据库的另一张表中，并和历史数据做左外关联。若能关联成功，则表示此用户已存在；若关联失败，则表示此用户不存在。
此方案暂且不说5000W条记录的大表与2亿条记录的大表关联效率有多高以及使用到的数据库缓冲区的资源有多少，单就5000W条访问记录导入数据库表，都是一个不小的时间花费。
方案三：
很明显，面试时方案二的回答并未达到面试官的预期，最初被遗憾的PASS掉。一家很有潜力，自己很看好的公司，并计划做为自己未来发展方向的职位，就这样丢下我，扬长而去了。
这几天又看了下分布式相关的介绍，突然想到这道题。一下子醒悟过来，其实还是因为对题目要考察的点分析得不够透彻。当时以为只是仅仅考数据处理效率的一个题目，其实考的是一种将复杂问题拆分为简单问题的拆分思想。了解到这一层，一种新的方式立马在脑海中浮现出来。具体如下：
假如现在有N（N>=2）个存储块，并存在一个函数f（来源渠道，用户标识），对于给定的一组（来源渠道，用户标识），总能将其分发到一个固定的存储块内。那么可以使用此函数将5000W行访问记录尽量均匀的分发至N个存储块上，并同时使用此函数将历史访问记录也分发至这些存储块上。由于相同的一组记录，肯定会被分配至同一个存储块，所以比较时，只需要分别比较各个存储块上当日新增记录与历史访问用户，然后将N个存储块上比较的结果汇总，即可得到最终结果。
假设历史访问用户数据已通过函数f（来源渠道，用户标识）被分发至了N个历史文件H1、H2、…、HN。则详细处理步骤如下：
1、将F中的内容使用函数f（来源渠道，用户标识），分发至文件F1、F2、…、FN内。（可开M（M>=2）个并行，且若N-M越大，同时向同一文件写入数据的概率越小）
2、将文件F1、F2、…、FN内的访问记录去重。（可开N个并行分别处理对应的N个文件）。
3、将文件Fn（1=<n<=N）去重后的结果与对应的历史文件Hn比较得出新增用户结果Rn。（可开N个并行分别处理对应的N个文件且当N足够大时，实际要处理数据的量级就会相当小）。
4、合并第3步得到的结果R1、R2、…、RN即可得到当日新增用户。（可并行）
5、为使历史数据文件H1、H2、…、HN中的数据最全，将结果R1、R2、…、RN分别写入对应的历史文件中。（可并行）
本方案主要有以下优点：
1、数据的分发、处理、合并都可并行处理，明显提高了处理效率。
2、由于每个存储块上的新增数据，只需要与它对应存储块上的历史数据比较即可，大大减少了比较次数。（对于当日每一条记录来说，都只需要与大约历史的N分之一条数据去比较）
3、基本不需要考虑历史全量数据的保存及获取问题。
本方案缺点：
1、处理方案明显变的复杂许多，不仅需要处理数据的分发，处理，还需要一个并行的快速收集方法。
2、可能需要多台服务器并行处理。
本方案难点：
1、一个稳定（对于相同的一组来源渠道和用户标识，必定会被分发至同一存储块）、快速（根据一条来源渠道和用户标识数据，可以快速的计算出它将要被分发至的存储块）、均匀（当日新增数据及历史数据都能尽量均匀的被分发至N个存储块，最理想的情况是每个存储块上分发到的数据都是总数据的N分之一）的分发函数至关重要。
2、如何分发、并行处理及汇总数据。

㈢ 2021年大数据工程师面试内容包括哪些

【导语】近年来，大数据发展如火如荼，很多人都选择学习大数据专业或者转行大数据，大数据里又包含很多就业岗位，所以在进行岗位选择的时候，还是需要大家合理选择，为了帮助大家更好的进入大数据行业执业，下面就把2021年大数据工程师面试内容给大家进行一下具体介绍。

1、自我介绍

一般上来就是自我介绍，谈下工作经历和项目经验，面试官会根据你的项目经验对你进行技术面试。在自我介绍时，一定要抓住核心说，不要太啰嗦，尽量放大自己的价值，让面试官感受到你对工作的热情，以及以后对公司贡献的能力。

2、数仓开发知识技能

(1)Java是必问的，不过问的不深，把Javase部分吃透，足以应付Java部分的面试。

(2)Hadoop生态，Yarn、Zookeeper、HDFS这些底层原理要懂，面试经常被问。

(3)Maprece的shuffle过程这个也是面试被常问的。

(4)Hbase和HIve，搞大数据这些不懂真的说不过去。

(5)Mysql、Oracle和Postgres数据库操作要回，Sql要会写。

(6)linux操作系统，这个简单得命令必须要懂，会写shell脚本更好了。

(7)Kettle或Sqoop这种数据处理工具至少要会一个。8，数据仓库建模、数据模型的问题。

3、技术方面知识技能

(1)SparkSql和SparkStreaming，底层原理、内核、提交任务的过程等等，尽量深入内幕，这个经常会跟MapRece作比较的。当然也要了解Storm和Flink，Flink这个建议要学会，以后用处会越来越广。

(2)Redis、Kafka、ElasticSearch这些都得懂原理，深入了解，会使用，会操作，会调优。

(3)impala和kylin这些尽量也要了解会用

(4)Python这个要是有能力，有精力，建议也要往深处学习，我目前正在自学中。

(5)集群的问题，包括一些简单的运维知识。

(6)大数据数据倾斜的问题，包括Spark JVM内存调优问题等等。

关于2021年大数据工程师面试内容，就给大家介绍到这里了，希望对大家能有所帮助，当然进入大数据行业，还需要大家在平时不断进行技能提升，这样才能更好的拥有一席之地。

㈣大数据面试题及答案谁能分享一下

大数据时代才刚刚开始。随着越来越多的公司倾向于大数据运营，人才需求达到历史最高水平。这对你意味着什么？如果您想在任何大数据岗位上工作，它只能转化为更好的机会。您可以选择成为数据分析师，数据科学家，数据库管理员，大数据工程师，Hadoop大数据工程师等。在本文中，慧都网将介绍与大数据相关的前10大数据面试问题。

以下是最重要的大数据面试问题以及具体问题的详细解答。对于更广泛的问题，答案取决于您的经验，我们将分享一些如何回答它们的提示。

10个大数据面试入门级问题

无论何时进行大数据采访，采访者都可能会询问一些基本问题。无论您是大数据领域的新手还是经验丰富，都需要基础知识。因此，让我们来介绍一些常见的基本大数据面试问题以及破解大数据面试的答案。

1.您对“大数据”一词有何了解？

答：大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据，这就是使用特殊工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务，并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还允许公司采取数据支持的更好的业务决策。

2.大数据的五个V是什么？

答：大数据的五个V如下：

Volume -Volume表示体积大，即以高速率增长的数据量，即以PB为单位的数据量
Velocity -Velocity是数据增长的速度。社交媒体在数据增长速度方面发挥着重要作用。
Variety -Variety是指不同的数据类型，即各种数据格式，如文本，音频，视频等。
Veracity -Veracity是指可用数据的不确定性。由于大量数据带来不完整性和不一致性，因此产生了准确性。
Value -价值是指将数据转化为价值。通过将访问的大数据转换为价值，企业可以创造收入。

YARN的两个主要组成部分：

ResourceManager-该组件接收处理请求，并根据处理需要相应地分配给各个NodeManager。
NodeManager-它在每个单个数据节点上执行任务

7.为什么Hadoop可用于大数据分析？

答：由于数据分析已成为业务的关键参数之一，因此，企业正在处理大量结构化，非结构化和半结构化数据。在Hadoop主要支持其功能的情况下，分析非结构化数据非常困难

存储
处理
数据采集

此外，Hadoop是开源的，可在商用硬件上运行。因此，它是企业的成本效益解决方案。

8.什么是fsck？

答：fsck代表文件系统检查。它是HDFS使用的命令。此命令用于检查不一致性以及文件中是否存在任何问题。例如，如果文件有任何丢失的块，则通过此命令通知HDFS。

9. NAS（网络附加存储）和HDFS之间的主要区别是什么？

答：NAS（网络附加存储）和HDFS之间的主要区别 -

HDFS在一组计算机上运行，而NAS在单个计算机上运行。因此，数据冗余是HDFS中的常见问题。相反，复制协议在NAS的情况下是不同的。因此，数据冗余的可能性要小得多。
在HDFS的情况下，数据作为数据块存储在本地驱动器中。在NAS的情况下，它存储在专用硬件中。

10.格式化NameNode的命令是什么？

答：$ hdfs namenode -format。

欢迎咨询慧都在线客服，我们将帮您转接大数据专家团队，并发送相关资料给您！

以上就是大数据面试题及答案，希望我的回答对您有帮助！

㈤尚硅谷大数据面试都会问些什么

其实不管是哪家公司面试，都是根据你的简历来对你进行提问，所以自己简历上面写的知识点都要全部对答如流。

还有慎用精通这样的字眼，工作五年以上的人，也不敢说自己对哪一方面能够达到精通的地步。

尚硅谷大数据面试的一些基本问题总结如下：

1.讲讲你做的过的项目。项目里有哪些难点重点注意点呢？
2.讲讲多线程吧，要是你，你怎么实现一个线程池呢？
3.讲一下Maprece或者hdfs的原理和机制。map读取数据分片。
4.shuffle 是什么？怎么调优？
5.项目用什么语言写？ Scala？ Scala的特点？和Java的区别？
6.理论基础怎么样，比如数据结构，里面的快速排序，或者，树？讲一讲你了解的树的知识？
7.数学怎么样呢？
8.讲一下数据库，SQl ，左外连接，原理，实现？
9.还了解过数据的什么知识？数据库引擎？
10.Hadoop的机架怎么配置的？
11.Hbase的设计有什么心得？
12.Hbase的操作是用的什么API还是什么工具？
13.对调度怎么理解.? 用什么工具吗？
14.用kettle 这种工具还是自己写程序？你们公司是怎么做的？
15.你们数据中心开发周期是多长？
16.你们hbase里面是存一些什么数据

㈥算法面试

我在《再谈“我是怎么招程序员”》中比较保守地说过，“问难的算法题并没有错，错的很多面试官只是在肤浅甚至错误地理解着面试算法题的目的。”，今天，我想加强一下这个观点——我反对纯算法题面试！（注意，我说的是纯算法题）图片源Wikipedia（点击图片查看词条）我再次引用我以前的一个观点——能解算法题并不意味着这个人就有能力就能在工作中解决问题，你可以想想，小学奥数题可能比这些题更难，但并不意味着那些奥数能手就能解决实际问题。好了，让我们来看一个示例（这个示例是昨天在微博上的一个讨论），这个题是——“找出无序数组中第2大的数”，几乎所有的人都用了O(n)的算法，我相信对于我们这些应试教育出来的人来说，不用排序用O(n)算法是很正常的事，连我都不由自主地认为O(n)算法是这个题的标准答案。我们太习惯于标准答案了，这是我国教育最悲哀的地方。（广义的洗脑就是让你的意识依赖于某个标准答案，然后通过给你标准答案让你不会思考而控制你）功能性需求分析试想，如果我们在实际工作中得到这样一个题我们会怎么做？我一定会分析这个需求，因为我害怕需求未来会改变，今天你叫我找一个第2大的数，明天你找我找一个第4大的数，后天叫我找一个第100大的数，我不搞死了。需求变化是很正常的事。分析完这个需求后，我会很自然地去写找第K大数的算法——难度一下子就增大了。很多人会以为找第K大的需求是一种“过早扩展”的思路，不是这样的，我相信我们在实际编码中写过太多这样的程序了，你一定不会设计出这样的函数接口 —— Find2ndMaxNum(int* array, int len)，就好像你不会设计出 DestroyBaghdad(); 这样的接口，而是设计一个DestoryCity( City& ); 的接口，而把Baghdad当成参数传进去！所以，你应该是声明一个叫FindKthMaxNum(int* array, int len, int kth)，把2当成参数传进去。这是最基本的编程方法，用数学的话来说，叫代数！最简单的需求分析方法就是把需求翻译成函数名，然后看看是这个接口不是很二？！（注：不要纠结于FindMaxNum()或FindMinNum()，因为这两个函数名的业务意义很清楚了，不像Find2ndMaxNum()那么二）非功能性需求分析性能之类的东西从来都是非功能性需求，对于算法题，我们太喜欢研究算法题的空间和时间复杂度了。我们希望做到空间和时间双丰收，这是算法学术界的风格。所以，习惯于标准答案的我们已经失去思考的能力，只会机械地思考算法之内的性能，而忽略了算法之外的性能。如果题目是——“从无序数组中找到第K个最大的数”，那么，我们一定会去思考用O(n)的线性算法找出第K个数。事实上，也有线性算法——STL中可以用nth_element求得类似的第n大的数，其利用快速排序的思想，从数组S中随机找出一个元素X，把数组分为两部分Sa和Sb。Sa中的元素大于等于X，Sb中元素小于X。这时有两种情况：1）Sa中元素的个数小于k，则Sb中的第 k-|Sa|个元素即为第k大数；2） Sa中元素的个数大于等于k，则返回Sa中的第k大数。时间复杂度近似为O(n)。搞学术的nuts们到了这一步一定会欢呼胜利！但是他们哪里能想得到性能的需求分析也是来源自业务的！我们一说性能，基本上是个人都会问，请求量有多大？如果我们的FindKthMaxNum()的请求量是m次，那么你的这个每次都要O(n)复杂度的算法得到的效果就是O(n*m)，这一点，是书呆子式的学院派人永远想不到的。因为应试教育让我们不会从实际思考了。工程式的解法根据上面的需求分析，有软件工程经验的人的解法通常会这样：1）把数组排序，从大到小。2）于是你要第k大的数，就直接访问 array[k]。排序只需要一次，O(n*log(n))，然后，接下来的m次对FindKthMaxNum()的调用全是O(1)的，整体复杂度反而成了线性的。其实，上述的还不是工程式的最好的解法，因为，在业务中，那数组中的数据可能会是会变化的，所以，如果是用数组排序的话，有数据的改动会让我重新排序，这个太耗性能了，如果实际情况中会有很多的插入或删除操作，那么可以考虑使用B+树。工程式的解法有以下特点：1）很方便扩展，因为数据排好序了，你还可以方便地支持各种需求，如从第k1大到k2大的数据（那些学院派写出来的代码在拿到这个需求时又开始挠头苦想了）2）规整的数据会简化整体的算法复杂度，从而整体性能会更好。（公欲善其事，必先利其器）3）代码变得清晰，易懂，易维护！（学院派的和STL一样的近似O(n)复杂度的算法没人敢动）争论你可能会和我有以下争论，如果程序员做这个算法题用排序的方式，他一定不会像你想那么多。是的，你说得对。但是我想说，很多时候，我们直觉地思考，恰恰是正确的路。因为“排序”这个思路符合人类大脑处理问题的方式，而使用学院派的方式是反大脑直觉的。反大脑直觉的，通常意味着晦涩难懂，维护成本上升。就是一道面试题，我就是想测试一下你的算法技能，这也扯太多了。没问题，不过，我们要清楚我们是在招什么人？是一个只会写算法的人，还是一个会做软件的人？这个只有你自己最清楚。这个算法题太容易诱导到学院派的思路了。是的这道“找出第K大的数”，其实可以变换为更为业务一点的题目——“我要和别的商户竞价，我想排在所有竞争对手报价的第K名，请写一个程序，我输入K，和一个商品名，系统告诉我应该订多少价？（商家的所有商品的报价在一数组中）”——业务分析，整体性能，算法，数据结构，增加需求让应聘者重构，这一个问题就全考了。你是不是在说算法不重要，不用学？千万别这样理解我，搞得好像如果面试不面，我就可以不学。算法很重要，算法题能锻炼我们的思维，而且也有很多实际用处。我这篇文章不是让大家不要去学算法，这是完全错误的，我是让大家带着业务问题去使用算法。问你业务问题，一样会问到算法题上来。小结看过这上面的分析，我相信你明白我为什么反对纯算法面试题了。原因就是纯算法的面试题根本不能反应一个程序的综合素质！那么，在面试中，我们应该要考量程序员的那些综合素质呢？我以为有下面这些东西：会不会做需求分析？怎么理解问题的？解决问题的思路是什么？想法如何？会不会对基础的算法和数据结构灵活运用？另外，我们知道，对于软件开发来说，在工程上，难是的下面是这些挑战：软件的维护成本远远大于软件的开发成本。软件的质量变得越来越重要，所以，测试工作也变得越来越重要。软件的需求总是在变的，软件的需求总是一点一点往上加的。程序中大量的代码都是在处理一些错误的或是不正常的流程。所以，对于编程能力上，我们应该主要考量程序员的如下能力：设计是否满足对需求的理解，并可以应对可能出现的需求变化。

导航:首页 > 源码编译 > 大数据算法面试题

大数据算法面试题

10个大数据面试入门级问题

与大数据算法面试题相关的资料