导航:首页 > 源码编译 > 数据挖掘算法知乎

数据挖掘算法知乎

发布时间:2022-05-28 03:31:44

A. 数学不好可以学数据挖掘么

数据挖掘最重要的是逻辑思维,数学好多性质不重要,也就是提取信息,并且对数据做找规律、概括或计算就可以。跟数学成绩好不好没太大关系,能解决简单的数学计算,并且有好的思维能力就可以。

数据,本质上就是海量数据的汇集,而数据总是与数字、数学离不开。作为数学基础不好的人,担心数学差在学习大数据上会遇到更多困难,这是正常的。但是事实上,学大数据,不必去纠结数学好不好,数学好能够起到一定的助力作用,但是并非数学不好就学不好大数据。如果非要纠结于数学基础对于大数据学习的帮助,下面这些相关的数学学科知识,在大数据上会有一定的用处,可以针对性去了解和掌握这些知识1概率论与数理统计2离散数学3线性代数4最优化方法

想更多了解数据挖掘,推荐上CDA数据分析师的课程。课程内容兼顾培养解决数据挖掘流程问题的横向能力以及解决数据挖掘算法问题的纵向能力。要求学生具备从数据治理根源出发的思维,通过数字化工作方法来探查业务问题,通过近因分析、宏观根因分析等手段,再选择业务流程优化工具还是算法工具,而非“遇到问题调算法包”。真正理解商业思维,项目思维,能够遇到问题解决问题。点击预约免费试听课


B. 机器学习和数据挖掘哪个更有前途

这种问题不是很好说,两个领域各有所长,具体发展还要看未来形式和需求。从数据分析的角度来看,数据挖掘与机器学习有很多相似之处,但不同之处也十分明显,例如,数据挖掘并没有机器学习探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对海量数据进行的,等等。从某种意义上说,机器学习的科学成分更重一些,而数据挖掘的技术成分更重一些。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。
数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘中用到了大量的机器学习界提供的数据分析技术和数据库界提供的数据管理技术。

想要学习了解更多机器学习和数据挖掘的知识,推荐CDA数据分析师课程。CDA数据分析师课程以项目调动学员数据挖掘实用能力的场景式教学为主,在讲师设计的业务场景下由讲师不断提出业务问题,再由学员循序渐进思考并操作解决问题的过程中,帮助学员掌握真正过硬的解决业务问题的数据挖掘能力。点击预约免费试听课。

C. 大数据是什么

作者:李丽
链接:https://www.hu.com/question/23896161/answer/28624675
来源:知乎
着作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。
研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。 大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。
二、大数据分析
从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
1、可视化分析
大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了
2、数据挖掘算法
大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
3、预测性分析能力
大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
4、数据质量和数据管理
大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
三、大数据技术
1、数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
2、数据存取:关系数据库、NOSQL、SQL等。
3、基础架构:云存储、分布式文件存储等。
4、数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
5、统计分析:假设检验、显着性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
6、数据挖掘:分类
(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or
association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text,
Web ,图形图像,视频,音频等)
7、模型预测:预测模型、机器学习、建模仿真。
8、结果呈现:云计算、标签云、关系图等。
四、大数据特点
要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。
1、
数据体量巨大。从TB级别,跃升到PB级别。
2、
数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
3、
价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
4、
处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。
五、大数据处理
大数据处理之一:采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
大数据处理之二:导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
大数据处理之三:统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
大数据处理之四:挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理
六、大数据应用与案例分析
大数据应用的关键,也是其必要条件,就在于"IT"与"经营"的融合,当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是关于各行各业,不同的组织机构在大数据方面的应用的案例,在此申明,以下案例均来源于网络,本文仅作引用,并在此基础上作简单的梳理和分类。
大数据应用案例之:医疗行业
[1] Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。
[2] 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
[3] 它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。
大数据应用案例之:能源行业
[1] 智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。

[2] 维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。
大数据应用案例之:通信行业
[1] XO Communications通过使用IBM SPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。
[2] 电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。
[3] 中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
[4] NTT docomo把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。

D. python 和 r 的区别 知乎

有人说Python和R的区别是显而易见的,因为R是针对统计的,python是给程序员设计的,其实这话对Python多多少少有些不公平。2012年的时候我们说R是学术界的主流,但是现在Python正在慢慢取代R在学术界的地位。不知道是不是因为大数据时代的到来。

Python与R相比速度要快。Python可以直接处理上G的数据;R不行,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析,因此R不可能直接分析行为详单,只能分析统计结果。所以有人说:Python=R+SQL/Hive,并不是没有道理的。

Python的一个最明显的优势在于其胶水语言的特性,很多书里也都会提到这一点,一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange canve 中的决策树分析50万用户10秒出结果,用R几个小时也出不来,8G内存全部占满)。但是,凡事都不绝对,如果R矢量化编程做得好的话(有点小难度),会使R的速度和程序的长度都有显着性提升。

R的优势在于有包罗万象的统计函数可以调用,特别是在时间序列分析方面,无论是经典还是前沿的方法都有相应的包直接使用。
相比之下,Python之前在这方面贫乏不少。但是,现在Python有了pandas。pandas提供了一组标准的时间序列处理工具和数据算法。因此,你可以高效处理非常大的时间序列,轻松地进行切片/切块、聚合、对定期/不定期的时间序列进行重采样等。可能你已经猜到了,这些工具中大部分都对金融和经济数据尤为有用,但你当然也可以用它们来分析服务器日志数据。于是,近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大替代方案。

做过几个实验:
1. 用python实现了一个统计方法,其中用到了ctypes,multiprocess。
之后一个项目要做方法比较,又用回R,发现一些bioconctor上的包已经默认用parallel了。(但那个包还是很慢,一下子把所有线程都用掉了,导致整个电脑使用不能,看网页非常卡~)
2. 用python pandas做了一些数据整理工作,类似数据库,两三个表来回查、匹配。感觉还是很方便的。虽然这些工作R也能做,但估计会慢点,毕竟几十万行的条目了。
3. 用python matplotlib画图。pyplot作图的方式和R差异很大,R是一条命令画点东西,pylot是准备好了以后一起出来。pyplot的颜色选择有点尴尬,默认颜色比较少,之后可用html的颜色,但是名字太长了~。pyplot 的legend比R 好用多了,算是半自动化了。pyplot画出来后可以自由拉升缩放,然后再保存为图片,这点比R好用。

总的来说Python是一套比较平衡的语言,各方面都可以,无论是对其他语言的调用,和数据源的连接、读取,对系统的操作,还是正则表达和文字处理,Python都有着明显优势。 而R是在统计方面比较突出。但是数据分析其实不仅仅是统计,前期的数据收集,数据处理,数据抽样,数据聚类,以及比较复杂的数据挖掘算法,数据建模等等这些任务,只要是100M以上的数据,R都很难胜任,但是Python却基本胜任。

结合其在通用编程方面的强大实力,我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。
但世上本没有最好的软件或程序,也鲜有人能把单一语言挖掘运用到极致。尤其是很多人早先学了R,现在完全不用又舍不得,所以对于想要学以致用的人来说,如果能把R和Python相结合,就更好不过了,很早看过一篇文章——让R与Python共舞,咱们坛子里有原帖,就不多说了,看完会有更多启发。

BTW: 如果之前没有学过R,可以先学Python然后决定是不是学R,如果学了R,学Python的时候会更快上手。

E. 数据分析和数据挖掘的区别 知乎

1、数据析重点观察数据数据挖掘重点数据发现知识规则KDD(Knowledge Discover in Database);
2、数据析结论智能结数据挖掘结论机器习集(或训练集、本集)发现知识规则;
3、数据析结论运用智力数据挖掘发现知识规则直接应用预测
4、数据析能建立数模型需要工建模数据挖掘直接完数建模传统控制论建模本质描述输入变量与输变量间函数关系数据挖掘通机器习自建立输入与输函数关系根据KDD规则给定组输入参数组输量
-

F. 学了数据挖掘之后能干啥

学了数据挖掘之后能干啥?数据挖掘职业规划总结

文 | 宿痕

很多人不明白学习数据挖掘以后干什么,这个问题也经常被问到。记得刚学数据挖掘的时候,有一个老师说学数据挖掘有什么用,你以后咋找工作。当时听了,觉得很诧异,不知道他为何有此一问。数据挖掘在国外是一份很不错的工作。我喜欢数据挖掘,因为它很有趣。很高兴以后就从事这方面的工作啦。写论文之余,也考虑一下数据挖掘工程师的职业规划。

以下是从网上找的一些相关资料介绍,和即将走上数据挖掘岗位或是想往这方面发展的朋友共享:

数据挖掘从业人员工作分析

1.数据挖掘从业人员的愿景:

数据挖掘就业的途径从我看来有以下几种,(注意:本文所说的数据挖掘不包括数据仓库或数据库管理员的角色)。

A:做科研(在高校、科研单位以及大型企业,主要研究算法、应用等)

B:算法工程师(在企业做数据挖掘及其相关程序算法的实现等)

C:数据分析师(在存在海量数据的企事业单位做咨询、分析等)

2.数据挖掘从业人员切入点:

根据上面的从业方向来说说需要掌握的技能。

A:做科研:这里的科研相对来说比较概括,属于技术型的相对高级级别,需要对开发、数据分析的必备基础知识。

B:算法工程师:主要是实现数据挖掘现有的算法和研发新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色,你不但需要熟悉至少一门编程语言如(C,C++,Java,Delphi等)和数据库原理和操作,对数据挖掘基础课程有所了解,读过《数据挖掘概念与技术》(韩家炜着)、《人工智能及其应用》。有一点了解以后,如果对程序比较熟悉的话并且时间允许,可以寻找一些开源的数据挖掘软件研究分析,也可以参考如《数据挖掘:实用机器学习技术及Java实现》等一些教程。

C:数据分析师:需要有深厚的数理统计基础,可以不知道人工智能和计算机编程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具。从这个方面切入数据挖掘领域的话你需要学习《数理统计》、《概率论》、《统计学习基础:数据挖掘、推理与预测》、《金融数据挖掘》,《业务建模与数据挖掘》、《数据挖掘实践》等,当然也少不了你使用的工具的对应说明书了,如SPSS、SAS等厂商的《SAS数据挖掘与分析》、《数据挖掘Clementine应用实务》、《EXCEL 2007数据挖掘完全手册》等,如果多看一些如《数据挖掘原理》 等书籍那就更好了。

数据挖掘人员需具备以下基本条件,才可以完成数据挖掘项目中的相关任务。

一、专业技能

本科或硕士以上学历,数据挖掘、统计学、数据库相关专业,熟练掌握关系数据库技术,具有数据库系统开发经验;

熟练掌握常用的数据挖掘算法;

具备数理统计理论基础,并熟悉常用的统计工具软件。

二、行业知识

具有相关的行业知识,或者能够很快熟悉相关的行业知识

三、合作精神

具有良好的团队合作精神,能够主动和项目中其他成员紧密合作

四、客户关系能力

具有良好的客户沟通能力,能够明确阐述数据挖掘项目的重点和难点,善于调整客户对数据挖掘的误解和过高期望;

具有良好的知识转移能力,能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力。

进阶能力要求

数据挖掘人员具备如下条件,可以提高数据挖掘项目的实施效率,缩短项目周期。

具有数据仓库项目实施经验,熟悉数据仓库技术及方法论

熟练掌握SQL语言,包括复杂查询、性能调优

熟练掌握ETL开发工具和技术

熟练掌握Microsoft Office软件,包括Excel和PowerPoint中的各种统计图形技术

善于将挖掘结果和客户的业务管理相结合,根据数据挖掘的成果向客户提供有价值的可行性操作方案

五、应用及就业领域

当前数据挖掘应用主要集中在电信(客户分析),零售(销售预测),农业(行业数据预测),网络日志(网页定制),银行(客户欺诈),电力(客户呼叫),生物(基因),天体(星体分类),化工,医药等方面。

当前它能解决的问题典型在于:数据库营销(DatabaseMarketing)、客户群体划分(Customer Segmentation&Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(ChurnAnalysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等,在许多领域得到了成功的应用。如果你访问着名的亚马逊网上书店会发现当你选中一本书后,会出现相关的推荐数目“Customers who bought this book alsobought”,这背后就是数据挖掘技术在发挥作用。

数据挖掘的对象是某一专业领域中积累的数据;挖掘过程是一个人机交互、多次反复的过程;挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“Business First, techniquesecond”是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反,有其它行业背景是从事数据挖掘的一大优势。如有销售,财务,机械,制造,call center等工作经验的,通过学习数据挖掘,可以提升个人职业层次,在不改变原专业的情况下,从原来的事务型角色向分析型角色转变。从80年代末的初露头角到90年代末的广泛应用,以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。

重点介绍下对数据挖掘的几个岗位

数据采集分析专员

职位介绍:数据采集分析专员的主要职责是把公司运营的数据收集起来,再从中挖掘出规律性的信息来指导公司的战略方向。这个职位常被忽略,但相当重要。由于数据库技术最先出现于计算机领域,同时计算机数据库具有海量存储、查找迅速、分析半自动化等特点,数据采集分析专员最先出现于计算机行业,后来随着计算机应用的普及扩展到了各个行业。该职位一般提供给懂数据库应用和具有一定统计分析能力的人。有计算机特长的统计专业人员,或学过数据挖掘的计算机专业人员都可以胜任此工作,不过最好能够对所在行业的市场情况具有一定的了解。

求职建议:由于很多公司追求短期利益而不注重长期战略的现状,目前国内很多企业对此职位的重视程度不够。但大型公司、外企对此职位的重视程度较高,随着时间的推移该职位会有升温的趋势。另外,数据采集分析专员很容易获得行业经验,他们在分析过程中能够很轻易地把握该行业的市场情况、客户习惯、渠道分布等关键情况,因此如果想在某行创业,从数据采集分析专员干起是一个不错的选择。

市场/数据分析师

1、市场数据分析是现代市场营销科学必不可少的关键环节: Marketing/Data Analyst从业最多的行业: DirectMarketing (直接面向客户的市场营销) 吧,自90年代以来,Direct Marketing越来越成为公司推销其产品的主要手段。

根据加拿大市场营销组织(CanadianMarketingAssociation)的统计数据: 仅1999年一年 Direct Marketing就创造了470000 个工作机会。从1999至2000,工作职位又增加了30000个。为什么Direct Marketing需要这么多Analyst呢? 举个例子, 随着商业竞争日益加剧,公司希望能最大限度的从广告中得到销售回报,他们希望能有更多的用户来响应他们的广告。所以他们就必需要在投放广告之前做大量的市场分析工作。

例如,根据自己的产品结合目标市场顾客的家庭收入,教育背景和消费趋向分析出哪些地区的住户或居民最有可能响应公司的销售广告,购买自己的产品或成为客户,从而广告只针对这些特定的客户群。这样有的放矢的筛选广告的投放市场既节省开销又提高了销售回报率。但是所有的这些分析都是基于数据库,通过数据处理,挖掘,建模得出的,其间,市场分析师的工作是必不可少的。

2、行业适应性强:几乎所有的行业都会应用到数据, 所以作为一名数据/市场分析师不仅仅可以在华人传统的IT行业就业,也可以在政府,银行,零售,医药业,制造业和交通传输等领域服务。

算法工程师

应该来说目前算法工程师基本上都集中在中大型企业中,因为一般小公司很少用到算法来解决问题,如果这公司就是做数据相关产业的。而算法一般的应用场景有推荐、广告、搜索等,所以大家常见的在广告领域、个性化推荐方面是有不少的同仁。常见的要求是懂JAVA/PYTHON/R中其中一种,能够知道常规的回归、随机森林、决策树、GBDT等算法,能够有行业背景最佳等。如果是deep learning方向可能对图论、画像识别等方面要求更高些。

求职建议:background稍微好一些,再把一些基本的算法都弄明白,能说清楚之间的区别和优缺点,包括常见的一些应用场景都有哪些。对于公司来说,特别是BAT这样使用机器学习的公司,算法工程师是很重要的一块资产。

现状与前景

数据挖掘是适应信息社会从海量的数据库中提取信息的需要而产生的新学科。它是统计学、机器学习、数据库、模式识别、人工智能等学科的交叉。在中国各重点院校中都已经开了数据挖掘的课程或研究课题。比较着名的有中科院计算所、复旦大学、清华大学等。另外,政府机构和大型企业也开始重视这个领域。

据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。

根据IDC(InternationalDataCorporation)预测说2004年估计BI行业市场在140亿美元。现在,随着我国加入WTO,我国在许多领域,如金融、保险等领域将逐步对外开放,这就意味着许多企业将面临来自国际大型跨国公司的巨大竞争压力。国外发达国家各种企业采用商务智能的水平已经远远超过了我国。美国Palo Alto 管理集团公司1999年对欧洲、北美和日本375家大中型企业的商务智能技术的采用情况进行了调查。结果显示,在金融领域,商务智能技术的应用水平已经达到或接近70%,在营销领域也达到50%,并且在未来的3年中,各个应用领域对该技术的采纳水平都将提高约50%。

现在,许多企业都把数据看成宝贵的财富,纷纷利用商务智能发现其中隐藏的信息,借此获得巨额的回报。国内暂时还没有官方关于数据挖掘行业本身的市场统计分析报告,但是国内数据挖掘在各个行业都有一定的研究。据国外专家预测,在今后的5—10年内,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。

众所周知,IT就业市场竞争已经相当激烈,而数据处理的核心技术—数据挖掘更是得到了前所未有的重视。数据挖掘和商业智能技术位于整个企业IT-业务构架的金字塔塔尖,目前国内数据挖掘专业的人才培养体系尚不健全,人才市场上精通数据挖掘技术、商业智能的供应量极小,而另一方面企业、政府机构和和科研单位对此类人才的潜在需求量极大,供需缺口极大。如果能将数据挖掘技术与个人已有专业知识相结合,您必将开辟职业生涯的新天地!

职业薪酬

就目前来看,和大多IT业的职位一样,数据挖掘方面的人才在国内的需求工作也是低端饱和,高端紧缺。从BAT的招聘情况来看,数据挖掘领域相对来说门槛还是比较高的,但是薪酬福利也相对来说比较好,常见的比如腾讯、阿里都会给到年薪20W+。而厉害的资深算法专家年薪百万也是常有的事情,所以大家在算法方面还是大有可能。另外随着金融越来越互联网化,大量的算法工程师会成为以后互联网金融公司紧缺的人才。

大家共勉!

来自知乎

以上是小编为大家分享的关于学了数据挖掘之后能干啥?的相关内容,更多信息可以关注环球青藤分享更多干货

G. 如何通过数据挖掘算法建立客户忠诚度知乎

没个方面都不一样。客户忠诚度取决于客户关系和我们的资源优势

H. 后台开发与数据挖掘哪个更适合研究生发展

兄弟,这种迷茫是很容易理解的,作为过来人,先让自己安静下来,然后再思考,不要被外面纷扰的信息打扰了自己内心的平静。数据挖掘也好,后台开发也罢,编程能力必不可少,但是你需要明白的是,很多机器学习工程师其实是在写软件,而不是侧重在机器学习算法本身,而很多数据挖掘工程师其实不是在调试算法,而是在写SQL。真正的聚焦在机器学习和数据挖掘工程师岗位往往需要你有一些项目背景和学术背景,如果发过顶会论文和期刊论文的话那就更好。

因此,我总结一下,如果你选择机器学习,你可以做下面的选择【仅供参考】

  1. 如果你实验室或者导师学术能力比较强,那么跟着发主流领域的顶会或者期刊论文,由于你导师几乎是放羊状态,实验室学术能力也不强,这个选项就不适合你了。
  2. 参加大数据和机器学习比赛,这种比赛有很多,每个侧重点不一样,你可以参与一下。

如果你选择后台开发,后台开发有很多,鉴于你的非专业的CS出身,而且可能本科没怎么写代码,建议

  1. C++后台开发还是免了吧,因为除了学习C++,你还要学习网络编程和UNIX编程,而且目前需求也很少,能力要求高。不知道你能坚持多久。
  2. Java后台,主要是Java Web,这个是很多人的选择,而且容易找工作。
  3. Hadoop后台,主要做Hadoop开发,Hadoop你应该知道是什么,这里就不介绍了,当然Java基础必不可少。
  4. Python/PHP后台,这些相对需求很少,而且也很难找到大公司的工作,因为需求不多。
  5. 求助于实验室的师兄师姐他们,或者可以学到一点后台开发的技能。

另外,不管是什么专业,计算机的基础知识必不可少,数据结构+算法,计算机组成原理等等。

最后,鉴于你的没有太多的基础,因此不要对自己的期望过高,否则很那达到会有挫败感,而且这个时候一定要专注于一个领域不动摇,否则,你还是迷茫而且不知道方向在哪里。其实努力学习一个学期是可以学到很多知识的。加油!既然是南方985,应该也不差,毕竟南方经济发达,就业是比较容易的。


更新:

对于学习的建议


2017年12月7日更新

I. 数据挖掘 怎么在工作中提升自己 知乎

培养数据分析的能力,简单说就是 理论+实践
理论:是进行分析的基础。
1)基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;
2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;
3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。
实践:可以说90%的分析能力都是靠实践培养的。
1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;
2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉了解业务可以使数据看起来更加透彻;
3)了解数据的定义和获取。最好从数据最初是怎么获取的开始了解,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;
4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的了解要深入得多,就是这个原因。

阅读全文

与数据挖掘算法知乎相关的资料

热点内容
java解析网页 浏览:836
2020广西艺术分算法 浏览:101
手机解压文件大不能解压 浏览:99
android获取当前系统时间 浏览:324
苹果电脑安卓版怎么还原 浏览:612
javaftpjar 浏览:324
phpmysql自增id 浏览:920
仿抖音系统源码建站 浏览:746
云服务器搭建sqlserver2008 浏览:950
如何查看服务器安全组 浏览:429
云服务器会保存app记录吗 浏览:716
程序员身份证年龄 浏览:943
appstore如何注册一个美国帐号 浏览:321
春笋公式源码 浏览:497
蔚来app如何反馈 浏览:51
基础生态学pdf 浏览:957
cp2012单片机 浏览:990
张晓谦程序员 浏览:115
取消应用加密忘记密码 浏览:998
心熵pdf 浏览:809