提到大数据可能有些令人生畏。在了解一定基本概念的基础上,掌握其中一些关键术语也是至关重要的。
本文列出了 25 个必须掌握的大数据术语。
算法(Algorithm)
指用于执行数据分析的数学公式或统计过程。那么算法与大数据有什么关系呢?虽然算法是一个通用术语,但大数据分析使得这个词变得更具时代性,更受欢迎。
分析(Analytics)
你的信用卡公司会将附有你全年交易情况的年终报表寄给你。如果具体看在食物,衣服,娱乐等方面花了多少钱呢?那么你就在进行“分析”。你正在从原始数据中获得一些见解,这可以帮助你决定来年的支出。
如果你对朋友、网络或者自己的公司发的推文以及 facebook 帖子进行同样的操作,那我们现在就涉及的就是大数据分析了。它是通过使用大量数据进行推论并得出结论。共有三种不同类型的分析。
1. 描述性分析(Descriptive Analytics)
如果你告诉我,去年你的信用卡消费中 25% 用于食物,35% 用于服装,20% 用于娱乐活动,其他的用于杂物,这就是描述性的分析。当然,你也可以进行更详细的了解。
2. 预测分析(Predictive Analytics)
如果你分析了过去5年的信用卡记录,发现当中有一定的一致性,那么你可以较有把握地预测,明年的情况将与过去几年类似。值得注意的是,这并不是“预测未来”,而是“预测事情发生的可能性”。在大数据预测分析中,数据科学家会使用数据挖掘,机器学习和统计过程等先进技术,进行天气,经济等方面的预测。
3.规范分析(Prescriptive Analytics)
还是用信用卡的例子,你可能会想知道哪些消费目标(例如食品、娱乐、服装等)会对你的整体消费产生巨大的影响。规范分析通过包括“行为”(即减少购买食物、衣服或娱乐)和对结果进行分析,从而预测规范相应目标,从而减少你的总开销。将此扩展到大数据,你可以想象管理人员如何通过研究各种行为影响,从而做出数据驱动的决策。
批量处理(Batch processing)
尽管从大型计算机时代开始,批量处理就已经出现了。由于处理大型数据集,批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集的大量数据的有效方式。稍后我将介绍的 Hadoop 就是专注于批量数据处理。
Cassandra
是由 Apache 软件基金会管理的一个流行的开源数据库管理系统。Apache 属于大数据技术,Cassandra 旨在处理跨分布式服务器的大量数据。
云计算(Cloud computing)
云计算已经变得无所不在,所以在这里仅处于完整性的考虑将其归纳在内。它本质上是在远程服务器上托管和运行的软件及数据,并可从互联网的任何地方进行访问。
集群计算(Cluster computing)
这是一个使用多个服务器集合资源的“集群”的计算术语。要想更技术性的话,就会涉及到节点,集群管理层,负载平衡和并行处理等概念。
暗数据(Dark Data)
基本上指的是,由企业收集和处理的,但并不用于任何意义性目的的数据,因此它是“暗”的,可能永远不会被分析。它可以是社交网络反馈,呼叫中心日志,会议笔记等等。有很多人估计,所有企业数据中的 60-90% 可能是“暗数据”,但谁又真正知道呢?
数据湖(Data lake)
当次听到这个概念,我还以为是在开玩笑。但这真是一个术语。数据湖是原始格式的企业级数据的大型存储库。与此同时我们可以涉及数据仓库,它在概念上是相似的,也是企业级数据的存储库,但在清理、与其他来源集成之后是以结构化格式。数据仓库通常用于常规数据(但不是专有的)。数据湖使得访问企业级数据更加容易,你需要明确你要寻找什么,以及如何处理它并明智地试用它。
数据挖掘(Data mining)
数据挖掘是通过使用复杂的模式识别技术,从而找到有意义的模式,并得出大量数据的见解。这与我们之前讨论的“数据分析”术语密切相关,因为你将通过挖掘数据进行分析。为了获得有意义的模式,数据挖掘者使用统计,机器学习算法和人工智能。
数据科学家(Data Scientist)
一个热门的职业。指的是通过提取原始数据,对其进行处理,并提出自己的见解的人。数据科学家需要具备超人般的技能:分析,统计,计算机科学,创造力,故事讲述和理解环境的能力。难怪他们薪水这么高。
分布式文件系统(Distributed File System)
由于大数据太大而无法存储在单个系统上,分布式文件系统是一种数据存储系统用于存储跨多个存储设备的大量数据,并有助于降低存储大量数据的成本和复杂性。
ETL 指的是提取,转换和加载。具体指的是“提取”原始数据的过程,通过清理、丰富数据将其“转换”成适合使用的,并“加载”到适当的存储库中以供系统使用。虽然它源于数据仓库,但ETL过程也被用来从大数据系统的外部资源中获取和吸收数据。
当想到大数据时,人们立即会想到 Hadoop 。Hadoop(具有可爱的大象标志)是一个开源软件框架,由所谓的 Hadoop 分布式文件系统(HDFS)组成,并允许使用分布式硬件对非常大的数据集进行存储,检索和分析。如果你真的想给别人留下深刻的印象,还可以谈谈 YARN,顾名思义,这是一种资源调度程序。取名字的人真太有才了。Apache 基金会还推出了 Hadoop,Pig,Hive 以及 Spark(是的,这些都是各种软件的名称)。真是服了这些名字。
内存计算(In-memory computing)
一般来说,任何可以在不访问 I / O 的情况下完成的计算都是很快的。内存计算是一种将工作数据集完全放在集群的集体内存中,避免将中间计算写入磁盘的技术。Apache Spark 是一个内存计算系统,它在速度超过 I / O 绑定系统(如 Hadoop 的MapReduce)方面拥有巨大的优势。
物联网(IoT)
的流行语是物联网(IOT)。IOT 通过互联网将嵌入式对象(传感器,可穿戴设备,汽车,冰箱等)中的计算设备进行互连,并且能够发送以及接收数据。IOT 生成大量数据,提供了大量大数据分析的机会。
机器学习(Machine learning)
机器学习是指通过提供的数据,使系统能够学习,调整和改进。通过预测和统计算法,他们不断学习“正确”的行为和洞察力,随着更多的数据流通过该系统,得以不断地改进。
MapReduce 可能会有点难懂。MapReduce 是一个编程模型,为了更好的理解,需注意 Map 和 Reduce 其实是两个独立的部分。在这种情况下,编程模型首先将大数据数据集分解成多个部分(在技术术语中称为“元组”),因此可以分布在不同位置的不同计算机上(即前面所述的集群计算),这基本上就是 Map 部分。然后,该模型收集结果并将其“减少”为一个。MapReduce 的数据处理模式与Hadoop 的分布式文件系统紧密相关。
NoSQL
听起来像是 SQL (结构化查询语言)的反面,SQL 是传统关系数据库管理系统(RDBMS)的主要内容。但 NOSQL 实际上意味着不仅仅是 SQL (Not ONLY SQL)。NoSQL 实际上是指的是用于处理大量数据的数据库管理系统,它们不具有结构,或被称为“架构”(类似关系数据库)。NoSQL 数据库通常适合大型数据系统,因为它们具有大型非结构化数据库所需的灵活性和分布式的优先体系结构。
R 是一种编程语言,在统计计算方面很出色。如果你不知道 R,你就称不上是数据科学家。R 是数据科学中的语言之一。
Spark(Apache Spark)
Apache Spark 是一种快速的内存数据处理引擎,用于高效执行流,机器学习或需要快速迭代访问数据集的 SQL 工作负载。Spark 通常比我们前面提及的 MapReduce 快很多。
流处理(Stream processing)
流处理旨在对有“连续”要求的实时和流数据进行处理。结合流分析,即在流内不间断地计算数学或统计分析的能力。流处理解决方案旨在对高流量进行实时处理。
结构化 v 非结构化数据(Structured v Unstructured Data)
这是大数据中的“V”之一,即多样性。结构化数据基本上指任何可以放在关系数据库中,并以该方式组织起来,通过表与其他数据相关。非结构化数据则反之,如无法发电子邮件,发社交媒体帖子和录制的人类语音等。
免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。