深入研究数据科学家使用的常见统计和分析技术

454398 2021-01-14 1994

电子说

1.3w人已加入

描述

数据科学技术如今已在许多组织中占有一席之地，数据科学家正迅速成为以数据为中心的组织最受欢迎的角色之一。数据科学的应用程序利用机器学习等技术和大数据的力量来获取深入的见解和新的功能，其中包括预测分析、图像和对象识别、会话人工智能系统等。

事实上，那些没有在数据科学上进行充分投资的组织可能很快落后于在数据科学方面获得显著竞争优势的竞争对手。

数据科学家可以做些什么以提供这种变革性的业务收益?数据科学领域是一些关键要素的集合：准确提取可量化数据的统计和数学方法;使用先进的分析技术和方法从科学角度解决数据分析的技术和算法，有助于处理大型数据集;以及可以帮助将大量数据整理成获得高质量见解的所需格式的工具和方法。

以下将更深入地研究数据科学家使用的常见统计和分析技术。其中一些数据科学技术植根于数世纪的数学和统计工作，而另一些技术则相对较新，利用了机器学习、深度学习和其他形式的高级分析的研究成果。

数据科学如何发现数据之间的关系

当识别大量数据中的信息时，数据科学家首先需要辨别不同的数据元素如何相互关联。例如，如果在一张图上绘制了一堆数据点，那么如何知道它们是否有意义?

数据科学家最广泛使用的有三种统计和分析技术。也许数据表示两个或多个变量之间的关系，而其工作是绘制某种最能描述这种关系的曲线或多维平面。或者，它代表具有某种亲和力的集群。其他数据可能代表不同的类别。通过发现这些关系，可以使数据的其他随机性具有意义，然后可以对其进行分析和可视化，以提供组织可以用来制定决策或计划策略的信息。

以下了解可用于执行分析的各种数据科学技术和方法：

分类技术

在分类问题中，数据科学家要回答的首要问题是：“这些数据属于什么类别?”将数据分类的原因很多。也许数据是手绘的图像，人们需要知道图像代表什么字母或数字。或者代表贷款申请的数据，想知道它应该属于“已批准”还是“已拒绝”类别。其他分类可以集中在确定患者治疗方案或电子邮件是否是垃圾邮件。

数据科学家用来将数据过滤到类别中的算法和方法包括：

•决策树。这些是分支逻辑结构，使用机器生成的参数和数值树将数据分类为已定义的类别。

•贝叶斯分类器。利用概率的力量，贝叶斯分类器可以帮助将数据分为简单的类别。

•支持向量机(SVM)。支持向量机的目标是绘制一条宽边距的曲线或平面，将数据分成不同的类别。

•K-近邻算法。该技术使用一种简单的“惰性决策”方法，根据数据集中最邻近的类别来确定数据点应该属于哪个类别。

•逻辑回归。尽管使用了分类技术，但它使用将数据拟合到一条线的想法来区分每一边的不同类别。这条线的形状使数据可以移至某个类别。

•神经网络。这种方法使用训练有素的人工神经网络，尤其是具有多个隐藏层的深度学习网络。神经网络已经显示出强大的分类能力，其中包含大量的训练数据。

回归技术

如果不知道数据属于哪一类，而是想知道不同数据点之间的关系该怎么办?回归的主要思想是回答以下问题：“这个数据的预测值是多少?”一个简单的概念来自“均值回归”的统计概念，它可以是一个独立变量和一个因变量之间的直接回归，也可以是一个试图找到多个变量之间关系的多维回归。

例如决策树支持向量机(SVM)和神经网络一些分类技术，也可以用来进行回归。此外，数据科学家可以使用的回归技术包括：

•线性回归。作为数据科学中应用最广泛的方法之一，这种方法试图根据两个变量之间的相关性找到最适合所分析数据的曲线。

•套索回归。Lasso(套索)是“最小绝对收缩和选择算符”的缩写，是一种通过在最终模型中使用数据子集来提高线性回归模型预测准确性的技术。

•多元回归。这涉及寻找适合可能包含多个变量的多维数据的线或平面的不同方法。

聚类和关联分析技术

另一组数据科学技术侧重于回答这样一个问题：“这些数据是如何分组的，不同的数据点属于哪些组?”数据科学家可以发现相关数据点的聚类，这些数据点具有共同的各种特征，从而在分析应用程序中产生有用的信息。

可用于聚类用途的方法包括：

•K-均值聚类。K-均值算法确定数据集中的一定数量的聚类，并找到“质心”，以标识不同聚类的位置，并将数据点分配给最接近的聚类。

•均值漂移聚类。另一种基于质心的聚类技术，它可以单独使用，也可以通过移动指定的质心来改进k-均值聚类。

•DBSCAN。DBSCAN是“基于密度的带噪空间聚类算法DBSCAN”的缩写，是另一种发现聚类的技术，它使用一种更高级的方法来识别聚类的密度。

•高斯混合模型。高斯混合模型通过使用高斯分布将数据分组在一起而不是将数据视为奇点来帮助找到聚类。

•分层聚类。与决策树类似，这种技术使用层次化的分支方法来查找聚类。

关联分析是一种相关但独立的技术。其背后的主要思想是找到描述不同数据点之间公共性的关联规则。与聚类类似，人们正在寻找数据所属的组。但是在这种情况下，试图确定何时数据点一起出现，而不是仅仅识别它们的集群。在聚类中，其目标是将大数据集划分为可识别的组，而通过关联分析，人们正在测量数据点之间的关联程度。

数据科学应用实例

数据科学工具带中的上述方法和技术需要适当地应用于特定的分析问题以及可用于解决这些问题的数据。优秀的数据科学家必须能够理解当前问题的本质——是聚类、分类还是回归?以及在给定数据特征的情况下可以产生所需答案的最佳算法。这就是数据科学实际上是一个科学过程而不是具有严格规则的过程，并允许通过编程解决问题的原因。

使用这些技术，数据科学家可以处理广泛的应用程序，其中许多应用程序通常出现在不同类型的行业和组织中。以下是一些例子：

·异常检测。如果可以找到预期或正常数据的模式，那么也可以找到那些不符合模式的数据点。金融服务、医疗保健、零售和制造业等行业组织经常采用各种数据科学方法来识别其数据中的异常情况，以用于欺诈检测、客户分析、网络安全和IT系统监控。异常检测还可以用来消除数据集中的异常值，以提高分析的准确性。

·二分类和多分类。分类技术的一个主要应用是确定某物是否属于某一特定类别。这就是所谓的二分类，因为人们可能会问诸如“图片中是否有猫?”之类的问题。实际的业务应用是使用图像识别在大量文件中识别合同或发票。在多类分类中，在数据集中有许多不同的类别，正在努力寻找最适合数据点的类别。例如，美国劳工统计局会对工伤进行自动分类。

·个性化。希望与客户进行个性化交互或向客户推荐产品和服务的组织首先需要将数据分组到具有共享特征的数据桶中。有效的数据科学工作可以使用推荐引擎和超个性化系统等技术，根据个人的具体需求和喜好量身来定制网站，推销产品及更多内容，这些技术是通过匹配人员详细资料中的数据来驱动的。

这只是数据科学应用程序的一些示例。通过采用数据分析的各种工具和方法，数据科学家可以帮助使用它们的组织获得战略和竞争优势。
编辑：hfy

打开APP阅读更多精彩内容