大数据分析的高级分析算法

  • 原创经验
  • |
  • 更新:
  • |

众所周知,大数据分析的高级分析算法过程为下游流程提供了更精确,价值更高的数据,这对于公司真正利用其数据的价值并实现其所需的结果至关重要。下面是小编整理的一些高级分析计划中使用的一些最受欢迎的算法。每种方法都有优缺点,可以有效地利用它来产生业务价值的方式也不同。实施这些算法的最终目标是进一步优化数据,使结果信息可以应用于业务决策。


具体如下

  1. 1

    线性回归

    线性回归是高级分析的最基本算法之一,这也使其成为使用最广泛的之一,人们可以轻松地查看其工作方式以及输入数据与输出数据的关系,线性回归使用两组连续定量度量之间的关系。第一组称为预测变量或自变量,另一个是响应或因变量,线性回归的目标是以公式的形式识别关系,该公式根据自变量描述因变量,一旦这种关系被量化,就可以为自变量的任何实例预测因变量,时间是最常用的自变量之一,无论您的自变量是收入,成本,客户,使用或生产力,如果您可以定义其与时间的关系,那么可以使用线性回归预测值。

    大数据分析的高级分析算法

  2. 2

     逻辑回归

    回归听起来类似于线性回归,但实际上专注于涉及分类而不是定量预测的问题,在这里,输出变量值是离散且有限的,而不是连续的,并且具有无限值,就像线性回归一样,逻辑回归的目标是对输入变量的实例是否适合类别进行分类,回归的输出为0到1之间的值,结果接近1表示输入变量更清楚地适合类别,结果接近0表示输入变量可能不适合该类别,回归通常用于回答明确定义的是或否问题,客户会再次购买吗?买家信用值得吗?潜在客户会成为客户吗?预测这些问题的答案会在业务流程中产生一系列动作,从而有助于增加未来的收入。

  3. 3

    分类和回归树

    分类树和回归树使用决策来对数据进行分类,每个决定都是基于与输入变量之一有关的问题。有了每个问题和相应的答案,数据实例就变得更接近以特定方式进行分类了,这组问题和答案以及随后的数据划分创建了一个树状结构,每行问题的末尾都有一个类别,这称为分类树的叶节点,这些分类树可能变得非常大和复杂,控制复杂性的一种方法是通过修剪树或有意删除问题级别以在精确匹配和抽象之间取得平衡,对于输入值的所有实例(在训练中已知的值和在训练中未知的值)都适用的模型至关重要,要防止此模型过度拟合,就需要在精确拟合和抽象之间达到微妙的平衡。

    分类树和回归树的一种变体称为随机森林。随机森林不是构建具有多个逻辑分支的单个树,而是由许多小的树和简单树组成的顶点,每个树都评估数据实例并确定分类。一旦所有这些简单的树完成了数据评估,该过程将合并单个结果,以基于较小类别的组合来创建类别的最终预测。这通常称为合奏方法。这些随机森林通常在平衡精确匹配和抽象方面做得很好,并且已在许多业务案例中成功实现。

    与侧重于是或否分类的逻辑回归相反,分类树和回归树可用于预测多值分类。它们也更容易可视化并查看引导算法进行特定分类的确定路径。

  4. 4

     K最近邻居

    K最近邻居也是一种分类算法。它被称为“懒惰学习者”,因为该过程的培训阶段非常有限。学习过程由存储的训练数据集组成。在评估新实例时,将评估到训练集中每个数据点的距离,并且基于新数据实例与训练实例的接近程度,就新数据属于哪个类别达成共识,根据训练集的大小和范围,此算法在计算上可能会很昂贵。由于必须将每个新实例与训练数据集的所有实例进行比较并得出距离,因此该过程每次运行都可以使用许多计算资源,该分类算法允许对数据进行多值分类。另外,嘈杂的训练数据倾向于使分类倾斜。

    通常选择K近邻,因为它易于使用,易于训练并且易于解释结果。当您尝试查找相似的项目时,它通常在搜索应用程序中使用。

  5. 5

    K均值聚类

    K-均值聚类专注于创建相关属性组。这些组称为群集。一旦创建了这些集群,就可以针对它们评估其他实例,以查看它们最适合的位置,此技术通常用作数据探索的一部分,首先,分析人员指定群集的数量,K-means群集过程基于在称为“质心”的公共集线器周围找到具有相似性的数据点,将数据分为多个群集,这些群集与类别不同,因为它们最初没有业务意义。它们只是输入变量的紧密相关实例,一旦识别并分析了这些集群,就可以将它们转换为类别,并提供具有业务意义的名称,经常使用K均值聚类是因为它易于使用和解释,并且速度很快,要注意的一个方面是k均值聚类对异常值极为敏感,这些离群值会极大地改变这些聚类的性质和定义,并最终改变分析结果。

注意事项

  • 以上就是小编今天给大家整理发送的关于“大数据分析的高级分析算法”的相关内容,希望对大家有所帮助。


作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。