1. 您的位置:首页 > seo技术 >内容

数据科学如何通过统计发展?

几个世纪以来,统计学家一直在分析数据。 1970 年,John Tukey 提出了关于执行统计检验以推导出假设的想法。 1996 年,国际分类协会联合会考虑使用数据科学、其分类和相关方法。

统计在帮助理解数据复杂性方面起着非常重要的作用。
它为我们提供了理解数据结构并在其中找到现有模式的工具。

数据科学家必须搅动大量数据才能做出预测,在统计方法的帮助下理解数据至关重要。

统计在两种类型的变量中感知数据

  1. 离散变量:这些变量是只能考虑有限数量的值的值。 它在有限的时间内是可数的。
  2. 连续变量:这些值是数字,包含 2 个值之间的无限数量的值。 它在有限时间内是不可数的。

接下来,我们将了解分布及其类型。 稍后,我们将借助统计测度来了解分布的特征。

分配

分布描述了所有可能的值及其出现概率。 它描述了每个事件发生的可能性。

分布类型

  • 伯努利分布:这种分布只列出了两种可能的结果,并且只有一次试验。 在此分布中,随机变量可以取值为 1,成功概率为 1,失败概率为 0。
  • 均匀分布:当一组事件有同等概率得到一组结果时,称为均匀分布。

图片来源

  • 二项分布:在这种分布中,只有两种结果是可能的,并且所有试验的结果概率都相同。
  • 正态分布:表示具有以下特征的值的分布
    • 数据的均值、中位数和众数相同
    • 分布曲线呈钟形。 一半的值在左边,另一半在右边。

图片来源

  • 泊松分布:它是一种可以接受以下假设的分布
    • 一个成功的事件不会影响另一个成功的事件
    • 成功的概率不会因时间间隔而异
    • 当间隔变小时,成功事件的概率变为零。
  • 指数分布:它是一种用于表示事件之间时间间隔的分布。

图片来源

如何找到数据的分布?

  • 使用直方图绘制数据以查看数据传播曲线。
  • 假设检验/分布检验以检查样本数据是否遵循假设分布。 小 p 值意味着拒绝原假设并得出数据不遵循指定分布的结论。
  • 概率图也有助于理解分布。 也称为“粗铅笔”测试。 当数据遵循一条直线时,您的数据遵循分布。

统计数据如何为理解数据奠定基础?

1. 描述性统计

它用于以汇总方式表示数据。

中心趋势的度量这些度量为我们提供了一种通过一个值来理解数据的方法。 它还有助于我们了解数据的分散性。

  • 均值:它是一组值的平均值。
  • 中值:它是一组有序值的中间值。
  • 众数它是一组值中最常见的值。 模态是根据出现最多次数的数字来定义的。 单峰表示一个数字,双峰表示两个数字,多峰表示多个数字。

图片来源

中心趋势度量的重要性

  • 它可以帮助您了解围绕中心值的数据分布。 当平均值和中值接近时,分布是正态的,当它们远离时,分布是偏态的。
  • 均值和中值的组合有助于根据均值和中值是否在同一范围内确定异常值的存在。
  • 中值更能代表偏态分布中的数据。
  • 它可以帮助您在数据分布正常时填充数据中的缺失值。
  • 众数是唯一有助于分类数据的集中趋势度量,因为我们无法对数据进行排序。 它向我们展示了最常见的类别。
  • 它有助于确定适当的假设检验。 非参数假设检验的参数平均值和中位数。
  • 中值和众数从异常值来看是稳健的。

离散度量:它描述了围绕集中趋势度量(均值、中值、众数)的数据分布

  • 方差:它测量数据集中每个点与平均值之间的距离。 高方差是指点之间的距离,均值高,点分布广泛。 低方差意味着点之间的距离很小,并且这些点围绕着平均值。
  • 标准差:方差的平方根。
  • 范围:指数据集中最大点和最小点之间的差值。

图片来源

  • 四分位数:是指点被分成4个部分。
  • 偏度:它定义了点之间的不对称程度。 正偏斜是指均值大于众数。 从图形上看,曲线右侧的尾部大于左侧的尾部。 负偏斜是指模式大于平均值。 从图形上看,曲线左侧的尾部大于右侧的尾部。 当偏度为 0 时,分布是对称的。

来源:维基媒体

  • 峰度:它描述了您的数据与正态分布之间的比较。 如果数据是轻尾的(没有异常值),如果数据是重尾的(存在异常值)。 Mesokurtic 峰度表示峰度为零,类似于正态分布。 Leptokurtic 峰度是指峰度高于正态分布,且分布尾部较重。 Platykurtic 是指峰态低于正态分布,分布尾部较轻。

图片来源

分散措施的重要性

  • 它有助于理解集中趋势的点和测度之间的关系。 因此,确定是否通过均值、中位数、众数表示数据是否合适。范围对于较小的样本量很有用。
  • InterQuartile Range 有助于了解数据在中部地区的分布
  • 方差有助于推论统计。
  • 它可以帮助您了解数据的分布
  • 它有助于与 2 个数据样本进行比较。

2. 推论统计

  • 从样本中推断总体是有帮助的。
  • 它还有助于找出样本与总体的相关性。
  • 假设检验
  • 为模型做特征工程
  • 模型性能的比较。

方法至P erform统计推断

Z-Score 统计:它是事件发生的概率。 从技术上讲,它被衡量为高于或低于总体平均值的标准差的数量。 它的计算方式为 z= x-μ/σ,其中 x 是我们要计算 z_ 值的值。 μ 和 σ 分别是总体均值和标准差。

Z-score的属性:

  • 当 z-score 为 0 时,它与平均值相同。
  • 当 z-score 为正时,意味着标准差是 z-score 值高于均值。
  • 当 z-score 为负时,意味着标准差是 z-score 值低于平均值。

中心极限定理:该定理指出,样本均值的分布看起来类似于正态分布,因为样本量变大而不受总体分布形状的影响。

中心极限定理的性质:

  • 样本的均值与总体的均值大致相似。
  • 样本的标准差称为标准误,等于总体标准差除以样本量的平方根。 样本量和标准差之间存在反比关系。 更大的样本量在从总体均值确定样本均值时获得更高的准确度。
  • 样本均值的分布是正态的,不受总体分布形状的影响。 即使总体分布偏斜或不是正态分布,样本均值的均值也呈正态分布。

置信区间:当我们希望根据样本均值计算总体均值时。 手头的问题是样本统计数据可能不能很好地代表潜在人口。 置信区间提供了一个解决方案,并给出了一个可能代表总体参数的值范围。

2种置信区间

两侧置信区间:包括总体范围之上和之下的总体参数子范围。

单边区间:它包括从总体范围之上和之下删除值的总体参数子范围。

资料来源:Luis Fok,俄勒冈州立大学

  • 误差幅度:在置信区间中非常重要。 这意味着样本均值在误差范围内,则实际值代表总体均值,差异并不重要。

结论

我们阅读了我们的拱门中的各种统计工具,并看到了这些统计组件的重要性。 我们现在知道统计数据可以帮助您了解将要使用的数据。 我们看到了如何使用基于总体分布的抽样分布并理解它们之间的差异。 我们的团队处理过各种类型的数据,并且精通理解数据结构和模式的方法。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/9610.html