Skip to Content
面向数据科学家的实用统计学
book

面向数据科学家的实用统计学

by Peter Bruce, Andrew Bruce
October 2018
Beginner to intermediate
238 pages
6h 32m
Chinese
Posts & Telecom Press
Content preview from 面向数据科学家的实用统计学
探索性数据分析
7
切尾均值
在数据集剔除一定数量的极值后,再求均值。
同义词:截尾均值
稳健
对极值不敏感。
同义词:耐抗性
离群值
与大部分数据值差异很大的数据值。
同义词:极值
乍一看,总结数据是一件十分简单的事情,对数据取
均值
即可(参见
1.3.1
节)。事实上,
虽然均值易于计算,也便于使用,但在一般情况下,均值并非是对中心值的最好度量。因
此,统计学家研究并提出了一些估计量,用于替代均值。
度量和估计量
统计学家通常使用
估计量
estimate
)一词表示从手头已有数据计算得到的值,
用于描述所看到的数据情况与确切的(或理论上为真的)状态之间的差异。数
据科学家和商业分析师更倾向于称这些由计算得到的值为
度量
metric
)。这一
术语上的差异,反映了统计学家和数据科学家在方法上的不同。统计学的核心
在于如何解释不确定度,而数据科学则关注如何解决一个具体的商业或企业
目标。因此,统计学家使用估计量,而数据科学家使用度量。
1.3.1
 均值
均值,又称
平均值
,是最基本的位置估计量。均值等于所有值的总和除以值的个数。例
如,集合
{3, 5, 1, 2}
的均值是
(3 + 5 + 1 + 2)/4 = 11/4 = 2.75
。一般使用符号
x
(读作“
x
拔”)表示总体中一个样本的均值。给定
n
个数据值:
x
1
,
x
2
,
,
x
N
,均值的计算公式为:
n
i
i
x
x
n
==
均值
通常使用
N
(或者
n
)表示记录值或观测值的总数。在统计学中,如果我们
指的是总体,则使用大写字母
N
;如果指的是总体中的一个样本,则使用小
写字母
n
。但是在数据科学中,这一区别无关紧要,因此两种表示方式均可。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

C++语言导学(原书第2版)

C++语言导学(原书第2版)

本贾尼 斯特劳斯特鲁普
基于Python的智能文本分析

基于Python的智能文本分析

Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

Publisher Resources

ISBN: 9787115493668