Skip to Content
精通数据科学算法
book

精通数据科学算法

by Posts & Telecom Press, David Natingga
May 2024
Intermediate to advanced
181 pages
3h 9m
Chinese
Packt Publishing
Content preview from 精通数据科学算法

附录D 数据科学中的算法和方法术语

  • k最近邻算法:一种预测未知数据项的算法,未知数据项(的值)近似于其k个最近邻居的多数值。
  • 朴素贝叶斯分类器:使用关于条件概率的贝叶斯定理,即P(A|B)=(P(B|A) * P(A))/P(B),来分类数据项的一种方法,假设数据的特定变量之间相互独立。
  • 决策树:一种模型,根据树上的分支与实际数据项之间的匹配属性,将数据项分类到叶子节点中的一个类中。
  • 随机决策树:决策树的一种,其中的每个分支在构建时仅使用可用变量的随机子集。
  • 随机森林:基于有放回抽取的数据随机子集构建的随机决策树集合,数据项被归类给这些树投票最多的类。
  • k-means算法:一种聚类算法,将数据集划分为k个组,组内的每个成员尽可能地相似,也就是说,每个成员距离彼此最近。
  • 回归分析:一种预测函数模型中未知参数的方法,根据输入变量预测输出变量,例如预测线性模型y = a * x + b中的ab
  • 时间序列分析:对依赖于时间的数据的分析,主要包括趋势分析和季节性分析。
  • 支持向量机(SVM):一种分类算法,用于寻找将训练数据分成特定类别的超平面,然后用超平面划分从而对数据进行进一步分类。
  • 主成分分析(PCA):对给定数据的各个组成部分进行预处理,以达到更高的准确率,例如,根据输入向量对最终结果的影响程度,对输入向量中的变量进行重新缩放。
  • 文本挖掘:对文本的搜索和提取,以及用于数据分析的数值型数据的转换。
  • 神经网络:一种机器学习算法,由简单分类器网络组成,根据输入数据或网络中其他分类器的结果作出决策。
  • 深度学习:神经网络提升其学习过程的能力。
  • Apriori关联规则:可以在训练数据中观察到的规则,并且根据这个规则对未来数据进行分类。
  • PageRank:一种搜索算法,在给定搜索关键字的情况下,从最相关的搜索结果中搜索那些具有最大入链数的结果,它为这些结果赋予最大的相关性。在数学术语中,网页排名计算出了代表这些相关度量的某个特征向量。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

数据科学原理

数据科学原理

Posts & Telecom Press, Sinan Ozdemir
PyTorch深度学习

PyTorch深度学习

Posts & Telecom Press, Vishnu Subramanian
程序员学数据结构

程序员学数据结构

Posts & Telecom Press, William Smith
可编程网络自动化

可编程网络自动化

Jason Edelman, Scott S. Lowe, Matt Oswalt

Publisher Resources

ISBN: 9781836204596