
Ray
概述
|
19
1.3.1 Ray AIR
和数据科学工作流
近年来,数据科学(
D ata Science
,
DS
)发展迅速,连该术语本身都变得有些
难以捉摸,可以在网上找到许多关于数据科学的定义,这些定义都有一定的道
理
注
11
。我们将“数据科学”定义为利用数据获得洞见,并创建实际应用。这是
在实践和应用层面做出的广义定义,重点是理解事物并获得新知。从这个意义
上说,将这个领域的从业者描述为“数据科学家”,就像将黑客描述为“计算机
科学家”一样不准确
注
12
。
12
从宏观上看,数据科学是一个不断迭代的过程,涉及提出需求、收集和处理数
据、搭建和评估模型、部署模型。机器学习不一定属于这个过程,但通常是环
节之一。如果涉及机器学习,可以进一步列出以下步骤:
处理数据
为了训练机器学习模型,需要将数据转换为模型能够理解的格式。将数据经
过转换、选择后再输入模型的过程通常被称为特征工程。特征工程可能非常
烦琐,如果你能熟练使用常用工具进行数据处理,可以节省许多精力。
训练模型
在机器学习中,需要利用处理好的数据训练算法。这个步骤需要选择合适的
算法,如果你能从多种算法中选出恰当的算法,会很有帮助。
调优超参数
在模型训练步骤中,需要对模型进行参数调优。大多数机器学习模型中还有
一组被称为超参数的参数,可以在训练之前对其进行修改。这些参数会对最
终模型的性能产生重大影响,需要进行适当的调优。有一些很好的工具可以
实现自动化超参数调优。
部署模型
训练好的模型需要部署。部署模型意味着用户通过任何途径都可以访问该模
注 11 :我们向来不喜欢将数据科学归类为数学、编程和商业的交叉学科,因为这样无法指明数据科学家 ...