第10章 构建一个可用于生产环境的入侵检测系统
第9章详细说明了什么是异常检测以及如何使用自编码器来实现异常检测;提出了一种可用于新奇检测的半监督学习算法;介绍了H2O框架,并且列举了几个在该框架上实现并在本地模式下运行的示例(MNIST数字异常识别和心电图脉冲检测)。这些示例用到了一个已被清洗并备好用作概念验证的小数据集。
真实世界的数据以及企业环境以非常不同的方式运行。本章将介绍如何利用H2O框架和通用实践构建一个可部署于生产环境中的可扩展分布式系统。
本章以在网络环境中带有检测入侵和攻击的入侵检测系统为例,会提出几个针对入侵检测构建数据产品时可能面临的实际技术问题。
特别指出的是,我们将学到以下内容。
- 什么是数据产品。
- 如何更好地初始化深度网络的权值。
- 如何在多线程环境下使用HOGWILD!来并行化随机梯度下降算法。
- 如何基于Apache Spark的Sparkling Water框架之上使用Map/Reduce来进行分布计算。
- 调优可扩展及实施参数的几个经验法则。
- 自适应学习算法综合列表。
- 如何在有真相和无真相两种情况下进行验证。
- 如何在精度和缩减错误报警之间做出正确取舍。
- 一个同时兼顾技术和业务两个方面的详尽的评估框架示例。
- 模型超参数和调优技术之概述。
- 如何将经训练模型导出为POJO并将其部署到异常检测API中。
10.1 什么是数据产品
数据科学的终极目标是:通过采用数据密集型解决方案来解决问题。焦点不仅在于回答问题,还包括满足企业要求。
仅仅建立数据驱动解决方案是不够的。现今,几乎任何App或网站都是通过数据驱动的。构建一个列出待售商品的网络平台会消耗数据,但不一定是数据产品。
对此,Mike Loukides给出了一个很好的定义:
数据应用程序需要从数据本身获取其数值,从而创建更多数据;它不仅仅是一个带有数据的应用程序;它也是一个数据产品。数据科学能够促成数据产品的创建。 ...
Get Python深度学习从原理到应用 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.