book

深度学习入门 : 基于Python的理论与实现

Name: 深度学习入门 : 基于Python的理论与实现
Author: 斋藤康毅
ISBN: 9787115485588

by 斋藤康毅

July 2018

Intermediate to advanced

310 pages

8h 21m

Chinese

Posts & Telecom Press

Read now

Unlock full access

前言 (2/2)
第1章 Python 入门
1.1 Python是什么
1.2 Python的安装
1.2.1 Python版本1.2.2 使用的外部库
1.2.3 Anaconda发行版
1.3 Python解释器
1.3.1 算术计算
1.3.2 数据类型
1.3.3 变量
1.3.4 列表
1.3.5 字典
1.3.6 布尔型
1.3.7 if 语句
1.3.8 for 语句
1.3.9 函数
1.4 Python脚本文件1.4.1 保存为文件
1.4.2 类
1.5 NumPy
1.5.1 导入NumPy
1.5.2 生成NumPy 数组
1.5.3 NumPy 的算术运算
1.5.4 NumPy 的N维数组
1.5.5 广播
1.5.6 访问元素
1.6 Matplotlib
1.6.1 绘制简单图形
1.6.2 pyplot的功能
1.6.3 显示图像
1.7 小结
第2章感知机
2.1 感知机是什么
2.2 简单逻辑电路
2.2.1 与门2.2.2 与非门和或门
2.3 感知机的实现
2.3.1 简单的实现
2.3.2 导入权重和偏置
2.3.3 使用权重和偏置的实现
2.4 感知机的局限性
2.4.1 异或门
2.4.2 线性和非线性
2.5 多层感知机
2.5.1 已有门电路的组合
2.5.2 异或门的实现
2.6 从与非门到计算机
2.7 小结
第3章神经网络
3.1 从感知机到神经网络3.1.1 神经网络的例子
3.1.2 复习感知机
3.1.3 激活函数登场
3.2 激活函数
3.2.1 sigmoid 函数
3.2.2 阶跃函数的实现
3.2.3 阶跃函数的图形
3.2.4 sigmoid 函数的实现
3.2.5 sigmoid 函数和阶跃函数的比较
3.2.6 非线性函数
3.2.7 ReLU函数
3.3 多维数组的运算
3.3.1 多维数组
3.3.2 矩阵乘法
3.3.3 神经网络的内积
3.4 3层神经网络的实现
3.4.1 符号确认
3.4.2 各层间信号传递的实现
3.4.3 代码实现小结
3.5 输出层的设计
3.5.1 恒等函数和softmax函数
3.5.2 实现softmax函数时的注意事项
3.5.3 softmax函数的特征
3.5.4 输出层的神经元数量
3.6 手写数字识别
3.6.1 MNIST 数据集
3.6.2 神经网络的推理处理
3.6.3 批处理
3.7 小结
第4章神经网络的学习
4.1 从数据中学习
4.1.1 数据驱动
4.1.2 训练数据和测试数据
4.2 损失函数
4.2.1 均方误差
4.2.2 交叉熵误差
4.2.3 mini-batch学习
4.2.4 mini-batch版交叉熵误差的实现
4.2.5 为何要设定损失函数
4.3 数值微分
4.3.1 导数
4.3.2 数值微分的例子
4.3.3 偏导数
4.4 梯度
4.4.1 梯度法
4.4.2 神经网络的梯度
4.5 学习算法的实现
4.5.1 2 层神经网络的类
4.5.2 mini-batch的实现
4.5.3 基于测试数据的评价
4.6 小结
第5 章误差反向传播法
5.1 计算图
5.1.1 用计算图求解
5.1.2 局部计算
5.1.3 为何用计算图解题
5.2 链式法则
5.2.1 计算图的反向传播
5.2.2 什么是链式法则
5.2.3 链式法则和计算图
5.3 反向传播
5.3.1 加法节点的反向传播
5.3.2 乘法节点的反向传播
5.3.3 苹果的例子
5.4 简单层的实现
5.4.1 乘法层的实现
5.4.2 加法层的实现
5.5 激活函数层的实现
5.5.1 ReLU层
5.5.2 Sigmoid 层
5.6 Affine/Softmax 层的实现
5.6.1 Affine 层
5.6.2 批版本的Affine 层
5.6.3 Softmax-with-Loss 层
5.7 误差反向传播法的实现
5.7.1 神经网络学习的全貌图
5.7.2 对应误差反向传播法的神经网络的实现
5.7.3 误差反向传播法的梯度确认
5.7.4 使用误差反向传播法的学习
5.8 小结
第6章与学习相关的技巧
6.1 参数的更新
6.1.1 探险家的故事
6.1.2 SGD
6.1.3 SGD 的缺点
6.1.4 Momentum
6.1.5 AdaGrad
6.1.6 Adam
6.1.7 使用哪种更新方法呢
6.1.8 基于MNIST 数据集的更新方法的比较
6.2 权重的初始值
6.2.1 可以将权重初始值设为0吗
6.2.2 隐藏层的激活值的分布
6.2.3 ReLU的权重初始值
6.2.4 基于MNIST 数据集的权重初始值的比较
6.3 Batch Normalization
6.3.1 Batch Normalization 的算法
6.3.2 Batch Normalization的评估
6.4 正则化
6.4.1 过拟合
6.4.2 权值衰减
6.4.3 Dropout
6.5 超参数的验证
6.5.1 验证数据
6.5.2 超参数的最优化
6.5.3 超参数最优化的实现
6.6 小结
第7章卷积神经网络
7.1 整体结构
7.2 卷积层
7.2.1 全连接层存在的问题
7.2.2 卷积运算
7.2.3 填充
7.2.4 步幅
7.2.5 3维数据的卷积运算
7.2.6 结合方块思考
7.2.7 批处理
7.3 池化层
7.4 卷积层和池化层的实现
7.4.1 4维数组
7.4.2 基于im2col 的展开
7.4.3 卷积层的实现
7.4.4 池化层的实现
7.5 CNN的实现
7.6 CNN的可视化
7.6.1 第1层权重的可视化
7.6.2 基于分层结构的信息提取
7.7 具有代表性的CNN
7.7.1 LeNet
7.7.2 AlexNet
7.8 小结
第8 章深度学习
8.1 加深网络8.1.1 向更深的网络出发
8.1.2 进一步提高识别精度
8.1.3 加深层的动机
8.2 深度学习的小历史
8.2.1 ImageNet
8.2.2 VGG
8.2.3 GoogLeNet
8.2.4 ResNet
8.3 深度学习的高速化
8.3.1 需要努力解决的问题
8.3.2 基于GPU 的高速化
8.3.3 分布式学习
8.3.4 运算精度的位数缩减
8.4 深度学习的应用案例
8.4.1 物体检测
8.4.2 图像分割
8.4.3 图像标题的生成
8.5 深度学习的未来
8.5.1 图像风格变换
8.5.2 图像的生成
8.5.3 自动驾驶
8.5.4 Deep Q-Network（强化学习）
8.6 小结
附录 ASoftmax-with-Loss 层的计算图
A.1 正向传播
A.2 反向传播 (1/2)
A.2 反向传播 (2/2)
A.3 小结
参考文献 (1/2)
参考文献 (2/2)

Content preview from 深度学习入门 : 基于Python的理论与实现

第 6章　与学习相关的技巧

164

我们将指出

SGD

的缺点，并介绍

SGD

以外的其他最优化方法。

6.1.1

　探险家的故事

进入正题前，我们先打一个比方，来说明关于最优化我们所处的状况。

有一个性情古怪的探险家。他在广袤的干旱地带旅行，坚持寻找幽

深的山谷。他的目标是要到达最深的谷底（他称之为“至深之地”）。这

也是他旅行的目的。并且，他给自己制定了两个严格的“规定”：一个

是不看地图；另一个是把眼睛蒙上。因此，他并不知道最深的谷底在这

个广袤的大地的何处，而且什么也看不见。在这么严苛的条件下，这位

探险家如何前往“至深之地”呢？他要如何迈步，才能迅速找到“至深

之地”呢？

寻找最优参数时，我们所处的状况和这位探险家一样，是一个漆黑的世

界。我们必须在没有地图、不能睁眼的情况下，在广袤、复杂的地形中寻找

“至深之地”。大家可以想象这是一个多么难的问题。

在这么困难的状况下，地面的坡度显得尤为重要。探险家虽然看不到周

围的情况，但是能够知道当前所在位置的坡度（通过脚底感受地面的倾斜状况）。

于是，朝着当前所在位置的坡度最大的方向前进，就是

SGD

的策略。勇敢

的探险家心里可能想着只要重复这一策略，总有一天可以到达“至深之地”。

6.1.2

　SGD

让大家感受了最优化问题的难度之后，我们再来复习一下

SGD

。用数

学式可以将

SGD

写成如下的式（6.1）。

（6.1）

这里把需要更新的权重参数记为

，把损失函数关于

的梯度记为

。

表示学习率，实际上会取0.01 或 0.001 这些事先决定好的值。式子中的←

6.1 参数的更新 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787115485588

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

深度学习入门 : 基于Python的理论与实现

by 斋藤康毅

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

ルールズ・オブ・プログラミング ―より良いコードを書くための21のルール

機械学習システムデザイン ―実運用レベルのアプリケーションを実現する継続的反復プロセス

大規模データ管理 ―エンタープライズアーキテクチャのベストプラクティス

밑바닥부터 시작하는 딥러닝

Publisher Resources