book

高效能PYTHON程式設計

Name: 高效能PYTHON程式設計
ISBN: 9789863477105

by Micha Gorelick, Ian Ozsvald

August 2015

Intermediate to advanced

384 pages

7h 42m

Chinese

GoTop Information, Inc.

Read now

Unlock full access

通訊層
把基本元素組織起來
理想化計算vs. Python虛擬機器
為何使用Python？
第二章透過效能分析找出瓶頸
有效率地進行效能分析
介紹Julia Set
計算完整的Julia Set
簡單的計時方法— print與裝飾器
使用Unix的time指令做簡單的計時
使用cProfile模組
使用RunSnakeRun視覺化cProfile輸出
使用line_profiler進行一行一行的量測 (1/2)
使用line_profiler進行一行一行的量測 (2/2)
以memory_profiler診斷記憶體使用情況
使用heapy檢視堆積上的物件
使用dowser針對實例化的變數進行即時的描繪
使用dis模組檢查CPython位元組碼
不同的方法，不同的複雜度
在最佳化期間進行單元測試以維持正確性
無操作@profile裝飾器
成功地為你的程式碼進行效能分析的策略
總結
第三章串列與元組
更有效率的搜尋
串列vs.元組
作為動態陣列的串列
作為靜態陣列的元組
總結
第四章字典與集合
字典與集合如何運作？
插入與擷取
刪除
重調尺寸
雜湊函式與Entropy
字典與名稱空間
總結
第五章迭代器與生成器
無窮數列的迭代器
生成器延遲評算
總結
第六章矩陣與向量計算
問題介紹
Python串列不夠好？
配置太多的問題
記憶體破碎
理解perf
使用perf的輸出進行決策
進入numpy
把numpy應用到擴散問題
記憶體配置與就地操作
選擇性最佳化︰找出需要修正的地方
numexpr︰讓就地操作更快速且更容易
值得警惕的故事︰驗證「最佳化」（scipy）
總結
第七章編譯成C
可能達成何種速度提升？
JIT vs. AOT編譯器
為什麼型別資訊有助於讓程式碼執行得更迅速？
使用C編譯器
回顧Julia Set範例
Cython
使用Cython編譯純Python版本
分析程式碼區塊的Cython注釋
增加一些型別注釋
Shed Skin
建造擴展模組
記憶體複製的成本
Cython與numpy
在一台機器上使用OpenMP平行求解
Numba
Pythran
PyPy
垃圾收集差異
執行PyPy與安裝模組
每一項技術的使用時機
其他即將到來的專案
關於圖形處理器（GPU）
對未來編譯器專案的期許
外部函式介面
ctypes
cffi
f2py
CPython模組
總結
第八章並行性
非同步編程介紹
循序Web爬蟲
gevent
tornado
AsyncIO
資料庫範例
總結
第九章 multiprocessing模組
multiprocessing模組概述
使用蒙地卡羅法估計Pi
使用多行程與多執行緒估計pi
使用Python物件
平行系統的隨機數字
使用numpy
尋找質數 (1/2)
尋找質數 (2/2)
工作佇列
利用行程間通訊驗證質數
循序（Serial）解法
Naive Pool解法
Less Naive Pool解法
使用Manager.Value作為旗標
使用Redis作為旗標機制
使用RawValue作為旗標
使用mmap作為旗標
使用mmap作為Flag Redux
使用multiprocessing共用numpy資料 (1/2)
使用multiprocessing共用numpy資料 (2/2)
同步化檔案與變數存取
檔案鎖定
鎖定值
總結
第十章叢集與任務佇列
叢集的好處
叢集的缺點
不良的叢集升級策略造成華爾街損失4.62億美元
Skype的24小時全球性停機
常見的叢集設計
如何開始叢集解法
如何避免使用叢集時的痛苦
三個叢集解法
使用Parallel Python模組處理簡單的本地叢集
使用IPython Parallel支援研究工作
以NSQ實現強健的上線叢集
佇列
發佈者∕訂閱者
分散式質數計算
要檢視的其他叢集工具
總結
第十一章使用較少的RAM
基本型別的物件是昂貴的
array模組經濟地儲存大量的基本型別物件
瞭解群集所使用的RAM
位元組vs. Unicode
有效率地將大量文字儲存在RAM裡
對800萬個Token試驗這些方法 (1/2)
對800萬個Token試驗這些方法 (2/2)
節省RAM的訣竅
機率性資料結構
使用1位元組的Morris Counter進行非常近似的計數
K-Minimum Values
Bloom過濾器 (1/2)
Bloom過濾器 (2/2)
LogLog計數器
真實世界的範例
第十二章來自業界的經驗學習
Adaptive Lab的社交媒體分析（SoMA）
Adaptive Lab的Python
SoMA的設計
我們的開發方法學
維護SoMA
工程師同僚的建議
與RadimRehurek.com一同駕馭深度學習甜蜜點
最佳化的經驗
總結
Lyst.com的大規模機器學習
Python在Lyst的位置叢集設計迅速變動之新興公司的程式碼演化
建造推薦引擎
報告和監控
一些建議
Smesh的大規模社交媒體分析
Python在Smesh的角色
平台高效能即時字串比對
報告、監控、偵錯及部署
將PyPy應用在成功的Web和資料處理系統
基礎設施
資料庫
Web應用程式
OCR和翻譯任務分配與工作者
結論
Lanyrd.com的任務佇列Python在Lanyrd的角色
提升任務佇列的效能
報告、監控、偵錯及部署
給開發者的建議
索引 (1/2)
索引 (2/2)
關於作者
出版記事

Content preview from 高效能PYTHON程式設計

理解高效能 Python

增加更多詢問問題的工作人員將提升我們的速度，直到有 100 個工作人員為止，在此情

況下，整個過程將花費 1 分鐘，單純受限於受訪者回答問題所需耗費的時間，再增加工

作人員將無濟於事，因為額外的工作人員根本無事可做—所有的受訪者都已經有工作人

員在服務了！在此狀況下，減少整體問卷調查時間的唯一方法就是降低個別問卷調查所

需耗費的時間（整體工作的循序部分）。相同地，就 CPU 而言，我們可以增加更多核

心，執行不同的計算區塊，直到我們到達特定核心完成其任務所面臨的瓶頸，換言之，

任何平行計算的瓶頸總是發生在被切割出來的較小循序任務上。

更且，在 Python 裡利用多個核心的主要障礙是 Python 使用

GIL

（

global interpreter

lock

，

全域直譯器鎖

）。 GIL 確保 Python 行程（process）一次只能夠執行一個指令，不

管它正在使用幾個核心。這表示，即使有些 Python 程式碼能夠同時存取多個核心，但

在特定時間下，只有一個核心在執行 Python 指令。以先前的問卷調查為例，這表示，

即使我們有 100 個工作人員，同時間只能有 1 個工作人員詢問問題並且聆聽回應，這完

全抹煞了擁有多個工作人員的好處！雖然這看起來好像是很大的障礙—尤其是，目前的

發展趨勢是擁有多個計算單元，而不是擁有更快速的計算單元—然而，這個問題可透過

使用其他的標準程式庫工具（如

multiprocessing

），技術（如

numexpr

與 Cython），或分

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9789863477105

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

高效能PYTHON程式設計

by Micha Gorelick, Ian Ozsvald

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

Kafka权威指南

手把手教会你linux

流畅的Python

精通機器學習

Publisher Resources