book

高效能PYTHON程式設計

Name: 高效能PYTHON程式設計
ISBN: 9789863477105

by Micha Gorelick, Ian Ozsvald

August 2015

Intermediate to advanced

384 pages

7h 42m

Chinese

GoTop Information, Inc.

Read now

Unlock full access

通訊層
把基本元素組織起來
理想化計算vs. Python虛擬機器
為何使用Python？
第二章透過效能分析找出瓶頸
有效率地進行效能分析
介紹Julia Set
計算完整的Julia Set
簡單的計時方法— print與裝飾器
使用Unix的time指令做簡單的計時
使用cProfile模組
使用RunSnakeRun視覺化cProfile輸出
使用line_profiler進行一行一行的量測 (1/2)
使用line_profiler進行一行一行的量測 (2/2)
以memory_profiler診斷記憶體使用情況
使用heapy檢視堆積上的物件
使用dowser針對實例化的變數進行即時的描繪
使用dis模組檢查CPython位元組碼
不同的方法，不同的複雜度
在最佳化期間進行單元測試以維持正確性
無操作@profile裝飾器
成功地為你的程式碼進行效能分析的策略
總結
第三章串列與元組
更有效率的搜尋
串列vs.元組
作為動態陣列的串列
作為靜態陣列的元組
總結
第四章字典與集合
字典與集合如何運作？
插入與擷取
刪除
重調尺寸
雜湊函式與Entropy
字典與名稱空間
總結
第五章迭代器與生成器
無窮數列的迭代器
生成器延遲評算
總結
第六章矩陣與向量計算
問題介紹
Python串列不夠好？
配置太多的問題
記憶體破碎
理解perf
使用perf的輸出進行決策
進入numpy
把numpy應用到擴散問題
記憶體配置與就地操作
選擇性最佳化︰找出需要修正的地方
numexpr︰讓就地操作更快速且更容易
值得警惕的故事︰驗證「最佳化」（scipy）
總結
第七章編譯成C
可能達成何種速度提升？
JIT vs. AOT編譯器
為什麼型別資訊有助於讓程式碼執行得更迅速？
使用C編譯器
回顧Julia Set範例
Cython
使用Cython編譯純Python版本
分析程式碼區塊的Cython注釋
增加一些型別注釋
Shed Skin
建造擴展模組
記憶體複製的成本
Cython與numpy
在一台機器上使用OpenMP平行求解
Numba
Pythran
PyPy
垃圾收集差異
執行PyPy與安裝模組
每一項技術的使用時機
其他即將到來的專案
關於圖形處理器（GPU）
對未來編譯器專案的期許
外部函式介面
ctypes
cffi
f2py
CPython模組
總結
第八章並行性
非同步編程介紹
循序Web爬蟲
gevent
tornado
AsyncIO
資料庫範例
總結
第九章 multiprocessing模組
multiprocessing模組概述
使用蒙地卡羅法估計Pi
使用多行程與多執行緒估計pi
使用Python物件
平行系統的隨機數字
使用numpy
尋找質數 (1/2)
尋找質數 (2/2)
工作佇列
利用行程間通訊驗證質數
循序（Serial）解法
Naive Pool解法
Less Naive Pool解法
使用Manager.Value作為旗標
使用Redis作為旗標機制
使用RawValue作為旗標
使用mmap作為旗標
使用mmap作為Flag Redux
使用multiprocessing共用numpy資料 (1/2)
使用multiprocessing共用numpy資料 (2/2)
同步化檔案與變數存取
檔案鎖定
鎖定值
總結
第十章叢集與任務佇列
叢集的好處
叢集的缺點
不良的叢集升級策略造成華爾街損失4.62億美元
Skype的24小時全球性停機
常見的叢集設計
如何開始叢集解法
如何避免使用叢集時的痛苦
三個叢集解法
使用Parallel Python模組處理簡單的本地叢集
使用IPython Parallel支援研究工作
以NSQ實現強健的上線叢集
佇列
發佈者∕訂閱者
分散式質數計算
要檢視的其他叢集工具
總結
第十一章使用較少的RAM
基本型別的物件是昂貴的
array模組經濟地儲存大量的基本型別物件
瞭解群集所使用的RAM
位元組vs. Unicode
有效率地將大量文字儲存在RAM裡
對800萬個Token試驗這些方法 (1/2)
對800萬個Token試驗這些方法 (2/2)
節省RAM的訣竅
機率性資料結構
使用1位元組的Morris Counter進行非常近似的計數
K-Minimum Values
Bloom過濾器 (1/2)
Bloom過濾器 (2/2)
LogLog計數器
真實世界的範例
第十二章來自業界的經驗學習
Adaptive Lab的社交媒體分析（SoMA）
Adaptive Lab的Python
SoMA的設計
我們的開發方法學
維護SoMA
工程師同僚的建議
與RadimRehurek.com一同駕馭深度學習甜蜜點
最佳化的經驗
總結
Lyst.com的大規模機器學習
Python在Lyst的位置叢集設計迅速變動之新興公司的程式碼演化
建造推薦引擎
報告和監控
一些建議
Smesh的大規模社交媒體分析
Python在Smesh的角色
平台高效能即時字串比對
報告、監控、偵錯及部署
將PyPy應用在成功的Web和資料處理系統
基礎設施
資料庫
Web應用程式
OCR和翻譯任務分配與工作者
結論
Lanyrd.com的任務佇列Python在Lanyrd的角色
提升任務佇列的效能
報告、監控、偵錯及部署
給開發者的建議
索引 (1/2)
索引 (2/2)
關於作者
出版記事

Content preview from 高效能PYTHON程式設計

324

第十一章

Bloom 過濾器

有時候，我們必須能夠做其他類型的集合操作，為此，我們需要引進新類型的機率資

料結構。

Bloom

過濾器

（

Bloom filter

）

被建立來回答我們先前是否看過某個項目的

問題。

Bloom 過濾器使用多個雜湊值，將某個項目表示成多個整數，如果我們稍後看到某個項

目具有相同一組整數，就能夠相當有信心地判斷它是相同的值。

為了有效率地使用可用資源做這件事，我們隱含地將這些整數當作串列索引，這可被視

為布林值的串列（初始值被設為

False

）。如果我們被要求增加具有雜湊值

[10,

的

物件，就將該串列的第 10 個、第 4 個，及第 7 個索引處的值設成

True

，將來，如果我

們被詢問以前是否看過特定項目，就只需要找出它的雜湊值，並且檢查布林串列裡的對

應點是否都被設成

True

。

這種方法不會得到誤判為非（false negative）的結果，並且讓誤判為是（false positive）

的情況維持在可控制的比率，意思是，如果 Bloom 過濾器說以前沒看過某個項目，我們

就能夠 100% 地肯定以前沒看過這個項目，另一方面，如果 Bloom 過濾器說我們以前看

過

某個項目，還是會有實際上並未看過（得到錯誤結果）的可能性。這個錯誤結果來自

於雜湊衝突存在的事實，有時候，兩個物件的雜湊值會相同，即使物件本身並不相同。

不過，實務上，Bloom 過濾器的失誤率低於 0.5%，因此，這個錯誤是可以被接受的。

我們能夠透過採用二個彼此獨立的雜湊函式來模擬採用任意數量之雜

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9789863477105

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

高效能PYTHON程式設計

by Micha Gorelick, Ian Ozsvald

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

Kafka权威指南

手把手教会你linux

流畅的Python

精通機器學習

Publisher Resources