- 軟件大?。?span>73.77M
- 軟件語言:中文
- 軟件類型:國產軟件
- 軟件類別:免費軟件 / 電子圖書
- 更新時間:2017-08-22 10:53
- 運行環境:WinAll, WinXP, Win7, Win8, Win10
- 軟件等級:

- 軟件廠商:
- 官方網站:暫無

146.48M/中文/2.0
9.76M/中文/10.0
32.22M/中文/1.5
7.81M/中文/1.4
5.85M/中文/0.0
sre google運維解密pdf是一套免費的電子圖書文檔。這套圖書為大家介紹了軟件開發過程中遇到了詳細運維方式。很適合Google工程師人員研究學習使用!快來綠色資源網下載閱讀吧!
在《SRE:Google運維解密》中,Google SRE的關鍵成員解釋了他們是如何對軟件進行生命周期的整體性關注的,以及為什么這樣做能夠幫助Google成功地構建、部署、監控和運維世界上現存最大的軟件系統。通過閱讀《SRE:Google運維解密》,讀者可以學習到Google工程師在提高系統部署規模、改進可靠性和資源利用效率方面的指導思想與具體實踐——這些都是可以立即直接應用的寶貴經驗。
任何一個想要創建、擴展大規模集成系統的人都應該閱讀《SRE:Google運維解密》。《SRE:Google運維解密》針對如何構建一個可長期維護的系統提供了非常寶貴的實踐經驗。

前言 xxxi
序言 xxxv
第Ⅰ部分 概覽
第1 章 介紹 2
系統管理員模式 2
Google 的解決之道:SRE 4
SRE 方法論 6
確保長期關注研發工作 6
在保障服務SLO 的前提下最大化迭代速度 7
監控系統 8
應急事件處理 8
變更管理 9
需求預測和容量規劃 9
資源部署 10
效率與性能 10
小結 10
第2 章 Google 生產環境:SRE 視角 11
硬件 11
管理物理服務器的系統管理軟件 13
管理物理服務器 13
存儲 14
網絡 15
其他系統軟件 16
分布式鎖服務 16
監控與警報系統 16
軟件基礎設施 17
研發環境 17
莎士比亞搜索:一個示范服務 18
用戶請求的處理過程 18
任務和數據的組織方式 19
第Ⅱ部分 指導思想
第3 章 擁抱風險 23
管理風險 23
度量服務的風險 24
服務的風險容忍度 25
辨別消費者服務的風險容忍度 26
基礎設施服務的風險容忍度 28
使用錯誤預算的目的 30
錯誤預算的構建過程 31
好處 32
第4 章 服務質量目標 34
服務質量術語 34
指標 34
目標 35
協議 36
指標在實踐中的應用 37
運維人員和最終用戶各關心什么 37
指標的收集 37
匯總 38
指標的標準化 39
目標在實踐中的應用 39
目標的定義 40
目標的選擇 40
控制手段 42
SLO 可以建立用戶預期 42
協議在實踐中的應用 43
第5 章 減少瑣事 44
瑣事的定義 44
為什么瑣事越少越好 45
什么算作工程工作 46
瑣事繁多是不是一定不好 47
小結 48
第6 章 分布式系統的監控 49
術語定義 49
為什么要監控 50
對監控系統設置合理預期 51
現象與原因 52
黑盒監控與白盒監控 53
4 個黃金指標 53
關于長尾問題 54
度量指標時采用合適的精度 55
簡化,直到不能再簡化 55
將上述理念整合起來 56
監控系統的長期維護 57
Bigtable SRE :警報過多的案例 57
gmail :可預知的、可腳本化的人工干預 58
長跑 59
小結 59
第7 章 Google 的自動化系統的演進 60
自動化的價值 60
一致性 60
平臺性 61
修復速度更快 61
行動速度更快 62
節省時間 62
自動化對Google SRE 的價值 62
自動化的應用案例 63
Google SRE 的自動化使用案例 63
自動化分類的層次結構 64
讓自己脫離工作:自動化所有的東西 66
舒緩疼痛:將自動化應用到集群上線中 67
使用Prodtest 檢測不一致情況 68
冪等地解決不一致情況 69
專業化傾向 71
以服務為導向的集群上線流程 72
Borg :倉庫規模計算機的誕生 73
可靠性是最基本的功能 74
建議 75
第8 章 發布工程 76
發布工程師的角色 76
發布工程哲學 77
自服務模型 77
追求速度 77
密閉性 77
強調策略和流程 78
持續構建與部署 78
構建 78
分支 79
測試 79
打包 79
Rapid 系統 80
部署 81
配置管理 81
小結 82
不僅僅只對Google 有用 83
一開始就進行發布工程 83
第9 章 簡單化 85
系統的穩定性與靈活性 85
乏味是一種美德 86
我絕對不放棄我的代碼 86
“負代碼行”作為一個指標 87
最小 API 87
模塊化 87
發布的簡單化 88
小結 88
第Ⅲ部分 具體實踐
第10 章 基于時間序列數據進行有效報警 93
Borgmon 的起源 94
應用軟件的監控埋點 95
監控指標的收集 96
時間序列數據的存儲 97
標簽與向量 98
Borg 規則計算 99
報警 104
監控系統的分片機制 105
黑盒監控 106
配置文件的維護 106
十年之后 108
第11 章 on-call 輪值 109
介紹 109
on-call 工程師的一天 110
on-call 工作平衡 111
數量上保持平衡 111
質量上保持平衡 111
補貼措施 112
安全感 112
避免運維壓力過大 114
運維壓力過大 114
奸詐的敵人—運維壓力不夠 115
小結 115
第12 章 有效的故障排查手段 116
理論 117
實踐 119
故障報告 119
定位 119
檢查 120
診斷 122
測試和修復 124
神奇的負面結果 125
治愈 126
案例分析 127
使故障排查更簡單 130
小結 130
第13 章 緊急事件響應 131
當系統出現問題時怎么辦 131
測試導致的緊急事故 132
細節 132
響應 132
事后總結 132
變更部署帶來的緊急事故 133
細節 133
事故響應 134
事后總結 134
流程導致的嚴重事故 135
細節 135
災難響應 136
事后總結 136
所有的問題都有解決方案 137
向過去學習,而不是重復它 138
為事故保留記錄 138
提出那些大的,甚至不可能的問題:假如…… 138
鼓勵主動測試 138
小結 138
第14 章 緊急事故管理 140
無流程管理的緊急事故 140
對這次無流程管理的事故的剖析 141
過于關注技術問題 141
溝通不暢 141
不請自來 142
緊急事故的流程管理要素 142
嵌套式職責分離 142
控制中心 143
實時事故狀態文檔 143
明確公開的職責交接 143
一次流程管理良好的事故 144
什么時候對外宣布事故 144
小結 145
......
請描述您所遇到的錯誤,我們將盡快予以修正,謝謝!
*必填項,請輸入內容