如何使用 Go 更好地開發併發程序，純乾貨！

Go 語言的併發特性是其一大亮點，今天我們來帶着大家一起看看如何使用 Go 更好地開發併發程序？

我們都知道計算機的核心爲 CPU，它是計算機的運算和控制核心，承載了所有的計算任務。最近半個世紀以來，由於半導體技術的高速發展，集成電路中晶體管的數量也在大幅度增長，這大大提升了 CPU 的性能。著名的摩爾定律——“集成電路芯片上所集成的電路的數目，每隔 18 個月就翻一番”，描述的就是該種情形。

過於密集的晶體管雖然提高了 CPU 的處理性能，但也帶來了單個芯片發熱過高和成本過高的問題，與此同時，受限於材料技術的發展，芯片中晶體管數量密度的增加速度已經放緩。也就是說，程序已經無法簡單地依賴硬件的提升而提升運行速度。這時，多核 CPU 的出現讓我們看到了提升程序運行速度的另一個方向：將程序的執行過程分爲多個可並行或併發執行的步驟，讓它們分別在不同的 CPU 核心中同時執行，最後將各部分的執行結果進行合併得到最終結果。

並行和併發是計算機程序執行的常見概念，它們的區別在於：

「並行」，指兩個或多個程序在**「同一個時刻」**執行；
「併發」，指兩個或多個程序在**「同一個時間段內」**執行。

「並行執行的程序」，無論從宏觀還是微觀的角度觀察，同一時刻內都有多個程序在 CPU 中執行。這就要求 CPU 提供多核計算能力，多個程序被分配到 CPU 的不同的核中被同時執行。

而**「併發執行的程序」**，僅需要在宏觀角度觀察到多個程序在 CPU 中同時執行。即使是單核 CPU 也可以通過分時複用的方式，給多個程序分配一定的執行時間片，讓它們在 CPU 上被快速輪換執行，從而在宏觀上模擬出多個程序同時執行的效果。但從微觀角度來看，這些程序其實是在 CPU 中被串行執行。

Go 的 MPG 線程模型

Go 被認爲是一門高性能併發語言，得益於它在原生態支持**「協程併發」**。這裏我們首先了解進程、線程和協程這三者的聯繫和區別。

在多道程序系統中，**「進程」**是一個具有獨立功能的程序關於某個數據集合的一次動態執行過程，是操作系統進行資源分配和調度的基本單位，是應用程序運行的載體。

而**「線程」**則是程序執行過程中一個單一的順序控制流程，是 CPU 調度和分派的基本單位。**「線程是比進程更小的獨立運行基本單位」**，一個進程中可以擁有一個或者以上的線程，這些線程共享進程所持有的資源，在 CPU 中被調度執行，共同完成進程的執行任務。

在 Linux 系統中，根據資源訪問權限的不同，操作系統會把內存空間分爲內核空間和用戶空間：內核空間的代碼能夠直接訪問計算機的底層資源，如 CPU 資源、I/O 資源等，爲用戶空間的代碼提供計算機底層資源訪問能力；用戶空間爲上層應用程序的活動空間，無法直接訪問計算機底層資源，需要藉助 “系統調用”“庫函數” 等方式調用內核空間提供的資源。

同樣，線程也可以分爲內核線程和用戶線程。**「內核線程」由操作系統管理和調度，是內核調度實體，它能夠直接操作計算機底層資源，可以充分利用 CPU 多核並行計算的優勢，但是線程切換時需要 CPU 切換到內核態，存在一定的開銷，可創建的線程數量也受到操作系統的限制。「用戶線程」**由用戶空間的代碼創建、管理和調度，無法被操作系統感知。用戶線程的數據保存在用戶空間中，切換時無須切換到內核態，切換開銷小且高效，可創建的線程數量理論上只與內存大小相關。

「協程是一種用戶線程，屬於輕量級線程」。協程的調度，完全由用戶空間的代碼控制；協程擁有自己的寄存器上下文和棧，並存儲在用戶空間；協程切換時無須切換到內核態訪問內核空間，切換速度極快。但這也給開發人員帶來較大的技術挑戰：開發人員需要在用戶空間處理協程切換時上下文信息的保存和恢復、棧空間大小的管理等問題。

Go 是爲數不多在語言層次實現協程併發的語言，它採用了一種特殊的兩級線程模型：MPG 線程模型（如下圖）。

MPG 線程模型

M，即 machine，相當於內核線程在 Go 進程中的映射，它與內核線程一一對應，代表真正執行計算的資源。在 M 的生命週期內，它只會與一個內核線程關聯。
P，即 processor，代表 Go 代碼片段執行所需的上下文環境。M 和 P 的結合能夠爲 G 提供有效的運行環境，它們之間的結合關係不是固定的。P 的最大數量決定了 Go 程序的併發規模，由 runtime.GOMAXPROCS 變量決定。
G，即 goroutine，是一種輕量級的用戶線程，是對代碼片段的封裝，擁有執行時的棧、狀態和代碼片段等信息。

在實際執行過程中，M 和 P 共同爲 G 提供有效的運行環境（如下圖），多個可執行的 G 順序掛載在 P 的可執行 G 隊列下面，等待調度和執行。當 G 中存在一些 I/O 系統調用阻塞了 M 時，P 將會斷開與 M 的聯繫，從調度器空閒 M 隊列中獲取一個 M 或者創建一個新的 M 組合執行，保證 P 中可執行 G 隊列中其他 G 得到執行，且由於程序中並行執行的 M 數量沒變，保證了程序 CPU 的高利用率。

M 和 P 結合示意圖

當 G 中系統調用執行結束返回時，M 會爲 G 捕獲一個 P 上下文，如果捕獲失敗，就把 G 放到全局可執行 G 隊列等待其他 P 的獲取。新創建的 G 會被放置到全局可執行 G 隊列中，等待調度器分發到合適的 P 的可執行 G 隊列中。M 和 P 結合後，會從 P 的可執行 G 隊列中無鎖獲取 G 執行。當 P 的可執行 G 隊列爲空時，P 纔會加鎖從全局可執行 G 隊列獲取 G。當全局可執行 G 隊列中也沒有 G 時，P 會嘗試從其他 P 的可執行 G 隊列中 “剽竊”G 執行。

goroutine 和 channel

併發程序中的多個線程同時在 CPU 執行，由於資源之間的相互依賴和競態條件，需要一定的併發模型協作不同線程之間的任務執行。Go 中倡導使用**「CSP 併發模型」**來控制線程之間的任務協作，CSP 倡導使用通信的方式來進行線程之間的內存共享。

Go 是通過 goroutine 和 channel 來實現 CSP 併發模型的：

「goroutine，即協程」，Go 中的併發實體，是一種輕量級的用戶線程，是消息的發送和接收方；
「channel，即通道」， goroutine 使用通道發送和接收消息。

CSP 併發模型類似常用的同步隊列，它更加關注消息的傳輸方式，解耦了發送消息的 goroutine 和接收消息的 goroutine，channel 可以獨立創建和存取，在不同的 goroutine 中傳遞使用。

使用關鍵字 go 即可使用 goroutine 併發執行代碼片段，形式如下：

1go expression
2
3

而 channel 作爲一種引用類型，聲明時需要指定傳輸數據類型，聲明形式如下：

1var name chan T // 雙向 channel
2var name chan <- T // 只能發送消息的 channel
3var name T <- chan // 只能接收消息的 channel
4
5

其中，T 即爲 channel 可傳輸的數據類型。channel 作爲隊列，遵循消息先進先出的順序，同時保證同一時刻只能有一個 goroutine 發送或者接收消息。使用 channel 發送和接收消息形式如下：

1channel <- val // 發送消息
2val := <- channel // 接收消息
3val, ok := <- channel // 非阻塞接收消息
4
5

goroutine 向已經填滿信息的 channel 發送信息或從沒有數據的 channel 接收信息會阻塞自身。goroutine 接收消息時可以使用非阻塞的方式，無論 channel 中是否存在消息都會立即返回，通過 ok 布爾值判斷是否接收成功。創建一個 channel 需要使用 make 函數對 channel 進行初始化，形式如下所示：

1ch := make(chan T, sizeOfChan)
2
3

初始化 channel 時可以指定 channel 的長度，表示 channel 最多可以緩存多少條信息。下面我們通過一個簡單例子演示 goroutine 和 channel 的使用：

 1package main
 2import (
 3"fmt"
 4"time"
 5)
 6//生產者
 7func Producer(begin, end int, queue chan<- int) {
 8for i:= begin ; i < end ; i++ {
 9fmt.Println("produce:", i)
10queue <- i
11}
12}
13//消費者
14func Consumer(queue <-chan int) {
15for val := range queue  { //當前的消費者循環消費
16fmt.Println("consume:", val)
17}
18}
19func main() {
20queue := make(chan int)
21defer close(queue)
22for i := 0; i < 3; i++ {
23go Producer(i * 5, (i+1) * 5, queue) //多個生產者
24}
25go Consumer(queue) //單個消費者
26time.Sleep(time.Second) // 避免主 goroutine 結束程序
27}
28
29

這是一個簡單的多生產者和單消費的代碼例子，生產 goroutine 將生產的數字通過 channel 發送給消費 goroutine。上述例子中，消費 goroutine 使用 for:range 從 channel 中循環接收消息，只有當相應的 channel 被內置函數 close 後，該循環纔會結束。channel 在關閉之後不可以再用於發送消息，但是可以繼續用於接收消息，從關閉的 channel 中接收消息或者正在被阻塞的 goroutine 將會接收零值並返回。還有一個需要注意的點是，main 函數由主 goroutine 啓動，當主 goroutine 即 main 函數執行結束，整個 Go 程序也會直接執行結束，無論是否存在其他未執行完的 goroutine。

select 多路複用

當需要從多個 channel 中接收消息時，可以使用 Go 提供的 select 關鍵字，它提供類似多路複用的能力，使得 goroutine 可以同時等待多個 channel 的讀寫操作。select 的形式與 switch 類似，但是要求 case 語句後面必須爲 channel 的收發操作，一個簡單的例子如下：

 1package main
 2import (
 3"fmt"
 4"time"
 5)
 6func send(ch chan int, begin int )  {
 7// 循環向 channel 發送消息
 8for i :=begin ; i< begin + 10 ;i++{
 9ch <- i
10}
11}
12func receive(ch <-chan int)  {
13val := <- ch
14fmt.Println("receive:", val)
15}
16func main()  {
17ch1 := make(chan int)
18ch2 := make(chan int)
19go send(ch1, 0)
20go receive(ch2)
21// 主 goroutine 休眠 1s，保證調度成功
22time.Sleep(time.Second)
23for {
24select {
25case val := <- ch1: // 從 ch1 讀取數據
26fmt.Printf("get value %d from ch1\n", val)
27case ch2 <- 2 : // 使用 ch2 發送消息
28fmt.Println("send value by ch2")
29case <-time.After(2 * time.Second): // 超時設置
30fmt.Println("Time out")
31return
32}
33}
34}
35
36

在上述例子中，我們使用 select 關鍵字同時從 ch1 中接收數據和使用 ch2 發送數據，輸出的一種可能結果爲：

 1get value 0 from ch1
 2get value 1 from ch1
 3send value by ch2
 4receive: 2
 5get value 2 from ch1
 6get value 3 from ch1
 7get value 4 from ch1
 8get value 5 from ch1
 9get value 6 from ch1
10get value 7 from ch1
11get value 8 from ch1
12get value 9 from ch1
13Time out
14
15

由於 ch2 中的消息僅被接收一次，所以僅出現一次 “send value by ch2”，後續消息的發送將被阻塞。select 語句分別從 3 個 case 中選取返回的 case 進行處理，當有多個 case 語句同時返回時，select 將會隨機選擇一個 case 進行處理。如果 select 語句的最後包含 default 語句，該 select 語句將會變爲非阻塞型，即當其他所有的 case 語句都被阻塞無法返回時，select 語句將直接執行 default 語句返回結果。在上述例子中，我們在最後的 case 語句使用了 <-time.After(2 * time.Second) 的方式指定了定時返回的 channel，這是一種有效從阻塞的 channel 中超時返回的小技巧。

Context 上下文

當需要在多個 goroutine 中傳遞上下文信息時，可以使用 Context 實現。Context 除了用來傳遞上下文信息，還可以用於傳遞終結執行子任務的相關信號，中止多個執行子任務的 goroutine。Context 中提供以下接口：

1type Context interface {
2Deadline() (deadline time.Time, ok bool)
3Done() <-chan struct{}
4Err() error
5Value(key interface{}) interface{}
6}
7
8

Deadline 方法，返回 Context 被取消的時間，也就是完成工作的截止日期；
Done，返回一個 channel，這個 channel 會在當前工作完成或者上下文被取消之後關閉，多次調用 Done 方法會返回同一個 channel；
Err 方法，返回 Context 結束的原因，它只會在 Done 返回的 channel 被關閉時纔會返回非空的值，如果 Context 被取消，會返回 Canceled 錯誤；如果 Context 超時，會返回 DeadlineExceeded 錯誤。
Value 方法，可用於從 Context 中獲取傳遞的鍵值信息。

在 Web 請求的處理過程中，一個請求可能啓動多個 goroutine 協同工作，這些 goroutine 之間可能需要共享請求的信息，且當請求被取消或者執行超時時，該請求對應的所有 goroutine 都需要快速結束，釋放資源。Context 就是爲了解決上述場景而開發的，我們通過下面一個例子來演示：

 1package main
 2import (
 3"context"
 4"fmt"
 5"time"
 6)
 7const DB_ADDRESS  = "db_address"
 8const CALCULATE_VALUE  = "calculate_value"
 9func readDB(ctx context.Context, cost time.Duration)  {
10fmt.Println("db address is", ctx.Value(DB_ADDRESS))
11select {
12case <- time.After(cost): //  模擬數據庫讀取
13fmt.Println("read data from db")
14case <-ctx.Done():
15fmt.Println(ctx.Err()) // 任務取消的原因
16// 一些清理工作
17}
18}
19func calculate(ctx context.Context, cost time.Duration)  {
20fmt.Println("calculate value is", ctx.Value(CALCULATE_VALUE))
21select {
22case <- time.After(cost): //  模擬數據計算
23fmt.Println("calculate finish")
24case <-ctx.Done():
25fmt.Println(ctx.Err()) // 任務取消的原因
26// 一些清理工作
27}
28}
29func main()  {
30ctx := context.Background(); // 創建一個空的上下文
31// 添加上下文信息
32ctx = context.WithValue(ctx, DB_ADDRESS, "localhost:10086")
33ctx = context.WithValue(ctx, CALCULATE_VALUE, 1234)
34// 設定子 Context 2s 後執行超時返回
35ctx, cancel := context.WithTimeout(ctx, time.Second * 2)
36defer cancel()
37// 設定執行時間爲 4 s
38go readDB(ctx, time.Second * 4)
39go calculate(ctx, time.Second * 4)
40
41// 充分執行
42time.Sleep(time.Second * 5)
43}
44
45

在上述例子中，我們模擬了一個請求中同時進行數據庫訪問和邏輯計算的操作，在請求執行超時時，及時關閉尚未執行結束 goroutine。我們首先通過 context.WithValue 方法爲 context 添加上下文信息，Context 在多個 goroutine 中是併發安全的，可以安全地在多個 goroutine 中對 Context 中的上下文數據進行讀取。接着使用 context.WithTimeout 方法設定了 Context 的超時時間爲 2s，並傳遞給 readDB 和 calculate 兩個 goroutine 執行子任務。在 readDB 和 calculate 方法中，使用 select 語句對 Context 的 Done 通道進行監控。由於我們設定了子 Context 將在 2s 之後超時，所以它將在 2s 之後關閉 Done 通道；然而預設的子任務執行時間爲 4s，對應的 case 語句尚未返回，執行被取消，進入到清理工作的 case 語句中，結束掉當前的 goroutine 所執行的任務。預期的輸出結果如下：

1calculate value is 1234
2db address is localhost:10086
3context deadline exceeded
4context deadline exceeded
5
6

使用 Context，能夠有效地在一組 goroutine 中傳遞共享值、取消信號、deadline 等信息，及時關閉不需要的 goroutine。

小結

本文我們主要介紹了 Go 語言併發特性，主要包含：

Go 的 MPG 線程模型；
goroutine 和 channel；
select 多路複用；
Context 上下文。

除了支持 CSP 的併發模型，Go 同樣支持傳統的線程與鎖併發模型，提供了互斥鎖、讀寫鎖、併發等待組、同步等待條件等一系列同步工具，這些同步工具的結構體位於 sync 包中，與其他語言的同步工具使用方式相差無幾。Go 在語言層次支持協程併發，在併發性能上表現卓越，能夠充分挖掘多核 CPU 的運算性能。希望本文的學習，能夠有效提升你對 Go 併發設計和編程的認知。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s?__biz=MzU1OTIzOTE0Mw==&mid=2247484929&idx=1&sn=1ad7ec340e8c4e1fe3e1e182a708ad96&chksm=fc1b1c89cb6c959f2760446165d0f40e8abe3d149b7395cc7f35aceac89fb975ed03620d70d7&scene=21#wechat_redirect

Go 的 MPG 線程模型

goroutine 和 channel

小結

猜你喜歡