如何使用 Go 更好地開發併發程序,純乾貨!
Go 語言的併發特性是其一大亮點,今天我們來帶着大家一起看看如何使用 Go 更好地開發併發程序?
我們都知道計算機的核心爲 CPU,它是計算機的運算和控制核心,承載了所有的計算任務。最近半個世紀以來,由於半導體技術的高速發展,集成電路中晶體管的數量也在大幅度增長,這大大提升了 CPU 的性能。著名的摩爾定律——“集成電路芯片上所集成的電路的數目,每隔 18 個月就翻一番”,描述的就是該種情形。
過於密集的晶體管雖然提高了 CPU 的處理性能,但也帶來了單個芯片發熱過高和成本過高的問題,與此同時,受限於材料技術的發展,芯片中晶體管數量密度的增加速度已經放緩。也就是說,程序已經無法簡單地依賴硬件的提升而提升運行速度。這時,多核 CPU 的出現讓我們看到了提升程序運行速度的另一個方向:將程序的執行過程分爲多個可並行或併發執行的步驟,讓它們分別在不同的 CPU 核心中同時執行,最後將各部分的執行結果進行合併得到最終結果。
並行和併發是計算機程序執行的常見概念,它們的區別在於:
-
「並行」,指兩個或多個程序在**「同一個時刻」**執行;
-
「併發」,指兩個或多個程序在**「同一個時間段內」**執行。
「並行執行的程序」,無論從宏觀還是微觀的角度觀察,同一時刻內都有多個程序在 CPU 中執行。這就要求 CPU 提供多核計算能力,多個程序被分配到 CPU 的不同的核中被同時執行。
而**「併發執行的程序」**,僅需要在宏觀角度觀察到多個程序在 CPU 中同時執行。即使是單核 CPU 也可以通過分時複用的方式,給多個程序分配一定的執行時間片,讓它們在 CPU 上被快速輪換執行,從而在宏觀上模擬出多個程序同時執行的效果。但從微觀角度來看,這些程序其實是在 CPU 中被串行執行。
Go 的 MPG 線程模型
Go 被認爲是一門高性能併發語言,得益於它在原生態支持**「協程併發」**。這裏我們首先了解進程、線程和協程這三者的聯繫和區別。
在多道程序系統中,**「進程」**是一個具有獨立功能的程序關於某個數據集合的一次動態執行過程,是操作系統進行資源分配和調度的基本單位,是應用程序運行的載體。
而**「線程」**則是程序執行過程中一個單一的順序控制流程,是 CPU 調度和分派的基本單位。**「線程是比進程更小的獨立運行基本單位」**,一個進程中可以擁有一個或者以上的線程,這些線程共享進程所持有的資源,在 CPU 中被調度執行,共同完成進程的執行任務。
在 Linux 系統中,根據資源訪問權限的不同,操作系統會把內存空間分爲內核空間和用戶空間:內核空間的代碼能夠直接訪問計算機的底層資源,如 CPU 資源、I/O 資源等,爲用戶空間的代碼提供計算機底層資源訪問能力;用戶空間爲上層應用程序的活動空間,無法直接訪問計算機底層資源,需要藉助 “系統調用”“庫函數” 等方式調用內核空間提供的資源。
同樣,線程也可以分爲內核線程和用戶線程。**「內核線程」由操作系統管理和調度,是內核調度實體,它能夠直接操作計算機底層資源,可以充分利用 CPU 多核並行計算的優勢,但是線程切換時需要 CPU 切換到內核態,存在一定的開銷,可創建的線程數量也受到操作系統的限制。「用戶線程」**由用戶空間的代碼創建、管理和調度,無法被操作系統感知。用戶線程的數據保存在用戶空間中,切換時無須切換到內核態,切換開銷小且高效,可創建的線程數量理論上只與內存大小相關。
「協程是一種用戶線程,屬於輕量級線程」。協程的調度,完全由用戶空間的代碼控制;協程擁有自己的寄存器上下文和棧,並存儲在用戶空間;協程切換時無須切換到內核態訪問內核空間,切換速度極快。但這也給開發人員帶來較大的技術挑戰:開發人員需要在用戶空間處理協程切換時上下文信息的保存和恢復、棧空間大小的管理等問題。
Go 是爲數不多在語言層次實現協程併發的語言,它採用了一種特殊的兩級線程模型:MPG 線程模型(如下圖)。
MPG 線程模型
-
M,即 machine,相當於內核線程在 Go 進程中的映射,它與內核線程一一對應,代表真正執行計算的資源。在 M 的生命週期內,它只會與一個內核線程關聯。
-
P,即 processor,代表 Go 代碼片段執行所需的上下文環境。M 和 P 的結合能夠爲 G 提供有效的運行環境,它們之間的結合關係不是固定的。P 的最大數量決定了 Go 程序的併發規模,由 runtime.GOMAXPROCS 變量決定。
-
G,即 goroutine,是一種輕量級的用戶線程,是對代碼片段的封裝,擁有執行時的棧、狀態和代碼片段等信息。
在實際執行過程中,M 和 P 共同爲 G 提供有效的運行環境(如下圖),多個可執行的 G 順序掛載在 P 的可執行 G 隊列下面,等待調度和執行。當 G 中存在一些 I/O 系統調用阻塞了 M 時,P 將會斷開與 M 的聯繫,從調度器空閒 M 隊列中獲取一個 M 或者創建一個新的 M 組合執行, 保證 P 中可執行 G 隊列中其他 G 得到執行,且由於程序中並行執行的 M 數量沒變,保證了程序 CPU 的高利用率。
M 和 P 結合示意圖
當 G 中系統調用執行結束返回時,M 會爲 G 捕獲一個 P 上下文,如果捕獲失敗,就把 G 放到全局可執行 G 隊列等待其他 P 的獲取。新創建的 G 會被放置到全局可執行 G 隊列中,等待調度器分發到合適的 P 的可執行 G 隊列中。M 和 P 結合後,會從 P 的可執行 G 隊列中無鎖獲取 G 執行。當 P 的可執行 G 隊列爲空時,P 纔會加鎖從全局可執行 G 隊列獲取 G。當全局可執行 G 隊列中也沒有 G 時,P 會嘗試從其他 P 的可執行 G 隊列中 “剽竊”G 執行。
goroutine 和 channel
併發程序中的多個線程同時在 CPU 執行,由於資源之間的相互依賴和競態條件,需要一定的併發模型協作不同線程之間的任務執行。Go 中倡導使用**「CSP 併發模型」**來控制線程之間的任務協作,CSP 倡導使用通信的方式來進行線程之間的內存共享。
Go 是通過 goroutine 和 channel 來實現 CSP 併發模型的:
-
「goroutine,即協程」,Go 中的併發實體,是一種輕量級的用戶線程,是消息的發送和接收方;
-
「channel,即通道」, goroutine 使用通道發送和接收消息。
CSP 併發模型類似常用的同步隊列,它更加關注消息的傳輸方式,解耦了發送消息的 goroutine 和接收消息的 goroutine,channel 可以獨立創建和存取,在不同的 goroutine 中傳遞使用。
使用關鍵字 go 即可使用 goroutine 併發執行代碼片段,形式如下:
1go expression
2
3
而 channel 作爲一種引用類型,聲明時需要指定傳輸數據類型,聲明形式如下:
1var name chan T // 雙向 channel
2var name chan <- T // 只能發送消息的 channel
3var name T <- chan // 只能接收消息的 channel
4
5
其中,T 即爲 channel 可傳輸的數據類型。channel 作爲隊列,遵循消息先進先出的順序,同時保證同一時刻只能有一個 goroutine 發送或者接收消息。使用 channel 發送和接收消息形式如下:
1channel <- val // 發送消息
2val := <- channel // 接收消息
3val, ok := <- channel // 非阻塞接收消息
4
5
goroutine 向已經填滿信息的 channel 發送信息或從沒有數據的 channel 接收信息會阻塞自身。goroutine 接收消息時可以使用非阻塞的方式,無論 channel 中是否存在消息都會立即返回,通過 ok 布爾值判斷是否接收成功。創建一個 channel 需要使用 make 函數對 channel 進行初始化,形式如下所示:
1ch := make(chan T, sizeOfChan)
2
3
初始化 channel 時可以指定 channel 的長度,表示 channel 最多可以緩存多少條信息。下面我們通過一個簡單例子演示 goroutine 和 channel 的使用:
1package main
2import (
3"fmt"
4"time"
5)
6//生產者
7func Producer(begin, end int, queue chan<- int) {
8for i:= begin ; i < end ; i++ {
9fmt.Println("produce:", i)
10queue <- i
11}
12}
13//消費者
14func Consumer(queue <-chan int) {
15for val := range queue { //當前的消費者循環消費
16fmt.Println("consume:", val)
17}
18}
19func main() {
20queue := make(chan int)
21defer close(queue)
22for i := 0; i < 3; i++ {
23go Producer(i * 5, (i+1) * 5, queue) //多個生產者
24}
25go Consumer(queue) //單個消費者
26time.Sleep(time.Second) // 避免主 goroutine 結束程序
27}
28
29
這是一個簡單的多生產者和單消費的代碼例子,生產 goroutine 將生產的數字通過 channel 發送給消費 goroutine。上述例子中,消費 goroutine 使用 for:range 從 channel 中循環接收消息,只有當相應的 channel 被內置函數 close 後,該循環纔會結束。channel 在關閉之後不可以再用於發送消息,但是可以繼續用於接收消息,從關閉的 channel 中接收消息或者正在被阻塞的 goroutine 將會接收零值並返回。還有一個需要注意的點是,main 函數由主 goroutine 啓動,當主 goroutine 即 main 函數執行結束,整個 Go 程序也會直接執行結束,無論是否存在其他未執行完的 goroutine。
- select 多路複用
當需要從多個 channel 中接收消息時,可以使用 Go 提供的 select 關鍵字,它提供類似多路複用的能力,使得 goroutine 可以同時等待多個 channel 的讀寫操作。select 的形式與 switch 類似,但是要求 case 語句後面必須爲 channel 的收發操作,一個簡單的例子如下:
1package main
2import (
3"fmt"
4"time"
5)
6func send(ch chan int, begin int ) {
7// 循環向 channel 發送消息
8for i :=begin ; i< begin + 10 ;i++{
9ch <- i
10}
11}
12func receive(ch <-chan int) {
13val := <- ch
14fmt.Println("receive:", val)
15}
16func main() {
17ch1 := make(chan int)
18ch2 := make(chan int)
19go send(ch1, 0)
20go receive(ch2)
21// 主 goroutine 休眠 1s,保證調度成功
22time.Sleep(time.Second)
23for {
24select {
25case val := <- ch1: // 從 ch1 讀取數據
26fmt.Printf("get value %d from ch1\n", val)
27case ch2 <- 2 : // 使用 ch2 發送消息
28fmt.Println("send value by ch2")
29case <-time.After(2 * time.Second): // 超時設置
30fmt.Println("Time out")
31return
32}
33}
34}
35
36
在上述例子中,我們使用 select 關鍵字同時從 ch1 中接收數據和使用 ch2 發送數據,輸出的一種可能結果爲:
1get value 0 from ch1
2get value 1 from ch1
3send value by ch2
4receive: 2
5get value 2 from ch1
6get value 3 from ch1
7get value 4 from ch1
8get value 5 from ch1
9get value 6 from ch1
10get value 7 from ch1
11get value 8 from ch1
12get value 9 from ch1
13Time out
14
15
由於 ch2 中的消息僅被接收一次,所以僅出現一次 “send value by ch2”,後續消息的發送將被阻塞。select 語句分別從 3 個 case 中選取返回的 case 進行處理,當有多個 case 語句同時返回時,select 將會隨機選擇一個 case 進行處理。如果 select 語句的最後包含 default 語句,該 select 語句將會變爲非阻塞型,即當其他所有的 case 語句都被阻塞無法返回時,select 語句將直接執行 default 語句返回結果。在上述例子中,我們在最後的 case 語句使用了 <-time.After(2 * time.Second) 的方式指定了定時返回的 channel,這是一種有效從阻塞的 channel 中超時返回的小技巧。
- Context 上下文
當需要在多個 goroutine 中傳遞上下文信息時,可以使用 Context 實現。Context 除了用來傳遞上下文信息,還可以用於傳遞終結執行子任務的相關信號,中止多個執行子任務的 goroutine。Context 中提供以下接口:
1type Context interface {
2Deadline() (deadline time.Time, ok bool)
3Done() <-chan struct{}
4Err() error
5Value(key interface{}) interface{}
6}
7
8
-
Deadline 方法,返回 Context 被取消的時間,也就是完成工作的截止日期;
-
Done,返回一個 channel,這個 channel 會在當前工作完成或者上下文被取消之後關閉,多次調用 Done 方法會返回同一個 channel;
-
Err 方法,返回 Context 結束的原因,它只會在 Done 返回的 channel 被關閉時纔會返回非空的值,如果 Context 被取消,會返回 Canceled 錯誤;如果 Context 超時,會返回 DeadlineExceeded 錯誤。
-
Value 方法,可用於從 Context 中獲取傳遞的鍵值信息。
在 Web 請求的處理過程中,一個請求可能啓動多個 goroutine 協同工作,這些 goroutine 之間可能需要共享請求的信息,且當請求被取消或者執行超時時,該請求對應的所有 goroutine 都需要快速結束,釋放資源。Context 就是爲了解決上述場景而開發的,我們通過下面一個例子來演示:
1package main
2import (
3"context"
4"fmt"
5"time"
6)
7const DB_ADDRESS = "db_address"
8const CALCULATE_VALUE = "calculate_value"
9func readDB(ctx context.Context, cost time.Duration) {
10fmt.Println("db address is", ctx.Value(DB_ADDRESS))
11select {
12case <- time.After(cost): // 模擬數據庫讀取
13fmt.Println("read data from db")
14case <-ctx.Done():
15fmt.Println(ctx.Err()) // 任務取消的原因
16// 一些清理工作
17}
18}
19func calculate(ctx context.Context, cost time.Duration) {
20fmt.Println("calculate value is", ctx.Value(CALCULATE_VALUE))
21select {
22case <- time.After(cost): // 模擬數據計算
23fmt.Println("calculate finish")
24case <-ctx.Done():
25fmt.Println(ctx.Err()) // 任務取消的原因
26// 一些清理工作
27}
28}
29func main() {
30ctx := context.Background(); // 創建一個空的上下文
31// 添加上下文信息
32ctx = context.WithValue(ctx, DB_ADDRESS, "localhost:10086")
33ctx = context.WithValue(ctx, CALCULATE_VALUE, 1234)
34// 設定子 Context 2s 後執行超時返回
35ctx, cancel := context.WithTimeout(ctx, time.Second * 2)
36defer cancel()
37// 設定執行時間爲 4 s
38go readDB(ctx, time.Second * 4)
39go calculate(ctx, time.Second * 4)
40
41// 充分執行
42time.Sleep(time.Second * 5)
43}
44
45
在上述例子中,我們模擬了一個請求中同時進行數據庫訪問和邏輯計算的操作,在請求執行超時時,及時關閉尚未執行結束 goroutine。我們首先通過 context.WithValue 方法爲 context 添加上下文信息,Context 在多個 goroutine 中是併發安全的,可以安全地在多個 goroutine 中對 Context 中的上下文數據進行讀取。接着使用 context.WithTimeout 方法設定了 Context 的超時時間爲 2s,並傳遞給 readDB 和 calculate 兩個 goroutine 執行子任務。在 readDB 和 calculate 方法中,使用 select 語句對 Context 的 Done 通道進行監控。由於我們設定了子 Context 將在 2s 之後超時,所以它將在 2s 之後關閉 Done 通道;然而預設的子任務執行時間爲 4s,對應的 case 語句尚未返回,執行被取消,進入到清理工作的 case 語句中,結束掉當前的 goroutine 所執行的任務。預期的輸出結果如下:
1calculate value is 1234
2db address is localhost:10086
3context deadline exceeded
4context deadline exceeded
5
6
使用 Context,能夠有效地在一組 goroutine 中傳遞共享值、取消信號、deadline 等信息,及時關閉不需要的 goroutine。
小結
本文我們主要介紹了 Go 語言併發特性,主要包含:
-
Go 的 MPG 線程模型;
-
goroutine 和 channel;
-
select 多路複用;
-
Context 上下文。
除了支持 CSP 的併發模型,Go 同樣支持傳統的線程與鎖併發模型,提供了互斥鎖、讀寫鎖、併發等待組、同步等待條件等一系列同步工具,這些同步工具的結構體位於 sync 包中,與其他語言的同步工具使用方式相差無幾。Go 在語言層次支持協程併發,在併發性能上表現卓越,能夠充分挖掘多核 CPU 的運算性能。希望本文的學習,能夠有效提升你對 Go 併發設計和編程的認知。
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s?__biz=MzU1OTIzOTE0Mw==&mid=2247484929&idx=1&sn=1ad7ec340e8c4e1fe3e1e182a708ad96&chksm=fc1b1c89cb6c959f2760446165d0f40e8abe3d149b7395cc7f35aceac89fb975ed03620d70d7&scene=21#wechat_redirect