如何解決 MySQL 的深度分頁問題？

在 MySQL 中，分頁是一個常見的功能，但是，當出現深度分頁時，因爲數據庫需要掃描和跳過大量記錄，可能會導致性能問題，尤其是在處理大規模數據集時，那麼，如何解決深度分頁問題，本文我們將一起探討，並提供多種解決方案，以提高查詢性能。

1. 深度分頁問題的根源

當使用 LIMIT 和 OFFSET 進行分頁時，MySQL 必須掃描 OFFSET + LIMIT 行，然後丟棄前 OFFSET 行。這意味着隨着分頁的深入，MySQL 需要掃描的行數會越來越多，導致查詢性能下降。

例如，以下查詢用於獲取第 10001 到第 10010 行的數據：

SELECT * FROM table_name ORDER BY age LIMIT 10 OFFSET 10000;

在這種情況下，MySQL 必須掃描 10010 行，即使只返回 10 行。這種掃描和丟棄操作會導致大量的 I/O 操作，特別是在表數據量很大的情況下。

2. 如何優化深度分頁？

對於 MySQL 中出現的這種深度分頁問題，該如何解決呢？這裏給出了幾種可能的優化方案：

2.1 使用索引優化查詢

確保在用於排序和過濾的列上創建適當的索引，索引可以顯著減少 MySQL 需要掃描的行數。

例如，如果 where 查詢語句中包含 id 列排序，確保 id 列是索引列。否則的話，可能 MySQL 會掃描所有行，從而導致性能下降。

SELECT * FROM table_name ORDER BY id LIMIT 10 OFFSET 10000;

使用索引優化查詢這種方法通過避免使用 OFFSET，減少了不必要的行掃描。

2.2 使用覆蓋索引

在 MySQL 中儘量按需查詢，如果查詢只涉及少量列，可以利用覆蓋索引來提高性能。覆蓋索引包含查詢所需的所有列，因此可以避免回表操作。

-- 創建一個column1, column2的組合索引
CREATE INDEX idx_cover ON table_name (column1, column2);

-- 使用覆蓋索引查詢column1, column2
SELECT column1, column2 FROM table_name WHERE column1 = ? AND column2 = ?;

上面的示例中，查詢只需從索引中獲取數據，而不需要訪問表的數據頁，因此可以避免回表操作，從而提升性能。

2.3 利用標記分頁

標記分頁是通過保存上一次查詢的最後一個記錄的標記（通常是唯一標識符）來實現的，這種方法不使用 OFFSET，而是使用 WHERE 子句來獲取下一頁的數據：

SELECT * FROM table_name
WHERE id > last_id
ORDER BY id
LIMIT 20;

這種方法尤其適用於有序的、連續的分頁請求。

2.4 分區表

如果數據集非常大，可以考慮使用表分區。分區可以將表分成更小的塊，從而減少每次查詢需要掃描的數據量。MySQL 支持多種分區方法，如範圍分區、列表分區等。

如下示例：假設有一個包含銷售記錄的表 sales，其中有一列 sale_date，表示銷售的日期。我們希望按年份對這個表進行分區，以便更高效地進行查詢。

2.4.1 創建表並按範圍分區

CREATE TABLE sales (
    sale_id INT PRIMARY KEY,
    product_id INT,
    quantity INT,
    sale_date DATE
)
PARTITION BY RANGE (YEAR(sale_date)) (
    PARTITION p2021 VALUES LESS THAN (2022),
    PARTITION p2022 VALUES LESS THAN (2023),
    PARTITION p2023 VALUES LESS THAN (2024)
);

在這個示例中，sales 表被分成三個分區：

p2021 包含所有 sale_date 在 2021 年的記錄。
p2022 包含所有 sale_date 在 2022 年的記錄。
p2023 包含所有 sale_date 在 2023 年的記錄。

每個分區都是獨立的物理存儲單元，因此查詢可以只訪問相關的分區。

2.4.2 插入數據

當插入數據時，MySQL 會根據 sale_date 自動將記錄放入相應的分區。

INSERT INTO sales (sale_id, product_id, quantity, sale_date) VALUES
(1, 101, 5, '2021-06-15'),
(2, 102, 10, '2022-07-20'),
(3, 103, 8, '2023-03-10');

2.4.3 查詢分區表

查詢分區表時，MySQL 會自動確定需要訪問哪些分區。例如：

SELECT * FROM sales WHERE sale_date BETWEEN '2022-01-01' AND '2022-12-31';

在這個查詢中，MySQL 只會訪問 p2022 分區，從而提高查詢性能。

2.4.4 其他分區類型

除了範圍分區（RANGE），MySQL 還支持其他幾種分區類型，包括：

列表分區（LIST）：根據離散值列表進行分區。
哈希分區（HASH）：使用哈希函數將數據分佈到多個分區。
鍵分區（KEY）：類似於哈希分區，但使用 MySQL 的內部哈希算法。
線性哈希分區（LINEAR HASH）：一種特殊的哈希分區，適用於特定的負載和數據分佈。

2.5 緩存結果

如果分頁查詢的結果不會頻繁變化，可以考慮緩存查詢結果。緩存可以顯著減少數據庫的負載，尤其是在高併發的場景下。

2.6 使用外部搜索引擎

對於特別複雜或數據量巨大的場景，可以考慮使用外部搜索引擎，如 Elasticsearch 或 Solr。這些工具專爲處理大數據集和複雜查詢而設計，通常比傳統數據庫更高效。

3. 實踐中的注意事項

合理選擇分頁大小：分頁大小直接影響查詢性能和用戶體驗。較小的分頁大小可以減少每次查詢的負擔，但會增加分頁請求的次數。選擇合適的分頁大小需要權衡這兩者的關係。
監控和分析查詢性能：使用 MySQL 的性能監控工具（如 EXPLAIN 和慢查詢日誌）來分析查詢的執行計劃和性能瓶頸。
考慮用戶體驗：在某些情況下，用戶可能並不需要非常精確的分頁數據。可以考慮使用 “加載更多” 按鈕或無限滾動來替代傳統分頁。

4. 總結

本文，我們分析了 MySQL 的深度分頁問題以及解決方案。對於 MySQL 中的深度分頁，我們可以通過合理的優化策略來提高查詢效率。具體選用什麼方案，我們需要具體場景具體分析，但是核心還是在於理解數據庫的工作原理，利用索引、優化查詢策略、使用標記分頁、分區表、緩存結果等些優化技術。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/Br1nhd5_5i2GcIAifqRaDw