Ứng dụng trí tuệ nhân tạo (AI) và dự đoán tích hợp gen x môi trường phục vụ chọn giống mía thông minh

Ứng dụng trí tuệ nhân tạo (AI) và dự đoán tích hợp gen x môi trường phục vụ chọn giống mía thông minh

Nguồn: Dongdong Wang, Jiatong Zheng, Heyang Shang, Jianning Liu, Li-Zhi Gao, Jian Ye, Surendra Sarsaiya, Jisen Zhang. 2026. Leveraging AI and integrated genomic-environmic prediction for intelligent sugarcane breeding. Plant Commun.; 2026 Mar 17: 101822. doi: 10.1016/j.xplc.2026.101822. Online ahead of print.

Cải tiến giống mía theo truyền thống, chủ yếu dựa vào chọn kiểu hình, đang được chuyển hướng sang hiện đại nhờ công cụ hệ genome học. Tuy nhiên, hệ gen của cây trồng đa bội thể ấy av2 tương tác giữa kiểu gen với môi trường (G×E) đặt ra nhiều thách thức mà các mô phỏng toán cổ điển không thể giải quyết thỏa đáng. Trong khi, hệ thống iGEP (Integrated Genomic-Environmic Prediction: dự đoán tích hợp bởi kiểu gen và môi trường) cung cấp được một hướng khả thi phía trước, việc ứng dụng của nó đối với loài cây trồng phức tạp như mía đường rất cần sự phát triển có chiều sâu. Bài tổng quan này cung cấp lột trình toàn diện đầu tiên về thực hành iGEP cho cây mía đường, nhấn mạnh có tính hệ thống những trở ngại có tính chất độc đáo của nó, tổng hợp một khung tính toán “Ba mô hình” được thiết kế riêng (di truyền, môi trường, kiểu hình) để giải mã theo lượng của alen đa bội, định lượng các yếu tố tác động môi trường có độ phân giải cao thông qua thiết kế môi trường đồng nhất (isoenvironment design), dự đoán hiệu suất dòng vô tính. Bên cạnh, tác giả chi tiết hóa sự phát triển rộng của AI và những mô phỏng iGEP khai thác sinh sản giống vô tính, tối ưu hóa được việc chọn lọc đa tính trạng, khắc phục được động thái tái sinh chồi gốc (ratoon). Cuối cùng, tác giả giới thiệu một lộ trình từng bước xây dựng AI, vạch ra lộ trình chuyển đổi từ số hóa đến thiết kế có tính tổng hợp. Bằng cách kết hợp phân tích dự đoán tiên tiến với ngành sinh học đặc thù cho cây mía, công trình khoa học này xây dựng nên một mô hình mới nhằn thúc đẩy nhanh hiệu quả chọn lọc (GA: genetic gain) của cây trồng này, có được một chiến lược mang tính chuyển đổi đối với các loài khác có hệ gen phúc tạp như mía đường.

Xem https://www.cell.com/plant-communications/pdf/S2590-3462(26)00130-6.pdf?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS2590346226001306%3Fshowall%3Dtrue

GHI CHÚ

Cây mía đường (Saccharum officinarum) là một trong những cây trồng có bộ gen phức tạp nhất (đa bội thể cao, dị hợp tử mạnh). Sự ra đời của iGEP là một bước đột phá giúp giải quyết bài toán tương tác giữa Kiểu gen và Môi trường ( $G \times E$ ) – trở ngại lớn nhất trong chọn giống mía truyền thống.

$\times E$

1. Hệ thống iGEP và Thực hành trên Cây Mía Đường

Hệ thống Dự đoán Tích hợp Bộ gen - Môi trường (iGEP) là sự tiến hóa của công nghệ Chọn lọc bộ gen (Genomic Selection - GS). Trong khi GS truyền thống chỉ tập trung vào dữ liệu SNP (kiểu gen), iGEP tích hợp thêm dữ liệu Môi trường học (Environmics) quy mô lớn (bao gồm dữ liệu khí hậu nhiệt độ, lượng mưa, bức xạ mặt trời, và dữ liệu đất đai theo thời gian thực).

Tại sao iGEP tối ưu cho cây mía đường?
Mía đường là cây trồng nhân giống vô tính. Chu kỳ chọn giống truyền thống kéo dài từ 10–12 năm do phải đánh giá qua nhiều vùng sinh thái. iGEP cho phép dự đoán hiệu suất của các dòng vô tính mới ngay từ giai đoạn vườn ươm mà không cần chờ cây trưởng thành ngoài đồng ruộng qua nhiều năm.

2. Tính toán “Ba Mô hình” Thiết kế riêng (Genetics - Environment - Phenotype)

Cốt lõi của iGEP dựa trên việc tích hợp toán học ba nguồn dữ liệu thông qua các ma trận hiệp phương sai (Kernel). Mô hình toán học tổng quát được NCBI ghi nhận trong các nghiên cứu di truyền số lượng nâng cao có dạng:

$y = μ + W b + Z_{g} g + Z_{e} e + Z_{g e} (g \times e) + ε$

Trong đó:

$y$ : Vectơ kiểu hình thu hoạch (năng suất mía, hàm lượng đường CCS).
$g$ : Hiệu ứng di truyền, $e$ : Hiệu ứng môi trường, $g \times e$ : Hiệu ứng tương tác.

Hệ thống iGEP tính toán biệt lập và tích hợp “Ba mô hình” như sau:

Mô hình thành phần

Nguồn dữ liệu đầu vào

Phương pháp tính toán ma trận

Vai trò trong iGEP

1. Mô hình Di truyền (Genomics - G)

Điểm đánh giá SNP từ giải trình tự gen (GBS, SNP Arrays).

Ma trận quan hệ genomic ( $G$ -matrix), tính toán cả hiệu ứng cộng gộp ( $A$ ) và phi cộng gộp ( $D$ , $I$ ).

Xác định giá trị giống tiềm năng của dòng vô tính.

2. Mô hình Môi trường (Environmics - E)

Dữ liệu cảm biến, vệ tinh (nhiệt độ, stress nước, chỉ số sinh lý quang kỳ theo từng giai đoạn sinh trưởng).

Ma trận khoảng cách môi trường ( $E$ -matrix hoặc $W$ -matrix) dựa trên các chỉ số stress-index.

Định lượng hóa sự khác biệt giữa các địa điểm và mùa vụ thử nghiệm.

3. Mô hình Kiểu hình & Tương tác ( $G \times E$ )

Dữ liệu kiểu hình lịch sử kết hợp tích Hadamard ( $G \otimes E$ ).

Sử dụng mô hình GBLUP mở rộng hoặc các thuật toán Học máy (Machine Learning Kernel).

Dự đoán chính xác một dòng vô tính cụ thể sẽ biểu hiện ra sao tại một vùng đất cụ thể.

3. Thiết kế Môi trường Đồng nhất (Isoenvironment Design)

Trong chọn giống mía đường, sự biến động của thời tiết giữa các năm hoặc giữa các vùng sinh thái thường làm sai lệch kết quả đánh giá. iGEP giải quyết vấn đề này bằng khái niệm Thiết kế môi trường đồng nhất (Isoenvironment Design).

Bản chất: Sử dụng thuật toán phân cụm (Clustering) để nhóm các vùng sinh thái hoặc các mùa vụ khác nhau thành các “Mega-environments” có đặc tính sinh-khí hậu tương đồng (đồng nhất về áp lực môi trường).
Ứng dụng: Thay vì thử nghiệm dòng vô tính ở 20 địa điểm thực tế, iGEP cho phép thiết kế các kịch bản môi trường giả lập (Isoenvironments). Hệ thống toán học sẽ chuẩn hóa các tác động ngoại cảnh, giúp nhà chọn giống so sánh chính xác tiềm năng di truyền thực sự của các dòng vô tính như thể chúng được trồng trong cùng một điều kiện lý tưởng.

4. Dự đoán Hiệu suất Dòng vô tính & Vai trò của AI

Khác với cây sinh sản hữu tính, cây mía sinh sản vô tính lưu giữ được 100% biến dị di truyền phi cộng gộp (bao gồm hiệu ứng trội - Dominance và át chế gen - Epistasis) qua các thế hệ.

Tích hợp AI trong mô phỏng iGEP

Các mô hình thống kê tuyến tính truyền thống (như BLUP) thường bỏ qua hoặc gặp khó khăn khi tính toán các hiệu ứng phi tuyến tính (Epistasis). AI và Học sâu (Deep Learning) chính là chìa khóa mà các nghiên cứu trên NCBI tập trung khai thác:

Mạng nơ-ron nhân tạo (ANN) & Random Forest: Được huấn luyện để nhận diện các tổ hợp tương tác gen-gen phức tạp và tương tác gen-môi trường không tuyến tính.
Mô phỏng lai chéo kỹ thuật số (In silico crossing): AI chạy hàng triệu mô phỏng lai chéo giữa các dòng bố mẹ, áp dụng iGEP để dự đoán hiệu suất của thế hệ dòng vô tính $F_{1}$ trong các môi trường mục tiêu trước khi tiến hành thụ phấn thực tế trong nhà kính.

5. Tối ưu hóa Hiệu quả Chọn lọc (Genetic Gain - GA)

Hiệu quả của hệ thống iGEP được chứng minh bằng việc tối ưu hóa phương trình tiến bộ di truyền tiêu chuẩn (Breeder’s Equation):

$G A = \frac{i \cdot r \cdot σ_{g}}{L}$

Trong đó:

$i$ : Áp lực chọn lọc.
$r$ : Độ chính xác của dự đoán.
$σ_{g}$ : Độ lệch chuẩn di truyền.
$L$ : Khoảng cách thế hệ (thời gian của một chu kỳ chọn giống).

Hệ thống iGEP tác động trực tiếp mang tính cách mạng vào 2 chỉ số:

Tăng tối đa độ chính xác ( $r$ ): Nhờ tích hợp dữ liệu Environmics và AI, độ chính xác dự đoán hiệu suất dòng vô tính tăng từ 30% - 50% so với việc chỉ sử dụng dữ liệu di truyền đơn thuần.
Giảm tối thiểu khoảng cách thế hệ ( $L$ ): Chu kỳ chọn giống mía truyền thống mất 10-12 năm (vì phải nhân dòng và thử nghiệm ngoài đồng ruộng qua nhiều chu kỳ mía gốc). Với iGEP, các dòng vô tính kém triển vọng bị loại bỏ ngay từ giai đoạn cây con (Seedling stage) dựa trên chip SNP và mô hình dự đoán. Chu kỳ chọn lọc ( $L$ ) có thể rút ngắn xuống còn 3-4 năm.

Kết luận từ chuyên gia: > Việc thực hành iGEP kết hợp AI trong chọn giống mía đường dịch chuyển ngành công nghiệp này từ một quy trình “chọn lọc dựa trên quan sát kiểu hình” (Phenotype-based selection) sang “chọn lọc dựa trên thiết kế kỹ thuật số” (Design breeding). Điều này giúp tăng tốc độ cải tiến di truyền ( $G A$ ) đối với năng suất đường trên một đơn vị diện tích, đồng thời chủ động tạo ra các dòng vô tính thích ứng vững vàng với biến đổi khí hậu toàn cầu.

Để triển khai thực tế hệ thống iGEP (Integrated Genomic-Environmic Prediction) trên cây mía đường, các nhà khoa học không sử dụng một phần mềm "bấm nút" duy nhất. Thay vào đó, họ kết hợp một hệ sinh thái bao gồm các thư viện lập trình mã nguồn mở, phần mềm thống kê chuyên dụng và các cơ sở dữ liệu (Database) toàn cầu dưới đây:

1. Phần mềm và Thư viện Lập trình (Software & Packages)

Hệ sinh thái R (Phổ biến nhất trong Di truyền số lượng)

EnvRtype: Thư viện R mang tính cách mạng chuyên cho Environmics (Môi trường học). Nó giúp tự động thu thập dữ liệu thời tiết dựa trên tọa độ GPS, tính toán các chỉ số stress sinh lý của cây mía và lập ma trận mối quan hệ môi trường ( $W$ -matrix).
BGLR (Bayesian Generalized Linear Regression): Thư viện chuẩn thức để chạy các mô hình dự đoán bộ gen Bayesian, xử lý cực tốt tương tác $G \times E$ và các mô hình phức tạp.
sommer: Phần mềm xử lý mô hình hỗn hợp (Mixed Models) giúp tính toán nhanh tích Kronecker giữa ma trận Di truyền và Môi trường ( $G \otimes E$ ).
rrBLUP: Thư viện cơ bản để tính toán GBLUP (Genomic Best Linear Unbiased Prediction) cho các tính trạng số lượng.

Hệ sinh thái Python (Dành cho AI & Machine Learning)

Scikit-learn: Dùng để xây dựng các mô hình Học máy truyền thống (Random Forest, Gradient Boosting, SVM) nhằm dự đoán năng suất mía dựa trên các tổ hợp dữ liệu phi tuyến tính.
TensorFlow / PyTorch: Dùng để huấn luyện các mạng nơ-ron sâu (Deep Learning) khi tích hợp ảnh vệ tinh (Remote Sensing) hoặc dữ liệu cảm biến đồng ruộng quy mô lớn vào mô hình iGEP.

Phần mềm thương mại chuyên dụng

ASReml: Được coi là "tiêu chuẩn vàng" trong chọn giống mía đường tại các tổ chức lớn (như Sugar Research Australia). Phần mềm này tối ưu hóa thuật toán REML, xử lý các ma trận dữ liệu khổng lồ vô cùng nhanh và chính xác đối với các dòng vô tính có quan hệ họ hàng phức tạp.

2. Website và Cơ sở dữ liệu Môi trường (Environmics Databases)

Để có dữ liệu đầu vào cho mô hình Môi trường (E) nhằm thiết kế các "Môi trường đồng nhất" (Isoenvironment), các nhà nghiên cứu khai thác dữ liệu từ:

NASA POWER (Prediction of Worldwide Energy Resources)
- Website: power.larc.nasa.gov
- Vai trò: Cung cấp dữ liệu bức xạ mặt trời, nhiệt độ, độ ẩm, tốc độ gió theo tọa độ và thời gian thực. Thư viện EnvRtype trong R có API kết nối thẳng vào đây để tải dữ liệu tự động.
ERA5 (Copernicus Climate Change Service)
- Website: cds.climate.copernicus.eu
- Vai trò: Cơ sở dữ liệu tái phân tích khí hậu toàn cầu của châu Âu với độ phân giải siêu cao, cực kỳ chính xác cho các mô hình giả lập môi trường.
CHIRPS (Climate Hazards Group InfraRed Precipitation with Station data)
- Vai trò: Chuyên cung cấp dữ liệu lượng mưa vệ tinh kết hợp trạm đo, phục vụ tính toán chỉ số thiếu hụt nước (Water deficit index) cho cây mía.

3. Website và Cơ sở dữ liệu Bộ gen & Kiểu hình (Genomics & Databases)

Hệ thống cơ sở dữ liệu NCBI

NCBI SRA (Sequence Read Archive): Kho lưu trữ toàn bộ dữ liệu giải trình tự thô (GBS, WGS, RNA-seq) của các quần thể mía đường được công bố trên thế giới. Nhà nghiên cứu tải dữ liệu này để khai thác các chỉ thị phân tử SNP.
NCBI Assembly / GenBank: Nơi tải về các bộ gen tham chiếu (Reference Genomes) của mía, ví dụ bộ gen của loài hoang dại Saccharum spontaneum hoặc các dòng lai thương mại phức tạp (như giống SP80-3280 hoặc R570).
NCBI GEO (Gene Expression Omnibus): Cung cấp dữ liệu biểu hiện gen của mía dưới các tác động của stress môi trường (hạn, mặn, sâu bệnh).

Các Cơ sở dữ liệu chuyên biệt cho Cây Mía đường

Sugarcane Genome Hub
- Website: sugarcane-genome.org
- Vai trò: Trung tâm dữ liệu bộ gen mía đường tập trung, hỗ trợ công cụ BLAST, tra cứu cấu trúc nhiễm sắc thể đa bội phức tạp của mía.
SUCEST-FUN (Sugarcane Functional Genomics Database)
- Vai trò: Cơ sở dữ liệu chức năng gen mía đường, đặc biệt là các con đường chuyển hóa liên quan đến hàm lượng đường (Sucrose accumulation) và sinh khối (Biomass).
Genesys PGR / GRIN-Global
- Website: genesys-pgr.org
- Vai trò: Quản lý nguồn tài nguyên di truyền (Germplasm) và dữ liệu kiểu hình lịch sử của các ngân hàng giống mía cốt lõi toàn cầu.

Tóm tắt quy trình vận hành: Một nghiên cứu iGEP điển hình sẽ tải dữ liệu gen từ NCBI, truy xuất dữ liệu thời tiết từ NASA POWER, sau đó nạp tất cả vào môi trường R/Python để chạy các thuật toán dự đoán (EnvRtype + BGLR + AI), từ đó xuất ra kết quả xếp hạng các dòng vô tính tiềm năng nhất cho nhà chọn giống

Search This Blog

KHOA HỌC CÂY MÍA