Trong thực tế, tốc độ tăng trưởng của cá khác nhau và không dễ dàng tính được do điều kiện nuôi phức tạp và các yếu tố môi trường thay đổi. Ngoài ra, vấn đề theo dõi quỹ đạo tăng trưởng là thách thức do hầu hết các phương pháp điều khiển dựa trên mô hình phi tuyến tính và tương tác giữa các yếu tố đầu vào như nhiệt độ, oxy hòa tan, amoniac và sự không đảm bảo từ các mô hình nuôi tăng trưởng của cá.
Để giải quyết khó khăn này, một kỹ thuật học tăng cường (RL) trong khuôn khổ lập trình động để giải quyết quá trình ra quyết định Markov (MDP). Nó cho phép học một chính sách kiểm soát tối ưu mà không cần kiến thức đầy đủ về mô hình động thông qua sử dụng dữ liệu mẫu. Q-learning là một trong những giải pháp chính sách và giá trị gần đúng được sử dụng rộng rãi nhất của RL. Bộ điều khiển dựa trên thuật toán Q-learning được đề xuất đối phó với sự không chắc chắn của các tham số mô hình nuôi cá (thay đổi của các biến điều khiển và biến trung gian), các tác động nhiễu loạn thời tiết bên ngoài và sự biến động của các yếu tố môi trường (nhiệt độ nước, oxy hòa tan, v.v.) để theo dõi quỹ đạo tốc độ tăng trưởng của cá.
Cụ thể, thực hiện hai thuật toán Q-learning tìm hiểu chính sách kiểm soát tối ưu từ dữ liệu mô phỏng về quỹ đạo tăng trưởng của cá bắt đầu từ giai đoạn cá con cho đến khi đạt trọng lượng thương phẩm theo mong muốn của thị trường. Sơ đồ Q-learning đầu tiên tìm hiểu chính sách kiểm soát cho ăn tối ưu đối với tốc độ tăng trưởng của cá nuôi trong lồng, chương trình thứ hai sẽ trực tuyến cập nhật chính sách kiểm soát cho ăn tối ưu trong một cấu hình nhiệt độ tối ưu cho tốc độ tăng trưởng của cá nuôi trong bể.
Chú thích: (a) sự phát triển của cá trong lồng nổi; (b) sự phát triển của cá trong bể trên cạn.
Kết quả mô phỏng chứng minh rằng cả hai mô hình, chiến lược điều khiển Q-learning đều đạt được hiệu suất theo dõi quỹ đạo tốt với tỷ lệ cho ăn thấp hơn và giúp bù đắp cho những thay đổi môi trường của các biến được thao tác và sự không chắc chắn của mô hình năng lượng sinh học về sự tăng trưởng của cá trong môi trường nuôi trồng thủy sản. Các chính sách kiểm soát Q-learning được đề xuất đạt lần lượt là 1,7% và 6,6% sai số theo dõi quỹ đạo tương đối của tổng trọng lượng cá từ cả bể trên cạn và lồng nổi. Hơn nữa, các chính sách cho ăn và kiểm soát nhiệt độ làm giảm 11% lượng thức ăn cho vào tương đối của chất thải thực phẩm trong các bể chứa trên cạn so với lồng nổi mà nhiệt độ nước được duy trì ở nhiệt độ môi trường là 29,7oC.
Các kết quả trên chứng minh rằng Q-learning có tiềm năng lớn để học các môi trường chưa biết nhờ khả năng học hỏi từ việc quan sát các cặp (hành động, phản ứng). Với việc điều tra và khám phá thêm về loại mẫu này, nó có thể giúp giảm thời gian cần thiết để hiểu các hệ thống phức tạp bằng cách cung cấp và hỗ trợ cho đối tượng mục tiêu trong việc thu hẹp các thông số tối ưu (chẳng hạn như nhiệt độ, độ pH thích hợp cho một loài cụ thể) điều đó có thể rút ngắn thời gian xác thực thử nghiệm. Mô hình Q-learning đã được huấn luyện tương tự cũng có thể được huấn luyện nhanh chóng để phù hợp với một loài tương tự mới. Trong tương lai, các chính sách Q-learning được đề xuất sẽ được kết hợp với một khuôn khổ học tập an toàn để đào tạo nó thành một môi trường xa hơn. Đây sẽ là bước đầu tiên hướng tới việc triển khai thuật toán học này trong môi trường nuôi trồng thủy sản thực tế.
Nguồn: Chahid, A., I. N’Doye, J.E. Majoris, M.L. Berumen, T. Laleg-Kirati (2022). Fish growth trajectory tracking using Q-learning in precision aquaculture. Aquaculture 550: 737838.