[ROAD TO BFMC 2025] TÌM HIỂU BÀI TOÁN PHÂN ĐOẠN LÀN ĐƯỜNG VÀ MÔ HÌNH HỌC SÂU TWINLITENET

Share

🌐 Bosch Future Mobility Challenge 2025 (BFMC) là cuộc thi toàn cầu về phát triển giải pháp cho xe tự hành do Trung tâm kỹ thuật Bosch tại Romania tổ chức. Từ năm 2017 đến nay, cuộc thi đã kêu gọi sự tham gia của hơn hàng trăm đội tuyển sinh viên trên khắp thế giới, tạo ra một sân chơi toàn diện nhằm hỗ trợ thế hệ trẻ bức phá và sáng tạo. Đây là sân chơi toàn cầu dành cho sinh viên, nhằm thúc đẩy sự phát triển của các giải pháp di chuyển thông minh trong tương lai. 💡

Khi tham gia cuộc thi, đội thi sẽ làm việc nhóm, cùng nhau giải quyết bài toán lập trình xe tự hành với mô hình xe do Ban tổ chức cung cấp. Qua tìm hiểu và thực nghiệm, đội thi đã so sánh và thực hiện các giải thuật có thể sử dụng về xử lý ảnh, dự đoán đường đi và lọc nhiễu khả thi lên mô hình xe. Bài viết này nhằm mục tiêu giới thiệu một cách cơ bản nhất về mô hình TwinliteNet – Một mô hình học sâu thực hiện phân đoạn làn đường đã được đội thi thử nghiệm và vận hành trên mô hình xe, qua bài viết này, hi vọng bạn đọc có thêm một góc nhìn, định hướng cho việc giải quyết bài toán về phân đoạn làn đường.

_____________________________________________________________________________________

Bài toán phân đoạn làn đường …

Bài toán phân đoạn làn đường là một vấn đề quan trọng trong thị giác máy tính với nhiều ứng dụng thực tiễn, đặc biệt là trong lĩnh vực giao thông thông minh, xe tự hành và quy hoạch đô thị. Các phương pháp truyền thống tuy đã giải quyết được bài toán này nhưng vẫn chưa thể áp dụng vào thực tế do môi trường thực tế tồn tại nhiều nhiễu và biến số mà các phương pháp truyền thống không thể linh hoạt thích nghi và xử lý, vì vậy phương pháp tiếp cận bằng mạng học sâu đã được nghiên cứu và sử dụng.

Bài toán phân đoạn làn đường yêu cầu hệ thống có khả năng xác định chính xác vị trí và hình dạng của các làn đường trong ảnh hoặc video đầu vào từ camera đặt trên xe. Cụ thể, mỗi điểm ảnh (pixel) trong ảnh cần được gán nhãn là “làn đường”, “mặt đường”, hoặc “đối tượng khác”. Kết quả phân đoạn là cơ sở để các hệ thống điều khiển hỗ trợ lái (ADAS) hoặc xe tự hành nhận biết môi trường xung quanh, thực hiện giữ làn, cảnh báo lệch làn, hoặc lập kế hoạch chuyển làn an toàn.

Bài toán phân đoạn làn đường gặp nhiều thách thức do tính phức tạp và biến động của môi trường thực tế, bao gồm:

  • Thay đổi điều kiện ánh sáng: Làn đường có thể bị mờ hoặc che khuất trong điều kiện thiếu sáng, chói nắng, hoặc khi đi qua vùng có bóng râm.
  • Tác động của thời tiết: Mưa, sương mù, tuyết hoặc mặt đường ướt làm giảm độ tương phản, gây khó khăn trong việc nhận diện chính xác làn đường.
  • Biến dạng phối cảnh: Ảnh từ camera thường bị biến dạng do góc nhìn nghiêng hoặc khoảng cách xa, khiến làn đường bị cong, nhỏ hoặc biến dạng so với thực tế.
  • Cấu trúc làn đường phức tạp: Các loại làn như làn rẽ, làn song song, làn đường bị mờ hoặc đứt đoạn làm tăng độ khó trong việc phân đoạn chính xác và ổn định.
  • Nhiễu từ các đối tượng khác: Các vạch sơn cũ, bóng xe, vết dầu hoặc biển báo có thể bị nhầm lẫn với làn đường nếu hệ thống không đủ thông minh.
  • Yêu cầu thời gian thực: Hệ thống cần xử lý nhanh chóng trên phần cứng giới hạn của xe để đảm bảo an toàn, đòi hỏi mô hình phải có độ trễ thấp và hiệu suất cao.
Minh họa về bài toán nhận diện làn đường
Sử dụng mô hình học sâu Twinlite Net trên mô hình xe đội thi

Mô hình học sâu TwinliteNet …

TwinliteNet là một mô hình học sâu siêu nhẹ và hiệu quả thiết kế để giải quyết bài toán nhận diện làn đường tốc độ cao. TwinliteNet sử dụng cơ chế Encoder-Decoder mượn ý tưởng từ các mạng phát triển sử dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên, trong đó khối encoder ban đầu sẽ tiến hành trích xuất đặc trưng đa lớp từ ảnh đầu vào sau đó đặc trưng này sẽ được kết hợp và xây dựng lại ở khối decoder để cho ra đầu ra là ảnh làn đường đã được nhận diện từ ảnh đầu vào.

Kiến trúc của mô hình học sâu TwinliteNet được đề cập

TwinliteNet sử dụng cơ chế Encoder-Decoder mượn ý tưởng từ các mạng phát triển sử dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên, trong đó khối encoder ban đầu sẽ tiến hành trích xuất đặc trưng đa lớp từ ảnh đầu vào sau đó đặc trưng này sẽ được kết hợp và xây dựng lại ở khối decoder để cho ra đầu ra là ảnh làn đường đã được nhận diện từ ảnh đầu vào.

Khối encoder của TwinliteNet sử dụng ESP-Encoder được kế thừa từ mạng ESPNet cũng được thiết kế để giải quyết bài toán nhận diện làn đường tốc độ cao. TwinliteNet còn sử dụng cơ chế attention để gia tăng sự chú ý lên các vùng quan trọng của đặc trưng đầu vào dùng khối PAM (Position Attention Module) và CAM (Channel Attention Module) sau đó được kết hợp (fusion) và đưa qua khối Decoder để xây dựng lại và cho ảnh đầu ra là ảnh đã phân đoạn làn đường

Về kết quả, mô hình TwinliteNet cho ra tốc độ nhanh hơn hẳn các mô hình giải quyết cùng bài toán như YOLOP, YOLOPv2 hay HybridNets, mà không xảy ra hiện tượng đánh đổi hiệu năng giữa tốc độ và độ chính xác với độ chính xác vẫn cao đáng kể trên tác vụ phân đoạn làn đường đi được đạt mIoU 91.3% chỉ thua YOLOP và YOLOPv2 một ít không đáng kể và độ chính xác trên tác vụ phân đoạn line đường đạt IoU 31.08%.

Kết quả so sánh của mô hình

Tài liệu tham khảo: Q.-H. Che, D.-P. Nguyen, M.-Q. Pham, and D.-K. Lam, “TwinLiteNet: An Efficient and Lightweight Model for Driveable Area and Lane Segmentation in Self-Driving Cars,” arXiv preprint arXiv:2307.10705, Jul. 2023. [Online]. Available: https://arxiv.org/abs/2307.10705

__________________________________

Thực hiện bài viết bởi: Đỗ Minh Khôi