Thứ năm, 27/03/2025 15:15

Tiềm năng ứng dụng của Mô hình ngôn ngữ thị giác

Mô hình ngôn ngữ thị giác (Vision Language Model - VLM) là một hệ thống trí tuệ nhân tạo (AI) đa phương thức, được xây dựng bằng cách kết hợp một Mô hình ngôn ngữ lớn (Large Language Model - LLM) với một bộ mã hóa hình ảnh (Vision encoder), từ đó giúp LLM có khả năng “nhìn thấy”. Với khả năng này, VLM có thể xử lý và hiểu nội dung đầu vào dưới nhiều định dạng khác nhau như video, hình ảnh và văn bản, sau đó tạo ra các phản hồi dưới dạng văn bản như mô tả về hình ảnh, video; trả lời các câu hỏi liên quan tới các hình ảnh hoặc nhận diện các phần hoặc đối tượng trong hình ảnh, video.

Lượt dowload: 0 Lượt xem: 153

Đánh giá

X
(Di chuột vào ngôi sao để chọn điểm)