66B là một mô hình ngôn ngữ quy mô lớn với khoảng 66 tỷ tham số, được thiết kế để tối ưu hiệu suất trên nhiều tác vụ ngôn ngữ tự nhiên như sinh văn bản, trả lời câu hỏi và tóm tắt. Sự phát triển của 66B phản ánh nhu cầu có các mô hình mạnh mơn nhưng vẫn tối ưu về chi phí tính toán.
Kiến trúc của 66B dựa trên transformer, với nhiều lớp tựAttention và cơ chế truyền thụ thông tin theo ngữ cảnh. Hệ thống tham số được đặt mục tiêu cân bằng giữa khả năng hiểu ngữ cảnh và hiệu quả triển khai trên phần cứng, cho phép huấn luyện và inference ở mức trung bình đến cao.
66B được huấn luyện trên một tập dữ liệu đa ngôn ngữ và đa lĩnh vực, bao gồm văn bản từ sách, báo và nội dung web. Việc cân bằng dữ liệu, lọc chất lượng và kỹ thuật tăng cường dữ liệu giúp cải thiện phong cách, độ tin cậy và khả năng tổng quát của mô hình.