✨Con vẹt ngẫu tính
Trong học máy, thuật ngữ stochastic parrot, tức con vẹt ngẫu tính hay con vẹt ngẫu nhiên, là phép ẩn dụ để mô tả cái lý thuyết cho rằng các mô hình ngôn ngữ lớn mặc dù có thể tạo ra câu chữ có vẻ hợp lý, nhưng không hề hiểu được ý nghĩa của ngôn từ mà bản thân xử lý. đặt ra trong bài báo nghiên cứu trí tuệ nhân tạo năm 2021 "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜" (Về sự nguy hiểm của loài vẹt ngẫu tính: Mô hình ngôn ngữ có thể lớn quá không? 🦜) do Bender, cùng với Timnit Gebru, Angelina McMillan-Major và Margaret Mitchell viết.
Nguồn gốc và định nghĩa
Thuật ngữ này lần đầu tiên được sử dụng trong bài báo "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜" do Bender, Timnit Gebru, Angelina McMillan-Major và Margaret Mitchell (sử dụng bút danh "Shmargaret Shmitchell") viết.
Từ nguyên của thuật ngữ stochastic parrot
Từ ngữ "stochastic"từ tiếng Hy Lạp cổ đại "" ('dựa trên phỏng đoán')là thuật ngữ từ lý thuyết xác suất có nghĩa là "được xác định ngẫu nhiên". Từ "parrot" chỉ năng lực bắt chước tiếng người của loài vẹt, mà không hề hiểu ý nghĩa gì.
- LLM bị hạn chế bởi dữ liệu mà chúng được huấn luyện, và chỉ đơn thuần lặp lại nội dung của tập dữ liệu một cách ngẫu tính.
- Vì chúng chỉ tạo dựng đầu ra dựa trên dữ liệu huấn luyện, nên LLM không hề hiểu được những gì chúng nói ra là sai trái hay không phù hợp.
Lindholm và cộng sự lưu ý rằng, với các tập dữ liệu chất lượng kém cùng với những hạn chế khác, máy học có thể tạo ra những kết quả "sai lầm một cách nguy hiểm".
Google can dự
Google đã yêu cầu Gebru rút lại bài báo hoặc xóa tên các nhân viên Google khỏi bài báo. Theo Jeff Dean, bài báo "không đạt tiêu chuẩn xuất bản của chúng tôi". Để đáp lại, Gebru đã liệt kê các điều kiện cần phải đáp ứng, nói rõ rằng bằng không thì họ có thể sẽ "làm việc ngày cuối". Dean viết rằng một trong những điều kiện này là Google phải tiết lộ danh tính những người đánh giá bài báo kèm với phản hồi cụ thể của họ, nhưng Google đã từ chối. Ngay sau đó, cô nhận được email thông báo rằng Google đã "chấp nhận đơn từ chức của cô". Việc sa thải cô đã khiến những nhân viên Google biểu tình, các nhân viên đó tin rằng ý định của Google là bịt lời chỉ trích của Gebru.
Sử dụng sau này
Vào tháng 7 năm 2021, Viện Alan Turing đã tổ chức một buổi thuyết trình ý chính và tọa đàm về bài báo. , bài báo đã được trích dẫn trong 4.789 xuất bản. Thuật ngữ này đã được sử dụng trong các xuất bản trong lĩnh vực luật pháp, ngữ pháp, tự sự, và nhân văn. Các tác giả tiếp tục duy trì mối lo ngại của họ về những nguy hiểm của chatbot dựa trên các mô hình ngôn ngữ lớn, chẳng hạn như GPT-4.
"Con vẹt ngẫu tính" hiện là một 'tân tạo ngữ' (neologism) được những người hoài nghi A.I dùng để chỉ việc máy móc không hiểu ý nghĩa của kết quả đầu ra của chúng, và đôi khi được coi là "lời để nói xấu A.I".
Cụm từ này thường được một số nhà nghiên cứu nhắc đến để mô tả LLM là các "pattern matcher" có thể tạo ra văn bản trôi chảy giống con người thông qua lượng dữ liệu huấn luyện vô bờ của chúng, nhưng chỉ đơn thuần là nhại lại một cách ngẫu tính. Tuy nhiên, các nhà nghiên cứu khác biện luận rằng LLM thực tế có khả năng hiểu ngôn ngữ ít nhất phần nào.
Tranh luận
Một số LLM, chẳng hạn như ChatGPT, đã có khả năng tương tác với người dùng trong các cuộc trò chuyện giống con người một cách thuyết phục. Đối với LLM, các từ chỉ có thể tương ứng với các từ khác và tương ứng với các 'mô thức sử dụng' được cho vào trong dữ liệu huấn luyện của chúng. Những người ủng hộ ý tưởng con vẹt ngẫu tính do đó kết luận rằng các LLM không hề có khả năng thực sự hiểu được ngôn ngữ. Các bài kiểm tra như vậy, cùng với phản hồi trôi chảy của nhiều LLM, khiến đến 51% chuyên gia A.I tin rằng với đủ dữ liệu thì chúng thực sự có thể hiểu được ngôn ngữ, theo một khảo sát năm 2022.
Trong một ví dụ khác, một con transformer nhỏ được huấn luyện trên các chương trình máy tính được viết bằng ngôn ngữ lập trình Karel. Tương tự như ví dụ Othello-GPT, bên trong mô hình này đã phát triển ra được biểu diễn về ngữ nghĩa chương trình Karel. Việc sửa đổi cách biểu diễn này sẽ kéo theo những thay đổi tương ứng ở đầu ra. Thêm vào đó, mô hình này tạo ra các chương trình chính xác, mà trung bình lại ngắn hơn các chương trình tương ứng trong tập huấn luyện.
Các nhà nghiên cứu cũng có tìm tòi về "grokking", hiện tượng mà mô hình A.I ban đầu ghi nhớ dữ liệu huấn luyện trong đầu ra, xong rồi sau khi huấn luyện thêm, đột nhiên tìm ra giải pháp khái quát hóa cho dữ liệu chưa thấy.
Suy luận bằng cách đi đường tắt
Tuy nhiên, khi các bài kiểm tra được tạo ra để kiểm tra khả năng lĩnh hội ngôn ngữ của con người được sử dụng để kiểm tra LLM, đôi khi chúng dẫn đến kết quả 'dương tính giả' do các mối tương quan không thật trong dữ liệu văn bản. Các mô hình đã cho thấy các ví dụ về việc 'học theo lối tắt', đó là khi hệ thống tạo dựng các 'mối tương quan không liên quan nhau' trong dữ liệu thay vì sử dụng sự hiểu biết giống như con người. Một thí nghiệm như vậy được tiến hành vào năm 2019 đã kiểm tra BERT LLM của Google bằng cách sử dụng "Tác vụ lĩnh hội về suy lý lập luận" (Argument Reasoning Comprehension Task). BERT được nhận prompt lựa chọn giữa 2 câu phát biểu, và tìm câu phù hợp nhất với lập luận. Dưới đây là một ví dụ về một trong những lời prompt đó:
Các nhà nghiên cứu phát hiện ra rằng những từ cụ thể như "[https://vi.wiktionary.org//wiki/not#Tiếng_Anh not]" gợi ý cho mô hình hướng về câu trả lời đúng, cho phép đạt điểm gần như tuyệt đối khi đưa những từ đó vào, nhưng khi loại bỏ các từ gợi ý đó ra thì kết quả lại là lựa chọn ngẫu nhiên đáp án. Vấn đề này, cùng với khó khăn đã biết trong việc định nghĩa 'trí thông minh là gì', khiến một số người biện luận rằng mọi benchmark để tìm xem liệu LLM có hiểu không thì đều có thiếu sót trong đó, rằng tất cả benchmark đều cho phép "đi đường tắt" để giả vờ là có hiểu.
