Hành động không mấy tốt đẹp đến từ OpenAI đã xảy ra.

OpenAI hiện đang thu thập thông tin trên Internet bằng GPTBot, đó là một robot sẽ thu thập dữ liệu từ các trang web để đào tạo các mô hình AI một cách minh bạch và có trách nhiệm, vâng, đó là theo lời của OpenAI.

openai chatgpt

Trên trang web của OpenAI cũng có ghi cách chặn quyền truy cập của GPTBot vào trang web bằng cách thêm User-agent: GPTBot vào robots.txt. Thế nhưng không mấy người vui vẻ với điều này. Vì sao?

Bạn là chủ trang web và bạn phải chủ động chặn quyền truy cập của GPTBot vào trang web của mình thay vì tự nguyện đưa trang web của mình vào chương trình thu thập dữ liệu để đào tạo AI của họ. Tức là mặc định bạn đang cho phép GPTBot truy cập nội dung website của mình. Ủa tôi cho phép hồi nào? Ai cho phép OpenAI tự cho phép mình cái quyền đó vậy?

Nó cũng giống như một kẻ trộm thông báo với cả làng rằng: Ê cả làng, tao sẽ vào từng nhà để lục lọi, và mọi người ai không muốn điều đó thì hãy khoá cửa.

Theo công bố, OpenAI đang dùng các nguồn dữ liệu từ Wikipedia, hồ sơ toà án của các chính phủ, sách và email. Ok tạm đồng ý rằng đó là các nguồn dữ liệu public ai cũng có thể access. Nhưng giờ đây họ đang quét cả internet, câu chuyện lại hoàn toàn khác.

Có lẽ bạn sẽ hỏi: Google lâu nay vẫn quét các trang web đó thôi sao không ai nói?

Google thì hoàn toàn khác, Google quét trang web của bạn để mang trang web của bạn đến mọi người, tức là mang lượng truy cập vào trang web. Đây là mối quan hệ cộng sinh, win-win. Khi bạn làm ra một trang web, bạn có những mục đích nhất định, ví dụ như đặt quảng cáo kiếm tiền hay bán sản phẩm. Bằng cách dẫn người dùng vào trang web, Google công nhận đó là nội dung của bạn, mang lại lợi ích cho bạn.

OpenAI không như vậy, mà thậm chí ngược lại, OpenAI không công nhận các trang web mà họ đã sử dụng để xây dựng các mô hình của mình. Ví dụ cho dễ hiểu, một ông giáo sư A sau khi nghiên cứu thì đăng lên website của ổng: Trái đất có hình vuông. OpenAI sẽ thu thập nhưng chỉ nói rằng trái đất có hình vuông thay vì trích dẫn: Theo trang web của giáo sư A thì trái đất có hình vuông.

Đăng lên web là public rồi, thì GPTBot vào xem được mà.

Không phải vậy, mỗi cá nhân, tổ chức tạo ra trang web vì những mục đích nhất định, người ta public là public cho NGƯỜI DÙNG chứ không phải robot, robot này của OpenAI không mang lại hiệu quả mua hàng hay nhận diện thương hiệu. Vậy nên chẳng ai vui vẻ khi tốn thêm chi phí máy chủ cho GPTBot vào để ăn cắp nội dung họ mất công tạo ra cả. Không ai, không cái gì được tự cho mình quyền access vào dữ liệu của người khác, kể cả OpenAI.

Bạn tạo ra trang web và viết nội dung là dành cho người dùng của bạn, khách hàng tiềm năng của bạn, bạn muốn người dùng ở trên trang web, chứ không phải để một công ty nào đó dùng trang web làm dữ liệu để train một mô hình AI của họ. Đó là sản phầm kinh doanh của họ và bạn không có trách nhiệm liên quan gì ở đây cả.