Đánh giá ChatGPT Agent – Phát hành mới nhất từ OpenAI

ChatGPT Agent là một tính năng mới từ OpenAI cho phép AI hoàn thành các nhiệm vụ trực tuyến phức tạp, nhiều bước một cách tự động. Nó hoạt động trong một môi trường máy tính ảo biệt lập, cho phép AI chuyển đổi giữa suy luận và hành động để thực hiện nhiều chức năng khác nhau, từ nghiên cứu chuyên sâu đến tương tác với các trang web.
Sự cải tiến này kết hợp hai công cụ chuyên biệt trước đây của OpenAI: ‘Operator,’ được thiết kế cho các hành động trên web, và ‘Deep Research,’ tập trung vào tổng hợp thông tin. Kết quả là một hệ thống hợp nhất không chỉ có thể duyệt web mà còn điền vào các biểu mẫu, chỉnh sửa bảng tính và thực thi mã, đồng thời giữ người dùng luôn kiểm soát. ChatGPT agent được thiết kế để tương tác và hợp tác, cho phép người dùng có thể ngắt, làm rõ hoặc tiếp quản nhiệm vụ bất cứ lúc nào. Đây là đánh giá ChatGPT Agent thực tế của chúng tôi.
Những điểm chính cần lưu ý về ChatGPT Agent
- Thực hiện nhiệm vụ tự động: ChatGPT Agent là một AI tự động thực hiện các nhiệm vụ số phức tạp, nhiều bước trong một môi trường máy tính bảo mật và biệt lập.
- Bộ công cụ tích hợp: Nó sử dụng các công cụ tích hợp sẵn, bao gồm trình duyệt web và một terminal mã, để duyệt web, tương tác với các ứng dụng và phân tích dữ liệu.
- Hiệu suất điểm chuẩn: Trong các bài kiểm tra điểm chuẩn, đại lý đạt 45,5% trên các nhiệm vụ bảng tính, hơn gấp đôi 20,0% mà Microsoft’s Copilot đạt được trong Excel.
- Chuyển sang ủy thác: Nó thay đổi vai trò của người dùng từ việc đặt câu hỏi đơn giản sang ủy thác toàn bộ dự án, như lên kế hoạch cho một chuyến đi hoặc tạo ra một báo cáo nghiên cứu.
- Hoạt động do người dùng điều khiển: Đại lý hoạt động dưới sự kiểm soát hoàn toàn của người dùng, với khả năng gián đoạn, cung cấp hướng dẫn mới hoặc ngừng hoàn toàn một nhiệm vụ bất cứ lúc nào.
Tính năng của ChatGPT Agent
ChatGPT Agent được trang bị một bộ công cụ được thiết kế để xử lý một loạt các tác vụ kỹ thuật số. Các tính năng cốt lõi của nó được xây dựng để cung cấp mức độ chức năng cao trong khi ưu tiên kiểm soát và an toàn cho người dùng. ChatGPT Agent minh họa sức mạnh thực tế của AI Chủ động, thực hiện các quy trình công việc kỹ thuật số phức tạp tự động từ một yêu cầu đơn lẻ của người dùng.
- Môi trường máy tính ảo: Đại lý hoạt động trong một môi trường máy tính ảo cô lập và cách ly. Điều này cho phép nó thực hiện các tác vụ một cách an toàn mà không truy cập các tệp cục bộ của người dùng trừ khi được phép. Trong môi trường này, nó có thể mở một trình duyệt trực quan để tương tác với các giao diện đồ họa, sử dụng trình duyệt dựa trên văn bản cho các truy vấn đơn giản, chạy mã trong terminal và sử dụng truy cập API trực tiếp.
- Hệ thống Đồng Nhất Tác Nhân: Nó kết hợp khả năng của ‘Operator’ và ‘Nghiên cứu Chuyên sâu’ vào một hệ thống thống nhất, chặt chẽ. Sự tích hợp này cho phép nó không chỉ thực hiện hành động trên các trang web mà còn tiến hành phân tích sâu và tổng hợp thông tin từ nhiều nguồn.
- Bộ công cụ Tích hợp: Tác nhân có một bộ công cụ đa dạng bao gồm trình duyệt hình ảnh, trình duyệt văn bản, một terminal và truy cập API. Nó có thể lựa chọn công cụ phù hợp cho nhiệm vụ hiện tại, điều chỉnh cách tiếp cận để đạt tốc độ và hiệu quả cao nhất.
- Kiểm soát người dùng và An toàn: Nguyên tắc thiết kế chính của Tác nhân ChatGPT là giữ cho người dùng luôn có quyền kiểm soát. Bạn có thể ngắt tác nhân bất kỳ lúc nào để cung cấp hướng dẫn mới hoặc tiếp quản nhiệm vụ. Để tăng cường bảo mật, ‘Watch Mode’ cung cấp các cảnh báo trước khi tác nhân thực hiện các hành động nhạy cảm. Đối với người dùng doanh nghiệp trên các gói Team và Enterprise, ghi nhật ký toàn diện khả dụng cho mục đích gỡ lỗi và kiểm tra.
- Tích hợp Kết nối: Tác nhân ChatGPT có thể kết nối với các ứng dụng bên thứ ba như Gmail, Google Drive và SharePoint. Các kết nối này hoạt động như các nguồn dữ liệu chỉ đọc, cho phép tác nhân kéo thông tin liên quan vào các quy trình làm việc của mình. Ví dụ, nó có thể tóm tắt hộp thư đến của bạn hoặc kiểm tra lịch của bạn để tìm thời gian họp có sẵn.
Đánh giá ChatGPT Agent trong hiệu suất
Khả năng của Tác nhân ChatGPT mở rộng vượt ra ngoài tương tác chatbot đơn giản, biến nó thành công cụ chức năng để thực hiện các quy trình phức tạp.
- Tương tác Web: Tác nhân ChatGPT có thể điều hướng web, điền biểu mẫu, nhấp vào nút và gửi truy vấn. Nó có thể xử lý cả duyệt văn bản đơn giản và các tương tác phức tạp hơn đòi hỏi trình duyệt hình ảnh.
- Tự động hóa Công việc: Một trong những chức năng chính của tác nhân là tự động hóa các nhiệm vụ nhiều bước. Ví dụ, nó có thể được hướng dẫn tải xuống một tệp từ GitHub, chạy kiểm tra lỗ hổng, và sau đó lưu kết quả vào Google Drive. Nó cũng có thể quản lý sự kiện trên lịch, lập kế hoạch bữa ăn dựa trên nhu cầu chế độ ăn, hoặc thực hiện phân tích cạnh tranh.
- Tạo Nội dung: Tác nhân có khả năng tạo ra các loại tài liệu khác nhau. Nó có thể tạo bài trình bày PowerPoint từ một tập hợp hướng dẫn, tạo và điền dữ liệu vào bảng tính Excel, và viết email.
- Phân tích Dữ liệu: Với quyền truy cập vào một terminal mã lệnh và chức năng bảng tính, tác nhân có thể thực hiện các nhiệm vụ phân tích dữ liệu. Các đánh giá đã cho thấy nó có thể vượt trội hơn Copilot của Microsoft trong một số nhiệm vụ dựa trên Excel.
Các Trường hợp Sử dụng Tác nhân ChatGPT

Các ứng dụng thực tiễn của Tác nhân ChatGPT bao gồm nhiều lĩnh vực cá nhân và chuyên nghiệp khác nhau. Khả năng tự động hóa nghiên cứu, tạo nội dung, và các công việc hành chính của nó làm cho nó trở thành một trợ lý đáng giá cho một loạt người dùng.
- Hoạt động Kinh doanh: Các đội ngũ bán hàng có thể giao việc nghiên cứu khách hàng tiềm năng và viết email tiếp cận. Các phòng nhân sự có thể tự động hóa các khía cạnh của tuyển dụng và hòa nhập, chẳng hạn như sàng lọc hồ sơ và gửi tài liệu giới thiệu.
- Phát triển Sản phẩm và Hỗ trợ Điều hành: Các đội sản phẩm có thể sử dụng tác nhân để nhanh chóng chuyển đổi các thông số kỹ thuật dự án thành các bài trình bày hoàn chỉnh. Các giám đốc điều hành có thể giao các nhiệm vụ nghiên cứu cho tác nhân, yêu cầu nó chuẩn bị báo cáo chi tiết về xu hướng thị trường hoặc đối thủ cạnh tranh.
- Năng suất Cá nhân: Tác nhân có thể được sử dụng cho nhiều công việc cá nhân, chẳng hạn như lên kế hoạch cho chuyến đi, có thể bao gồm tìm kiếm chuyến bay và khách sạn, nghiên cứu các hoạt động và tạo ra một hành trình. Nó cũng có thể giúp lập kế hoạch bữa ăn, quản lý tài chính cá nhân, hoặc tổ chức các tệp kỹ thuật số của bạn.
- Mô hình Tài chính: Một người dùng có thể yêu cầu đại lý xây dựng một mô hình tỷ lệ tiêu tiền cho một công ty khởi nghiệp. Nhiệm vụ phức tạp này có thể bao gồm việc truy cập các tệp cục bộ (với sự cho phép), thu thập dữ liệu ngành từ các nguồn trực tuyến, và xây dựng mô hình trong một bảng tính.
Đánh giá ChatGPT Agent
OpenAI đã phát hành một số bài đánh giá để chứng minh các cải tiến hiệu suất của mô hình mới hoạt động ChatGPT Agent.
- Nhân văn: Trong bài đánh giá Nhân văn Kỳ thi Cuối cùng, đại lý đạt được 44.4%, vượt qua hiệu suất của các mô hình đương thời khác.
- Toán học: Trong bài đánh giá FrontierMath, kiểm tra khả năng suy luận toán học tiên tiến, đại lý đạt điểm 27.4%, một cải tiến đáng kể so với các mô hình trước của OpenAI.
- Nhiệm vụ Bảng tính: Trên một bài đánh giá gọi là SpreadsheetBench, ChatGPT Agent đạt điểm 45.5%, hơn gấp đôi so với điểm 20.0% của Microsoft Copilot trong Excel.
- Khoa học Dữ liệu: Đại lý cũng cho thấy sự cải thiện hiệu suất đáng kể trên DSBench, một bài đánh giá được thiết kế để đánh giá hiệu suất trên các nhiệm vụ khoa học dữ liệu thực tế.
- Nhiệm vụ Dựa trên Web: Trong bài đánh giá Web Arena, đo lường hiệu suất trên các nhiệm vụ thực tế dựa trên web, đại lý được báo cáo là đang tiến đến mức hiệu suất của con người.
Cách truy cập ChatGPT Agent
ChatGPT Agent đang được triển khai cho người dùng với các gói đăng ký cụ thể. Nó có sẵn cho người đăng ký Pro, Plus, và Team, với kế hoạch mở rộng quyền truy cập tới người dùng Giáo dục và Doanh nghiệp trong tương lai gần. Người dùng Pro nhận được số lượng truy vấn cao hơn mỗi tháng so với người dùng Plus và Team. Để kích hoạt đại lý, bạn có thể chọn ‘Chế độ đại lý’ từ menu công cụ trong giao diện ChatGPT hoặc gõ /agent trong trình soạn thảo.
Đánh giá Trực tiếp ChatGPT Agent: Lên kế hoạch cho chuyến đi 10 ngày đến Nhật Bản

Để kiểm tra khả năng của ChatGPT Agent, chúng tôi đã giao cho nó một nhiệm vụ thực tế: lên kế hoạch cho một chuyến đi 10 ngày tới Nhật Bản cho một cặp đôi, bao gồm trượt tuyết mùa đông và thăm Tokyo, Kyoto, và Osaka. Tổng ngân sách cho chuyến đi, bao gồm cả vé máy bay từ London, được đặt ở mức thử thách 5.000 đô la. Dưới đây là bản tường thuật từng bước về cách mà agent xử lý yêu cầu.
Bước 1: Khởi tạo yêu cầu và làm rõ
Chúng tôi bắt đầu với một yêu cầu rõ ràng, chi tiết:
‘Lên kế hoạch cho một chuyến đi trọn gói 10 ngày tới Nhật Bản cho một cặp đôi vào mùa đông. Chuyến đi nên bao gồm 3 ngày trượt tuyết, sau đó là 7 ngày chia đều giữa Tokyo, Kyoto, và Osaka. Tổng ngân sách, bao gồm chuyến bay khứ hồi từ London, phải dưới 5.000 đô la.’
Agent bắt đầu bằng cách chia nhỏ yêu cầu thành một loạt các bước logic. Nó xác định các điều kiện chính: thời gian 10 ngày, lịch trình bốn địa điểm, khung thời gian mùa đông, và ngân sách chặt chẽ 5.000 đô la. Sau đó, nó đưa ra kế hoạch hành động:
- Tìm chuyến bay tiết kiệm nhất từ London đến Nhật Bản trong những tháng mùa đông (tháng mười hai đến tháng hai).
- Nghiên cứu các khu nghỉ dưỡng trượt tuyết trọn gói ở Nhật Bản có giá trị tốt cho kỳ nghỉ 3 ngày.
- Tìm chỗ ở tiết kiệm ở Tokyo, Kyoto, và Osaka cho 7 ngày còn lại.
- Lập kế hoạch đi lại từng ngày bao gồm việc di chuyển giữa bốn địa điểm.
- Dự toán tổng chi phí cho vé máy bay, chỗ ở, vé trượt tuyết, di chuyển và chi phí hàng ngày để đảm bảo chuyến đi nằm trong ngân sách 5.000 đô la.
Bước 2: Nghiên cứu và thu thập thông tin
Đại lý bắt đầu nghiên cứu của mình bằng cách sử dụng trình duyệt web tích hợp để tìm kiếm các chuyến bay. Nó nhanh chóng quét qua nhiều công cụ tổng hợp dịch vụ du lịch và trang web của các hãng hàng không, xác định rằng thời gian tiết kiệm nhất để du lịch sẽ là vào cuối tháng 1 hoặc đầu tháng 2, tránh mùa du lịch cao điểm. Nó tìm thấy một số lựa chọn cho vé khứ hồi từ London tới Tokyo (Narita hoặc Haneda) khoảng từ 1,200–1,500 cho hai người.
Tiếp theo, nó giải quyết phần khu nghỉ dưỡng trượt tuyết của chuyến đi. Đại lý tìm kiếm ‘các gói trượt tuyết trọn gói ở Nhật Bản’ và ‘các khu nghỉ dưỡng trượt tuyết giá rẻ gần Tokyo.’ Nó phân tích một số lựa chọn, xem xét các yếu tố như độ dễ tiếp cận từ Tokyo, giá vé cáp treo, và chi phí lưu trú. Nó thu hẹp sự lựa chọn xuống vài khu nghỉ dưỡng ở các tỉnh Nagano và Niigata, nổi tiếng với tuyết tuyệt vời và giá cả hợp lý hơn so với Hokkaido.
Đối với phần thành phố của chuyến đi, đại lý tìm kiếm các lựa chọn lưu trú tiết kiệm, bao gồm các khách sạn kinh doanh, ryokan (nhà trọ truyền thống Nhật Bản), và danh sách Airbnb được đánh giá cao. Nó tham khảo chéo giá với đánh giá và vị trí để tìm ra sự cân bằng tốt nhất về chi phí và sự tiện lợi.
Bước 3: Tạo lịch trình và ngân sách
Với nghiên cứu đã hoàn tất, đại lý bắt đầu xây dựng lịch trình. Nó tổ chức chuyến đi theo một trình tự hợp lý để giảm thiểu thời gian và chi phí di chuyển:
- Ngày 1–4: Trượt tuyết ở Hakuba
- Ngày 1: Đến sân bay Tokyo Narita (NRT), đi xe buýt trực tiếp đến Hakuba (một khu nghỉ dưỡng trượt tuyết ở dãy núi Alps Nhật Bản). Nhận phòng tại một nhà khách trượt tuyết thân thiện với ngân sách đã được chọn sẵn. Đại lý đã tìm thấy một gói bao gồm 3 đêm lưu trú, vé cáp treo 2 ngày, và bữa sáng khoảng $800 cho hai người.
- Ngày 2–3: Trượt tuyết ở Hakuba. Đại lý lưu ý rằng nhiều nhà khách ở Hakuba cung cấp giảm giá vé cáp treo và thuê đồ, điều này đã được đưa vào ngân sách.
- Ngày 4: Buổi sáng trượt tuyết, sau đó đi xe buýt vào buổi chiều trở về Tokyo.
- Ngày 4–6: Tokyo
- Ngày 4 (Buổi tối): Đến Tokyo, nhận phòng khách sạn thương gia ở khu vực trung tâm như Shinjuku hoặc Shibuya. Đại lý đã tìm thấy các tùy chọn với chi phí khoảng
100–100–
120 mỗi đêm. - Ngày 5: Khám phá Tokyo. Đại lý gợi ý một tour tự hướng dẫn qua các khu vực nổi tiếng như Shibuya (với giao lộ nổi tiếng), Harajuku (với văn hóa và thời trang giới trẻ), và Shinjuku (với đài quan sát miễn phí của Tòa nhà Chính phủ Tokyo).
- Ngày 6: Tham quan các địa điểm văn hóa như Đền Senso-ji ở Asakusa và Đền Meiji. Đại lý cũng gợi ý khám phá Công viên Ueno và các bảo tàng của nó.
- Ngày 4 (Buổi tối): Đến Tokyo, nhận phòng khách sạn thương gia ở khu vực trung tâm như Shinjuku hoặc Shibuya. Đại lý đã tìm thấy các tùy chọn với chi phí khoảng
- Ngày 7–8: Kyoto
- Ngày 7: Đi Shinkansen (tàu cao tốc) từ Tokyo đến Kyoto. Đại lý lưu ý rằng vé Japan Rail Pass có thể không hiệu quả về mặt chi phí cho hành trình cụ thể này và gợi ý mua vé lẻ thay thế, tiết kiệm khoảng 150 USD. Nhận phòng tại ryokan để có trải nghiệm truyền thống hơn, với giá khoảng 130 USD mỗi đêm.
- Ngày 8: Khám phá các địa điểm lịch sử của Kyoto, bao gồm Đền Fushimi Inari (với hàng nghìn cổng torii đỏ), Kinkaku-ji (Ngôi Đền Vàng), và Rừng Trúc Arashiyama.
- Ngày 9–10: Osaka
- Ngày 9: Đi tàu ngắn từ Kyoto đến Osaka. Nhận phòng khách sạn ở khu vực Namba hoặc Umeda. Khám phá Dotonbori, khu vui chơi giải trí và ẩm thực nổi tiếng của Osaka, và thử các món đặc sản địa phương như takoyaki và okonomiyaki.
- Ngày 10: Tham quan Lâu đài Osaka vào buổi sáng, mua sắm quà lưu niệm phút cuối, và sau đó đến Sân bay Quốc tế Kansai (KIX) để bay trở về London.
Bước 4: Phân Tích Ngân Sách Cuối Cùng
Đại lý đã cung cấp bản phân tích chi phí chi tiết để đảm bảo chuyến đi nằm trong ngân sách 5,000 USD:
- Chuyến bay: ~1,500 USD (London đến Tokyo, trở về từ Osaka)
- Lưu trú:
- Nhà nghỉ trượt tuyết (3 đêm, bao gồm vé trượt): ~800 đô la
- Khách sạn Tokyo (3 đêm): ~360 đô la
- Ryokan Kyoto (2 đêm): ~260 đô la
- Khách sạn Osaka (1 đêm): ~120 đô la
- Vận chuyển:
- Xe buýt (Tokyo đến Hakuba và ngược lại): ~150 đô la
- Shinkansen (Tokyo đến Kyoto): ~250 đô la
- Tàu địa phương (Kyoto đến Osaka, chuyển sân bay, v.v.): ~100 đô la
- Ăn uống và chi phí hàng ngày: Ước tính là
120perdayfor10days: 120perdayfor10days:
1,200 - Quỹ dự phòng: ~260 đô la
Tổng chi phí ước tính: ~4,900 đô la
Ví dụ thực tế này minh họa cách ChatGPT Agent có thể hoạt động như một lập kế hoạch chuyến đi khả năng và hiệu quả. Nó đã điều hướng một tập hợp phức tạp các ràng buộc, thực hiện nghiên cứu kỹ càng và đưa ra một lịch trình chi tiết, có thể thực hiện đáp ứng tất cả các yêu cầu của người dùng. Bằng cách chia nhỏ vấn đề thành các bước nhỏ hơn, dễ quản lý, các người đại diện đã có thể tạo ra một kế hoạch toàn diện mà có lẽ một người dùng thực hiện sẽ mất hàng giờ, nếu không nói là ngày, để tập hợp. Điều này thể hiện giá trị thực tế của ChatGPT Agent trong việc xử lý các nhiệm vụ nhiều bước thực tế trong thế giới thực.
Đánh giá ChatGPT Agent – Có đáng không?
Thật sự, khi chúng tôi giao nhiệm vụ cho ChatGPT Agent lập kế hoạch cho toàn bộ chuyến đi Nhật Bản tiết kiệm chi phí, đó là một khoảnh khắc ‘hãy cho tôi thấy, đừng nói’. Và nó đã cho chúng tôi thấy. Đây là nơi bạn cảm nhận sự khác biệt giữa chatbot trả lời câu hỏi và một người đại diện thực hiện các nhiệm vụ. Nó cảm thấy ít như tôi đang nhập lệnh hơn mà như tôi đang ủy thác một dự án cho một trợ lý giỏi.
Quan sát nó kết hợp các chuyến bay, gói trượt tuyết, và một lịch trình từng ngày là khoảnh khắc ý tưởng ‘AI Đại diện’ trở thành hiện thực—không chỉ còn là một khái niệm nữa, mà là một công cụ thực sự giúp bạn tiết kiệm thời gian. Trong khi bạn vẫn cần là người ở vị trí tay lái, ChatGPT Agent là một phó lái mạnh mẽ để điều hướng các nhiệm vụ phức tạp, tốn thời gian làm đầy ngày làm việc của chúng ta.