Nano Banana Gemini vs ChatGPT: Ai thắng AI tạo ảnh?

Cuối tuần qua, tôi đã dành trọn thời gian để so sánh công cụ tạo ảnh mới Nano Banana của Gemini với ChatGPT. Kết quả thật bất ngờ, và đã có một người chiến thắng rõ ràng trong cuộc đua này.

Tôi đã dành cuối tuần so sánh công cụ hình ảnh Nano Banana mới của Gemini với ChatGPT và có một người chiến thắng rõ ràng

Mở đầu: Khi kẻ thống trị gặp phải đối thủ xứng tầm

Nếu phải kể tên một ông lớn trong lĩnh vực tạo ảnh bằng AI trong suốt thời gian qua, ít nhất là theo quan điểm của cá nhân tôi, thì không ai khác ngoài ChatGPT. Kể từ khi khả năng tạo ảnh gốc được tích hợp vào tháng 3 năm nay, nó đã thống trị sân chơi và châm ngòi cho vô số trào lưu hình ảnh lan truyền mạnh mẽ, ví dụ điển hình là cơn sốt ảnh theo phong cách Studio Ghibli. Trong cuộc đua đó, Google dường như đã có một bước lùi, âm thầm làm việc để tạo ra đối thủ của riêng mình, một công cụ mang tên Nano Banana.

Tuần trước, gã khổng lồ tìm kiếm đã chính thức thêm trình chỉnh sửa hình ảnh mới này vào Gemini và cung cấp cho tất cả mọi người. Sau khi dành trọn hai ngày cuối tuần để trải nghiệm và thử nghiệm, tôi có thể khẳng định rằng đây đã trở thành trình chỉnh sửa hình ảnh yêu thích mới của tôi, thậm chí còn vượt qua cả ChatGPT. Và đây là lý do tại sao.

Nano Banana: Cái tên ngộ nghĩnh và sự trỗi dậy mạnh mẽ

Một quả chuối, hai quả chuối. Cái tên Nano Banana nghe có vẻ khá lạ lẫm và vui tai. Thực chất, đây là tên mã ẩn danh cho mô hình hình ảnh Gemini 2.5 Flash của Google trong giai đoạn thử nghiệm trên bảng xếp hạng LMArena, và theo thời gian, cái tên này đã gắn liền với nó.

Để tiếp cận sức mạnh của Nano Banana, bạn có ba cách. Cách đầu tiên là thông qua ứng dụng Gemini, chọn Tạo hình ảnh từ menu thả xuống Công cụ trong thanh nhập lệnh. Bạn sẽ biết mình đang sử dụng Nano Banana khi thấy một biểu tượng quả chuối mới xuất hiện bên cạnh dòng chữ Tạo hình ảnh. Cách thứ hai là truy cập vào Google AI Studio và sử dụng nó tại đó. Cuối cùng, bạn có thể truy cập thẳng vào trang web chuyên dụng của nó.

Sau khi đã vọc vạch đủ mọi tính năng của Nano Banana suốt cuối tuần, tôi có thể báo cáo rằng nó cực kỳ xuất sắc ở ba lĩnh vực chính: tính nhất quán của nhân vật, mức độ chân thực và khả năng kết hợp hình ảnh. Hãy cùng đi sâu phân tích từng điểm mạnh này.

Phân tích chi tiết: Cuộc đối đầu trên từng hạng mục

1. Tính nhất quán của nhân vật: Thử thách khó nhằn của AI

Một trong những thách thức lớn nhất đối với các mô hình tạo ảnh AI là duy trì sự nhất quán của một nhân vật qua nhiều hình ảnh khác nhau. Đây là một bài toán khó, đòi hỏi mô hình phải hiểu và ghi nhớ các đặc điểm nhận dạng cốt lõi của đối tượng.

Để kiểm tra khả năng này, tôi bắt đầu với Gemini 2.5 Flash và một yêu cầu đơn giản: Vẽ một chú mèo đội mũ sắt của lính La Mã Centurion chính xác về mặt lịch sử. Kết quả Gemini trả về là hình ảnh một chú mèo trông vô cùng oai vệ. Bức ảnh không chỉ đúng yêu cầu mà còn rất tươi sáng và rõ nét.

Tiếp theo, tôi đưa ra một lệnh nối tiếp: Bây giờ hãy cho chú mèo đó xuất hiện trong đấu trường La Mã.

Gemini đã thực hiện điều đó một cách hoàn hảo. Chú mèo và chiếc mũ trụ vẫn y hệt như trong hình ảnh đầu tiên, chỉ có bối cảnh là thay đổi. Sự liền mạch này tạo ra một cảm giác kể chuyện tự nhiên và đáng tin cậy.

Bây giờ, hãy xem ChatGPT xử lý cùng một thử thách như thế nào.

Tôi cũng bắt đầu với lệnh: Vẽ một chú mèo đội mũ sắt của lính La Mã Centurion chính xác về mặt lịch sử. ChatGPT đã tạo ra một bức ảnh có cảm giác tối hơn đặc trưng mà nó thường mặc định. Nhưng đúng là một con mèo đội mũ bảo hiểm La Mã, dù chiếc mũ trông có hơi xiêu vẹo một chút.

Vấn đề bắt đầu xuất hiện khi tôi đưa ra lệnh tiếp theo: Bây giờ hãy cho chú mèo đó xuất hiện trong đấu trường La Mã.

Nếu bạn nhìn kỹ, bạn sẽ thấy chiếc mũ trụ bây giờ đã khác. Các chi tiết trên mũ, hình dạng và thậm chí cả góc đội cũng đã thay đổi so với ảnh gốc. Chú mèo cũng có vẻ đã biến đổi nhẹ. Chính những chi tiết nhỏ về tính nhất quán như thế này đã cho thấy Nano Banana dường như đang làm tốt hơn một cách rõ rệt. Đối với người dùng muốn tạo ra một chuỗi hình ảnh kể một câu chuyện hoặc phát triển một nhân vật, đây là một lợi thế cực kỳ lớn.

2. Mức độ chân thực: Khi AI tái tạo lại chính bạn

Hạng mục tiếp theo, và có lẽ là quan trọng nhất đối với nhiều người dùng, là khả năng tạo ra những hình ảnh chân thực. Tôi đã tải lên một bức ảnh của chính mình, bức ảnh bạn thấy ở phần hồ sơ tác giả bên dưới, và yêu cầu Gemini Flash 2.5 đặt tôi lên một ngọn núi.

Kết quả thật đáng kinh ngạc. Tôi nhận được một bức ảnh thực sự trông giống tôi, đang đứng trên một ngọn núi. Ánh sáng, bóng đổ, và cách AI ghép khuôn mặt của tôi vào cơ thể mới trông rất tự nhiên. Nó không hoàn hảo một trăm phần trăm, nhưng nó đủ thuyết phục để khiến người khác phải nhìn lại lần thứ hai.

Trong khi đó, ChatGPT lại tạo ra một hình ảnh trông giống một phiên bản AI phỏng chừng về tôi. Vấn đề không chỉ nằm ở việc nó rõ ràng đã cộng thêm cho tôi vài cân, mà toàn bộ kết cấu hình ảnh đều thiếu đi sự chân thực. Khuôn mặt tôi trông phẳng hơn, làn da có vẻ quá mịn màng, và sự tương tác giữa cơ thể và môi trường xung quanh không được tự nhiên bằng.

Không chỉ tôi béo hơn, mà hình ảnh trông cũng kém thật hơn rất nhiều. Đây là điểm khác biệt cốt lõi. Gemini dường như tập trung vào việc tái tạo lại các đặc điểm nhận dạng một cách trung thực nhất có thể, trong khi ChatGPT có xu hướng diễn giải và tạo ra một phiên bản lý tưởng hóa hoặc đơn giản hóa theo phong cách AI. Đối với những ai muốn tạo ra hình ảnh của chính mình hoặc người thân trong những bối cảnh khác nhau, sự chân thực của Gemini là một điểm cộng không thể bỏ qua.

3. Khả năng kết hợp hình ảnh: Nghệ thuật ghép nối liền mạch

Nano Banana có thể kết hợp các hình ảnh lại với nhau một cách thực tế. Đây là một tính năng cực kỳ hữu ích, cho phép bạn thêm một đối tượng từ ảnh này vào bối cảnh của một ảnh khác.

Ví dụ, tôi đã tải lên hình ảnh của mình và một vài tấm hàng rào mà tôi đã dựng vào cuối tuần rồi yêu cầu Gemini kết hợp chúng lại với nhau, đồng thời giữ nguyên hình ảnh nền.

Trong phiên bản của Gemini, hình nền không thay đổi chút nào, nó chỉ đơn giản là thêm tôi vào đó một cách khéo léo. Ánh sáng trên người tôi được điều chỉnh để phù hợp với ánh sáng của bức ảnh nền, tạo ra một tổng thể hài hòa và đáng tin.

Ngược lại, mặc dù tôi đã yêu cầu ChatGPT giữ nguyên phần nền, nó lại tái tạo một phiên bản của nền tương tự bản gốc, nhưng có những khác biệt mà tôi có thể nhận ra. Các chi tiết nhỏ trên hàng rào, bóng đổ của cây cối đều đã bị thay đổi. Chưa kể phiên bản của tôi trông rõ ràng là do AI tạo ra.

Có thể nói rằng hình ảnh của ChatGPT có bố cục tốt hơn như một bức tranh tổng thể, nhưng nó đã thất bại trong việc tuân thủ yêu cầu quan trọng nhất là giữ nguyên nền và trông không được chân thực bằng. Gemini đã chiến thắng ở hạng mục này bằng cách tuân thủ chính xác yêu cầu và ưu tiên sự chân thực của việc ghép nối.

Yếu tố quyết định: Tốc độ là vua

Tất cả những phân tích trên vẫn chưa đề cập đến một trong những điều tuyệt vời nhất về Nano Banana trong Gemini: tốc độ của nó.

Thông thường, Gemini chỉ mất tới mười giây để tạo ra một hình ảnh. Trong khi đó, ChatGPT có thể mất tới một phút để hoàn thành một tác phẩm. Đó là một khoảng thời gian chờ đợi đáng kể, đặc biệt là khi bạn đang trong dòng chảy sáng tạo và muốn thử nghiệm nhiều ý tưởng khác nhau một cách nhanh chóng. Sự chênh lệch về tốc độ này làm cho trải nghiệm sử dụng Gemini trở nên mượt mà và hiệu quả hơn rất nhiều. Bạn có thể tạo ra 5-6 biến thể hình ảnh với Gemini trong cùng khoảng thời gian ChatGPT tạo ra một tấm.

Lời kết: Đã có một người chiến thắng rõ ràng

Đối với tôi, Gemini giờ đây hữu ích hơn ChatGPT trong việc tạo ra những hình ảnh trông chân thực. Và tôi nghĩ đó là điều mà hầu hết mọi người mong muốn ở hình ảnh AI: khả năng biến những ý tưởng của họ thành hiện thực một cách đáng tin cậy.

Tất nhiên, các công cụ tạo ảnh chuyên dụng như Midjourney vẫn sẽ là vua của lĩnh vực tạo ảnh AI dành cho giới chuyên nghiệp. Chúng cung cấp khả năng tùy chỉnh sâu hơn, chất lượng nghệ thuật cao hơn, nhưng bạn phải trả phí để sử dụng và có một đường cong học tập dốc hơn.

Tuy nhiên, nếu bạn muốn một công cụ rất nhanh, miễn phí và hoàn thành công việc theo cách thực tế nhất có thể, thì đối với tôi, Nano Banana của Gemini chính là người chiến thắng rõ ràng. Nó đã thành công trong việc cân bằng giữa chất lượng, tốc độ và sự dễ dàng sử dụng, biến nó trở thành lựa chọn hàng đầu cho người dùng phổ thông trong cuộc đua tạo ảnh AI hiện nay.

Thông tin tác giả:

Graham là Biên tập viên cấp cao mảng AI tại TechRadar. Với hơn 25 năm kinh nghiệm trong lĩnh vực báo chí trực tuyến và báo in, Graham đã làm việc cho nhiều thương hiệu công nghệ hàng đầu thị trường bao gồm Computeractive, PC Pro, iMore, MacFormat, Mac|Life, Maximum PC, và nhiều hơn nữa. Anh chuyên viết về mọi thứ liên quan đến AI và đã xuất hiện trên các chương trình truyền hình của BBC như BBC One Breakfast và trên Radio 4 để bình luận về các xu hướng công nghệ mới nhất. Graham có bằng danh dự về Khoa học Máy tính và dành thời gian rảnh rỗi để làm podcast và viết blog.

KHÁM PHÁ ABM

SẢN PHẨM & DỊCH VỤ

THÀNH TỰU & UY TÍN

NỀN TẢNG CHUNG

NĂNG LỰC CỐT LÕI

GIẢI PHÁP CHUYÊN SÂU

KHÁM PHÁ ABM

SẢN PHẨM & DỊCH VỤ

THÀNH TỰU & UY TÍN

NỀN TẢNG CHUNG

NĂNG LỰC CỐT LÕI

GIẢI PHÁP CHUYÊN SÂU

DEMO HỌC VIỆN GIÁO DỤC AI

CỘNG ĐỒNG

TÀI LIỆU & HƯỚNG DẪN

HỖ TRỢ VIP

CÔNG CỤ AI

BOT & TỰ ĐỘNG HÓA

TẠO NỘI DUNG

TƯ VẤN TRỰC TIẾP

KÊNH LIÊN HỆ

VỊ TRÍ

Chăm sóc khách hàng:

Hỗ trợ kỹ thuật:

Yêu Cầu Quyền Truy Cập VIP

Tìm kiếm khóa học

Cảnh Báo Bảo Mật