/ / Cách sử dụng AI để tạo ra hình ảnh bất cứ thứ gì bạn có thể tưởng tượng

Cách sử dụng AI để tạo ra hình ảnh bất cứ thứ gì bạn có thể tưởng tượng

Cách đây vài tháng, nếu bạn muốn tạo ra một bức tranh về thứ gì đó, bạn phải có khả năng phác thảo, vẽ hoặc sử dụng một trong những công cụ chụp ảnh mà những người khác vẫn nhắc đến. Tuy nhiên, sau năm 2022, mọi thứ đã thay đổi, tất cả đều nhờ vào AI — vâng, như trong “trí tuệ nhân tạo”.

Thay vì cố gắng thống trị thế giới, các công cụ AI thiên về nghệ thuật có thể biến bất cứ thứ gì bạn mô tả với họ thành hình ảnh.

Hãy đến với chúng tôi khi chúng tôi bước vào thế giới trực quan hóa văn bản được hỗ trợ bởi AI và xem cách bạn có thể sử dụng các công cụ như vậy để chuyển đổi suy nghĩ của mình thành hình ảnh thực tế bằng cách chỉ cần nhập những gì bạn có trong đầu.

Dall-E: Mặt nghệ thuật của GPT-3 của OpenAI

Các công cụ hỗ trợ AI đầu tiên trở nên phổ biến dựa trên GPT-3 của OpenAI. Một trong những lý do là sự cởi mở của dự án đối với truy cập từ bên ngoài, dẫn đến một số gợi ý rằng GPT-3 là tương lai của công việc sáng tạo.

Ngày nay, bạn có thể sử dụng các công cụ chính thức mà bạn có thể tìm thấy tại trang web beta của OpenAI hoặc các giải pháp của bên thứ ba tận dụng các siêu năng lực ngôn ngữ của nó. Ví dụ: bạn có thể yêu cầu GPT-3 đưa ra bản nháp cho bài đăng, trả lời các câu hỏi đơn giản hoặc thậm chí sửa đổi hoặc dịch một số văn bản.


Vào năm 2022, OpenAI tiết lộ rằng GPT-3 cũng giỏi không kém trong việc tạo hình ảnh. Dự án DALL-E, một vở kịch dựa trên bộ phim WALL-E của Pixar và tên của Dali, sử dụng GPT-3 không phải để làm việc với văn bản mà như một công cụ tạo hình ảnh.

Cũng giống như GPT-3 và văn bản, DALL-E không thực sự là một thiên tài sáng tạo, hiện thực hóa hình ảnh từ không khí mỏng. Thay vào đó, nó được “đào tạo” trên hàng triệu hình ảnh đã tồn tại trên mạng. Sức mạnh AI của nó nằm ở việc phân tích những hình ảnh đó, lấy các yếu tố từ chúng, tinh chỉnh, biến đổi, điều chỉnh và cuối cùng kết hợp chúng thành hình ảnh mới.

Ít nhất, đó là một phiên bản đơn giản hóa của những gì xảy ra trong nền. Hầu hết mọi người sẽ chỉ quan tâm đến những gì họ nhìn thấy trước mắt và đó là một hộp văn bản nơi bạn có thể nhập nội dung nào đó và thấy nó biến thành hình ảnh sau vài phút.

Câu trả lời Imagen của Google

Google là một trong ba “tay chơi” hàng đầu trong lĩnh vực nghiên cứu AI. Tuy nhiên, tiến trình của họ không dễ dàng nhận ra, cũng như việc triển khai nó vào các sản phẩm có thể truy cập được như các dịch vụ của OpenAI.

Một trong những cách triển khai rộng rãi đầu tiên của Google AI là trong Google Documents và Gmail, dưới dạng đề xuất và tự động hoàn thành thông minh hơn, được gọi là Smart Compose. Chúng tôi sẽ không đi sâu vào chi tiết vì trước đây chúng tôi đã đề cập đến tính năng Soạn thư thông minh (và cách bạn có thể sử dụng nó).

Khi các tính năng đó hoạt động, các ứng dụng web của Google sẽ so sánh những gì người dùng nhập với những gì hàng triệu người khác đã viết trong quá khứ. Sau đó, nó gợi ý những gì họ đã nhập sau đó.

Đó là bằng chứng rằng bất chấp những gì chúng ta muốn tin, chúng ta không khác biệt như vậy. Nếu 99 trong số 100 người nhập “sau” sau khi “gặp bạn”, đó có thể là những gì chúng tôi cũng sẽ tiếp tục nhập.

Tất cả chúng tôi đã sử dụng một số hình thức tự động hoàn thành, thậm chí từ trước trong hệ thống văn bản tiên đoán T9 của thời đại “điện thoại di động”. Đó là lý do tại sao các công cụ AI của Google dường như không thông minh như GPT-3 của OpenAI. Họ không cảm thấy sử dụng nhiều hơn một hệ thống T9 tốt hơn được cải tiến cho thế kỷ 21. Và đó cũng là lý do tại sao tiết lộ của Imagen hơi gây sốc.

Giống như DALL-E trên steroid, Imagen là một công cụ trực quan hóa văn bản. Dựa trên những gì hiện có ngày nay, Imagen có thể tạo ra hình ảnh “sạch” và sống động hơn đồng thời biết cách xử lý các tính năng nâng cao như khuếch tán và minh bạch.

Thật không may, tại thời điểm viết bài, quyền truy cập vào Imagen vẫn bị hạn chế, vì vậy chúng tôi không thể dùng thử.

DALL-E Mini and Friends: Open for Business

Bạn không thể tự do truy cập DALL-E và Imagen — chưa. Tuy nhiên, nhiều lựa chọn thay thế đã có sẵn nếu bạn muốn đánh lừa với tạo hình ảnh văn bản được hỗ trợ bởi AI.

Hãy nhớ rằng đó là những ngày đầu và kết quả hoặc trải nghiệm người dùng mà họ cung cấp có thể chưa tối ưu, bạn vẫn nên kiểm tra một số điều sau đây.

Làm Memes với Dall-E Mini

Nhờ sự kết hợp của nhiều kết quả đầy đủ và giao diện thân thiện với người dùng, nhưng quan trọng hơn là tính khả dụng rộng rãi, DALL-E mini đã trở thành một trong những trình hiển thị văn bản AI phổ biến nhất.

Không hoàn hảo, đôi khi kết quả của DALL-E mini có thể trừu tượng hơn dự định.

Những lần khác, nó có thể không tạo ra được những gì bạn đã nghĩ nhưng có thể đến khá gần.

Sau khi sự bùng nổ về mức độ phổ biến của nó, những người sáng tạo của DALL-E mini đã chuyển nó vào một ngôi nhà mới với thương hiệu mới. Giờ đây, bạn có thể tìm thấy phiên bản mới nhất của DALL-E mini với tên gọi Craiyon trên trang web của chính nó.

Sử dụng Craiyon ngày nay dễ dàng như tìm kiếm trực tuyến một hình ảnh hiện có. Bạn có thể truy cập trang web của nó, nhập mô tả về ảnh của bạn vào trường văn bản và nhấn Enter. Sau một lúc, bạn sẽ thấy kết quả trên màn hình của mình.

Điều nổi bật là Craiyon và các công cụ tương tự bắt chước phong cách trực quan tốt như thế nào. Ví dụ: chúng tôi đã yêu cầu nó gợi lên hình ảnh của một chú chó con trên ván trượt:

Sau đó, chúng tôi sử dụng cụm từ chính xác nhưng thêm “phong cách Pixar” sau nó. Sau một thời gian, Craiyon hiển thị một lưới các hình ảnh “hoạt hình” hơn, gần với những gì chúng ta cảm nhận là đồ họa tia ray của Pixar trong các bộ phim yêu thích của họ.

Craiyon đã cho chúng tôi kết quả tốt hơn khi chúng tôi thay thế “phong cách Pixar” bằng “phong cách anime” trong cùng một lời nhắc.

Anime được cách điệu hơn về hình ảnh so với hình ảnh thực tế hơn của Pixar, điều này dường như đã giúp Craiyon tạo ra một số hình ảnh gần như sẵn sàng để sử dụng.

Đánh lừa xung quanh với sự khuếch tán tiềm ẩn

Mô hình Khuếch tán tiềm ẩn được đào tạo trên tập dữ liệu LAION-400M là một trình hiển thị văn bản AI thú vị khác. Tuy nhiên, nó cũng phức tạp hơn trong việc sử dụng. Bạn phải chạy nó trực tuyến trong một máy ảo và chơi với các thông số khác nhau của nó thay vì chỉ nhập vào một trường văn bản. Tuy nhiên, nó dễ dàng hơn âm thanh.

  1. Ghé thăm không gian chuyên mục Google Latent Diffusion hiện đang là nhà của nó.
  2. Cuộn xuống một chút và nhận thấy Lời nhắc lĩnh vực dưới Thông số. Thay thế lời nhắc mặc định bằng những gì bạn muốn hình ảnh của mình mô tả.
  3. Chọn Chạy tất cả từ Thời gian chạy menu hoặc nhấn ĐIỀU KHIỂN + F9.
  4. Nếu bạn muốn có thể xuất các hình ảnh đã tạo trực tiếp từ bên trong công cụ, hãy trả lời tích cực khi được hỏi liệu bạn có muốn liên kết nó với tài khoản Google Drive của mình hay không. Công cụ này mất một lúc để hoàn thành cấu hình và cần tải xuống một số tệp trong quá trình này.

Tăng giá trị cho Các bước, Lặp lạiMẫu_in_parallel, có thể dẫn đến kết quả chi tiết hơn. Tuy nhiên, công cụ này đòi hỏi rất cao về tài nguyên trên máy chủ của Google. Do đó, nó có thể bị lỗi nếu bạn tăng các giá trị đó lên quá nhiều hoặc quá trình tạo một hình ảnh cụ thể trở nên phức tạp hơn mong đợi.


Các lựa chọn thay thế thú vị

Chúng tôi đã dành một khoảng thời gian đáng kể để thử nghiệm DALL-E mini và Diffusion tiềm ẩn. Phương pháp khoa học của chúng tôi bao gồm hai phần riêng biệt. Đầu tiên, chúng tôi phải đưa ra những khái niệm có thể được mô tả chính xác là những người thích chạy xe đạp. Sau đó, yêu cầu những công cụ trực quan hóa AI đó biến chúng thành hình ảnh. Thường xuyên hơn dự kiến, họ đã thành công, đến gần với thiết lập chung mà chúng tôi đã hình dung.

Chúng tôi cũng đã thử một số lựa chọn thay thế có sẵn cho bài viết này. Chúng tôi vẫn đang chờ những người khác truy cập. Một số trong số những cái đáng để kiểm tra là (không theo thứ tự cụ thể):

Nghệ thuật do AI tạo ra sẽ thay thế nghệ thuật thị giác?

Sự phong phú và ngày càng phổ biến của các công cụ hỗ trợ AI tạo hình ảnh khiến nhiều người kết luận rằng nghệ thuật thị giác sẽ sớm chết. Đầu tư thời gian và năng lượng để học cách vẽ hoặc sử dụng phần mềm phức tạp để hình dung mọi thứ có ích gì khi một AI có thể làm việc đó nhanh hơn (và sớm hơn) so với bạn?

Nếu bạn để ý, những công cụ đó đều được “đào tạo về bộ dữ liệu.” Trong tiếng Anh đơn giản, điều này có nghĩa là họ làm những gì họ làm nhờ vào con người đã làm điều tương tự trước đây.

Đó là gợi ý về lý do tại sao những công cụ đó không thể thay thế nghệ thuật, sự sáng tạo và sự khéo léo của con người. Chúng là những kẻ bắt chước, những kẻ sao chép thông minh. Nếu không có các bản gốc do con người tạo ra mà họ được đào tạo, họ sẽ không thể tạo ra bất kỳ đầu ra nào.

Tuy nhiên, đó là hiện tại, và chúng tôi thừa nhận rằng chúng tôi không biết tương lai sẽ ra sao. Hiện tại, các nghệ sĩ thị giác có thể ngủ yên. Mặc dù vậy, với tốc độ phát triển của AI, nhiều chuyên gia về chủ đề này đồng ý rằng nó có bao giờ thay thế được công việc của những người như bạn thực sự hay không. Vấn đề chỉ là khi nào.

Nhưng này, không phải tất cả đều là sự diệt vong và u ám. Trong khi Skynet chuẩn bị thực hiện công việc của chúng tôi, ít nhất chúng tôi có thể làm sáng tỏ tâm trạng của mình bằng cách dễ dàng tạo ra hình ảnh của những chú chó con trên ván trượt!

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *