Tại sao trình tạo hình ảnh AI phải vật lộn với tay
Máy tạo AI phát triển trước mắt chúng ta với tốc độ đáng sợ, nhưng chúng vẫn có những sai sót. Phát hiện các chi tiết lạ trong hình ảnh AI thực sự khá buồn cười. Chính vì thế kim đồng hồ giữa hành trình trở thành chủ đề nóng, một vấn đề thường gặp ở nhiều động cơ.
Hãy cùng tìm hiểu lý do tại sao bàn tay thách thức các trình tạo hình ảnh AI đến vậy. Các lập trình viên của họ đã khắc phục sự cố đáng nhớ này, nhưng thật thú vị khi nghĩ về cách trí tuệ nhân tạo học hỏi, chưa kể đến những gì cản trở nó.
Mục Lục
Tại sao bàn tay do AI tạo ra lại khuấy động
Bất kỳ ai sử dụng công cụ AI để tạo hình ảnh đều có thể nhận thấy rằng bàn tay hiếm khi xuất hiện chính xác, nhưng vấn đề trở nên tồi tệ khi một loạt “ảnh” xuất hiện trên Twitter.
Khi kiểm tra kỹ hơn, bàn tay kỳ lạ của mọi người đã cho họ là hình ảnh do AI tạo ra. Việc đây là nỗ lực của Midjourney khiến tình hình trở nên thú vị hơn.
Một trong những công cụ AI tốt nhất xung quanh không thể giải quyết được sự phức tạp của bàn tay con người, vì vậy khả năng của Midjourney và các đối thủ cạnh tranh của nó đã được đưa vào thử nghiệm. Đúng như vậy, ngay cả DALL-E cũng có xu hướng có những ngón tay và móng tay không thực tế.
Sự cường điệu là không tương xứng, vì bàn tay do AI tạo ra luôn là một vấn đề, nhưng sự chú ý nhiều hơn đã thúc đẩy việc phát hành Midjourney v5 để cải thiện v4.
Phiên bản mới đã đưa ra quan điểm nâng cao thiết kế bàn tay, một dấu hiệu rõ ràng cho thấy các kỹ sư AI đã chú ý đến sự khuấy động vui nhộn và quyết định nâng cấp khả năng của phần mềm.
Các công cụ khác chậm làm theo ví dụ của Midjourney, vì vậy sửa chữa nghệ thuật AI bằng Photoshop vẫn là một kỹ năng vô giá. Rào cản chính đối với các lập trình viên là việc đào tạo trí tuệ nhân tạo để vẽ những bàn tay thuyết phục phức tạp đến mức nào.
Tại sao các trình tạo hình ảnh AI phải vật lộn với tay?
Công cụ AI sử dụng các mạng đối nghịch chung (GAN) hoặc Khuếch tán ổn định để tạo ra hình ảnh. Cả hai công nghệ đều yêu cầu nguồn tài liệu phong phú, đào tạo và sức mạnh xử lý để tạo ra ngay cả những tác phẩm nghệ thuật cơ bản nhất.
Vì các hình ảnh có sẵn là trọng tâm trong quá trình đào tạo AI, nên các lập trình viên phải cung cấp cho phần mềm của họ hàng nghìn, nếu không muốn nói là hàng triệu, hình ảnh cùng với lời nhắc—lặp đi lặp lại quá trình cho đến khi động cơ hiểu một từ cụ thể đề cập đến điều gì và cách biểu thị đối tượng đó.
Nhưng các hình ảnh nguồn mà AI học được chủ yếu là 2D, trong đó các bàn tay được mô tả ở nhiều vị trí khác nhau. Dù thẳng hay cong, chỉ ra năm ngón tay hoặc ba ngón tay.
Xét cho cùng, một chiếc máy không thực sự hiểu khái niệm về bàn tay và những hình ảnh mà nó học được không phải lúc nào cũng có hình ảnh bàn tay rõ ràng hoặc đủ nhất quán. Đó là lý do tại sao Midjourney hand có thể rất xấu xí: AI nhầm lẫn.
Có thể đúng như mối quan tâm của Elon Musk về sự phát triển AI, một số phần của công nghệ vẫn còn nhiều điều phải học. Và những trở ngại của họ vượt xa những ví dụ không đủ về bàn tay.
Các lý do khác khiến trình tạo hình ảnh AI chậm cải thiện
Nhìn vào các mô hình của Midjourney, v5 cung cấp sự gắn kết nâng cao giữa lời nhắc văn bản và hình ảnh được tạo, cũng như độ phân giải cao hơn và các công cụ bổ sung. Nhưng những thành tựu như vậy không hề rẻ.
Huấn luyện AI để làm tốt hơn bằng tay đòi hỏi phải cung cấp cho nó những hình ảnh tốt hơn, đặc biệt là ở chế độ 3D. Điều đó có nghĩa là rất nhiều thời gian và nhân lực được dành cho các quy trình, từ thu thập tài liệu nguồn đến cải thiện mã hóa và lặp lại quá trình đào tạo cho đến khi AI làm đúng.
Thậm chí sau đó, phần mềm có thể mắc lỗi trong các tác phẩm nghệ thuật tuyệt đẹp. Bên cạnh đó là một công việc to lớn và phức tạp, nó rất tốn kém. Vì vậy, đừng mong đợi các trình tạo văn bản thành hình ảnh AI miễn phí sẽ nâng cấp lên tầm cỡ của Midjourney.
Nói một cách đơn giản, vấn đề với các công cụ AI không chỉ là việc các chương trình máy tính này không thể hiểu hoàn toàn các đặc điểm của con người như bàn tay và bàn chân trông như thế nào hoặc hoạt động như thế nào. Nó cũng liên quan đến chi phí và khả năng tiếp cận hình ảnh 3D và kỹ thuật học máy của công nghệ có thể giúp các nhà sản xuất nắm bắt thực tế hơn về thế giới xung quanh họ.
Trình tạo hình ảnh AI sẽ không đấu tranh mãi mãi
Bàn tay là một khái niệm phức tạp đối với trí tuệ nhân tạo để xoay quanh cái đầu nhị phân của nó, nhưng các giải pháp cho vấn đề này đã có hiệu quả. MidjTHER, DALL-E 2 và các nền tảng khác cuối cùng sẽ có thể giữ những ngón tay kỳ quặc ở mức tối thiểu, nếu không muốn loại bỏ chúng hoàn toàn.
Những tiến bộ trong các lĩnh vực AI khác đảm bảo công nghệ này không ngừng phát triển và các nhà phát triển của nó luôn học hỏi những cách mới để áp dụng và cải thiện nó.