Máy tạo hình ảnh Flux 1 – Mô hình mã nguồn mở Black Forest Labs

Phòng thí nghiệm Rừng Đen, được thành lập bởi một nhóm các nhà nghiên cứu AI và kỹ sư đáng kính đứng sau dự án Phân tán Ổn định, đã nhanh chóng thu hút sự chú ý trong thế giới AI. Sự gia tăng gần đây về sự nổi tiếng của họ bắt nguồn từ một video AI lan truyền đã trình diễn tính chân thực tuyệt đẹp đạt được khi kết hợp hình ảnh của Flux 1 với khả năng hoạt hình của Runway ML.
Trên đà thành công này, Phòng thí nghiệm Rừng Đen đã ký kết một đối tác quan trọng, hỗ trợ các tính năng tạo hình ảnh của chatbot Grok 2 mới được ra mắt của Elon Musk trên X. Tuy nhiên, sự hợp tác này đã gây tranh cãi do thiếu các biện pháp an toàn trong Grok 2, dẫn đến lo ngại về khả năng tạo ra và lan truyền thông tin gây hiểu lầm hoặc gây hại (hiện cũng có thể thấy bằng hình ảnh).
Tuy vậy, Phòng thí nghiệm Rừng Đen đã được hỗ trợ bởi một vòng đầu tư vốn gốc 31 triệu USD thành công do Andreessen Horowitz dẫn dắt, với sự tham gia đáng chú ý từ các nhà đầu tư thiên thần và đầu tư tiếp theo từ General Catalyst và MätchVC, phòng thí nghiệm này dự kiến sẽ tạo ra tác động đáng kể. Với một ban cố vấn đầy những cựu binh ngành như Michael Ovitz và các nhà tiên phong AI như Giáo sư Matthias Bethge, điều này khiến nó trở thành một startup được định vị vững chắc để thúc đẩy sự đổi mới và khả năng tiếp cận trong lĩnh vực AI sinh tạo.
Đánh giá và So sánh:
- Chất lượng và Đa dạng Hình ảnh Không Đối thủ: Các mô hình Flux 1 tạo ra hình ảnh có chất lượng hình ảnh, chi tiết và tuân thủ yêu cầu xuất sắc. Họ liên tục vượt trội hơn các mô hình phổ biến như Gemini, DALL·E 3 (HD) và SD3-Ultra về chất lượng hình ảnh, đáp ứng yêu cầu, sự đa dạng đầu ra, sự biến đổi tỷ lệ khung hình và kiểu chữ.
- Khả năng truy cập mã nguồn mở: Flux 1 cung cấp một mô hình mã nguồn mở (Flux.1 [schnell]) dưới giấy phép Apache 2.0, trao quyền cho cộng đồng AI tùy chỉnh và phát triển các khả năng của nó. Cam kết này đối với khả năng truy cập và minh bạch phù hợp với niềm tin cốt lõi của Black Forest Labs trong việc thúc đẩy đổi mới và hợp tác.
- Hiệu quả ở quy mô lớn: Các mô hình Flux 1 dựa trên kiến trúc lai của các khối khuếch tán đa mô hình và song song, mở rộng lên đến 12 tỷ tham số. Chúng sử dụng ghép nối dòng để cải thiện hiệu quả đào tạo và sinh, tích hợp nhúng vị trí quay và các lớp chú ý song song để nâng cao hiệu suất.
- Tốc độ: Mô hình Flux.1 [schnell] được thiết kế đặc biệt cho tốc độ, vượt trội hoàn toàn so với các mô hình không cất giấu mạnh như Midjourney v6.0 và DALL-E 3 (HD) trong danh mục mô hình bước ít.
- Ít hạn chế hơn: Flux.1 cho phép tạo ra các hình ảnh mà Dall E 3 và Gemini từ chối tạo ra như hình dưới đây. Hơn nữa, bạn có thể tạo NSFW với nó, nhưng không có ví dụ nào sẽ được thêm vào trong bài viết này.

Dòng mô hình Flux.1:
Flux 1 cung cấp ba biến thể, mỗi biến thể phục vụ cho các nhu cầu khác nhau:
- Flux.1 [pro]: Mẫu hàng đầu, mang lại hiệu suất tiên tiến với chất lượng hình ảnh, chi tiết và đa dạng tuyệt vời, phù hợp cho các ứng dụng chuyên nghiệp. Truy cập qua API của họ, Replicate, hoặc fal.ai. Họ cũng cung cấp các giải pháp doanh nghiệp chuyên dụng.
- Flux.1 [dev]: Mô hình hướng dẫn phân tán trọng lượng mở cho các ứng dụng phi thương mại. Nó cung cấp chất lượng tương tự như mẫu chuyên nghiệp nhưng hiệu quả hơn. Có sẵn trên HuggingFace, Replicate, và Fal.ai.
- Flux.1 [schnell]: Mô hình nhanh nhất, thiết kế cho phát triển cục bộ và sử dụng cá nhân. Nó được cung cấp mở theo giấy phép Apache2.0, với trọng lượng trên Hugging Face và mã suy luận trên GitHub và Diffusers của HuggingFace.
Hướng dẫn Truy cập cho Người mới bắt đầu:
- GoEnhance AI, Replicate, hoặc Fal.ai: Đối với người mới bắt đầu, các nền tảng này cung cấp giao diện thân thiện với người dùng để thử nghiệm các mô hình Flux.1.
- Hugging Face: Truy cập các mô hình mã nguồn mở “dev” và “schnell” cùng tài nguyên cộng đồng trên Hugging Face.
- Cài đặt Cục bộ: Nếu bạn thoải mái với cài đặt kỹ thuật, bạn có thể cài đặt và chạy mô hình “schnell” cục bộ bằng mã được cung cấp trên GitHub hoặc Diffusers của HuggingFace.
Đào tạo và Cấp phép:
Các mô hình Flux 1 được đào tạo trên một tập dữ liệu khổng lồ gồm hình ảnh và văn bản. Chi tiết đào tạo cụ thể không được công khai hoàn toàn, nhưng các mô hình sử dụng các kỹ thuật sáng tạo như ghép dòng, khắc phục vị trí quay, và chú ý song song.
- Flux.1 [pro] và [dev]: Chi tiết về giấy phép cho việc sử dụng thương mại và phi thương mại có thể tìm thấy trên trang web của họ hoặc liên hệ trực tiếp với họ.
- Flux.1 [schnell]: Có sẵn dưới giấy phép mã nguồn mở Apache 2.0 dễ dãi.
So sánh tạo hình ảnh đối đầu
Một hình ảnh chân thực siêu thực được chụp bằng máy ảnh DSLR của một con đường nhộn nhịp ở trung tâm London



Quầy bar cyber punk tương lai nơi người ngoài hành tinh đang uống – đèn neon, xuống cấp



Kết Luận
Flux 1 đại diện cho một bước tiến lớn trong việc tạo hình ảnh AI mã nguồn mở, được thúc đẩy bởi chuyên môn và tầm nhìn của Black Forest Labs. Với cam kết đối với chất lượng, hiệu quả và khả năng tiếp cận, Flux 1 hứa hẹn sẽ cung cấp sức mạnh cho các nhà sáng tạo và các nhà nghiên cứu. Khi Black Forest Labs tiếp tục đẩy xa ranh giới của AI tạo sinh, chúng ta có thể kỳ vọng vào những đổi mới ấn tượng hơn nữa trong tương lai.