W zeszłym tygodniu amator eksperymentował z nowym modelem syntezy obrazu Flux AI Zostało odkryte Są nieoczekiwanie dobrzy w dostarczaniu specjalnie przeszkolonych wersji czcionek. Chociaż od dziesięcioleci istnieją bardziej wydajne metody renderowania czcionek komputerowych, nowa technologia jest przydatna dla entuzjastów obrazów AI, ponieważ Flux jest w stanie renderować drobnoziarniste wizualizacje tekstu, a użytkownicy mogą teraz wstawiać słowa renderowane przy użyciu niestandardowych czcionek bezpośrednio do generowania obrazów AI .
Dysponujemy technologią pozwalającą na tworzenie precyzyjnych, gładkich, rysowanych komputerowo linii o niestandardowych kształtach od lat 80. XX wieku (i lat 70. XX wieku w badaniach), więc tworzenie sklonowanej czcionki za pomocą sztucznej inteligencji samo w sobie nie jest niczym nowym. Nowa technologia oznacza jednak, że określoną czcionkę można zobaczyć na wygenerowanych przez sztuczną inteligencję obrazach, na przykład menu na tablicy w prawdziwej restauracji lub wydrukowanej wizytówce trzymanej przez automatycznego lisa.
Krótko po tym, jak modele fotomontażu oparte na sztucznej inteligencji stały się głównym nurtem, jak Stable Diffusion w 2022 r., niektórzy zaczęli Zastanawianie sięJak mogę uwzględnić mój produkt, element garderoby, osobowość lub styl na obrazie wygenerowanym przez sztuczną inteligencję? Jedną z odpowiedzi, która się pojawiła, była technika LoRA (adaptacja niskiej rangi). Zostało odkryte W 2021 roku został uruchomiony model bazowy AI, który pozwala użytkownikom poszerzać wiedzę w modelu bazowym AI o specjalnie przeszkolone rozszerzenia benchmarkowe.
Te moduły LoRA, jak się je nazywa, umożliwiają modelom syntezy obrazu tworzenie nowych koncepcji, które nie zostały pierwotnie znalezione (lub słabo reprezentowane) w danych szkoleniowych modelu bazowego. W praktyce entuzjaści syntezy obrazu wykorzystują je do renderowania unikalnych stylów (np. wszystkiego w… Sztuka kredowa) lub tematy (szczegółowe obrazy Spider-Man(Na przykład). Każda LoRA musi zostać specjalnie przeszkolona na przykładach dostarczonych przez użytkownika.
Przed Fluxem większość generatorów obrazów AI nie była zbyt dobra w wyświetlaniu dokładnego tekstu w scenie. Jeśli poprosisz Stable Diffusion 1.5 o wyświetlenie znacznika z napisem „ser”, wyświetli to bzdury. Wydany w zeszłym roku OpenAI DALL-E 3 był pierwszym dużym modelem, który całkiem dobrze przetwarzał tekst. Flux nadal czasami popełnia błędy w słowach i literach, ale jest to najpotężniejszy model sztucznej inteligencji „tekstu na świecie” (jak to nazwać) jaki kiedykolwiek widzieliśmy.
Ponieważ Flux jest modelem otwartym, dostępnym do pobrania i mikrokonwersji, w zeszłym miesiącu po raz pierwszy szkolenie z zakresu LoRA mogło mieć sens. To jest dokładnie to, co Niedawno odkryte przez entuzjastę sztucznej inteligencji, Vadima Fedenko (który nie odpowiedział na prośbę o wywiad do czasu publikacji prasy). „Jestem pod wielkim wrażeniem tego, jak to się potoczyło” – napisał Fedenko Udostępnij na Reddicie„Flux rozpoznaje, jak litery wyglądają w określonym stylu/czcionce, dzięki czemu możliwe jest przeszkolenie Lorasa w zakresie określonych czcionek, stylów itp. Wkrótce będę uczyć ich więcej.”
Na swoją pierwszą próbę Fedenko wybrał napój gazowany Czcionka w stylu „Y2K”. Przypominający te, które były popularne na przełomie lat 90. i 2000., powstały model został opublikowany na platformie Civitai 20 sierpnia. Dwa dni później użytkownik Civitai o nazwie „AggravatingScree7189” opublikował drugą czcionkę LoRA, która odtwarzała czcionkę podobną do tej w Cyberpunka 2077 Gra wideo.
„Scenariusz był tak zły, zanim pomyślałem, że można to zrobić”. książki Użytkownik Reddita zadzwonił do Egg-benedryl w odpowiedzi na post Fedenki na temat linii Y2K. Kolejny użytkownik Reddita książki„Nie wiedziałem, że magazyn Y2K jest fałszywy, dopóki go nie przybliżyłem”.
Czy to przesadzone?
Prawdą jest, że używanie głęboko wyszkolonej sieci neuronowej do syntezy obrazów w celu wyświetlenia zwykłej linii na prostym tle jest prawdopodobnie przesadą. Prawdopodobnie nie chcesz używać tej metody do zastąpienia programu Adobe Illustrator podczas projektowania dokumentu.
„Brzmi nieźle, ale to trochę zabawne, że na nowo wymyślamy koncepcję czcionek z plikami LoRA o wielkości 300 MB” książki Komentator na Reddicie w wątku na temat Cyberpunka 2077 Chrzcielnica.
Generacyjna sztuczna inteligencja jest często krytykowana za jej wpływ na środowisko, co stanowi uzasadnioną obawę w przypadku dużych centrów danych w chmurze. Odkryliśmy jednak, że Flux może wstawić te linie do scen generowanych przez sztuczną inteligencję, działając lokalnie na RTX 3060 w Ilościowe (Zmniejszony rozmiar) (Pełny model deweloperski można uruchomić na RTX 3090). Zużycie energii elektrycznej jest podobne do grania w grę wideo na tym samym komputerze. To samo dotyczy tworzenia LoRA:Constructor Cyberpunka 2077 Chrzcielnica trener LoRA w trzy godziny na GPU 3090.
Istnieją również kwestie etyczne związane z korzystaniem z generatorów obrazów opartych na sztucznej inteligencji, takie jak sposób ich szkolenia na podstawie danych zebranych bez zgody właściciela treści. Chociaż technologia ta powoduje podziały wśród niektórych artystów, duża społeczność ludzi korzysta z niej na co dzień Udostępnij wyniki w Internecie Za pośrednictwem platform mediów społecznościowych, takich jak Reddit, prowadzących do nowych zastosowań technologii, takich jak to.
W chwili pisania tego tekstu istnieją tylko dwie linijki poświęcone Flux LoRA, ale podczas pisania tych linijek słyszeliśmy już o planach stworzenia kolejnych. Chociaż technologia ta jest wciąż na wczesnym etapie, może okazać się niezbędna, jeśli w przyszłości synteza obrazu AI zostanie szerzej wdrożona. Adobe ze swoimi modelami syntezy obrazu prawdopodobnie będzie się temu przyglądać.