Dlaczego sztuczna inteligencja (AI) pokazuje dziwne ręce? Co jest przyczyną? Ten temat, jak wszystko co związane z sieciami neuronowymi, stał się bardzo aktualny i rodzi wiele pytań, więc musimy się nim zająć raz na zawsze. Tylko leniwi nie próbowali "bawić się" w Midjourney czy DALL-E. Zdjęcia, które tworzą w ciągu kilku minut, szybko znajdują swoich odbiorców. Nie trzeba dodawać, że powstają całe społeczności liczące 100+ tysięcy osób, które dzielą się swoimi dziełami wygenerowanymi przez AI.
Wszystko zaszło tak daleko, że artyści na Artstation, największym portalu dla artystów, zainscenizowali strajk przeciwko AI, wzywając do oznaczania obrazów, które nie zostały stworzone przez człowieka. Dla niektórych może to przypominać o wydarzeniach z Detroit: Become Human, gdy ludzkość stanęła do walki z inteligentnymi androidami, które były lepsze od ludzi we wszystkim i zastąpiły ich w wielu dziedzinach życia. Od kierowców po zawodowych sportowców. Dlatego debata wokół sieci neuronowych nie ustępuje, a niektórzy już zaczęli się poważnie zastanawiać, czy AI będzie w stanie zastąpić ludzi w różnych zawodach w naszym świecie, a nie w grze.
Wróćmy jednak do tematu rąk. Dlaczego AI nie potrafi poprawnie renderować palców i co jest tego przyczyną? Czy to dlatego, że nawet ludzie mają problem z rysowaniem rąk? A może problem tkwi w niewystarczającej bazie danych, na której opiera się sztuczna inteligencja? A co jeśli będziemy wymagać od AI zbyt wiele? W rzeczywistości wszystko to jest prawdą, a na wynik ma wpływ nawet psychologia człowieka. Dlatego redakcja gg zbadała i powie, dlaczego Midjourney, czyli fikcyjna SI, ma problem z generowaniem ludzkich kończyn.
Na początek - czym jest Midjourney i podobne narzędzia?
Midjourney to niezależne laboratorium badawcze, które rozwija program sztucznej inteligencji o tej samej nazwie, który tworzy obrazy z opisów tekstowych. Obrazy tworzone są za pomocą specjalnego chatbota na Discord. Narzędzie jest obecnie w otwartych beta testach, które rozpoczęły się 12 lipca 2022 roku. Popularnymi analogami Midjourney są DALL-E i Stable Diffusion. Zasada działania jest bardzo podobna. Jedyna różnica to styl i poziom rozwoju AI.
Dla tych, którzy chcą wiedzieć więcej: jak dokładnie powstaje obraz?
Pojedynczy wpis tekstowy nie wystarczy. Jeśli po prostu poprosisz Midjourney o przedstawienie świni w jacuzzi, rezultat będzie taki sobie. Ale widzieliśmy już te wszystkie niesamowite zdjęcia, w czym tkwi sekret? Korzystamy z podpowiedzi, które mają nam pomóc. Za ich pomocą określamy, jaki obraz chcemy uzyskać od sztucznej inteligencji. A przy odpowiedniej podpowiedzi można uzyskać realistyczną świnię.
Wynik "przed" i "po" szczegółowej podpowiedzi (zrzut ekranu: itpedia)
Więc co z palcami?
Teraz porozmawiajmy o barierze, której AI nie jest w stanie pokonać - prawidłowym przedstawieniu palców u rąk lub nóg. I to jest dalekie od hipotezy. Problem ten jest powszechny i stał się już tematem zarówno dyskusji, jak i wyśmiewania.
Ale dlaczego tak się dzieje? Odpowiedź na to pytanie już istnieje. Przy okazji, dzięki kolejnej SI.
Odpowiedź od twórcy jednej z SI
Istnieje sztuczna inteligencja o nazwie The Jasper Whisperer. Specjalizuje się w pisaniu tekstu, a także tworzy obrazy generatywne (i nie, "generatywny" nie ma nic wspólnego z "degeneratywnym", choć brzmią bardzo podobnie). Jasper Whisperer prowadzi również blog na medium, w którym opisuje dlaczego jest problem z rozmnażaniem kończyn. Jest kilka czynników, które na to wpływają, a każdy z nich wymaga osobnej analizy.
Ręka jest złożoną częścią ciała
Sama anatomia ręki jest dość skomplikowana. Palce występują w różnych kształtach i rozmiarach, zawsze trzeba je prawidłowo odwzorować, inaczej ręka będzie wyglądać nienaturalnie. Nawet gdy dłonie są w pozycji "zrelaksowanej", pojawiają się informacje, które trzeba narysować: zmarszczki i fałdy na knykciach czy cieniowanie na dłoniach.
Ze względu na złożoną geometrię nie ma standardowego zestawu linii lub kształtów, które AI może rozpoznać jako rękę. SI musi za każdym razem dopasować wiele różnych kształtów, a ostatecznie przekłada się to na 6 lub więcej palców.
Ponadto w ludzkiej dłoni występuje około 30 punktów różnic geometrycznych. Od długości i szerokości palców po kości śródręcza i stawy nadgarstkowe. W rzeczywistości nasze ręce są tak złożone i unikalne, że ich geometria może być jeszcze lepszym identyfikatorem biometrycznym niż nasza twarz.
Ręce są trudne do narysowania, nawet dla ludzi
Przedstawianie rąk jest więc jednym z najtrudniejszych zadań w rysunku. Ich geometria sprawia, że są to obiekty trudne do zilustrowania. Dlatego postacie z kreskówek często rysowane są z 3 palcami i jednym kciukiem. To o wiele łatwiejsze. I widzimy to tak często, że nawet tego nie zauważamy. Tak więc problem z rękami nie jest nowy i nie jest związany ze sztuczną inteligencją. To jest problem ze sztuką. Jasper Whisperer uważa nawet za nieco zabawne, że AI ma takie same trudności artystyczne jak ludzie.
Dla tych, którzy chcą wiedzieć więcej: co o tym myśli ChatGPT?
Kolejnym popularnym AI w dzisiejszych czasach jest ChatGPT. To chatbot uruchomiony przez OpenAI w listopadzie 2022 roku, który zasłynął ze szczegółowych i precyzyjnych odpowiedzi w wielu dziedzinach wiedzy, nawet w branży IT. Dlatego programiści już żartują, że ten bot kiedyś ich zastąpi.
A jeśli zapytasz ChatGPT, dlaczego ludzie mają trudności z rysowaniem dłoni i palców, odpowie on następująco: "Rysowanie rąk jest często uważane za jeden z najtrudniejszych elementów do narysowania przez artystę ze względu na poziom szczegółowości i złożoności. Dłonie składają się z wielu małych kości, mięśni i ścięgien. I wszystkie muszą być dokładnie odwzorowane, aby rysunek był realistyczny. Dodatkowo pozycja rąk może być trudna do przekazania, ponieważ są one w ciągłym ruchu i mogą być ustawione na nieskończoną ilość sposobów. Z powodu tych trudności wielu artystów uważa rysunek odręczny za jeden z najbardziej frustrujących i wymagających aspektów swojego rzemiosła."
ChatGPT również zgadza się z wypowiedzią The Jasper Whisperer.
Zbyt wiele wymagamy od sztucznej inteligencji
Jasper Whisperer uważa, że prosimy AI o dokonanie rzeczy niemożliwych. Ludzie rysują od tak dawna, jak istnieją istoty ludzkie, ale stworzenie realistycznej dłoni może zająć tydzień. Technologia sztucznej inteligencji wciąż się rozwija. Dlatego Midjourney ma niespełna rok. I choć możemy już oglądać oszałamiające obrazy, to są pewne ograniczenia.
Sytuacja staje się jeszcze bardziej skomplikowana, gdy na jednym obrazie tworzymy kilka dłoni, na przykład dwie osoby trzymające się za ręce lub grupę przyjaciół w uścisku. A każda ręka musi być narysowana dokładnie, inaczej cały obraz nie będzie taki, jaki powinien być. Najczęściej ręce AI wyglądają dziwnie, bo są "przeładowane" na zdjęciu.
Co o tym sądzą zwykli użytkownicy?
Natknąłem się na dość szczegółowe wyjaśnienie na Reddit. Jeden z użytkowników szczegółowo opisał problem. Chodzi o to, że AI nie ma logicznego myślenia, gdy "tworzy" sztukę. Nie wie, że człowiek ma szkielet z określoną liczbą kości, narządy, mięśnie i całą resztę. Nie wie, co powinno znajdować się w tym lub innym miejscu i wyglądać w określony sposób w zależności od ruchu ciała. Wszystko, co AI może zrobić, to odtworzyć to, co się jej mówi. Warunkowy Midjourney odpowie swoim wizerunkiem na pytanie "CO to jest", a nie "DLACZEGO to jest". Czasami generuje pasy ubrań, które zlewają się z ludzką skórą i inne podobne rzeczy. W rzeczywistości bot nigdy nie będzie w stanie zrozumieć rzeczy, które "rysuje", tak jak ty je rozumiesz. Nie buduje swojej sztuki tak, jak robi to prawdziwy artysta. Ludzie rozumieją to, co rysują na głębszym poziomie i biorą pod uwagę wiele innych rzeczy, które nie są odzwierciedlone na rysunku.
Kilka szalonych teorii
Na przykład autorzy strony theamericangenius wysunęli teorię, że AI znajduje sposoby na uspokojenie naszych lęków i zapewnienie nas, że nie zamierza przejąć władzy nad światem. W ten sposób zdaje się próbować powiedzieć: "nie jestem zagrożeniem, nie potrafię narysować prostych rąk czy nóg". Wszystkie żarty na bok, każda teoria ma prawo istnieć.
AI kieruje się głównie zdjęciami, które są dostępne w Internecie. I z tego faktu na Reddicie wyłania się kolejna teoria. Sztuczna inteligencja może łatwo stworzyć symetryczne twarze, ponieważ istnieją miliony ich zdjęć i rysunków. Nie ma tylu rąk, nie mówiąc już o tym, że one same i ich pozowanie są bardziej złożone. Teorię tę wzmacniają rysunki początkujących artystów lub lekcje dla początkujących, gdzie często widać ręce schowane w kieszeniach lub po prostu nie mieszczące się w kadrze.
Teoria dotycząca psychologii człowieka
A ostatni przykład wiąże się z tym, że psychologicznie jesteśmy skłonni szukać błędów u ludzi na rękach, a nie na twarzach. Aby lepiej zrozumieć, o czym mówimy, musimy przyjrzeć się odwróconemu obrazowi twarzy Adele:
Na pierwszy rzut oka nie ma w tym nic złego, ale jeśli odwrócisz obraz jeszcze raz, wynik będzie taki sam:
Dlaczego tego nie zauważamy? Iluzja ta znana jest jako Efekt Thatcher, nazwana tak na cześć byłej brytyjskiej premier Margaret Thatcher, której wizerunek został po raz pierwszy wykorzystany do tej sztuczki.
Efekt ten uwydatnia wadę funkcjonowania naszego mózgu - nie potrafimy przetwarzać twarzy odwróconej do góry nogami. A badanie przeprowadzone przez The Naked Scientists sugeruje, że ludzie rozpoznają twarze w częściach - oczy, usta i nos. Dlatego, gdy pokazuje się nam obraz Thatcher do góry nogami, nie jest on odpowiednio przetwarzany.
I tak jak napisał businessinsider, rzadko spotykamy się z odwróconymi twarzami, których wyrazu na nich nie jesteśmy w stanie zinterpretować. Rysy twarzy wyglądają normalnie, więc nasz mózg myśli, że reszta twarzy jest normalna. Dlatego nie zauważamy niczego niezwykłego, dopóki nie zorientujemy odpowiednio twarzy.
Zupełnie inaczej wygląda sytuacja z rękami. Jasper Whisperer zauważa, że w dłoniach jest coś, na co jesteśmy bardzo wrażliwi i co znamy instynktownie. Dlatego jeśli AI popełni błąd z rękami, zauważamy go natychmiast. Nawet jeśli ramię nie jest do końca poprawnie odwzorowane, człowiek może tego nie zauważyć. Jeśli jednak proporcje kciuka, palca wskazującego, środkowego, serdecznego i małego są nieco zachwiane, będzie to od razu zauważalne.
Mamy więc dwie strony medalu. Z jednej strony sztuczna inteligencja nie posiada wystarczająco dużej bazy zdjęć ludzkich dłoni i nie do końca rozumie, czym są "anatomicznie poprawne dłonie". Więc nadal musi spędzić dużo czasu na przetwarzaniu tych konkretnych danych. A z drugiej strony jest czynnik psychologiczny osoby, która z jakiegoś powodu od razu zauważa niedoskonałości dłoni. Wciąż jednak możliwe jest usprawnienie generowania palców z pomocą AI.
Jak sprawić, by AI lepiej rysowała ręce?
Jasper Whisperer znów przychodzi na ratunek. Ta AI ma na swoim blogu cały poradnik o tym, jak poprawić generowanie dłoni.
Daj dłoniom coś do zrobienia
Ręce, które coś robią, są lepiej przetwarzane przez AI. Na przykład, jeśli ręka ma trzymać kubek. Wynika to z danych treningowych: zawężasz krąg wyszukiwania, który pokazuje palce w określonych pozycjach. Oczywiście wynik nie zawsze jest pomyślny. Oto dwa wygenerowane obrazy: pierwszy to DALL-E, drugi to Midjourney. Zdjęcie z dziewczyną trzymającą kieliszek jest mniej lub bardziej udane. Ale zdjęcie z rybą gdzieś się zepsuło (i to nie tylko z rękami).
Na drugim zdjęciu coś poszło nie tak (Ilustracje: medium, midjourney)
Użyj inpaintingu
Inpainting pozwala wymazać część wygenerowanego obrazu tak, aby SI wypełniła go czymś innym. Jest to dobry sposób na przerysowanie rąk. Dall-E 2 jest w tym najlepszy, a dla porównania oto zdjęcia przed i po inpaintingu:
Zrób to sam
Ta metoda nie nadaje się dla każdego, ale jeśli Ty lub znajomy znacie Adobe Photoshop lub inny edytor graficzny, możecie przerobić ręce wygenerowane przez SI.
Kadrowanie zdjęcia
Czasami najprostszą i najlepszą opcją jest po prostu lekkie wykadrowanie zdjęcia, tak aby część rąk nie znalazła się w kadrze. Dokładnie to zrobił jeden z użytkowników na serwerze Midjourney Discord.
Dostarczenie zdjęć do porównania
Midjourney ma funkcję zwaną image-to-image, co oznacza, że najpierw dostarczasz sieci neuronowej zdjęcie, a potem piszesz, co chcesz, żeby zrobiła. Ta metoda znacznie ułatwi pracę AI, która już teraz ma problem z tworzeniem układów.
5) Więcej podpowiedzi. Jest już jasne, że samo napisanie "ręka" nie da nam właściwego wyniku. Dlatego musimy dać AI więcej wskazówek. Dokładnie opisz pozę i akcję, wspomnij o drobnych szczegółach, takich jak paznokcie czy zmarszczki na knykciach. I opisz kształt dłoni. Aby to zrobić, użyj takich określeń jak "wygięty" lub "otwarty".
Warto jeszcze raz przypomnieć, że prośba o "5 palców" nie zmieni sytuacji. Przecież właśnie to mi się przydarzyło, napisałem prompt, który poleca The Jasper: "dłoń z 5 palcami, paznokciami, zmarszczkami wokół knykci, otwarta, --ar 2:3 --q 2 --v 4". I udało mi się uzyskać wynik z ręką z 5 palcami. Ale tylko na 2 z 4 zdjęć. A każdy z nich przypomina concept art gry grozy. Jednak już teraz mamy szansę, że po pokoleniu będziemy mieli mniej lub bardziej dobry wynik.
Jak inaczej można skłonić AI do wylosowania ręki?
W rzeczywistości, aby nie napisać wiele wskazówek dla SI, ale aby uzyskać rękę z 5 palcami, która nie będzie przypominać creepy gier lub filmów, musisz napisać tylko jedno słowo - "mitenki". To słowo wystarczyło mi do uzyskania takiego wyniku. Jeśli więc nie potrzebujesz "gołej" ręki, ta opcja będzie najlepsza.
Ale co zrobić, gdy potrzebne są nie tylko ręce, ale i zaangażowanie w kadr? Następnie napisz np. "para trzymająca się za ręce spacerująca po parku i mająca na sobie rękawiczki". Jeśli zaczniesz powiększać obraz, możesz znaleźć małe skazy, ale gołym okiem dość trudno jest dostrzec coś złego.
Dzieje się tak dlatego, że jeśli po prostu wyszukamy "rękawiczki" w obrazach Google, to zobaczymy, że na większości zdjęć rękawiczki leżą prosto i wyraźnie widać 5 palców. A AI opiera się na bazie zdjęć dostępnych w sieci.
Jeśli chcesz mieć dłonie bez rękawiczek, zwykły manicure załatwi sprawę. Np. wpisz w The Jasper Whsiperer "obrączka, i lakier do paznokci" i voila, 5 palców, bez żadnych wad czy czegokolwiek innego.
Powód jest taki sam jak w przypadku rękawic. Na 90% zdjęć w Google z manicure widać wyraźnie 5 palców, i to często w tych samych pozycjach. Dlatego AI będzie w stanie szybciej wymyślić, jak to zobrazować.
Podsumowując: kiedy możemy się spodziewać powstania maszyn?
Tak więc w rzeczywistości Midjourney i jego odpowiedniki są w stanie przedstawić rękę z 5 palcami. Po prostu większość próśb ludzi nie była do końca trafna, a sytuację komplikowała sama struktura rąk, którą trudno zobrazować, co doprowadziło do tak gorących dyskusji. Wynik z 5 palcami w AI nie zawsze będzie właściwy. Ale jest już wystarczająco dużo opcji. Należy pamiętać, że niektóre z wymienionych dziś sieci neuronowych mają mniej niż rok. Nawet doświadczeni artyści, którzy rysują od lat, nie zawsze będą w stanie szybko stworzyć realistyczną rękę. Dlatego nie warto wymagać od sieci neuronowych wyjątkowo fajnych resursów w tu i teraz. Sztuczna inteligencja uczy się każdego dnia, a jeśli chcesz, aby osiągnęła nowy poziom podczas tworzenia obrazu, musisz dawać jej coraz bardziej poprawne zapytania, które zawierają wiele udoskonaleń. W ogóle kilka lat temu, gdy ludzie widzieli próby stworzenia czegoś przez AI, mało kto brał to na poważnie. Dziś jednak trwa aktywna dyskusja o tym, czy maszyny nas zastąpią. Nie, oczywiście, że nie, a zapotrzebowanie na fotografów nie zniknęło wraz z pojawieniem się Adobe Photoshop. Dla profesjonalnych artystów Midjourney będzie kolejnym przydatnym narzędziem, które przyspieszy i usprawni ich pracę. Dla jednych będzie to ciekawe narzędzie do zabawy, a inni będą próbowali rozgryźć, na czym polega problem z finger mappingiem. A potem minie kilka lat i będzie można się zastanowić, czy będzie powstanie maszyn?
Dla tych, którzy chcą wiedzieć więcej
- AI Gulag: jak sztuczna inteligencja pomaga w "reedukacji" dysydentów w Chinach
- Wielki Brat cię nie namierzy: jak świat nauczył się oszukiwać systemy rozpoznawania twarzy
- Cyfrowy Disneyland: jak nowoczesne technologie pozwalają Disneyowi zarządzać najlepszym parkiem rozrywki na świecie
- Nie tylko Excalibur: historia precyzyjnej amunicji do dział 155 mm od M712 Copperhead do M1156 PGK