Изкуственият интелект, който рисува
Напоследък в арт средите (и не само) много се коментира навлизането на платформите, генериращи изображения с т.нар. изкуствен интелект (Artificial intelligence) и ми се иска да споделя малко мисли по темата.
Статията е създадена в сътрудничество със съпруга ми, д-р инж. Александър Грънчаров, чиято дисертация е в областта на приложението на изкуствения интелект в индустрията.
Важно е първо да вникнем в детайлите:
Какво представляват платформите?
Представата на повечето хора за изкуствения интелект се базира до голяма степен на научната фантастика и за тях той представлява говорещ супер компютър в космически кораб или нещо като роботите на Азимов.
В действителност нещата са малко по-различни и когато говорим за изкуствен интелект (особено ако е използвано без кавички), имаме предвид научната дисциплина, опитваща се да създаде т.н. General Artificial Intelligence.
В повечето случаи обаче, говорим за т.нар. Machine learning (машинно самообучение), което се занимава с методи, позволяващи на компютрите да се “учат” да извършват някаква специализирана дейност, което става, много общо казано, чрез налучкване на начин (апроксимиране на модел).
В машинното самообучение, една от групите инструменти са т.н. изкуствени невронни мрежи, които по подобие на човешкия мозък, са мрежи, но от дигитални неврони, които се задействат или не, в зависимост от определени стимули (сигнали).
Зад имената на трите придобили популярност модели: Stable Diffusion, DALL.E и Midjourney стоят генеративни системи. Това (в днешно време) са най-често дифузни модели, които са обучени да създават реалистични изображения от шум. Някои пмодели се обучават чрез състезателно противопоставяне на две невронни мрежи, а трети са вариационни автоенкодери.
Какво означава това?
Обясненията на това как работят различните модели ще направи този пост твърде технически. Макар че повечето последни модели са дифузионни, начина на работа на модела не е особена важност за целта ни. Но, за да изградим поне някаква представа за темата, която коментираме, вероятно най-лесно би било да погледнем предишната генерация модели, които използваха генеративно състезателно противопоставяне. При тях двете невронни мрежи се обучават една срещу друга, като противници. Едната е генератор, т.е. създава изображения, другата е дискриминатор – опитва се да разпознае дали изображението, което й се подава на входа (идващо от генератора), е “истинско” или “фалшиво”.
Целта е по този начин и двете да станат изключително добри в това, което правят. С всяка итерация генераторът се учи как все по-умело да заблуждава дискриминатора (т.е. как да генерира все по-“истински” изглеждащи изображения, а дискриминаторът се учи да намира все по-фини “улики” в изображенията, по които да познава кога изображението е “истинско” или “фалшиво”, т.е. генерирано от невронен модел.
Какво разбираме под “реално” или “фалшиво”?
Реалните изображения са създадени от човек: фотографии, илюстрации и картини, които могат да са както физически рисувани и сканирани, така и дигитално създадени (т.е. рисувани директно чрез подходящ софтуер в компютър или таблет).
“Фалшиви” изображения са тези, генерирани чрез невронен модел (машинно обучен), т.е. не са реално заснети фотографии или създадени от човешка ръка картини.
Всяко изображение, което отговаря на тези доста общи критерии за “реалност”, може да бъде използвано за обучението на генеративния модел. С други думи, за да започне да създава “реално” изглеждащи изображения, на модела трябва да бъдат подадени множество примери, от които да се учи. И под „множество“, разбирайте много милиарди изображения.
Освен че обемът на изображенията за обучение трябва да е огромен, на невронния модел не може просто да му бъде подадено изображение, без преди това да е описано какво има на това изображение, а често и къде то се намира в изображението.
Ето защо всички изображения, които се използват за обучението на невронната мрежа, трябва да са “етикетирани”, да носят информация какво има на тях и къде*. Затова и този тип модели се обучават с изображения, извлечени от имидж-банки и други специализирани платформи (например за изкуство и 3D моделиране), където всеки ресурс обикновено е съпътстван от описателни тагове. Колкото по-детайлна е тази информация, толкова по-способен ще бъде моделът да ни “нарисува” нещо конкретно (и смислено).
*Fun Fact: Познайте какво правите всеки път, когато отговаряте на въпроса дали сте робот, като познавате какво има представено на набора от малки картинки? Точно така, помагате на някоя организация, например Google, да си етикетира изображенията 🙂
Как работят платформите?
И трите модела са достъпни онлайн през съответните им сайтове Stable Diffusion, DALL.E и Midjourney или програматично през API.
От трите единствено Stable Diffusion моделът позволява да се ползва както онлайн, например през експерименталната им платформа (DreamStudio), така и да бъде свободно изтеглен и активиран локално на собствения ви компютър.
Останалите два модела изискват заявките да се правят през техните платформи. MidJourney използва Discord бот за тази цел.
За да генерирате изображение, трябва да напишете текстова заявка към модела.
Например, може да поискате “river, between life and death, with a boat, at stream”. Превръщането на текстовата заявка в нещо, което моделът разбира, само по себе си също се случва с помощта на невронен модел, но този път от областта на NLP (Natural Language Processing).
Обикновено с помощта на енкодер вашата текстова заявка се превръща във вектор от числови стойности, характеризиращи всяка дума в заявката, нейното място в изречението и отношението й с останалите думи в него. Т.е. извлича се семантично значение от низа от думи, подадени на модела.
И понеже работата на генераторите минава през семантичен модел, всяка малка промяна в композицията на текстовата заявка води до огромни разлики в генерираните изображения.
За да се постигне точно резултатът, който се очаква, може да се наложи в заявката да се включат много допълнителни ключови думи, далеч извън основния смисъл, който се търси.
Неслучайно последните месеци онлайн се наблюдават коментари от чести потребители на платформите, които ревностно пазят своите заявки от опитите на други потребители да разберат как са постигнати определени генерирани изображения. Подбирането на подходящите думи и формирането на словореда са от огромно значение за крайния резултат.
Тъй като този тип дълбоки конволюционни невронни мрежи работят с огромно количество параметри и са много тежки от изчислителна гледна точка, изследователите, работещи върху тях, ги ограничават откъм максималния размер на изображенията, с които ги обучават, както и тези, които може да се генерират.
Разбира се, това се прави и за да се намали натоварването върху сървърите, които обслужват потребителските завки. Общо взето изображенията се генерират в стандартен размер около 512 х 512 px, като след това могат да бъдат допълнително скалирани до около 1024 х 1024 px.
Например, за момента, максималният размер на изображението за Midjourney след скалиране е 1664 х 1664 пиксела.
За какво са полезни платформите?
От моя гледна точка на художник, генерирането на изображения по зададени критерии е удобно и бързо за създаване на концепции. В моята работа те биха заместили (донякъде) сътворяването на малките идейни проекти, които визуализират сюжет, дизайн, цветова гама за дадена картина и които прерастват в по-големи формати оригинали.
Така, ако реша, че искам да създам картина с “женска фигура във фентъзи стилистика, с магични дървета и приглушена светлина, в стила на Прерафаелитите” например, мога да задам тези критерии на платформата и тя да генерира референтно изображение. Дали то ще е това, което си представям, и дали след това ще го използвам 1:1, това е отделен въпрос.
И още две, генерирани със същото описание:
В по-общ план, всяка индустрия, в която се налага работа с концептуални изображения, дали за целите на референции или mood-бордове, може значително да ускори работния процес с въвеждането на AI-генератор.
Имаме ли основание (художниците) да се чувстваме застрашени?
Като с всяка нова и непозната като възможности технология, и тази предизвиква почти паническа реакция. Идва изкуственият интелект и “ни взема хляба”. Нещата далеч не са толкова прости, макар че дигиталните артисти имат може би по-основателни причини за притеснения, заради възможността за много по-бързото създаване на визуални концепции. Но тук трябва да се имат предвид някои съществени ограничения на технологията (поне за момента).
Фактът, че и най-малка промяна в низа от думи, с които е генерирано дадено изображение, води до тотална промяна на резултата, означава, че не можете първо да поискате “фронтален изглед на риба-магьосник на колело”, а след това да поискате “профилен изглед на риба-магьосник на колело” и да очаквате да получите една и съща “риба-магьосник”.
С други думи, един артист, чиято работа е да нарисува герой за игра, комикс или анимационен филм, трудно може да бъде заменен изцяло от AI-модела. От друга страна, същият художник може да използва този инструмент, за да генерира 100 различни “риби-магьосници”, а след това да избере кои да разработи в детайли.
Когато дойде клиент в рекламна агенция и му покажете визия, включваща заек с шапка, и той попита “Този заек защо е с шапка? Искам да е без шапка!”, вие няма как сега да поискате моделът да ви генерира абсолютно същия заек, ама без шапка.
Самите невронни модели позволяват да бъдат допълнително обучавани (с ваши изображения), което би позволило да научите модела да разбира, че като поискате “заек”, имате предвид точно вашия корпоративен талисман. Тогава може да правите подобни опити, но това обучение не е свързано с подаването само на едно-единствено изображение. Изисква се някой да ви нарисува този заек талисман в стотици пози и в различни фонови среди, за да го използвате по този начин.
Друго съществено ограничение е размерът на изображенията. Както вече споменах, той е твърде малък за реална производствена нужда, било то чисто дигитална (имайки предвид, че екраните са вече 4К, 8К и ще продължават да вървят нагоре), или физическа (например печат, за който се изискват още по-големи размери).
Това прави използването на AI-генерираните изображения напълно непрактични извън чисто референтната им стойност.
Разбира се, и двата довода по-горе са технически и е само въпрос на време да бъдат преодолени като препятствия. От друга страна, времето за решаване на горните проблеми може да се окаже значително и очакването ми е индустрията да се окопити и да използва това време, за да се адаптира и да усвои тази технология като допълнителен инструмент.
С всичко казано дотук за мен на този етап основното опасение за изместване на създаваното от човешка ръка, е до голяма степен неоснователно.
Виждам, че много хора са толкова въодушевени от възможностите на платформите, че дори участват в конкурси за генерирани от платформите изображения, но какво от това? За мен това са малко или много PR активности – все пак екипите от изследователи, работещи върху тези платформи, имат нужда от финансиране.
А въвеждането на “правилните” и достатъчно “детайлно” описващи дадена концепция думички определено няма да направи никого по-добър и успешен артист (каквото и да значи това).
Основното ми притеснение като художник и автор, чиито картини могат да се използват (а може би вече са използвани – можете за своите да проверите тук) за обучение на такъв модел, е по-скоро етичният и правен аспект – как ще се регулира тази технология.
За момента моделите са по-скоро безплатни. Някои от тях имат такси след определено количество безплатни заявки, но тези такси са символични и са за покриване на ползваната изчислителна мощност (или поне така твърдят).
От друга страна, ако моделът стане комерсиален и се предлага за платено ползване, в който случай клиентът на модела вероятно ще очаква да се ползва със същите права, както ако изображението е изработено от служител или подизпълнител, тогава какво получават авторите на милиардите изображения използвани за обучението му? Едно са снимките на картини на класици, чиито права за ползване са вече общодостъпни, и съвсем друго, когато става въпрос за живи, съвременни художници. И без това опазването на авторските им права е изключително трудно – изображенията ни постоянно циркулират в нета, най-често без да се посочва източник – най-малкото имена и/или сайт.
Регулация ще е необходима, и то доста спешно, като се имат предвид темповете на развитие на технологиите.
Какво казват колегите:
Наскоро попаднах на едни доста адекватни разсъждения по темата на канадския художник и арт ментор Адам Дъф, които споделям тук:
Малко прогнози и свободни разсъждения:
Процесът на адаптация на индустрията и най-вече на колегите дигитални артисти вероятно ще доведе до появата на фигура, което за момента ще нарека “художник-оператор” и която ще може умело да ползва AI инструментите.
С времето, естествено, не само ще бъдат преодолени проблемите с ранните генераторни модели, но ще бъдат добавени и нови функционалности. Още отсега си представям, че следващи версии на моделите ще могат да отделят различните обекти в изображението в отделни слоеве, което ще позволи на художниците да правят корекции и модификации върху изкуствено генерираната основа още по-бързо.
Прогнозата ми е, че добрите художници ще продължават да са изключително търсени и често ще бъдат ангажирани в обучението или супервизирането на работата на тези мрежи. Очакването ми е да започнат да се появяват специализирани модели, обучавани да рисуват в точно определен стил, или пък вътрешно корпоративни модели, обучавани с точно определени корпоративни ресурси. За тези цели ще са необходими художници, които да захранват мрежите с огромно количество висококачествен изходен материал.
Може също да се очаква, че в някакъв бъдещ момент, ние художниците, ще започнем да обучаваме собствени мрежи, които ще могат да рисуват “като нас”. Тези мрежи ще бъдат модерен еквивалент на чираците на големите творци в предишни векове, както и на доста модерни художници (Джеф Куунс), и ще бъдат натоварвани с “досадната” част от работата.
Услугите на такива мрежи художниците ще могат да реализират като по-достъпен еквивален на собствения си труд, увеличавайки продуктивността си. Представете си, че сте известен художник-аниматор и няколко студиа искат да ви наемат, но имате ограничено време и енергия и/или сте твърде скъп. В тази ситуация студио, което иска ваше произведение, може да наеме вашата обучена мрежа, която може да не е толкова добра като вас, но ще им даде достъп до вашия стил. Всичко е въпрос на креативност и гъвкавост, и адаптивност, и какво работи за даден артист.
В заключение:
От моя гледна точка създаването на физически арт продукт е нещо много специфично. Една картина за мен носи уникален емоционален заряд, разказва (моята) история и е върховен начин да изразя себе си. В този смисъл докоснатото от човешкото сърце и ръка има стойност, която ще се цени все повече, именно заради масово “фабрично” / машинно (бездушно) създаденото.
Това вече е факт в редица индустрии: автомобилната, бижутерската, часовникарската; ръчно изработените обувки са луксозна стока, силно желана и търсена от ценителите на уникалната ръчна изработка.
С изкуството и в момента до голяма степен е така. Едни потребяват масов printable арт, който може да бъде свален като файл и принтиран вкъщи на цветния принтер, малцина обаче избират да инвестират в изкуство с висока добавена стойност, което носи усещане за уникалност и дава друг вид удоволствие.
В едно поне съм категорично сигурна: дори светът на изкуството да бъде населен с роботи ;), които ще могат да рисуват като Ван Гог, Моне и Климт едновременно, това съвсем няма да ме спре да ходя всеки ден в студиото и да се наслаждавам на творческия процес и на неописуемото усещане, че сътворявам нещо красиво от нищото.
Създаването до голяма степен е това, което ни прави човеци и вярвам, че никоя технология скоро няма да измести това.
Заглавният колаж е от две визии, генерирани през Stable Diffusion платформата.
Ето още една, по зададени етикети: жена, гора, фентъзи, Густав Климт:
Статията „Изкуственият интелект, който рисува“ е авторска публикация. Използването на каквато и да е част от нея става само с изричното съгласие на автора и/или с посочване на източника с активен линк.