스테이블 디퓨전(Stable Diffusion) 용어 정리 #1

# 스테이블 디퓨전 용어 정리
Ai 확산 그림생성기 스테이블 디퓨전(Stable Diffusion) 줄여서 SD라 불리는 이물건은

매우 편리하지만 이름부터 뭔 개소린가 싶은걸로 시작해서

T2I, CFG, CheckPoint, VAE등등.. 프로그램을 시동해보면 놀랍게도

메인 파라메터중에 아는 단어가 거의 안나온다.

뱅기 조종석을 타도 이거보단 아는거 많이 나올거 같은데 말이다.

그래서 프로그램 스샷을 먼저보여주면 대부분 도망친다. 본인도 동생과 함께 했으면 하는 맘에

자랑스럽게 프로그램 소개했더니 도망쳤다.

그래서 보통은 XX대출처럼 예쁜 접수원 혹은 가족같은 분위기가 어쩌구하는데 낚여서

찾아오듯이 얘도 예쁜 여자그림에 혹해서 찾아왔을 가능성이 높을것이다.

하지만 여접수원 뒤에 조폭이 있듯이

예쁜 여자 그림뒤에 이딴 외계어로 도배된 프로그램이 있는게 가혹한 현실이다.

 

하지만 어쩌겠나.. 여기까지 왔으면 오기로 뭐라도 뽑아야지

 

뭐 이 프로그램의 기본이 가챠라는 이름의 개노가다이긴한데

같은 노가다라도 정보의 유무는 시간낭비를 압도적으로 줄여준다.

님아 가챠는 12시 전후에 하는게 젤 잘떠요.. 같은 고급정보 말이다.

 

이 블로그도 여타 구글링해서 나오는거랑 정보는 비슷할 것이다

하지만 나열된 정보가 아니라 개고생한 생생체험정보, 그리고 그걸 쉽게 풀어줄

역량에서 이 블로그는 상당히 유용할것이다. 아마도..


# 핵심용어와 기본생태계 역사와 용어의 이해
t2i - Text to(2) Image의 약자로 to와 two의 발음이 같기에 2는 밈축약어로 많이 쓰인다. 일상에서도 잘 쓰이니 2정도는 숙지하고 외국인과 쳇팅할때 go2hell 이런식으로 유머러스하게 써주자. 여하튼 '텍스트를 이미지로' 라는 말그대로 글로 설명하면 그에 맞는 이미지를 만들어준다.

그리고 이 업계는 한달에 한두개이상의 새로운 개소리.. 아니 용어가 새로 창조된다.

대부분은 표준에 따르고 이딴게 아니라 대충 코파면서 지맘대로 만든 용어기에

대충대충 약어를 많이 쓴다. t, i, 2 이런 것들 말이다.

그러니 요번에 확실히 기억해두자

만약 앞으로 SD에서 t나 i가 나왔다? 민감하게 굴면된다.

예를들면 ip-adapter, t2i-adapter 이런게 나왔다.

what? you say..  i ? 그렇다. 저 I도 image의 i다.

Image Prompt 의 앞글자를 따서 ip였던 것이다.

이처럼 새로운 개소리가 나올때마다 나름 쉽게 익힐 수 있게 되는 노하우중 하나다

포니를 그려줘 라고했더니 포니 그림


i2i - 바로 응용할게 나왔다. I에다가 2라고? 바로 Image to Image되시겠다. 그럼 무슨 뜻인가

그림을 주면서 이 그림을 참고로 설명대로 그려줘. 라는 의미다. 즉, 정확히는 it2i 가 맞지만 모양빠지는지 어쨌는지

대충 i2i로 퉁쳤다. 

그림을 주면서 빨간머리를 추가 주문한 결과

여기서 '왜 그림대로 안그려주나요' 라고 할 수도 있는데 말그대로 '참고'다. 정확히 똑같은데 머리만 빨간색으로 그리고 싶다면 여기에 추가로 다른 방법이 필요하다. 당연히 여기선 쌩까고 넘어갈것이다. 길어지니까

hires.fix - 말그대로 hires와 fix다. 작은 그림을 hires(높은 해상도)로 확대후 확대과정에서 생긴 문제점을 fix 했다는말이다. 즉, hires.fix 했다는 것은 확대와 보정이 완료된 그림이라는 뜻이다. 참고로 hires.fix라는 고정된 코스 같은건 없다. 알아서 확대하고 잘 고친거 같으면 그게 hires.fix 다. 다만 webUI 같은 프로그램의 경우 쉽게하라고 이미 만들어둔 메뉴가 있다.

NAI - Novel AI의 약자로 그림을 생성해주는 유료사이트다. 이 사이트에 의적이 방문하여 모델을 유출시켰는데 그게 SD의 발전에 큰 역할을 했다. 그 유출된 모델을 NAI모델이라고 한다(정확히는 모델이 아니라 체크포인트. 모델(model)과 체크포인트(checkpoint)의 차이는 뒤에 설명)

Model - 모델이란 패션쇼 모델 같은게 아니라 훈련된 AI코어다. 쉽게 말하면 여러분이 폰을 샀는데 인공지능을 다운 받을 수 있고 애플이랑 삼성이 각각의 홈피에 시리모델, 빅스비모델을 올려놓은 셈이다. 그거 두개 다 받아서 필요할때마다 갈아끼우면 폰이 시리가 되거나 빅스비가 될 수 있다. 결국 SD는 얘네들이 본체고 webUI이나 ComfyUI 같은 것은 쟤네들을 사용하기 위한 폰 같은 것이다. 뭘 써도 상관없다. 더 편한걸 쓰면 될뿐. 


CheckPoint - 모델들을 다운받았는데 웬걸 폰에 모델들을 커스터마이징 할 수 있는 앱이 깔려있었다. 그 앱을 실행해서 자료를 넣고 훈련시작 버튼을 누르면 훈련후 해당자료를 습득한다고 할 수 있다. 예를들면 사투리..
그리고는 '사투리 하는 시리' 이러면서 사이트에 올리면 인기와 관심을 한몸에 받고 만족할 수 있게된다.

이런식으로 훈련을 통해서 기존모델을 튜닝한 것을 CheckPoint 라고한다. 

SD도 큰회사가 최신 모델을 하나 만들어내면 개미들이 달라붙어서 각자 튜닝한후
Civitai 라는 곳에 업로드해서 인기와 관심을 받고 만족하는 나날을 보내고 있는 중이다. 

시리 같은거랑 좀 다른건 애플애들은 완전히 완성된 애를 주지만 SD모델들은

하나같이 나사가 빠진 모델이 출시된다는거다

그래서 순정을 쓰는 경우는 거의 없고 무조건 튜닝한 것을 쓴다. 어떻게 보면 그래픽 카드랑 비슷하다

엔비디아가 4090 레퍼런스를 출시하면 사람들은 그걸 사기보다 이후 유통사들이 튜닝시킨걸 사는걸 선호한다

그게 더 좋기 때문. 잘 튜닝된 카드는 비싸다.

그와 유사하게 개인이 튜닝하는 것보다 당연히 회사급이 튜닝하는게 훨씬 퀄리티가 좋듯이
SD모델도 누군가 가져가서 빡세게 튜닝한후 유료서비스를 하기 시작했다

그게 바로 Novel Ai이다. 해당 모델은 회사자본을 바탕으로 대량을 자료를 훈련시켜서

기존의 2D 그림이랑 차원이 다른 퀄리티를 자랑했다. 시리를 가지고 자비스를 만들어놓은격

사람들은 그게 가지고 싶었다. 그래서 하나님께 기도했다. 정의로운 도둑이 나타나도록..

그 바람은 이뤄져서 의적이 나타났다! 그리고 NAI 정의롭게 훔쳐서 배포하게 되었고,

그것을 계기로 2D 생태계가 비약적으로 성장하게 되었다는 아름다운 전설이 SD 에는 있다.


SDXL -  SD1.0 에서 시작해서 SD1.5, 2.0 요렇게 버전업을 해나갔는데 기존과 달리 대격변급 업그레이드가 나왔고 그래서 앞서와 달리 넘버링 대신 XL이 붙게 되었다. 현재 XL보다 뛰어난 SD캐스캐이드가 있고 그거보다 뛰어난 SD3.0이 나왔지만 현재 대세는 SDXL이다. 이유는 위에서 언급한 튜닝이 현재 제대로 이뤄진 모델이 SD1.5를 제외하면 SDXL밖에 없기 때문이다. 더군다나 SD3.0은 유료이기 때문에 또 의적이 튀어나오지 않는한 튜닝이 요원하다. 결국 현재 SDXL과 그를 바탕으로 튜닝한 PONY가 SD생태계를 이끌고 있다. 만약 캐스캐이드가 제대로 튜닝된다면 대세는 또 그리로 넘어갈 것이다. 한가지 더 짚고 넘어갈건 CheckPoint 생태계외에도 파인튜닝의 강자 Lora 생태계가 따로 있다는 것이다. 이들은 이미 SD1.5에서 엄청난 생태계를 만들었으므로 여전히 SD1.5는 현역이다. 

 

LoRA - (Low-Rank Adaptation) 엥간하면 단어를 파악하면 그 역할에 대해서 이해가 쉽지만 얘는 행렬관련이라 쉽게 풀어쓴게 저차원 적응성이라는 외계어다. 그러므로 그냥 간단하게 설명하면 위의 체크포인트는 모델 훈련을 위해서 완전분해후 튜닝하는 것이라면 로라는 일부분만 분해해서 훈련하고 탈부착상태로 튜닝한다. 예를들어 간단히 포로로 케릭을 훈련시키고 싶을때 체크포인트로 훈련하면 오지게 오래걸린다. 몇기가짜리 모델을 분해후 포로로넣고 다시 업데이트하는거니까. 하지만 로라로 만들면 간단하게 포로로를 구현하는 수십메가짜리 부착파일이 생긴다. 이걸 모델이나 체크포인트 로딩할때 같이 로딩해주면 동일하게 구현할수가 있다. 쉽고 빠르며 간편한 사용성때문에 개인들이 만들기 좋아서 SD의 가장 큰 생태계를 이루고 있다. 그래서 체크포인트가 범용성을 위한 것이라면 로라는 단일 특수목적을 위해(원하는 케릭만들기) 사용하는 것이라 볼 수 있다

 

# 다음편

이렇게 많이 적었는데 정작 Sampler, CFG, Clip, Vae, prompt, 디노이징 등등 작동에 기본적인 것조차 설명이 미치지 못한게 놀랍다. 고급도 왕창 있는데 말이다. 이거 몇편까지 갈려나..

여하튼 상당히 쉽게 적었다고 자부한다. 이걸로 이해못한다면 나도 몰루.. 다음편에선

위의 조작에 관련한 것들을 다시 이어가보도록 하겠다