ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ComfyUI) Stable Diffusion 3.5의 기본 Workflow 및 테스트
    Stable Diffusion 2024. 10. 25. 16:36
    반응형

    Stability AI에서 Stable Diffusion 3.5 모델 시리즈를 공개했습니다. 이번에 발표된 모델은 다음과 같습니다. 

    Stable Diffusion 3.5 Large
    Stable Diffusion 3.5 Large Turbo
    Stable Diffusion 3.5 Medium 

     

    Large 모델은 가장 높은 품질의 이미지를 생성하며, Large Turbo 모델은 4 스텝만으로도 고품질의 이미지를 만들어 낼 수 있다고 합니다. Medium(24년 10월 29일 공개 예정)  모델은 비교적 낮은 사양에서도 활용할 수 있도록 설계된 모델입니다. 이 모델들이 어떠한 결과를 보여주는지 알아보겠습니다. 

    ※ 현재 공개된 모델은 Large와 Large Turbo 두 가지입니다. 테스트에 사용하는 GPU는  RTX 3060 12G이므로 Large 모델의 FP8 버전과 Large Turbo 모델을 테스트해 보겠습니다. 

    Stable Diffusion 3.5 Model download

    Stable Diffusion 3.5 모델을 사용하려면 모델 파일과 3종의 텍스트 인코더가 필요합니다. 사용하는 텍스트 인코더는 다음과 같습니다. 

    clip_g.safetensors
    clip_l.safetensors
    t5xxl_fp16.safetensors(또는 VRAM이 부족할 경우 t5xxl_fp8_e4m3fn.safetensors)

     

    필요한 파일들은 GitHub의 Stable Diffusion 3.5 페이지(https://github.com/Stability-AI/sd3.5?tab=readme-ov-file)의 링크에서 다운로드할 수 있지만, 연락처 정보를 요구하므로 모델은 CIVITAI(https://civitai.com/)에서, 텍스트 인코더는 Hugging Face의 해당 페이지에서(https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8) 받는 것이 편리합니다. 

    다운로드한 파일들은 다음 경로에 이동하여 사용하면 됩니다. 

    Model : ComfyUI\models\checkpoints
    Text encoder : ComfyUI\models\clip

    추가적으로, 사용 환경에 따라 VAE가 필요할 수 있으며, Stable Diffusion 3.5용 VAE는 CIVITAI에서 다운로드 가능하며 ComfyUI\models\vae 폴더로 옮기면 됩니다. 

    Workflow

    Stable Diffusion 3.5 이미지 생성 전체 워크플로우
    SD35 Basic workflow.json
    0.01MB

     

    전체 워크플로우는 기본 워크플로우에 TripleCLIPLoader 노드를 추가한 형태입니다. 이 TripleCLIPLoader 노드에서 다운로드한 3종의 텍스트 인코더를 모두 선택해 주면 됩니다. 

    TripleCLIPLoader 노드

     

    이미지 생성 결과

    ※ 이미지는 샘플로 제공하는 워크플로우의 조건으로 생성했습니다. 이 조건은 최적의 설정이 아닐 수 있습니다. 

    ※ Negative Prompt는 입력하지 않았습니다.

    Stable Diffusion 3.5 Large FP8
    steps : 40
    cfg : 4.5
    sampler : dpm++ 2m
    scheduler : sgm_uniform
    size : 1024 × 1024
    Stable Diffusion 3.5 Large Turbo
    steps : 4
    cfg : 1.5
    sampler : dpm++ 2m
    scheduler : sgm_uniform
    size : 1024 × 1024
    FLUX Dev FP8
    steps : 20
    cfg : 1, guidance : 3.5
    sampler : euler
    scheduler : normal
    size : 1024 × 1024

    이미지 생성 시간(초)

    Conclusion

    Stable Diffusion 모델 3.5는 사용자 친화적이라는 점에서 큰 강점을 지니고 있어, 미세 조정 모델 개발과 사용 경험의 축적을 통해 앞으로 더욱 발전할 가능성이 큽니다. 앞으로의 성장을 기대해 봅니다. 

    반응형

    댓글

Designed by Vitual Stylist