2024버전 4.2장 생성형 AI 기반 서비스
이번 장에서는 좀 더 다양한 유형의 생성형 AI 서비스들을 살펴보겠습니다. 가이드 작성을 착수할 때는 생성하는 매체의 '유형'별로 구분하여 정리하려고 했으나, 이러한 구분은 점차 그 의미를 잃어가고 있습니다. '2. 텍스트 생성형 AI와 대형 언어 모델(LLM)'의 마지막 부분에서 언급했듯이, LLM에 '멀티모달' 지원이 추가되면서 텍스트, 음성, 이미지 생성형 AI 간의 경계가 허물어지고 있기 때문입니다.
이는 단순히 텍스트 생성형 AI가 다른 형태의 AI를 흡수하는 것이 아닙니다. 오히려 각 영역의 AI가 서로의 기술을 활용하며 성능을 높이는 상호 보완적인 관계를 형성하고 있습니다. 음성이나 이미지를 인식하고 생성하는 데에도 NLP/LLM 기술이 활용되며, 반대로 이미지나 음성 처리 기술이 텍스트 기반 AI의 성능을 향상시키는 데 기여하고 있습니다.
이러한 추세를 반영하여, 본 장에서는 생성형 AI 서비스들을 매체의 유형별로 구분하지 않고 통합적으로 다루겠습니다. 다양한 생성형 AI 서비스와 이를 기반으로 한 응용 서비스들을 소개하고, 각각의 주요 특징과 간단한 사용법에 초점을 맞추겠습니다.
여기서 소개되는 서비스들은 텍스트, 이미지, 음성 등 다양한 형태의 콘텐츠를 생성하거나 처리할 수 있으며, 때로는 이들을 복합적으로 다룰 수 있는 능력을 갖추고 있습니다. 이를 통해 독자 여러분은 현재 사용 가능한 다양한 AI 도구들의 전반적인 모습을 파악할 수 있을 것입니다.
💭 참고로 '텍스트 생성형 AI 서비스'들은 일부 모델이나 API 접근, 최대 사용량 등의 차이를 제외하면 무료 계정으로도 실사용에 큰 무리가 없는 편입니다. 때문에 다양한 LLM에 적용할 수 있는 '프롬프트 엔지니어링' 기법에 대해서도 최대한 자세히 설명하고자 노력했습니다.
하지만 이후에 소개할 다양한 '생성형 AI 서비스'들은 흔히 유료 서비스를 기본으로 하여 무료로는 테스트 조차 어려운 경우가 많습니다. 때문에 일부 서비스는 본 가이드의 앞 부분에 비해 설명이 다소 빈약할 수 있다는 점, 미리 양해를 구합니다.
4.2.A. GPTs (OpenAI)🔗
▶ URL : https://chatgpt.com/gpts
OpenAI의 GPTs는 자사의 ChatGPT를 사용자 맞춤형으로 변형한 버전으로, 특정 작업이나 주제에 맞춰 사용자 지침, 지식, 기능을 결합하여 제작한 챗봇입니다. 위 URL에서 이러한 맞춤형 GPT를 공유하고 사용할 수 있습니다.
GPTs는 GPT-4/4o를 기반으로 하며, 특별한 코딩 기술 없이도 GPT Builder(단, 유료 계정으로만 이용 가능)를 통해 손쉽게 제작 가능합니다. 그 과정은 대략 다음과 같습니다.
-
GPTs에서 "+만들기" 또는 GPT Builder 접속
< 접속 방법 >
< 초기 화면 >
-
대화 형식으로 GPT Builder 이용
GPT Builder 인터페이스를 통해 원하는 GPT의 역할, 기능 등을 설명합니다. 예를 들면, "○○○ 분야의 조언을 제공하는 GPT를 만들고 싶어"와 같이 간단하게, 또는 앞의 3장에서 다룬 프롬프트 엔지니어링 기법을 일부 활용하여 상세하게 설명합니다.
-
GPTs의 이름과 설명 입력
이제 구성(Configure) 탭으로 이동하여 만드려는 GPTs의 이름과 설명을 입력합니다. 이는 GPTs를 검색하는 다른 사용자들에게 노출되는 사항이니 간단하면서도 명확하게 입력하는 것이 좋습니다.
-
구성 및 설정
이어 추가적인 지침이나 웹 검색 여부, 외부/추가 지식 파일(문서 등) 첨부 등 만드려는 GPTs의 동작에 필요한 설정들을 꼼꼼히 입력합니다. 참고로 GPTs가 참조할 문서는 (현재) 최대 20개의 파일을 업로드할 수 있습니다.
-
미리보기
어느 정도 설정을 마쳤다면, 원하는 동작이나 답변을 얼마나 잘 하는지 오른쪽 'Preview' 탭에서 테스트하고, 뭔가 부족하다거나 보완할 점이 있다면 위의 2~4단계를 반복하며 지침을 수정합니다.
-
완료하기
미리보기를 통해 원하는 GPTs를 만들었다면, 마지막으로 화면 오른쪽 위의 'Create'를 눌러서 GPTs 생성을 완료합니다. 이 때 GPTs를 함께 사용할 사람을 추가하거나, 공유 링크를 생성해 배포할 수도 있습니다.
만약 특정 사용자가 아니라 불특정 다수가 사용하길 원하는 경우, 아래 Access 부분의 사용 권한을 'Public'으로 분류된 둘 중 하나를 선택해야 합니다.
-
Anyone with the link : 사용자가 링크를 공유한 사람만 이용 가능
-
GPT Store : 누구나 GPTs에서 검색 및 이용 가능
-
위와 같은 기본적인 방법 외에도 다양한 도구, 지침을 가미해 유용한 GPTs를 만드는 방법은 조금만 검색해봐도 많이 나오니 본 가이드에선 생략하겠습니다.
4.2.B. Copilot (Microsoft)🔗
▶ URL (소개) : https://www.microsoft.com/ko-kr/microsoft-copilot
▶ URL (챗봇 서비스) : https://copilot.microsoft.com/
2024년 7월 공개된 자료에 따르면, '생성형 AI 챗봇' 분야에서 Copilot은 시장 점유율 약 15.6%로 2위를 차지했으나, 약 61.3%로 1위에 오른 ChatGPT(OpenAI)와는 큰 격차를 보이고 있습니다. 한편 3위인 Gemini(Google)는 약 13.3% 정도로 Copilot과는 근소한 차이만을 보이고 있습니다.
그러나 Copilot은 현재 기준으로도 웹 페이지, 모바일 앱, 윈도우 운영체제, 웹 브라우저(Edge), 오피스 제품군(MS 365), 검색엔진(Bing), 자사의 여러 기업용 솔루션 등 가장 다양하게 적용된 AI 서비스에 속하며, 앞으로 더 많은 곳에 더 깊이 자리잡을 것으로 예상됩니다. 이들은 사실상 모두 같은 인프라(HW)와 언어 모델을 공유하지만 약간씩 다른 특징과 사용법을 갖고 있는데, 그 중 몇 가지만 정리하면 다음과 같습니다.
-
Edge 브라우저용 Copilot
[ 특징 ] 현재 보고있는 웹 페이지 또는 해당 사이트의 내용을 바탕으로 대화 가능
최신 버전으로 업데이트된 Edge 브라우저라면 가장 우측 상단에 위치한 'Copilot' 아이콘을 클릭하여 시작할 수 있습니다.
창의 우측면 일부에 Copilot 인터페이스가 나타나며, 중간 부분에 '대화 스타일'을 선택할 수 있는 부분이 있습니다.
그리고 대화 입력 부분의 아이콘(ℹ 모양)을 보면 다음과 같이 설명하고 있습니다.
⚠ 주의 : Edge 브라우저로 PDF 파일을 보고 있다면 곧바로 해당 파일에 대한 질문-답변이 가능해 편리한 면이 있습니다만, 이 경우에도 PDF 파일이 서버에 전송될 것이므로, 공개되지 않은 자료나 민감한 내용이 포함된 PDF 파일을 열람 중엔 실수로 업로드되는 일이 없도록 주의가 필요합니다.
여기서 '관련 원본 사용' 부분을 클릭해보면, 이 대화를 일반적인 Copilot과 같이 이용할지, 또는 이 페이지(화면)나 이 사이트의 내용을 바탕으로 이용할지 선택할 수 있습니다.
시험 삼아 네이버에 접속한 후, 위의 선택지 중 '이 페이지'를 선택하고 다음과 같이 질문을 해봤습니다. "오늘의 주요 뉴스는 어떤게 있니? 간단히 요약해봐."
위와 같이 '네이버 메인 화면'의 내용을 바탕으로 알아서 몇 가지를 골라 간단히 요약해주는 것을 확인할 수 있습니다.
하지만 종종 보고 있는 페이지에 따라 본문이 직접 포함되어있지 않거나 코드(html) 구조가 상당히 복잡한 경우 등, 내용 기반 대화가 불가능한 상황도 만날 수 있습니다. 예를 들어, 국가법령정보센터의 법령 조회 화면에서 페이지의 내용과 관련된 질문을 테스트해봤지만 동작하지 않았습니다. (물론 나중에 언제든 개선/변경될 수 있습니다.)
< 중단시킨거 아니고 그냥 혼자 멈춤... >
-
윈도우 운영체제의 Copilot (Preview)
[ 특징 ] Copilot과 대화하는 형식으로 기기(PC) 제어가 가능
지원되는 운영체제(Windows 11)를 이용 중이라면, 화면 아래 작업 표시줄의 가장 오른쪽 끝에서도 Copilot 아이콘을 찾을 수 있습니다. 지원되는 운영체제라도 설정에서 비활성화한 상태이거나 업데이트, 그룹 정책 등 여러 사유로 아이콘이 보이지 않을 수 있습니다.
기본적으로 일반적인 질문-답변이 가능하면서 윈도우용 Copilot의 경우는 (아직 상당히 제한적이긴 하나) 컴퓨터의 설정을 확인하거나 변경할 수 있고, 향후엔 사용자의 파일도 검색/열람/실행하는 등의 기기(PC) 제어까지 가능해질 것으로 알려져있습니다.
💭 참고로 개인정보 침해 소지/우려 탓에 사용자 파일에 관한 기능은 기기 내에서 직접 AI를 구동시킬 수 있는 일부 PC에서만 활성화될 것으로 알려져 있습니다. 사실 개인정보 문제를 떠나서 MS 클라우드의 저장공간 및 연산능력이 무한대라고 가정한들 서버에 보낼 트래픽을 생각하면... 사용자 파일은 기기 내에서만 취급하는게 당연한 접근 방식입니다.
위 화면에 나온 기기 제어의 예시로는 '스크린샷 찍기'나 '다크 모드 켜기'가 가능해보이는데, 어떤 기능들을 제어할 수 있는지 궁금해서 직접 물어봤습니다.
일단 Copilot이 제멋대로 '주요 기능만 나열'했습니다만, 생각보다 많은 것들이 가능하다는 답변입니다.
시험 삼아 '앱 실행'을 사용해보니, 간혹 실행할 수 없는 앱이 있었고, 정작 실행이 가능하더라도 항상 실행할지 재차 확인한다는 불편한 점이 있습니다. 묻지 말고 그냥 실행해보라고 지시해도 아직은 어쩔 수 없는 모양입니다.
< 말로만 실행한다고 할 뿐, 여전히 예/아니오 버튼 입력을 기다리는 중... >
단축 아이콘도 없고 시작 메뉴에서도 찾기 어려운 경우를 제외하면 쓸모가 있을지 다소 의문입니다. 다른 제어 기능들도 -사람마다 차이는 있겠지만- 그다지 어렵지 않게 설정/변경이 가능한 것들이라 본 가이드에선 '이런 차이가 있다' 정도를 확인하는 것으로 마무리하겠습니다.
💭 물론 비교적 초기인 시점이라 그렇지 언제&어떻게든 개선될 가능성이 있고, 반대로 모두에게 잊혀지다 사라져버릴 운명일 수 있으니 계속 지켜봐야할 것입니다.
-
오피스 제품군의 Copilot
아직 구독형 라이선스로만 이용 가능한 MS 365 (기존 MS Office 365)에서도 추가 가입을 해야만 이용 가능한 오피스용 Copilot은 각각의 MS 365 앱과 결합돼 다음과 같은 기능들을 제공합니다.
-
Word : 문서 작성, 이해, 편집 지원
-
Excel : 데이터 분석, 수식 및 차트 제안
-
PowerPoint : 프레젠테이션 생성 및 편집
-
Outlook : 이메일 요약, 작성 지원, 코칭 팁 제공
-
Teams : 회의 요약, 실시간 질문 답변
-
Loop : 공동 작업 콘텐츠 생성
그 외에 보다 자세한 설명은 별도의 웹 페이지(MS 365용 Copilot 개요)로 갈음하겠습니다.
-
4.2.C. Gemini (Google)🔗
▶ URL (소개) : https://blog.google/intl/ko-kr/company-news/technology/gemini-kr/
▶ URL (챗봇 서비스) : https://gemini.google.com/app
직전에 다룬 MS Copilot과 가장 유력한 경쟁자이기도 한 Gemini 역시 자사의 다양한 제품군에 적용되었거나 향후 적용될 예정이지만, 안타깝게도 '상급기관 정보보안지침 및 IITP 정보보안업무운용지침'에 따라 원 내에서는 가장 많은 제약이 따르는 상황입니다. 따라서 본 가이드에서도 자세한 내용을 다루기는 어렵고, 몇 가지 주요 사항들만 살펴보겠습니다.
Gemini는 과거 "Bard"라는 이름으로도 불렸던 Google의 자체 LLM 기반 생성형 AI 서비스로, 현 시점의 경쟁 상대들과 달리 애초부터 멀티모달 데이터 처리에 특화시켜 개발 및 학습된 점이 특징입니다. 또한 Google의 기술에 최적화된 HW인 TPU(Tensor Processing Unit)로 구동하기 때문에 GPU로 구동되는 다른 언어모델에 비해 전력 효율성이 뛰어난 것으로도 알려져있습니다.
기본적인 Gemini의 사용법은 일반적인 대화형 AI 서비스와 비슷하지만, "확장 프로그램"을 통해 그 활용도를 넓힐 수 있습니다. 다음과 같은 초기 접속 화면(바로가기)에서,
왼쪽 하단의 '설정 - 확장 프로그램'을 클릭하면 다음과 같은 화면이 나타납니다. (또는 이 주소로 접근)
기본적으로 모든 확장 프로그램들이 활성화되어있으며, 사용자는 특별히 신경쓸 필요 없이 Gemini와 대화하는 과정에서 필요한 경우 Gemini가 알아서 해당하는 출처를 "실시간으로 검색"하여 적절한 답변을 하게 되는 식입니다.
그 중에서도 Workspace 확장이 눈에 띄는데, Gmail, Google Docs, Google Drive를 업무에 활용하는 상황에선 가장 유용할 것으로 예상되지만 모두 원 내에선 차단되어 있는 서비스라 그저 안타까울 뿐입니다.
다만 소개를 위해 개인적인 상황을 가정하여 "최근 메일 받았던 게임 할인 뉴스 5개"를 찾도록 요청해보니, 먼저 Google Workspace 확장 프로그램이 자동으로 선택되며 메일함을 열어보기 시작했고,
이내 다음과 같이 가장 가까운 날짜부터 5개의 메일들을 찾아 간단한 내용 요약과 그 출처까지 정리해주는 것을 확인하였습니다.
그 밖에도 Workspace 확장을 통해 Google Drive, Google Docs에 저장된 여러 자료들을 검색하거나 참조함으로써 다양한 응용이 가능할 것으로 예상되나, 테스트 및 실사용 모두에 제약이 있으므로 (필요한 경우 또는 궁금한 경우) 직접 이용해보기 바랍니다.
📌 참고 : 사실 MS Copilot 설명에서 생략한 부분으로, Copilot에도 Gemini의 '확장 프로그램'과 비슷한 성격인 "플러그 인"이라는 기능이 있습니다.
< Copilot 웹 페이지의 경우 >
< Edge 브라우저 또는 Windows의 Copilot의 경우 >
또 다음 섹션에서 살펴볼 네이버의 '클로바 X'에도 비슷한 기능으로 "스킬"이라는 것이 있으며, 다음 화면과 같습니다.
< 네이버 클로바 X의 입력 창에서 "스킬" 선택 화면>
본 가이드에서는 각각을 자세히 설명하기보다는, 이들 모두 LLM이 학습한 지식에 실시간으로 검색된 외부 지식을 추가로 참조하여 다양한 상황에서 더 정확한 답변을 얻기 위한 것이라는 공통점만 강조하겠습니다.
4.2.D. 클로바 X, 클로바 노트 (네이버)🔗
▶ URL : https://clova-x.naver.com/
다음으로 소개할 클로바 X는 우리말에 특화된 것으로 알려진 네이버의 'HyperCLOVA X'라는 LLM 기반 대화형 AI 서비스입니다.
그간 정확한 파라미터 수를 공개하지 않아 추정만 할 뿐이었으나, 'HyperCLOVA X'의 이전 세대 모델인 'HyperCLOVA'는 최근 발표된 한 뉴스에 의하면 약 820억(82B) 개 수준으로 확인되었다고 합니다. 여전히 'HyperCLOVA X'는 비공개(Unknown)인 상황입니다. LLM의 파라미터 수가 크다고 무조건 우수한 성능을 보이는 것은 아니지만, 다른 LLM과 비교해 우리말을 확실히 더 잘 이해한다는 체감이 없는 것도 사실입니다.
📰 참고(뉴스)
클로바 X는 앞서 소개한 다른 대화형 AI 서비스들과 비슷합니다. 대화 입력 창에서 기본적으로는 텍스트만 입력 가능하지만, '스킬'을 활성화하면 외부 지식 출처를 고를 수 있을뿐만 아니라 파일을 첨부할 수 있는 아이콘이 나타납니다.
눌러보면 PDF, TXT, HWP, DOCX 파일을 업로드할 수 있다고 안내하며, 그 아래 '이런 문서는 업로드하지 말라'는 안내와 일일 업로드 허용 횟수가 안내되어 있으니 참고하기 바랍니다.
📌 참고 : HWP 파일을 읽을 수 있는 서비스로는 클로바 X가 유일한 상황이긴 합니다. 그런데 DOCX 형식을 지원하길래 같은 개방형 포맷인 HWPX 형식도 테스트해봤으나 곧바로 안된다고 합니다.
이어 문서를 업로드 해보면 곧바로 문서를 분석하기 시작하고,
잠시 기다리면 분석을 마치는대로 새로운 대화 세션이 열리면서 방금 업로드한 문서에 대한 요약이 출력됩니다.
그러면 계속해서 문서의 내용을 바탕으로 질문을 하거나, 추가 지시 등을 이어나갈 수 있습니다. 다음과 같이 좀 더 짧게 요약을 시키거나, (반대로 더 자세한 내용을 포함시켜 길게 요약시키던지)
또는 다음과 같이 문서의 일부분이나 특정 주제 관련 내용에 대해 질문할 수도 있습니다.
참고로 위 질문에 대한 문서의 실제 내용을 보면 다음과 같습니다.
< 22 페이지 >
< 26 페이지 >
< 29 페이지 >
사실 질문에 다소 명확한 힌트를 주면서도 아주 구체적이진 않게 던져봤는데, 이번엔 썩 훌륭하게 답을 맞추는 것을 확인했습니다. 그렇지만 언제든 틀린 답변을 할 수 있다는 점에 꼭 주의해야 합니다.
참고로 문서 기반 질문-답변 시 참고할 사항은 다음과 같습니다. (다른 LLM들도 차이는 있지만 거의 마찬가지입니다.)
-
멀티모달 지원 여부와 무관하게, 사람과 비슷하거나 준하는 수준으로 그림/그래프 이해는 어려움
-
간단한 표는 그럭저럭 이해하고 답변도 하지만, 행이나 열이 많고 병합된 칸이 있는 등 복잡도가 조금만 올라가도 잘못 응답할 확률이 크게 올라감
-
동시에 여러 문서의 내용을 참조한다던지, 한 문서라도 서로 멀리 떨어져있는 내용들을 동시에 참조하지 못함
💭 물론 언제든 개선될 수 있는 사항들이고, 아예 문서 기반 질문-답변에 최적화된 서비스는 다를 수 있다는 점도 참고 바랍니다.
그리고 한가지 더 살펴볼 부분으로, 페이지 상단 우측의 아이콘을 눌러서 들어갈 수 있는 'CLOVA X 똑똑하게 활용하기' 있습니다. (바로가기)
여기선 클로바 X로 어떤 것들을 할 수 있는지, 다양한 상황을 예시로 들어 그에 적합한 프롬프트와 스킬 조합을 모아서 보여주고 있습니다. 관심 있는 주제를 선택해서 보거나 직접 검색해서 볼 수 있으며, 스킬이 조합된 경우엔 해당 스킬의 아이콘도 함께 표기하고 있습니다.
💭 자체적으로 제안하는 예시인만큼 애초에 답변의 품질이 괜찮은 예시만 선별했거나, 또는 답변이 잘 나오도록 조치를 취했을 가능성이 있습니다. 그러나 이 자체로 눈에 익혀만 두더라도 클로바 X나 다른 LLM 사용에 모두 도움이 될 수 있어 간략히 소개합니다.
▶ URL (웹) : https://clovanote.naver.com/
이어서 소개할 클로바 노트는 웹 페이지 또는 모바일 앱으로 이용할 수 있고, 일반적인 메모 앱의 기능들에 더하여 생성형 AI 기반 회의록 요약이 가능한 점이 특징입니다.
💭 아래에선 모바일(안드로이드) 앱 기반의 화면으로 설명하며, 웹 페이지, iOS 모바일 앱, 또는 iOS/Android 태블릿 앱과는 약간의 차이가 있을 수 있다는 점 양해 바랍니다.
클로바 노트 앱을 처음 실행하면 다음과 같은 화면입니다. (로그인 필요)
위와 같이 기본적으로는 기존에 저장/기록한 메모나 녹취 목록이 보이는데, 아래 쪽 ➕ 모양의 버튼을 누르면 아래와 같은 선택지가 나타납니다.
-
(녹음) 곧바로 녹취를 시작하거나,
-
(파일 업로드) 통화 녹음 또는 별도로 녹취했던 파일을 업로드하거나,
-
(새 노트) 일반적인 텍스트 메모도 입력할 수 있습니다.
곧바로 녹취를 시작하기 전에 먼저 '파일 업로드'를 살펴보면 다음 그림과 같이,
-
(통화 음성) 기본적인 통화 녹음 기능으로 저장된 파일 목록
-
(일반 음성) 다른 앱, 별도의 녹음기 등으로 저장/이동한 파일 목록
...을 구분하여 볼 수 있으며, 그 중 원하는 파일을 업로드하여 음성 인식 및 텍스트 변환, AI 요약 등이 가능합니다. 필요한 경우 업로드하려는 파일에 녹취된 음성의 언어도 선택할 수 있습니다.
다시 앞의 선택지로 돌아가서, '녹음'을 누르면 다음과 같은 화면으로 전환되며 즉시 녹취가 시작됩니다.
녹취 중엔 다음과 같은 기능을 이용할 수 있습니다. 위 그림의 아래 쪽 붉은 사각형 부분부터,
-
(지구본 모양 버튼) 인식할 언어를 선택하는 기능으로, 기본값인 '한국어' 외에도 '한국어+영어', '영어', '일본어', '중국어(간체, 번체)'를 선택할 수 있습니다.
-
(가운데 버튼) 녹취를 일시정지/계속 할 수 있습니다.
-
(오른 쪽 편집 버튼) 음성 녹취 중에도 중간중간 텍스트 메모를 삽입할 수 있습니다. 다음 그림과 같이 메모를 입력하기 시작한 시점도 함께 기록됩니다.
그리고 중간 부분의 '북마크' 버튼을 누르면 특정 시점을 구분하거나 기록할 수 있으며, 녹취 중엔 다음과 같이 표시되고, 녹취 후에도 내용/결과를 볼 때 구분자가 삽입됩니다.
녹취를 모두 끝냈으면 맨 위 오른쪽의 '종료 버튼'을 눌러서 저장할 수 있고, 다음 화면에서 분석에 필요한 선택/부가 정보로 '대화에 등장한 인원 수'와 '대화의 성격'을 입력할 수 있습니다.
그러면 다음 그림과 같이 결과/내용 확인을 할 수 있는 화면이 나타나며,
-
(음성 기록) 녹취한 음성을 텍스트로 변환한 결과로, 누가, 언제, 무슨 말을 했는지가 시간 순으로 표시됩니다. 단, 음성의 길이에 따라 텍스트 변환 결과가 표시되기까지 약간의 시간이 필요할 수 있습니다.
-
(메모·요약) 앞에서 직접 입력했던 텍스트 메모가 기본/우선적으로 표시되고, 만약 'AI 요약'을 한 경우 요약한 내용도 볼 수 있습니다.
곧바로 AI 요약을 하기 전에, -역시 선택사항입니다만- '참석자'라고 표기된 부분을 눌러서 해당 내용을 말했던 사람의 이름이나 역할('발표자', '간사' 등)을 입력할 수 있습니다.
📌 참고 : 이 처럼 단순히 음성 → 텍스트 변환(STT)에 그치지 않고 발화자의 목소리를 인식(recognition)하여 대화의 내용을 나눠주는 것을 '화자 구분(diarization)'이라고 하며, 일부 STT 엔진만 지원하는 비교적 고급 기능에 속합니다.
물론 아직까진 클로바 노트를 포함해 다른 최신 STT 엔진으로도 100% 정확하게 화자 구분을 할 수는 없으므로, 인식&구분 결과에 대해 꼼꼼하게 검토 및 수정이 필요합니다.
이제 위 그림에서 보였던 'AI가 요약한 핵심 내용 확인하기'를 누르면, AI 요약 기능의 최대 이용 횟수와 잔여 횟수 안내가 나타나고,
'요약하기'를 누르면 잠시 후 다음과 같이 요약된 결과를 확인할 수 있습니다.
그리고 앱 하단의 오른쪽 👤 모양 버튼을 누르면 다음 그림과 같이 현재 남아있는 사용량을 확인할 수 있으며,
'남은 시간' 표시 부분이나 '이용 현황'에 들어가 더 자세한 내역까지 확인 가능합니다.
클로바 노트 앱의 '사용량' 기준은 다음의 두 가지로 구분되어 있습니다.
-
사용 시간 (분) : 음성을 텍스트로 변환한 총 시간을 의미하며, 최초 사용일부터 시작해 30일마다 300분으로 초기화됩니다.
-
AI 요약 (횟수) : 텍스트로 변환된 결과를 요약 가능한 횟수이고, 위 사용 시간 초기화 시 함께 15회로 초기화됩니다.
일반적인 STT 작업보다 AI 작업에 더 고급 자원이 필요해서 그런 것인지, AI 요약 횟수는 더 늘릴 수 있는 방법이 없으므로 잔여 횟수를 잘 확인하며 사용해야 합니다. 반면 음성 → 텍스트 변환 시간은 위에 보이는 '+300분 받기'를 눌러서 연장할 수 있는데,
위와 같이 '내 녹취 파일을 네이버가 학습용 데이터로 활용할 수 있도록 동의한다'는 조건으로 연장하는 것이니 -비식별화를 한다고는 하지만- 민감한 대화나 보안이 유지되어야 하는 내용을 취급하는 사용자는 사실상 연장이 불가능하다고 볼 수 있습니다.
4.2.E. 뤼튼 (뤼튼테크놀로지스)🔗
▶ URL (웹) : https://wrtn.ai/
뤼튼은 누구나 쉽게 AI(LLM)을 활용할 수 있게끔 해주는 국내 AI 서비스 포털/플랫폼입니다. OpenAI의 최신 모델인 GPT-4o를 기반으로 하며 AI 검색, 대화/글쓰기, 이미지 생성과 같은 다양한 서비스를 이용할 수 있고, 자체적으로 프롬프트 공유 사이트까지 함께 운영 중이라 초보자라도 비교적 쉽게 접근할 수 있도록 설계되어 있습니다.
📌 참고 : 과거엔 GPT, Claude, PaLM2 등 사용할 언어 모델을 직접 선택할 수 있었으나, 현재는 뤼튼을 사용할 목적/기능만 선택 가능하고 LLM을 직접 선택할 수 없습니다.
본 가이드에서 살펴볼 사용법, 설명은 모두 현재('24년 7월)를 기준으로 하며 언제든 변경될 수 있음을 감안하여 읽기 바랍니다.
사이트에 접속하면 기본적으로 다음과 같은 화면이 나타납니다. (로그인 후)
뤼튼을 이용할 수 있는 3가지 방식 중 하나인 'AI 과제와 업무' 기능이 기본 선택된 화면이며, 다른 기능을 선택하려면 위 그림의 '원하는 목적을 선택'하라는 부분을 누르면 됩니다.
참고로 다른 기능을 선택해보면 해당 기능에 맞는 UI로 입력창이 바뀌게 됩니다. 먼저 'AI 검색' 기능은 다음과 같은 모양으로,
그리고 'AI 이미지' 기능은 다음과 같습니다.
공통적으로 페이지 하단에는,
-
뤼튼을 활용한 도구/챗봇을 공유할 수 있는 '스토어'
-
뤼튼을 활용한 도구/챗봇을 직접 만들 수 있는 '스튜디오'
-
다양한 프롬프트를 공유할 수 있는 '프롬프트 공유'
에 바로가기도 배치되어 있습니다. (현재, '스튜디오 프로'는 비공개 베타 서비스 중)
그럼 가장 먼저, 기본적으로 선택되는 'AI 과제와 업무' 기능에 대해 살펴보겠습니다. 선택 메뉴 중 세 번째에 위치하고 있지만 이 기능이 '기본적으로 선택'되는 이유는 LLM이 가장 흔하게 쓰이고 있는 '대화/글쓰기' 기능이라서가 아닐까 합니다. 따라서 특별히 설명할만한 부분이 없기도 합니다.
최신 LLM 서비스들이 지원하는 문서/이미지 업로드 및 분석/대화 기능도 가능하고,
기본적으로 활성화되어 있는 'Pro 모드'를 비활성화 할 경우 GPT-4o만 사용한 대화/글쓰기도 가능합니다.
📌 참고 : Pro 모드를 비활성화 하더라도 '문서/이미지 업로드'를 시도하는 즉시 Pro 모드가 활성화됩니다. 이는 과거 뤼튼에서 지원하던 GPT-4v 모델이나 다른 모델/패키지가 쓰여야만 문서/이미지 기반 대화가 가능하기 때문으로 추측됩니다. (정확한 동작 방식, 내부 구조, 사용 모델 등 세부 사항은 공개되지 않았습니다.)
뤼튼을 사용할 때 참고할만한 사항 중, 적어도 현재에 국한된 문제일 수 있으나 '자체 검열'이 너무 과하다는 논란이 있습니다. 여러가지 이유로 'LLM이 잘못 사용되는 일은 막아야'하지만, 이를 위한 안전장치(?)가 너무 민감하게 설계된 것 같다는 주장이 있으며, 실제로 본 가이드를 작성하기 위해 다음과 같은 질문을 던졌을 때에도 직접 확인할 수 있었습니다.
반면 Pro 모드를 끄고 GPT-4o를 기반으로 한 대화로는 정상적인 답변이 나오는 것으로 볼 때, 이게 뤼튼의 Pro 모드에서만 사용되는 모델이나 구조의 문제임을 추정할 수 있습니다. 실제로 같은 질문에 대해 Pro 모드를 끈 상태의 답변은 다음과 같습니다. (다른 모드 = '답변' 앞의 아이콘이 다름)
안전한 모델을 사용하는게 중요한 사용자라면 뤼튼이 가장 적절할 것으로 보이지만, 잘 답변하다가 어느 순간 다 지워지며 저런 답변으로 바뀌는 상황을 마주한다면... 어떨지는 사용자의 판단에 맏기겠습니다.
그 다음으로는 'AI 이미지' 기능에 대해 살펴보겠습니다. 이미지 생성형 AI인 DALL-E 2와 상당히 유사한 서비스로, 간단한 프롬프트만으로 -필요하다면 복잡한 프롬프트로도- 이미지를 생성할 수 있습니다.
뤼튼에서 해당 기능을 선택하면 다음과 같은 화면으로 바뀌고,
아래에 샘플 이미지들이 (일정 시간 주기, 또는 새로고침 등) 바뀌면서 나타나고, 마음에 드는 이미지가 있다면 직접 클릭해서 해당 이미지를 생성하는데 사용한 프롬프트를 입력해볼 수도 있습니다.
시험 삼아 다음 그림에서 가장 오른쪽 이미지를 클릭하니 해당 이미지 생성에 쓰였던 프롬프트가 자동으로 '붙여넣기' 되었고,
이 프롬프트로 이미지를 생성하기 위해 펜(🖍) 모양 버튼을 누르면 새 대화창으로 전환되며, 잠시 후 생성된 이미지가 나타납니다. (결과물에 비하면 속도는 제법 빠른 편입니다.)
(잠시 후)
생성된 이미지를 내려받고 싶으면 이미지 하단 우측에 (마우스 커서를 가져가야 나타나는) 다운로드 버튼을 눌러서 화질을 선택하고 저장할 수 있습니다.
📌 참고 : 이미지는 공통적으로 PNG 포맷으로 저장되며,
다운로드 : 1024 x 1024 해상도, 웹 사이트나 저품질 인쇄 용도에 적합
고화질 다운로드 : 2048 x 2048 해상도, 중간 품질 인쇄 용도에 적합
한편 위 예시로도 확인 가능하듯이, 같은 프롬프트를 넣는다고 같은 이미지가 생성되지는 않습니다. 이는 위와 같이 사용하는 이미지 생성형 AI가 공통적으로 갖고 있는 장점이자 단점으로써,
-
(장점) 거의 매번 다른 이미지가 출력되므로 새로운 이미지를 찾는 경우엔 마음에 드는 이미지가 나타날 때까지 그저 반복 생성만 하면 됨.
뤼튼의 예를 들면 이미지 아래에 보이는 '다시 생성' 버튼을 누르는 식
-
(단점) 만약 생성한 어떤 이미지와 동일하거나 거의 비슷한 이미지를 정교하게 다듬거나 반복 생성하는 작업 등은 불가능
이미지를 묘사하는 프롬프트를 매우 구체적으로 작성해 이미지를 생성해보면 비슷한 결과가 나올 확률은 증가하지만, 그럼에도 같거나 비슷한 이미지를 생성하기는 거의 불가능에 가깝습니다.
📌 참고 : 왜 불가능한지 자세한 설명은 생략하겠습니다. 다만 아래에 간략히 설명할 'Stable Diffusion'과 같은 이미지 생성형 AI에서는 이미지 생성에 필요한 여러 가지 파라미터를 직접 설정할 수 있는데, 실제로 테스트해보면 각각의 파라미터가 바뀔 때마다 결과물에 크고 작은 차이가 생겨납니다.
물론 'Stable Diffusion'보다 사용은 편리하면서도 복잡한 파라미터 설정까지 가능한 이미지 생성형 AI 서비스도 있습니다만... 일단 뤼튼이나 DALL-E 같은 서비스는 간편한 이미지 생성에 초점을 두는 대신 정교한 작업용으로는 제약이 따른다는 점만 이해하기 바랍니다.
다음으로, 뤼튼의 'AI 검색' 기능을 살펴보겠습니다. 뤼튼의 일반적인 글쓰기/대화 기능도 나름의 참고 문헌을 찾아서 동작하는 듯 하나, 'AI 검색'은 보다 직접적으로 검색 결과를 활용해 답변을 생성합니다. 이러한 'AI 검색'에 관한 구체적인 사항은 바로 앞 장에서 별도로 다뤘으니 참고하기 바랍니다. 아래에서는 뤼튼의 AI 검색 사용법만 간략히 살펴보겠습니다.
먼저 메인 화면에서 'AI 검색' 기능을 선택한 뒤, 위에서 했던 간단한 질문을 동일하게 입력해봤습니다.
그러면 대화창으로 넘어가고, 잠시 후 다음과 같은 결과를 확인할 수 있습니다. 일반 대화/글쓰기와 다른 점만 설명하면,
-
검색 과정 : 기본적으로 접혀 있었는데, 펼쳐보면 간단한 검색 과정을 확인할 수 있습니다. 이번에 실제 사용된 검색어는 '뤼튼 소개'였네요.
-
답변 출처 : 답변 중간중간 참고 문헌, 자료 등의 링크를 제공해, 답변의 근거를 쉽게 확인할 수 있습니다. 뤼튼에선 ①, ②와 같이 표시됩니다.
만약 검색어를 입력할 때 '빠른 검색'을 비활성화하고 검색해보면, 좀 더 구체적인 내용 및 답변을 볼 수 있습니다. (기본적으로는 '빠른 검색'이 활성화됨)
'답변' 앞의 아이콘도 바뀌어있고, 동영상/이미지 검색 결과가 추가돼있으며, 간단한 문장 형식의 답변이 아니라 더 정리된 형태의 답변이 나왔습니다.
-
검색 과정 : 기본적으로 접혀 있었는데, 펼쳐보면 간단한 검색 과정을 확인할 수 있습니다. 이번에도 실제 사용된 검색어는 '뤼튼 소개'였습니다.
-
동영상 / 이미지 : 기본적으로는 펼쳐져 있었고, 관련 동영상이나 이미지들을 찾을 때 이용할 수 있습니다.
💭 검색어나 검색 결과에 따라 다를 수 있겠지만, 위 예시의 경우 오른쪽 '답변 출처' 외의 동영상/이미지 검색 결과들도 함께 보여주고 있습니다. 이렇게 답변에 활용하지 않은 자료를 보여주는게 의미가 있을지, 없을지는 단정짓기 어려웠습니다. 일단 '뤼튼'의 특성으로 인지하고 넘어가겠습니다.
-
답변 출처 : 기본적으로 본문에 표시되는 형태(①, ② 등)는 '빠른 검색'시와 동일한데, 화면 우측에 카드 목록 형으로도 보여준다는 차이가 있습니다.
간단한 예시라서 그런지 '빠른 검색'을 활성화 했을 때와 비활성화 했을 때의 차이가 크게 두드러지진 않았고, 겉에서 보이는 '검색 과정'도 동일해보여서 정확한 비교는 어렵습니다.
다만 답변을 원하는 형태에 따라서 '빠른 검색을 선택적으로 활용'할 수 있으며, 즉 간단한 형태의 답변이 필요하다면 '빠른 검색'을 켠 상태로, 정리된 형태의 상세한 답변이 필요하다면 '빠른 검색'을 끈 상태로 이용하면 될 것입니다.
⚠ 주의 : 이미 충분히 강조했으므로 지나칠 수 있지만, 위의 답변 중에도 오류가 보여서 굳이 한번 더 강조합니다. 이러한 'AI 검색'도 결국은 LLM이 답변해주는 내용인 이상 반드시 사실 여부, 오류 유무를 꼭!! 확인해야 합니다.
뤼튼만의 문제가 아닌 공통&기본&필수사항이니 꼭 유의하기 바랍니다.
이제 메인 화면 하단에 보였던 '스토어' 부분을 살펴보겠습니다. '스토어'는 뤼튼 서비스를 이용해 사용자들이 제작 및 공유한 도구/챗봇을 공유하는 페이지로, OpenAI의 GPTs와 거의 동일한 개념으로 이해할 수 있습니다.
화면 하단의 바로가기를 누르거나 다음 URL(https://store.wrtn.ai/store)을 통해 접속할 수 있으며, 대략 다음과 같은 화면입니다.
-
화면 좌측의 '
+ AI 제작 스튜디오' 버튼은 아래에서 살펴볼 '스튜디오' 기능에 대한 바로가기입니다. -
그리고 가장 위에 인기 있는 도구/챗봇을 추천해주는 화면이, ('이런건 어떠세요?' 부분)
-
그 우측으로 최근 일주일 간 새롭게 만들어진 도구/챗봇 현황과, ('이번 주 새로운 툴/봇' 부분)
-
자체 경진대회를 통해 선별된 우수 도구/챗봇 목록이 나타나며, ('프롬프톤 명예의 전당' 부분)
-
아래로 스크롤해보면 엄선된 도구/챗봇을 보여주는 '베스트 툴/봇 한번에 즐겨찾기' 부분이,
-
또는 가장 아래쪽으로 내려와서 스토어에 등록된 도구/챗봇을 전체 또는 유형별로 조회, 검색할 수도 있습니다.
시험 삼아 위의 예시 화면에서 '여보, 사도 돼?'라는 문구로 눈길을 끄는 프롬프톤 명예의 전당 1위인 도구를 사용해봤습니다.
뤼튼의 '툴'이란 위 그림처럼 정해진 입력을 바탕으로 정해진 출력을 하도록 설계된 (말 그대로) '도구'와 같은 것이라고 이해할 수 있습니다.
한편 뤼튼의 '봇'이라는 것은 정해진 목적만 가지고 기존 대화형 인터페이스로 사용하는 일반적인 '챗봇'에 가까운 것으로 이해할 수 있습니다. 예를 들면 다음과 같은 -흔히 볼 수 있는- 형태입니다.
💭 가이드 작성을 위해 업무용으로 쓸만한 도구/챗봇을 찾아봤지만 아직은 발견하지 못했습니다. 혹시 업무 효율화에 쓸만해보이는 도구/챗봇을 발견한다면 직접 사용해보고 사례를 정리하여 한마루 게시판에 공유하기 바랍니다.
이상으로 뤼튼의 챗봇/도구를 공유할 수 있는 '스토어'에 대해 살펴봤다면, 다음으로는 이 같은 챗봇/도구를 직접 만들어볼 수 있는 뤼튼의 '스튜디오' 기능을 살펴보겠습니다. 역시 앞서 GPTs에서 살펴본 GPTs Builder와 비슷한 개념으로 이해하면 됩니다.
메인 화면 하단이나 '스토어'의 바로가기, 또는 다음 URL(https://studio.wrtn.ai/)을 통해 접속 가능하며, 다음과 같은 화면이 나타납니다.
전체적으로는 내가 만들었던 챗봇/도구들을 조회할 수 있으나 아직 아무 것도 만들지 않아 비어 있는 목록만 보이고 있습니다.
시험 삼아 화면 좌측 또는 가운데에 보이는 '+ 새 툴/챗봇 만들기' 버튼을 누르면,
먼저 '툴'을 만들 것인지, '챗봇'을 만들 것인지 물어보는데, 선택을 위해 마우스 커서를 올려보면 간단한 예시도 안내해줍니다. '툴'의 경우,
그리고 '챗봇'의 경우,
위 예시들 중에선 '나만의 코딩 도우미'가 어떨지 궁금했습니다. 그래서 '챗봇'을 선택해보니 다음과 같이 '미리보기' 화면과 실제로 챗봇을 만드는데 필요한 정보들을 입력하는 화면이 함께 나타납니다.
챗봇을 만드는데 필요한 정보 입력은 크게 4 단계로 나뉘어 있으며, 단계별로 간단히 설명하면 다음과 같습니다.
-
기본 정보 입력 : 만들 챗봇을 상징하는 아이콘과 이름, 사용자들에게 보일 소개(설명), 유형 분류와 공개 여부, 유무료 여부를 설정합니다.
- 단, 일반 사용자는 '공개' 챗봇만 설정할 수 있고, 기업(기관?) 사용자에 한해 '비공개' 챗봇을 만들수 있습니다.
- 현재는 '유료' 챗봇도 설정할 수 없습니다. 추후 변경될 수 있습니다.
-
내용 구성 : 챗봇이 기본적으로 보여줄 '첫 번째 메시지'와, 예를 들어 보여주는 '예시 질문'을 입력합니다.
-
프롬프트 작성 : 앞의 두 단계는 챗봇이 다른 사용자에게 '어떻게 보일지'만 설정했다면, 이 단계에서 실제로 '어떻게 동작할지'를 설정합니다. 기본적으로 제공되는 템플릿과 함께 간편한 프롬프트 설정이 가능하기도 하고, 본 가이드의 3장(프롬프트 엔지니어링)을 참고해 복잡하고 정교한 작업을 설정할 수도 있습니다.
그리고 공통적으로 하단의 '추가 제공 정보' 부분에서 챗봇의 동작 시 참고할 문서나 텍스트를 입력하는 기능이 있었는데, 지금은 베타 서비스 종료로 이용할 수 없었습니다. 향후 언젠가 PDF나 URL도 입력할 수 있도록 개선하여 다시 오픈할 것으로 보이며, 정교한 챗봇 제작 시 필수적인 기능이라 관심 있게 지켜볼 부분입니다.
-
테스트 : 좌측 미리보기 화면에서 방금 만든 챗봇이 잘 동작하는지, 개선할 부분은 없을지 등을 테스트하는 단계입니다. LLM을 바꿔가며 간단히 또는 여러 가지 테스트를 해보고 최종적으로 등록을 위해 '등록하기' 버튼을 누를 수 있습니다.
앞의 가장 첫 단계에서 '툴 만들기'를 선택했다면, 위의 '챗봇 만들기'와 동일하게 4단계로 필요한 정보들을 입력하는 등 전체적인 과정은 거의 유사하며, '툴'의 특성인 '입력창'을 정의/설정하는 부분만 차이가 있습니다.
뤼튼의 챗봇/도구 기능은 대체로 OpenAI의 GPTs와 유사해보이는 가운데,
-
(장점) 일반 사용자가 비교적 쉽게 만들어 볼 수 있도록 설명/예시가 제공되며, 무료로도 제작 및 공유가 가능함
-
(단점) 아직까진 최신 모델인 GPT-4o나 그 밖의 모델을 지원하지 않고, 참고 문서/자료 업로드 기능도 지원하지 않음
이상과 같은 차이점을 고려하여 각자 사용해보고 판단하기 바랍니다.
뤼튼에 대해 마지막으로 알아볼 내용은 '프롬프트 공유'입니다. 메인 화면 하단의 바로가기를 누르거나 다음 URL(https://wrtn.ai/prompt)을 통해 접속할 수 있습니다.
페이지 상단부터 공유된 프롬프트를 검색하기 위한 입력창과 그 아래로 유형별 조회/검색을 위한 유형별 아이콘이 위치합니다.
이어 페이지 중간 부분, '뤼튼 인싸이트'에는 뤼튼에 프롬프트를 공유하기 위한 '프롬프트 허브'를 이용하는 방법 등을 설명하는 글(영상)을 볼 수 있습니다. '>' 버튼으로 목록을 움직여보면 '거대 언어 모델의 한계점'이나 '프롬프트란 무엇일까?' 같은 일반적인 성격의 자료도 포함되어 있습니다.
페이지 하단에는 '추천 프롬프트'가 있으며 몇 가지 사례에 사용하거나 자신만의 뤼튼 프롬프트 작성에 참고할 수 있는 좋은 예시들을 볼 수 있습니다.
참고용으로 하나만 열어보면 다음과 같이 프롬프트 설명부터 사용 예시까지 확인할 수 있고, 뤼튼 내에서 사용하기 편리하도록 '즐겨찾기'에 추가하거나 곧바로 사용할 수 있도록 프롬프트 '복사'도 가능합니다.
만약 '프롬프트 공유' 페이지 상단에서 검색어를 입력했거나 유형별 아이콘을 클릭했다면, 다음과 같은 조회/검색 화면으로 넘어가게 됩니다.
이전 화면에서 가장 우측에 위치한 '개발' 아이콘을 눌러봤는데, 조회/검색 페이지에선 다른 유형도 선택할 수 있습니다.
그 밖에 해당 분류나 검색어로 몇 개의 프롬프트가 존재하는지는 확인 가능하지만, 더 상세한 검색 기능이나 다른 정렬 기준을 사용하는 방법은 확인되지 않습니다. (아마도) 서비스가 많이 활성화되면 추후 업데이트가 되지 않을까 예상합니다.
4.2.F. NotebookLM (Google)🔗
▶ URL : https://notebooklm.google.com/
Google의 NotebookLM은 AI 기반의 연구용 또는 범용 노트 작성 도구로, 처음엔 주로 학생이나 연구자들을 대상으로 설계되었으나 점차 넓은 용도로 확장되고 있는 서비스입니다. NotebookLM을 통해 사용자가 업로드한 문서, 자료 등을 요약하고, 질의응답을 하고, 새로운 아이디어나 학습 가이드를 얻을 수도 있습니다.
📌 참고 : 사용자 반응도 좋고 다양한 가능성이 예상되지만, 아직까진 'Experimental'이라는 표시가 따라붙고 있습니다. 즉, 어느 정도는 정식 출시를 전제한 공개/비공개 베타 서비스도 아니고, 언제 없어져도 이상하지 않은 (말 그대로) '실험적인' 서비스입니다.
따라서 본 가이드에서는 구체적인 내용보다는 특장점, 예상되는 사용 방법 정도만 간단히 살펴보겠습니다.
NotebookLM은 기본적으로는 앞서 살펴본 Clova X나 Gemini, Copilot 등의 문서 기반 대화 기능과 같은 '검색 증강 생성(RAG, Retrieval Augmented Generation)' 시스템의 일종입니다. 간단하게 RAG는 (주로, 텍스트) 생성형 AI와 결합해 환각을 줄이고 더 신뢰할 수 있는 답변을 생성하기 위한 기술이라고 할 수 있으며, 이를 위해 LLM이 학습한 데이터에만 의존하지 않고 주어진 자료에 초점을 두어 질문-답변, 지시-처리 등의 반응을 하도록 설계되어 있습니다.
💭 RAG에 대한 더 자세한 설명은 간단한 검색으로도 충분한 자료를 찾을 수 있으니 생략하겠습니다.
정식 출시된 RAG도 있는데 굳이 '실험적인' NotebookLM을 소개하는 이유는 간단한 사용법, 예시를 통해 설명하겠습니다. 우선 사이트 URL로 접속하면 다음과 같이 간단한 화면이 나타납니다.
화면 상단에는 기존에 만들었던 '사용자의 노트북' 목록이 있고, 하단에는 기본적인 소개, 사용 방법 등을 알아볼 수 있는 '예시 노트북'들이 보이고 있습니다.
먼저 여기서 가능한 작업들을 조금 더 설명하면,
-
새 노트북 만들기 : 사용자 노트북 목록에 보이는 다음 버튼을 눌러 새 노트북을 생성합니다.
-
노트북 삭제 또는 제목 수정 : 각 노트북에 보이는 ... 버튼을 눌러 해당 노트북을 삭제하거나, 제목을 변경합니다.
📌 참고 : 예시 노트북은 삭제하거나 제목을 수정할 수 없습니다.
-
노트북 정보 확인 : 각 노트북 하단에 해당 노트북의 생성일, 출처(자료)의 수, 공유 상태 등을 확인할 수 있습니다.
그럼 예시 노트북 중 가장 왼쪽의 'Introduction to NotebookLM'을 열어보면, 다음과 같은 화면이 나타날 것입니다.
이미 만들어진 노트북이므로, 왼쪽으로 출처(=자료, 이하 '소스'로 칭함) 목록이 보이고, 전체적으로 '사람이 작성한 메모'들이 나타나며, 하단에는 등록된 소스들을 바탕으로 대화를 할 수 있는 입력창이 나타납니다.
이 예시 노트북의 각 소스들을 클릭해보면 NotebookLM에 대한 보다 상세한 사항들을 파악할 수 있습니다. 목록 가장 위에 있는 'Getting Started with NotebookLM'을 클릭하면,
'출처 가이드'에 해당 소스의 요약 및 주요 주제(키워드)를 보여주고, 그 아래로 소스의 실제 내용을 확인할 수 있습니다. 이 소스의 경우 가장 첫 단계로 '소스'들을 등록하는 방법을 설명하고 있습니다.
그리고 다른 소스들을 통해 주요 사용법, 유의사항이나 용도별 활용 방법 등을 확인할 수 있으며, 몇 가지 참고할만한 사항들을 정리하면 다음과 같습니다.
-
각 노트북에는 최대 50개의 소스와 1,000개의 노트(메모)를 등록할 수 있습니다.
-
각 소스는 (영문 기준) 최대 500,000 단어 이내여야 합니다. 이를 초과한 소스는 업로드할 수 없습니다.
-
소스 형식은 Google 문서(Docs), PDF, 일반 텍스트, 마크다운(.md) 파일, 그리고 웹 페이지 URL 입니다.
📌 참고 : 위의 내용 모두 사전 예고 없이 수시로 변경될 수 있습니다. 실제로 처음 접할 당시의 한 자료에는 최대 20개의 소스, 각 소스는 최대 20만 단어 이내였고, 마크다운 파일도 지원한다고 명시하진 않았습니다. '실험적인' 서비스인 만큼 지원하는 기능, 파일형식이나 그 밖의 제약이 언제든 변경될 수 있다는 점을 참고하기 바랍니다.
위에서 설명한 '소스 형식'으로 웹 페이지의 URL을 직접 등록할 수 있다는 점이 NotebookLM을 추천할만한 첫 번째 이유입니다. 기존의 문서 기반 대화는 어떤 형식으로든 -기본적으로 해당 서비스가 지원하는 형식에 맞춰- 별도의 파일로 저장한 뒤 업로드해야 했다면, NotebookLM은 웹 서핑 중 참고할만한 페이지를 만나면 그대로 웹 주소를 복사해 NotebookLM에 등록할 수 있습니다.
물론 html이 아니라 일부 페이지의 내용을 동적으로 불러오는 (주로 게시판 같은) 경우엔 제대로 동작하지 않기도 합니다만, 간단히 웹 주소를 복사해 새 창에서도 제대로 보이는 경우는 거의 동작하는 것으로 확인했습니다.
그럼 실제로 문서 하나를 업로드하면서 간단한 사용법을 살펴보겠습니다. Google은 업로드한 소스를 학습에 활용하지 않는다는 문구가 보이긴 하지만, 테스트에는 지난 4월 공개된 'AI-반도체 이니셔티브(안)'을 사용해보겠습니다. 이를 위해 메인 화면에서 '+ 새 노트북'을 누르면, 화면이 전환되면서 소스를 업로드할 수 있는 팝업이 나타납니다.
다운 받았던 자료(.pdf)를 업로드하면, 잠시 동안 소스를 읽고 분석한 다음 '노트북 가이드' 창이 올라옵니다.
이 '노트북 가이드'도 NotebookLM의 특징 중 하나로,
-
(맨 위) 생성 부분 : 선택한 소스를 바탕으로 AI를 통해 새롭게 생성할 노트(메모)의 유형을 선택하는 부분으로, -설명에 따르면, 소스에 따라 바뀔 수 있다고 하지만- 대개의 경우 기본값과 같이 이런 유형이 추천됩니다.
-
(아래 왼쪽) 요약 : 선택한 소스의 내용을 요약하며, 핵심적인 부분은 나름대로 굵은 서체로 강조 표기도 해서 보여줍니다.
-
(아래 오른쪽) 추천 질문 : 선택한 소스를 바탕으로 사용자가 해볼 수 있는 질문 예시들을 추천해줍니다.
그리고 아래 '채팅 보기'를 눌러서 별도의 대화(질문-답변)를 시작하거나 이전 대화를 볼 수 있고, '노트북 가이드'를 눌러서 방금 보였던 화면을 치우거나 다시 보이게 할 수 있습니다. 그 사이의 대화 입력 창에는 현재 몇 개의 소스를 선택했는지도 보여줍니다.
아까 '생성' 부분에서 기본적으로 보이는 5개 유형은,
-
FAQ : 말 그대로 자주 나올법한 질문과 그에 대한 답변을 자동으로 생성합니다.
-
학습 가이드 : 소스의 내용을 학습하기 위해 추천할만한 가이드를 생성합니다.
-
목차 : 주로 긴 문서에 쓸모가 있는 기능으로, 주요 목차와 그 내용을 요약하며 페이지 번호까지 함께 정리해줍니다.
-
타임라인 : 소스의 내용 중 시간 정보가 포함된 부분이 있을 경우, 이를 바탕으로 시간 순서에 따라 관련 내용을 요약해줍니다.
-
브리핑 문서 : 소스 전체를 '요약'한다는 점에서 위 '목차' 기능과 유사한데, 좀 더 간결하게 요약한다는 차이가 있습니다.
💭 공식 자료의 내용이 아니라 약간 다르거나 빠진 내용이 있을 수 있음은 양해 바랍니다. 소스에 따라 나타날 수 있다고 하는 다른 유형에 대해서도 확인이 필요합니다.
시험 삼아 유형 한가지를 눌러보겠습니다. 소스에 따라 생성이 안될수도 있지만.. 비교적 생소할 수 있는 '타임라인'을 선택하면, 다음과 같이 내용을 분석하기 시작하고,
잠시 후 다음과 같은 팝업 창으로 분석 결과를 '타임라인' 유형으로 정리한 노트(메모)가 생성됩니다.
내용에 따라 다르겠지만 위와 같이 '과거'뿐만 아니라,
'미래' 부분에 앞으로 계획/예정된 부분도 정리하고, 그 외에도
주요 '등장인물', '참고자료', '추가 분석' 등의 내용도 -소스 내에 있을 경우- 정리해주며,
마지막에 이 타임라인 유형으로 정리한 내용들을 간단히 요약한 '결론'으로 마무리합니다.
💭 참고로 LLM이 자동 생성하는 이 노트(메모)의 내용은 같은 유형이라도 반복할 때마다 형식이 조금씩 바뀌기도 합니다. 일례로 과거에 테스트했던 '타임라인' 유형에선 다음과 같이 '등장인물'을 기관 및 기업 단위로 구분 및 정리했었습니다.
...(중략)...
또 다른 유형인 'FAQ'는 어떻게 나오는지 시험해보면,
위와 같이 소스의 내용을 바탕으로 자주 나올법한 질문과 그에 대한 답변을 생성하며, 위 예시에서는 총 8가지의 질문이 생성되었습니다.
-
AI-반도체 이니셔티브를 추진하는 이유는 무엇인가요?
-
AI-반도체 이니셔티브의 주요 내용은 무엇인가요?
-
한국이 AI 반도체 분야에서 강점을 가지고 있는 분야는 무엇인가요?
-
AI-반도체 이니셔티브를 통해 정부는 어떤 지원을 제공하나요?
-
PIM(Processing-in-Memory) 기술이란 무엇이며 왜 중요한가요?
-
국산 AI 반도체의 활용을 촉진하기 위한 정부의 계획은 무엇인가요?
-
AI-반도체 생태계 강화를 위한 정부의 노력은 무엇인가요?
-
AI 기술 발전과 관련된 윤리적 문제에 대한 정부의 대응 방안은 무엇인가요?
보다시피 이 'FAQ'를 통해서는 이 자료를 처음 보거나 배경 지식이 많지 않은 경우에 나올 법한, 다소 평이한 질문들이 만들어진다면, 다음 예시와 같은 질문을 입력해 '예상되는 쟁점'에 대한 내용을 만들어볼 수도 있습니다.
만약 위와 같이 직접 질문을 입력하는 경우 다음과 같은 대화형 UI로 답변을 보여주며,
답변 내용 중 출처가 표기된 숫자 버튼을 눌러보면, 해당 답변과 관련된 소스의 내용도 확인할 수 있습니다. ①번 출처를 눌러보면 다음과 같다고 합니다.
또 답변 내용 오른쪽에 보이는 📌 모양 버튼을 누르면 해당 답변이 별도의 노트(메모)로 저장되며, 대화 내용은 일정 기간이 지나면 사라지지만 이렇게 저장된 노트(메모)는 계속해서 볼 수 있습니다.
한편, 과거에 테스트 했을 당시 짚어준 '쟁점'들은 다음과 같았습니다.
-
"AI 반도체 이니셔티브"에서 제시하는 목표인 '2027년까지 저전력 AI 반도체 G1 달성 및 AI G3 도약'이 현실적으로 가능한가?
-
막대한 예산이 투입되는 이 전략이 국내 AI 반도체 산업 발전에 실질적인 효과를 가져올 수 있을까? 특히, 대기업 중심의 산업 구조에서 중소기업과 스타트업에게 실질적인 도움이 될 수 있을까?
-
이 전략이 단순히 기술 개발 지원에 그치는 것이 아니라, 실제 시장에서 경쟁력을 갖춘 제품과 서비스를 창출할 수 있도록 하는 방안이 마련되어 있는가?
-
AI 기술 발전과 활용 과정에서 발생할 수 있는 윤리적 문제와 사회적 영향에 대한 대비책은 무엇인가?
조금 테스트를 계속해보면 같은 질문이라도 생성되는 결과가 조금씩 바뀌기는 합니다만... 어디까지나 업로드한 소스의 내용을 바탕으로 생성되는 내용이다보니, 아주 예상 밖의 '질의'를 생성하거나, 소스에 없는 참신한(?) 내용의 답변은 발견하지 못했습니다.
대신 직접 예상되는 지적이나 쟁점을 던져주며 답변을 만들게 시켜본다던지, 내용 전반에 걸쳐 빠진 것이나 미흡한 것 등이 없는지 물어보는 등, 스스로 작성한 자료를 되짚어 보는 용도로는 훌륭한 보조수단이 될 수 있습니다.
과거에 해본 또 다른 테스트로, SWOT 분석도 한번 시켜봤습니다.
내용이 사실인지, 그리고 쓸만한지 여부와는 별개로, 문서에 없는 내용 ('약점'이라고 볼만한 내용)은 없다고 솔직하게 답변하는 것도 참고할만한 부분입니다.
📌 참고 : 한편 LLM 입장에서 없는 내용을 없다고 답변하는 것과, 있는 내용을 나름대로 분류/분석/판단해서 답변하는 것은 엄연히 다른 문제입니다.
관련 내용이 없는지 판단하는 것부터가 LLM에겐 도전적인 문제이며, 나름 잘 맞추는 LLM이라도 '아마 없나본데?' 정도의 -확신도 아니고- 추정만 가능한 것입니다. 조금 솔직해 보인다는게 '정확성'을 담보하진 않으므로, 없다는 답변을 보더라도 정말 관련 내용이 없는지 사용자의 확인이 필요합니다.
그리고 (예를 들면) 위 답변에서 '강점'이라고 꼽은 내용도 실제로 해당 소스에서 강점으로 언급되었는지, 직접적 언급은 없었더라도 '사실상/어느정도는 강점으로 삼을만한 내용인가?'에 대해선 사용자가 직접 확인하고 판단해야 합니다.
그 밖에도 여러 개의 소스를 등록한 뒤 모두 종합하여 요약하거나, 서로 비교하여 차이점을 분석하는 등 더 복잡한 활용도 가능하지만, 기본적인 사용법은 거의 동일하므로 본 가이드에선 생략하겠습니다.
이상과 같은 방식으로 국정감사, 공청회/설명회 등을 앞두고 예상 질의를 만들어본다던지, 또는 기획, 연구, 자료조사, 단순 스크랩 등 다양한 용도로 활용해보면서, 새롭게 발견하는 팁/노하우가 있다면 게시판에도 공유하기 바랍니다.
4.2.G. LilysAI (릴리스에이아이)🔗
▶ URL : https://lilys.ai/
LilysAI는 유튜브와 같은 동영상 콘텐츠의 영상 요약 기능을 제공하는 AI 서비스이며, 최근엔 텍스트, PDF 파일이나 웹사이트, 녹음 파일 등 요약 가능한 미디어를 확장하고 있는 것이 특징입니다. 이를 통해 사용자는 긴 영상이나 방대한 자료를 빠르게 파악할 수 있어, 상대적으로 중요한 자료를 선별하거나 필요한 특정 부분에 더 집중할 수 있습니다.
위 URL로 웹 사이트에 접속하면 다음과 같이 '영상' 요약이 기본으로 선택된 화면을 볼 수 있습니다.
다른 기능들도 간략히 설명하자면,
-
검색 : 사용자 검색어와 일치도가 높은 영상 콘텐츠를 찾는데 최적화된 검색 서비스
-
웹사이트 : URL 입력만으로 간편하게 해당 웹 페이지의 내용을 요약해주는 서비스
-
PDF/텍스트 : 업로드한 PDF 파일 또는 텍스트를 요약해주는 서비스
-
녹음 : 녹음 파일을 업로드 또는 실시간 녹음으로 회의록을 생성 및 요약해주는 서비스
📌 참고 : 이들은 각각 앞에서 살펴본 다른 서비스들과 중복되기도 하고, 특별한 장점은 식별되지 않는 '대체제' 정도로 파악되고 있습니다. 따라서 본 가이드에선 가장 대표적이고 핵심적인 영상 콘텐츠 요약 기능 위주로 살펴보겠습니다.
영상 요약 기능에 대해 알아보기 위해, 테스트를 위한 유튜브 영상을 하나 찾아봤습니다.
스탠포드대 공대에서 공개한 AI 강좌 중 하나인 위 영상의 길이는 총 1시간 8분 56초이고, 보다가 중간중간 졸았던(...) 기억이 있어서 요약 기능을 써보기 좋겠다고 판단하였습니다.
영상의 URL은 유튜브의 '공유' 버튼을 통해 쉽게 복사할 수 있으며, 복사한 URL은 다음과 같이 LilysAI에 붙여넣기 하고 엔터 또는 '→' 버튼을 누르면 됩니다.
여기서 넘어가기 전에 잠시 아래 쪽 부가 기능들에 대해 살펴보면,
-
(언어 선택) 영상을 어떤 언어로 요약할지 선택할 수 있으며, 기본값은 '한국어'이고 영어, 일본어, 중국어, 스페인어, ... 등 다양한 선택이 가능합니다.
-
('컬렉션' 선택) 어떤 '컬렉션'에 결과를 저장할지 선택하는 부분인데, '컬렉션'은 사용자가 구분하고 관리하기 쉽게 해주는 '폴더명' 같은 것으로 이해하면 됩니다.
-
(음성인식 정확도 향상 기능 선택) 더 정확한 결과를 위해 OpenAI의 음성인식 모델인 Whisper 사용 여부를 선택할 수 있으며, 요금제에 따라 사용량 제한이 있으니 참고하기 바랍니다.
이제 URL을 입력하고 잠시 기다리면 곧바로 결과가 나타나며,
먼저 위쪽부터 살펴보면 해당 요약 결과가 저장된 컬렉션의 경로, 이름과 영상 제목이 보이고,
오른쪽 상단에서는 해당 영상을 곧바로 재생할 수 있는데, 이 부분은 아래에 이어지는 요약 내용을 보면서도 계속 시청할 수 있도록 스크롤이 고정되어 있습니다.
그리고 제목 아래 부분에는 다음과 같이,
-
'요약 노트' : 영상 내용을 요약한 결과가 보이는 탭
-
'스크립트' : 영상 내용 중 음성을 텍스트로 변환한 결과가 보이는 탭 (요약 X)
-
'타임스탬프' : 영상 내용을 바탕으로 자동 생성한 주요 시점(=타임스탬프)의 목록이 보이는 탭
-
'블로그 글' : 영상 내용을 블로그 형식에 적합하게 요약/변환한 결과가 보이는 탭
...을 이동할 수 있는 부분이 있으며, 요약 부분부터 살펴보면 대략 '목차 - 핵심 주제(짧은 요약) - 시간대별 내용 요약(들)'과 같은 순서로 정리되어 있습니다.
...(중략)...
...(중략)...
가장 위에 보이는 목차에서는 해당하는 시점(='타임스탬프')으로 빠르게 이동할 수 있고, 각 분할된 부분마다 삽입된 캡쳐 화면을 클릭하면 곧바로 해당 부분의 영상을 시청할 수도 있어, 전체 영상 중에서 원하는 부분만 빠르게 찾아보고 학습하기에도 편리합니다. 또 전체적으로 중요한 키워드나 문장에는 굵은 글씨체로 강조 표기도 되어있음을 볼 수 있습니다.
'스크립트' 탭은 다음 그림과 같이 실제 영상의 내용(음성)을 텍스트로 변환한 결과를 볼 수 있으며, 앞의 '요약 노트' 탭과 마찬가지로 각 구간마다 '캡쳐화면+스크립트' 형식입니다.
각 구간의 하단에는 해당 구간의 스크립트를 번역해서 볼 수 있는 버튼과 해당 구간의 영상을 시청할 수 있는 버튼이 표시됩니다.
그리고 '타임스탬프' 탭에서는 앞의 두 탭에서 본 각 구간들의 정보만 목차 같은 형식으로 보여주고 있습니다.
마지막으로 '블로그 글' 탭에선 큰 틀에서 '요약 노트'와 비슷한데 글의 스타일만 변경한 것으로, 업무 활용 측면에선 중요도가 떨어지는 듯 하니 생략하겠습니다.
그 밖에도 혹시 LilysAI의 '검색' 기능이 대해 궁금할 경우, 아직 도움말 페이지(바로가기)에서는 관련 내용이 식별되지 않으므로 릴리즈노트(바로가기)를 참고하기 바랍니다. 마찬가지로 '웹사이트' 요약 기능도 다른 릴리즈노트(바로가기)를 참고하면 됩니다.
4.2.H. VREW (보이저엑스)🔗
▶ URL : https://vrew.ai/ko/
VREW는 AI 기반의 비디오 편집 도구로, 사용자가 비디오를 쉽고 빠르게 편집할 수 있도록 하는데 특화되어 있습니다. 반응 속도도 빨라야하고 대량의 영상 파일들에 접근하기 용이하도록, VREW는 -앞에서 다뤘던 다른 서비스들과는 달리- 웹 사이트가 아닌 데스크톱 앱을 다운로드하고 설치해야 사용할 수 있습니다.
📌 참고 : 체험판에 한하여 웹 사이트에서도 VREW를 사용해볼 수 있긴 합니다. 아래와 같이 '내보내기(=저장)'는 안된다고 나와있으며, 구동 환경이 다르니 다른 기능도 일부는 제약이 있을 것으로 추정됩니다.
VREW의 가장 큰 특징은 문서 편집과 같이 익숙하고 편리한 UI/사용법이며, 따라서 비디오 편집을 처음 접하는 사용자도 쉽게 사용할 수 있다고 합니다. 이를 포함해 주요 특징을 정리하면 다음과 같습니다.
-
AI 기반 자막 생성 : Vrew는 AI 음성 인식을 활용하여 자동으로 자막을 생성합니다. 사용자는 자막의 초안을 검토하고 몇 가지 오타만 수정하면 됩니다.
-
문서 기반 편집 : 비디오의 특정 부분을 쉽게 찾고 편집할 수 있도록 텍스트 기반의 편집 기능을 제공합니다. 이는 비디오를 되감지 않고도 특정 순간을 빠르게 찾을 수 있게 합니다.
-
무료 리소스 : 10만 개의 이미지, 수천 개의 비디오, 200개의 배경음악, 1000개의 효과음, 100개의 폰트 및 자막 디자인 템플릿을 제공하여 비디오를 꾸밀 수 있습니다.
-
AI 음성 : 다양한 언어의 고품질 AI 음성을 제공하여, 사용자 비디오에 AI 생성 음성 해설을 추가할 수 있습니다.
-
그 밖의 편리한 기능 : 비디오에서 무음 구간을 자동으로 제거하는 'Silence Trimmer' 기능, 몇 번의 클릭만으로 고품질의 짧은 비디오를 완성할 수 있는 다양한 템플릿 등 다양한 부가 기능들이 포함되어 있습니다.
그럼 앱을 사용해보기 위해 홈페이지의 다운로드 버튼을 찾아 설치 파일을 다운로드, 실행합니다.
앱 설치가 완료되면 곧 앱이 실행되며, 이용약관 및 개인정보처리방침 동의 화면이 나타납니다.
다음으로 넘어가면 소개 겸 간단한 사용법을 안내해주는 데모 영상을 볼 수 있습니다.
네이버 말고 '다음'을 누르다보면 이제 앱의 전체 UI가 보이며 기본적인 사용법을 다음과 같이 안내해줍니다.
간단한 안내가 끝나고 볼 수 있는 전체적인 UI는 앱 소개에서 언급한 '문서 편집기'와는 약간 다른 모습인데, 시간 순으로 아래로 스크롤 해가며 영상과 음성(인식 후 변환된 자막들)을 확인하고 편집해가는 방식만 놓고 보면 '문서 편집기'에 가까운 방식이긴 합니다.
💭 대다수 영상 편집/제작 도구는 시간 표시기나 막대 등 UI가 가로형으로 배치된 것이 일반적입니다.
(예시 화면?)
또 화면 상단에 보이는 메뉴 바 형태가 MS Word나 한글(HWP)과 같은 형태를 띄었다고 볼 수 있을텐데, 이건 꼭 '문서 편집기'에만 한정할 수 있는 형태는 아니죠.
즉 '세로 스크롤'이 문서 편집기 형식이라는 소개의 근거가 아닐지 추측되는데, 친숙한 방식일 수 있지만 아주 긴 영상을 편집/제작할 때는 작업 효율이 다소 떨어질 수 있다는 생각도 들었습니다.
한편 앱을 둘러보다 보면 초보자라도 쉽게 사용할 수 있도록 곳곳에 친절하고 세심한 안내를 볼 수 있었는데, 예를 들면 앱 오른쪽 상단의 설정(모양 버튼)만 들어가보더라도,
(몇 개 안되는 설정이긴 하지만) 각 설정마다 그림까지 곁들인 설명이 들어가있어, 처음 앱을 사용하고 영상 편집/제작도 낯선 사람까지 사용할 수 있도록 앱을 만들었음을 알 수 있습니다.
참고로 VREW가 영상으로부터 AI 음성 인식을 통해 자막을 만들어주는 기능은 바로 앞 섹션에서 살펴본 LilysAI의 '스크립트 추출' 기능과 비슷하므로, 만약 무료로 이용하면서 사용량 제한에 도달할 경우 다른 한 앱/서비스를 대체재로써 사용할 수 있습니다.
💭 그 외에는 LilysAI가 영상(음성)을 텍스트로 변환(+요약 등)하는데 초점을 두는 반면, VREW는 주로 '영상 편집/제작'에 초점을 두고 있으므로 다른 공통점을 찾기는 어렵습니다.
VREW에서 자동으로 생성된 자막은 다음과 같이 간단히 통째로 복사할 수 있습니다. 상단 메뉴 바에서 '자막 - 전체 자막 복사하기' 버튼을 누르면,
다음과 같은 팝업이 나타나고, 곧바로 메모장이나 다른 편집기에 붙여넣기하여 활용할 수 있습니다.
물론 위 예시와 같이 간단한 영상, 스크립트가 아니라 실제 상황(?)에서는 음성 인식 결과가 항상 정확할 수 없으므로, 간편한 앱 UI를 활용해 중간중간 잘못 인식된 부분이 없는지 확인하고 (필요 시) 수정한 다음에 복사하는 쪽이 효율적일 것입니다.
이처럼 '간편한 영상 편집/제작'이라는 특징을 표현하듯 공식 페이지의 '사용법 배우기(바로가기)'도 모두 영상 콘텐츠로 제공되는데, -사용자마다 호불호가 갈리겠지만- 영상 편집/제작을 배우는 과정에선 텍스트 형식의 매뉴얼보다 더 효과적일 것으로 예상됩니다. 주요 기능, 작업, 사례에 따라 다양한 튜토리얼이 제공되며 검색도 가능하니, 필요한 경우 참고하기 바랍니다.
4.2.I. Gamma (Gamma Tech)🔗
▶ URL : https://gamma.app/
Gamma는 생성형 AI를 이용해 프레젠테이션, 문서, 또는 웹사이트를 쉽고 빠르면서도 미려한 디자인으로 만들 수 있는 콘텐츠 제작 플랫폼/서비스입니다. 특히 사용자가 페이지 구성, 내용, 그 밖의 많은 서식 및 디자인 요소를 검토하고 선택해야하는 과정을 최소화하여, 간단한 프롬프트와 최소한의 설정으로도 일정 수준 이상의 결과물을 생성해낼 수 있습니다.
Gamma를 사용하는 과정에서 영감을 얻는 경우, 새로운 아이디어를 콘텐츠의 일부 또는 전체에 적용하기 위해 생성형 AI에게 지시할 수 있고, 직접 수정할 수도 있습니다.
먼저 사이트에 접속, 로그인하면 다음과 같은 화면이 나타납니다.
왼쪽 상단에 '김성철's Workspace'를 눌러보면 현재 어떤 '작업 공간'을 이용하고 있는지, 그리고 다른 목적으로 구분/생성해둔 작업 공간이나 다른 사람과 공유하여 공동 작업을 하기 위한 작업 공간 등 목록을 볼 수 있습니다. (아래 그림은 기본 작업 공간만 보이는 상태)
또 그 아래에서는 Gamma의 주요 기능들에 접근할 수 있으며, 간단히 요약하면 다음과 같습니다.
-
⬜ Gammas : 사용자가 만들었던 슬라이드나 문서들을 찾아보거나, 새로운 문서를 만들거나, 기존 작업물을 가져올 수 있습니다.
-
👥 공유 : 다른 사용자와 공유하고 있는 슬라이드/문서만 따로 찾아볼 수 있습니다.
-
🌐 사이트 : 간단한 프롬프트와 설정만으로 간단한 웹사이트를 제작할 수 있습니다. 아래 그림의 '자세히 알아보기'를 누르면 관련 도움말 페이지로 연결됩니다.
-
⚡ 템플릿 : 기본 제공되는 다양한 템플릿을 주제별로 보여주고, 그럴싸한 템플릿을 미리보기하거나, 곧바로 슬라이드 작성을 시작할 수도 있습니다. (아래 그림의 'New Teammate Welcome' 부분)
-
📖 영감 : 위 '템플릿'에서는 말 그대로 서식만 살펴봤다면, '영감'에서는 Gamma 제작자들이 만든 다양한 샘플 슬라이드를 보면서 사용법, 기능을 직/간접적으로 알아볼 수 있습니다.
-
🎨 테마 : "테마를 사용하면 색상, 글꼴, 로고 및 시각적 스타일을 사용자 지정할 수 있습니다. 브랜드에 맞게 직접 만들거나 미리 만들어진 옵션 중 하나를 사용할 수 있"다고 합니다.
-
🅰 사용자 지정 글꼴 : "Gamma에는 Google 글꼴이 포함되어 있지만, 사용할 자신만의 테마를 맞춤 설정 테마에서 업로드할 수도 있"다고 합니다. (단, 'Pro' 등급의 유료 계정만 가능. 아래 '이용 요금' 부분 참조)
-
🗑 휴지통 : 예전에 삭제했던 슬라이드/자료를 보고 다시 복구하거나 영구삭제할 수 있습니다.
-
○○○ 크레딧 : Gamma에서 생성형 AI 기능을 사용할 때마다 정해진 양만큼 차감되는 사용량 단위이며, 무료 계정이라도 가입 시 기본 제공되는 크레딧이 있습니다. 자세한 설명은 다음 그림을 참조하기 바랍니다.
-
... (이하 생략)
자, 그럼 한번 새로운 문서를 만들어보면서 간단한 사용법을 살펴보겠습니다. 먼저 왼쪽 상단의 'Gammas' 메뉴에 들어가서, '➕ 새로 만들기 AI' 버튼을 클릭합니다.
그럼 바로 다음과 같은 페이지로 연결되며, 어떤 방식으로 '생성형 AI를 이용해' 자료를 만들지 선택하거나, 최근 이용했던 프롬프트들을 볼 수 있습니다.
여기서 '인기'라고 강조돼있는 '생성'을 누르면 다음 페이지로 넘어가며, 가장 먼저 어떤 유형의 자료를 만들 것인지 선택합니다.
만드려는 자료 유형을 선택했으면, 다음으로 AI가 생성할 자료의 카드(=페이지) 수와 내용 작성에 사용할 언어를 설정하고, 구체적으로 어떤 내용의 슬라이드를 만들어야 하는지 설명/지시하는 '프롬프트'를 입력합니다.
💭 앞서 3장에서 '프롬프트 엔지니어링'의 핵심 원칙이라고 강조한 것처럼, 가능한 '명확하고 구체적인' 프롬프트를 입력하기 바랍니다.
참고로 아래 '프롬프트 예시'를 보면서 어떤 자료들을 만드는지 볼 수 있고, '섞기'를 눌러서 다른 예시들을 볼 수도 있습니다. (언뜻 보면) 큰 차이가 없기도 하지만, 만들 자료 유형을 바꿀 때마다 다른 예시들이 나타납니다.
이제 프롬프트를 직접 이것 저것 주문사항을 넣어서 입력하고,
'개요 생성'을 누르면, 다음과 같은 화면이 나타납니다. (벌써 생성형 AI가 일부 동작하기 시작합니다!)
위쪽부터 보면, 먼저 '윤곽선'이라고 약간 어색하게 번역된 개요(='Outline')를 지정한 카드 수에 맞게 구성&배치한 결과를 보여주며, 여기서 직전에 입력한 프롬프트를 수정하고 다시 '개요(윤곽선)'을 재생성하거나,
또는 마음에 들지 않는 카드(=페이지)의 개요를 직접 수정하거나, 카드 번호 왼쪽의 '::' 버튼을 끌어서 순서를 바꿀 수 있고, 오른쪽 휴지통 버튼을 눌러서 아예 삭제할 수도 있습니다.
각 카드별 개요들을 미리 예상/검토하면서 필요한 조치를 취한 다음, 그 아래쪽에서 카드를 추가하거나 그 밖의 설정들을 추가로 지정할 수 있습니다. (추가 설정들은 선택사항입니다.)
📌 참고 : 바로 위 '고급 모드'라고 보이는 부분은 본 가이드에선 생략하며, 실제로 사용하게 될 경우 한번 직접 확인해보기 바랍니다. 본 가이드를 읽어봤다면 특별히 어렵거나 '고급'이라고 느껴지진 않겠지만, 확실히 위의 화면/UI보다 더 세부적인 항목을 직접 설정할 수 있습니다.
모든 설정까지 마쳤으면, 이제 페이지 하단에 보이는 '계속 →' 버튼을 누르면 다음 단계로 넘어가는데, 이 버튼에 보이는 숫자('40')는 앞서 짧게 언급했던 '크레딧'이 그만큼 차감된다는 의미입니다.
그러면 정말 마지막 설정으로 '테마'를 선택하라고 하며, 각 테마를 선택할 때마다 간단한 미리보기도 바로 확인 가능합니다. 이렇게 여러 가지 테마들을 찾아보고 원하는 테마를 선택한 다음, '✨생성' 버튼을 눌러서 생성형 AI에게 슬라이드 생성을 시작시킵니다.
📌 참고 : 테마는 나중에도 얼마든지 바꿀 수 있습니다. 테마에 따라 크고 작은 수정이 필요할 수 있기는 합니다만...
그럼 곧바로 슬라이드가 만들어지는 과정을 볼 수 있는데, 그 과정이 생각보다 역동적으로 보여서 크레딧 제한만 없다면 몇 번이고 반복하고 싶을 정도입니다. 슬라이드는 다음과 같은 화면으로 보이게 되며,
전체적인 편집 기능은 MS Powerpoint에 비해 상당히 간소한 편이고, Apple의 Keynote에 훨씬 가깝습니다. 기본적으로 깔끔하고 단순한 디자인을 선호하는 해외 사용자들에게 초점이 맞춰져있는 상황으로 추측되며, PPT에 익숙한 사용자라면 약간의 적응이 필요할 수 있습니다.
기능을 일일히 소개하기 보다, 몇 가지 공통적인 사용법을 살펴보면 다음과 같습니다.
-
객체 추가하기 : 화면의 오른쪽에 세로로 보이는 아이콘 모음에서 여러 유형의 객체들을 추가할 수 있습니다.
-
직접 편집하기 : 뭔가 색상이나 글꼴, 크기 등 흔하게 볼 수 있는 편집 도구/버튼들이 Gamma에선 보이지 않습니다. 이들은 각 텍스트 상자, 그림 등 모든 개체에 마우스 커서를 가져가면 나타나는 '...' 모양의 버튼을 눌러야 나타납니다. 그러면 해당 개체에 맞는 편집 기능을 사용할 수 있습니다.
-
AI로 편집하기 : 앞 서 슬라이드 전체를 생성형 AI로 만들었지만, 이를 전체적으로 수정하는 작업부터 각 개체들의 편집까지 일부분에 대해서도 생성형 AI로 수정할 수 있습니다.
이는 곳곳에서 볼 수 있는 '✨' 모양 버튼을 클릭하고 추가 지시사항이나 원하는 수정 방향 등을 입력하는 식으로 간편하게 이용할 수 있습니다. 단, 각각의 세부적인 편집에도 소소하게 '크레딧'이 소모됩니다.
-
이미지 생성, 수정 : Gamma에서 자동으로 생성한 이미지도 더블클릭을 해보면, 오른 쪽에 나타나는 세부 설정 탭에서 화면 배치나 테마 같은 설정은 물론이고 어떤 '이미지 생성 프롬프트'가 사용되었는지 참고하여 다른 스타일로 다시 생성할 수도 있습니다. 단, 이미지 재생성도 AI가 활용되므로 '크레딧'이 소모됩니다.
이미지 생성용 프롬프트에 대해 잘 모르는 사용자라도 쉽게 사용할 수 있도록, 이 프롬프트도 슬라이드의 내용을 바탕으로 AI를 통해 수정할 수 있습니다. 바로 '프롬프트 향상'이라고 보이는 부분을 누르면 됩니다.
이렇게 AI를 활용하거나 직접 원하는 프롬프트를 추가/수정/삭제한 다음, 아래 쪽에 있는 생성 버튼을 눌러서 새로운 이미지로 수정할 수 있습니다. 필요하다면 다른 이미지 모델을 선택할 수도 있으며, (당연하지만) 같은 프롬프트라도 모델마다 다른 이미지를 생성해줍니다.
📌 참고 : '이미지 생성용 프롬프트'에 대해선 아래 MidJourney 섹션에서 조금 더 다루고 있으니 참고하기 바랍니다.
위와 같이 슬라이드를 수정하고, 내용/이미지를 추가하거나 수정하고, 필요하면 레이아웃이나 페이지 순서를 바꾸는 등 모든 수정을 마치면, 무언가 허전한 기분이 들 수 있습니다. '저장'하는걸 설명하지 못했는데, Gamma에선 변경 사항이 생길때마다 실시간으로 저장이 되므로 달리 설명할 필요도 없습니다!
마지막으로 Gamma로 제작한 슬라이드는 그대로 프리젠테이션을 시작할 수도 있고, 누군가에게 공유하여 함께 검토하거나 수정할 수도 있으며, 필요한 경우 PDF나 PPT 형식의 파일로 내보내기(다운로드 및 저장)도 가능합니다.
화면 오른쪽 위의 '▶ 프레젠테이션' 버튼을 누르면, 곧바로 웹 브라우저 자체에서 프리젠테이션이 시작됩니다. 브라우저 상단의 주소창도 안보이게 하려면, (크롬/엣지의 경우) F11 키를 눌러서 전체 화면으로 모드를 전환하면 됩니다.
그리고 프리젠테이션 중 화면 위쪽에 자동으로 가려져있는 메뉴 바에서 화면을 확대/축소하거나 프리젠테이션을 종료할 수 있고, 'Spotlight'라고 하는 재미있는 기능도 있으니 참고하기 바랍니다.
또 PDF나 PPT 형식의 파일로 다운로드 하려는 경우, '▶ 프레젠테이션'' 버튼 왼쪽의 '🔗 공유' 버튼을 눌러 '내보내기' 탭으로 이동하거나, 화면 제일 오른쪽 위 구석에 보이는 '...' 버튼 → '내보내기'를 통해
기본적으로는 Gamma에서 제작하는 슬라이드는 각 페이지('카드')의 크기와 가로:세로 비율(=종횡비)이 정해져있지 않습니다. 덕분에 프리젠테이션 중 웹 브라우저의 크기를 이리저리 바꿔도 곧바로 레이아웃이 조절되며, 종횡비가 제각각인 다양한 모바일 환경에서도 큰 문제 없이 프리젠테이션이 가능합니다.
그러나 이러한 방식은 주로 인쇄를 목적으로 슬라이드를 만들거나 정해진 스크린/디스플레이/프로젝터를 염두하여 디자인하려는 사용자에겐 치명적일 수 있습니다. 이러한 사용자를 위해 저 위 그림의 '페이지 설정'에 들어가보면, 가장 먼저 '카드 크기(종횡비)'를 설정할 수 있는 메뉴가 있습니다.
4.2.J. Presentations.AI (Presentations.AI)🔗
▶ URL : https://app.presentations.ai/
Presentations.AI는 생성형 AI를 활용하여 사용자가 쉽게 프레젠테이션을 만들 수 있도록 돕는 플랫폼입니다. 사용자에게 디자인과 콘텐츠 생성의 복잡성을 줄이고, 효율적으로 프레젠테이션을 준비할 수 있는 다양한 기능을 제공합니다.
💭 이는 바로 앞 섹션의 Gamma와 비슷하지만, 문서 및 웹사이트 생성까지 가능한 Gamma와는 달리 Presentations.AI는 '프리젠테이션'에 초점이 맞춰져 있다는 점이 다릅니다.
물론 한 가지 유형에만 초점이 맞춰져 있다고 해서 무조건 '더 나은 도구'라고 보장되는 것은 아니며, 사용자가 직접 써보고 판단할 필요가 있습니다.
먼저 서비스 URL에 접속하여 회원가입(무료) 또는 구글 계정으로 로그인 등을 하면 다음과 같은 화면이 나타납니다.
왼쪽 사이드 패널에 기본적인 메뉴가 나열되어있고, 아래 쪽 구석에는 '100 Credits'라고 역시 무료로 약간의 크레딧을 제공하는 것도 볼 수 있습니다.
여기서 오른쪽 메인 화면에서 'Create a presentation' 아래에 'Start with a prompt' 버튼을 눌러서, 생성형 AI를 활용해 발표자료를 만들어보겠습니다.
그럼 곧바로 발표 주제나 주요 내용을 입력할 수 있는 프롬프트 입력창이 나타나며, 이와 함께 슬라이드의 수나 사용 언어 등을 설정할 수 있는 UI도 함께 보이고 있습니다.
발표 주제나 주요 내용, 순서 등을 '명확하고 구체적인 프롬프트'로 입력하고 'Submit'을 누르면, 다음과 같이 생성형 AI가 만드려는 발표자료의 개요 및 주요 내용을 확인하고, 필요 시 일부 수정할 수 있는 화면으로 넘어갑니다.
그리고 화면 아래쪽의 'Generate Outline'을 누르면 생성형 AI가 각 슬라이드(페이지)마다 들어갈 제목과 내용을 조금 더 구체적으로 작성하게 됩니다. 여기서도 작성된 내용의 수정이나 슬라이드 순서 변경 등 사용자가 직접 원하는 방향으로 수정할 수 있습니다. (아래 예시의 경우, '성공 사례...' 부분은 자동으로 만들어줬으나 아직 필요가 없어서 제외시켰습니다.)
그러면 다음과 같은 화면이 잠시 보였다가,
이내 실제로 작성된 슬라이드에 검색된 이미지들이 추가되고 세부적인 서식/레이아웃이 적용되면서 최종 완성된 발표 자료를 만나볼 수 있습니다.
여기부터 부분적인 수정 방법은 Gamma와 유사합니다. 수정할 개체를 선택하면, 각 개체에 맞는 도구/설정 변경을 위한 UI가 나타나는 식이죠. 예를 들어 어떤 이미지를 선택하면, 직접 이미지를 업로드하거나 다른 이미지로 교체(다시 생성)하는 것 등이 가능하고,
그 밖에 텍스트 상자는 폰트, 색, 크기 등... 직관적인 방식이라 직접 써보면 대부분 어렵지 않게 수정할 수 있을 것입니다.
그리고 각 슬라이드의 아래쪽 'Add Point'를 통해 현재 슬라이드에서 언급할 요점(포인트)의 수를 직접 지정할 수도 있으며, 오른쪽 'Type'이나 'Layouts'를 이용해도 비교적 간단히 스타일을 변경할 수 있다는 점도 참고하기 바랍니다.
그리고 화면 한 구석에 보이는 'Remix' 버튼의 경우, 가능한 설정들을 다양하게 조합하여 다른 방식으로 작성된 슬라이드 미리보기를 간편히 둘러보고 선택/적용할 수 있어서, 디자인 아이디어가 부족할 때 특히 유용한 기능입니다.
Presentations.AI도 전반적으로 깔끔하고 단순한 슬라이드에 초점이 맞춰진 것으로 보이며, 따라서 -Gamma와 마찬가지로- MS Powerpoint만 써왔던 사용자는 다소 적응기간이 필요할 수 있습니다. 만약 Apple Keynote를 주로 써왔던 사용자라면 큰 이질감 없이 사용할 수 있을 것입니다.
한편 Gamma와의 차이점이자 Presentations.AI의 단점이라고 할만한 부분으로, 결과물을 파일로 내보내기(저장/다운로드)가 어렵다는 점이 있습니다. PDF나 이미지 파일로 내보내기는 유료 계정만 가능하고, PPT 파일로 내보내기는 무료 계정도 '가능'은 하지만 비용이 청구됩니다.
참고로 예시용 슬라이드로 테스트 겸 위 그림의 'Purchase'를 눌러보니, 크게 선심써서 50%나 할인을 해서 78달러라고 합니다. 요즘 환율이 대략 1300원대니까, 어... 그만 알아보겠습니다.
4.2.K. Whimsical (Whimsical)🔗
▶ URL : https://whimsical.com/
Whimsical은 여러 사람이 함께 작업을 할 수 있는 '협업' 기능과 함께 다양한 시각화 도구를 제공하는 플랫폼으로, 사용자들이 아이디어를 구조화하고 프로젝트를 효과적으로 관리할 수 있도록 합니다. 특히 플로우차트, 마인드맵, 와이어프레임, 스티커 메모 등 다양한 방식으로 아이디어나 정보를 모으고 시각화 및 공유할 수 있어 공동 작업의 효율을 높일 수 있습니다.
Whimsical의 주요 특징을 정리하면 다음과 같습니다.
-
다양한 시각화 도구: Whimsical은 플로우차트, 마인드맵, 와이어프레임, 스티커 메모 등 다양한 시각화 도구를 하나의 플랫폼에서 제공합니다. 이를 통해 사용자는 프로젝트의 다양한 측면을 쉽게 시각화하고 관리할 수 있습니다.
-
AI 통합 마인드맵: Whimsical은 ChatGPT와 같은 AI 기술을 활용하여 마인드맵 기능을 강화합니다. 사용자는 AI에게 질문을 던지고, 다양한 아이디어를 자동으로 생성하여 브레인스토밍을 보다 효율적으로 진행할 수 있습니다.
-
실시간 협업 기능: Whimsical은 팀원들과 실시간으로 협업할 수 있는 기능을 제공합니다. 사용자는 문서를 외부 협업자와 공유하고, 함께 편집할 수 있으며, 문서를 외부로 내보내거나 링크를 통해 공유할 수 있습니다.
-
유연한 프로젝트 관리: Whimsical은 간단한 프로젝트 관리 도구로도 활용될 수 있습니다. 사용자는 메모에 코멘트를 달거나 담당자를 지정하여 프로젝트의 진행 상황을 쉽게 추적할 수 있습니다.
-
사용자 친화적 인터페이스: Whimsical은 직관적인 사용자 경험을 제공하여, 디자인 경험이 없는 사용자도 쉽게 사용할 수 있습니다. 이는 특히 프로덕트 매니저나 비디자이너에게 유용합니다.
사용법도 직접 써보면 누구나 알 수 있을 정도로 직관적이며, 다음 그림과 같이 Whimsical을 어떻게 사용할 수 있는지 소개&설명을 겸한 템플릿도 다수 제공하고 있습니다.
4.2.L. DeepL (DeepL SE)🔗
▶ URL : https://www.deepl.com/ko/translator
DeepL은 인공지능 기반의 번역 서비스로, 높은 정확도와 자연스러운 번역을 제공하는 것으로 유명합니다. 특히 여러 언어를 지원하면서도 번역 품질이 우수하고, 속도도 비교적 빠른데다 PC와 모바일을 포함한 다양한 플랫폼/수단을 제공하는 등 여러 장점으로 인해 많은 사용자들에게 인기를 끌고 있습니다.
번역 기능 자체로는 이미 구글 번역, 네이버 파파고 번역, 그 외 유수의 서비스도 -일상적으로는- 충분히 쓸만한 수준이지만, DeepL의 경우 새로 영작을 하거나 이미 써둔 글을 교정하는 일에 더 특화된 서비스도 제공하므로 외국어 글쓰기를 자주 하는 사용자에게는 특히 유용할 수 있습니다.
필자 개인적으로는 데스크톱 앱을 설치해서 단축키를 이용해 빠르게 번역을 하는 방식을 주로 사용하고 있습니다. 기존까진 번역을 할 일이 생기면 ①웹 브라우저를 열고, → ②바로가기나 검색 엔진을 통해 번역 서비스에 접속하고, → ③번역할 문장을 타이핑하거나 복사&붙여넣기하는 약간의 번거로움이 발생했다면, DeepL 앱을 설치하고 나서부턴 ①번역할 문장을 쭉 드래그한 다음 단축키만 누르면 곧바로 번역 결과를 볼 수 있어서 매우 만족하고 있습니다.
💭 기본 단축키는
Ctrl + CC(컨트롤+C 연타)인데, 필자와 같이 평소 복사&붙여넣기 할 때 연타하는 습성(?)이 있는 경우 '설정'에서 다른 단축키로 변경도 가능합니다. 또 사용자에게 필요 없는 기능은 비활성화하여 불필요한 앱 실행으로 방해 받는 일을 방지할 수 있습니다.
또 DeepL에서 만든 웹 브라우저 확장을 설치하면 위 데스크톱 앱과 같이 아주 간편하게 번역, 단문 작성 등이 가능하지만... 웹 브라우저가 아닌 한글, PPT, 워드 같은 별도의 프로그램은 지원하지 않으므로 사용자에 따라 쓸만할 수도, 그렇지 않을 수도 있다는 점 참고하기 바랍니다.
4.2.M. 기타🔗
그 밖에 다양한 신규 AI 서비스/도구들이 하루가 멀다하고 출시되는 중입니다. 본 가이드에서 살펴본 것보다 살펴보지 못한 것들이 많을 것이고, 앞으로 점점 더 많아질 것입니다. 이 섹션에서는 이미 알려져 있으나 이 가이드에 담지 못한 AI 서비스/도구들에 대해 간단한 소개 및 특징을 정리하겠습니다. (메모 성격도 겸해서)
💭 참고로 아래 서비스/도구들이 '기타' 섹션에 포함된 이유는 저마다 조금씩 다른데, ①사용이 다소 까다롭거나, ②업무 활용도가 다소 낮거나 애매한 경우, 또는 ③필자 개인적으로 사용 경험이 부족한 것들입니다. (추가로, ④작성할 시간이 부족함💦)
추후 요청에 따라 (또는 자발적으로) 어떤 서비스/도구는 별도 섹션으로 옮겨 더 자세한 내용을 업데이트 할 수 있으며, 그 밖에도 별도/기타 섹션으로 추가할 새로운 무언가를 발견할 경우 제보해주기 바랍니다.
Figma 제품군 (Figma, Inc.)🔗
▶ URL : https://www.figma.com/ (접속 시, 한국어 페이지로 리디렉션됨)
Figma는 전세계적으로 널리 사용되고 있는 '협업 기반 디자인 및 프로토타이핑 플랫폼'으로, 현재 주요 제품/서비스로 Figma Design, FigJam, Figma Slides를 제공하고 있습니다. 이들은 디자이너, 개발자, 그리고 팀 전체가 효과적으로 협업할 수 있도록 설계되었고, 최근엔 생성형 AI를 바탕으로 다양한 편의 기능까지 추가되며 시장에서의 입지를 굳혀가고 있습니다.
[ Figma Design ]
Figma Design은 모바일 앱이나 웹 사이트의 인터페이스 디자인을 주요 타겟으로 하며, 일반 드로잉 목적으로도 상당히 쓸만한, Figma의 주력 제품입니다.
- 실시간 협업: 여러 사용자가 동시에 같은 파일에서 작업할 수 있어 팀 협업이 용이합니다.
- 클라우드 기반: 브라우저에서 작동하여 별도의 설치가 필요 없고, 모든 작업이 자동 저장됩니다.
- 디자인 시스템 지원: 컴포넌트와 스타일을 통해 일관된 디자인 시스템을 구축할 수 있습니다.
- 프로토타이핑: 인터랙티브한 프로토타입을 쉽게 만들 수 있습니다.
- 개발자 친화적: 'Dev Mode'를 통해 개발자가 디자인 정보를 쉽게 확인하고 HTML이나 코드로 변환할 수 있습니다.
[ FigJam ]
FigJam은 화이트보드 스타일의 협업 도구로, 팀의 아이디어 구상과 기획을 돕기 위해 사용할 수 있습니다. (개인적인 메모나 브레인 스토밍으로도)
- 브레인스토밍: 실시간으로 아이디어를 공유하고 발전시킬 수 있습니다.
- 다이어그램 작성: 복잡한 프로세스나 시스템을 시각화할 수 있습니다.
- 애자일 워크플로우: 스프린트 계획, 스탠드업, 회고 등 애자일 방법론을 지원합니다.
- 템플릿 제공: 다양한 사전 제작 템플릿으로 빠르게 작업을 시작할 수 있습니다.
- 인터랙티브 요소: 스티커, 이모지, 타이머 등을 활용해 참여도를 높일 수 있습니다.
[ Figma Slides ]
Figma Slides는 프레젠테이션 제작 도구로, Figma의 디자인 결과물이나 일부 기능을 활용해 간편한 슬라이드 제작이 가능합니다.
- 디자인 모드: Figma Design의 강력한 기능을 그대로 활용할 수 있습니다.
- 협업 기능: 팀원들과 함께 실시간으로 프레젠테이션을 만들고 편집할 수 있습니다.
- 인터랙티브 요소: 실시간 설문, 투표 등을 통해 청중과 상호작용할 수 있습니다.
- 프로토타입 삽입: 라이브 프로토타입을 슬라이드에 삽입하여 동적인 프레젠테이션이 가능합니다.
- AI 지원: AI 기반 쓰기 도구로 텍스트 생성 및 편집을 지원합니다.
Figma Slides를 테스트하기 위해 시험 삼아 제작해본 슬라이드는 이 바로가기를 통해 확인하기 바랍니다. Figma 제품군에 대해 간략하게 소개하는 내용이며, Figma Slides가 출시된지 얼마 안된 시점에 작성한 것이라 현재와는 약간 다를 수 있습니다만, 한 마디로 요약하면 '디자인 감각을 발휘하기엔 훌륭하지만 아직 생성형 AI 활용은 Figma Design과 FigJam에 국한돼 다소 아쉬움'입니다.
MidJourney (Midjourney)🔗
▶ URL : https://www.midjourney.com/
MidJourney는 텍스트 형식의 프롬프트를 입력해 다양한 이미지를 생성할 수 있는 플랫폼입니다. 얼마 전까진 유료로만 이용할 수 있었다가, 최근 웹 UI를 출시하며 Google 계정만 있으면 간편하게 로그인하고 무료로 -25장까지- 이미지를 생성해볼 수 있습니다.
다른 이미지 생성형 AI도 비슷하지만 MidJourney를 이용하면 사용자는 원하는 이미지의 화풍, 스타일, 톤/색상 등을 전체적인 영역부터 특정 피사체에 이르기까지, 그야말로 이미지를 묘사할 수 있는 거의 모든 표현을 복잡하고 정교한 프롬프트로 이미지 모델에 입력할 수 있습니다. (물론, 간단한 프롬프트도 동작은 합니다.) 사용자 프롬프트를 입력 받은 이미지 모델은 그동안 학습했던 이미지-텍스트 데이터를 바탕으로 사용자 프롬프트를 해석하고, 일련의 과정을 통해 새롭고 다양하며 창의적인 이미지를 만들어냅니다.
💭 아래에서 언급할 다른 이미지 생성형 AI들도 기본적인 동작 원리는 거의 비슷합니다. 이미지 생성형 AI도 그 원리를 조금은 알아야만 더 원활하고 효과으로 이용할 수 있는데, 일단 체험하는 정도로는 '명확하고 구체적으로 지시할 것'이라는 원칙만 알아도 충분하니 본 가이드에서는 생략하겠습니다.
초기의 MidJourney는 그 사용법도 다소 번거로웠습니다. 간단히(?) 요약해보면 먼저 MidJourney 홈페이지 회원가입 후 발송되는 초대 링크를 통해 Discord(일종의 SNS/메신저)의 MidJourney 커뮤니티에 등록/가입한 다음, 그 안에 공개 대화방 중 하나에 들어가 이미지 생성용 프롬프트를 입력하고 이미지가 생성되기까지 기다려야 했습니다. (공개 대화방의 수 많은 다른 사용자가 입력한 프롬프트와 생성된 이미지들이 수 없이 올라오는 걸 강제로 구경하며...)
하지만 지금은 간단히 Google 계정으로 로그인하면 다음과 같은 화면을 볼 수 있으며, 기본적으로 Explore 메뉴로 다른 사용자의 작품(?)을 구경하는 것부터 시작하게 됩니다.
그리고 상단의 프롬프트 입력창에서 곧바로 새로운 이미지 생성을 시작할 수 있으며,
📌 참고 : 위 그림은 이미 무료 사용량 한도를 초과한 계정이라 '구독'하라는 메시지이고, 처음 가입/접속한 사용자라면 다를 것입니다.
왼쪽의 'Create' 메뉴를 통해 사용자의 과거 작업들을 바탕으로 기존 작업을 이어가거나 또 다른 작업으로 가지치기 할 수도 있습니다.
그 아래 'Explore' 메뉴는 사용자의 과거 작업물을 모두 찾아볼 수 있고, 특정 조건으로 필터링도 가능해 기억도 잘 안나는 과거 작업물까지 쉽게 찾을 수 있습니다.
DALL-E (OpenAI)🔗
▶ URL : https://chatgpt.com/
ChatGPT로 유명한 OpenAI의 이미지 생성형 AI, DALL-E는 MidJourney와 함께 대표적인 이미지 생성 모델 중 하나입니다. 2021년 DALL-E가 처음 출시된 이후, 2022년 4월에 DALL-E 2가, 그리고 2023년 9월에 DALL-E 3가 출시되며 점차 정교하고 다양한 이미지를 생성할 수 있도록 발전하였습니다. 사용자 프롬프트에 대한 이해도 향상에도 중점을 두면서, 비교적 자연어에 가까운 프롬프트로도 고품질의 이미지 생성이 가능한 것이 특징/장점입니다.
초기엔 별도 URL/사이트에서 프롬프트를 입력해보며 이미지를 생성해볼 수 있었는데, 모두 DALL-E 3의 출시를 앞두고 중단되며 ChatGPT Plus(유료 계정)나 API를 통한 DALL-E 3를 사용하도록 안내하고 있습니다. 지금은 과거 DALL-E 2로 생성해본 이력만 남아있고, 더이상 새로운 이미지를 생성할 수는 없었습니다.
지금은 ChatGPT 사이트에서 일반 대화 형식으로 이미지를 생성할 수 있으며, 앞서 다뤘던 뤼튼의 사용법/예시와 비슷하다고 보면 됩니다.
즉, ChatGPT에 접속한 후 '어떠어떠한 이미지를 만들라는 프롬프트'를 입력하면 되는데, 너무 단순하고 추상적인 프롬프트를 넣으면 약간의 세부 사항을 더 알려달라는 답변이 돌아오기도 합니다.
이런 저런 추가 사항을 입력하기도 하고, 마음에 안들면 다른 스타일로 만든다던지... 사용자의 상상력에 따라 무궁무진한 결과를 만들수 있습니다.
💭 그러나 사용자가 정확히 딱 원하는, '이거다!' 싶은 이미지를 한 번에 얻기란 상당히 어렵습니다. 대개의 경우, 마음에 드는 이미지를 얻기까진 적지 않은 시행착오가 필요할 것입니다. 이는 다음으로 소개할 Stable Diffusion 섹션 하단에서 조금 더 설명하겠습니다.
Stable Diffusion (Stablity AI)🔗
▶ URL : https://stability.ai/
기본적으로 이미지 생성은 이미지 인식 못지 않게 GPU 사용량이 높은 작업 중 하나입니다. 지금은 워낙 LLM들이 거대해져서 상대적으로 덜 부각되는 편이지만, 개인 사용자용(=게임용) GPU로는 풀HD 화면의 1/4도 안되는 512x512 픽셀의 이미지를 생성하는 것조차 최소 몇 분은 기다려야 할 정도로 빡쎈(?) 작업이죠. (물론 사용하는 이미지 생성 모델/파라미터에 따라, 또 GPU 사양에 따라 소요 시간이 크게 차이가 납니다.)
그래서 기본적인 사용법이라도 제대로 배울 생각이라면 클라우드 인프라에서 동작하는 상용 서비스를 이용하며 일정한 비용 부담을 할 수밖에 없는 가운데, 유일하게 누구나 쓸 수 있도록 이미지 모델을 공개한 Stable Diffusion을 이용하면 조금 까다롭긴 해도 얼마든지 무료로 이미지를 생성할 수 있습니다.
Stable Diffusion은 크게 두 가지 방법으로 사용할 수 있으며, 모두 사용자가 직접 공개된 이미지 모델과 이를 구동하기 위한 프레임웍, 라이브러리를 설치해야 합니다.
💭 이 설치 과정이 약간(?)의 '진입 장벽'으로 작용하지만, 설치 방법을 소개한 유튜브, 게시물이 많고, 어떤 오류에 대한 커뮤니티 질문/답변글도 참고한다면 어떻게든(...) 극복할 수 있을 것입니다.
첫 번째는 GitHub에 공개된 'Stable Diffusion web UI'를 이용하는 방법입니다. 이는 Stable Diffusion 모델을 제작, 학습 및 공개한 Stability AI와는 별개로 개발 및 공개되는 SW이며, Stable Diffusion을 비롯한 다양한 이미지 모델과 전/후처리 모듈들을 사용자의 컴퓨터에서 웹 브라우저의 형태로 이용할 수 있게끔 해주는 '구동 환경'을 제공합니다.
두 번째는 위와 비슷한 개념이지만 사용법은 다소 상이한 'ComfyUI'라는 공개 SW를 이용하는 방법입니다. 역시 각종 모델, 전/후처리 모듈들은 직접 다운로드해야하고, 초기 설치 및 설정을 할 수 있어야 합니다. 만약 알 수 없는 오류가 나타난다면 이를 해결하는 것 까지도 사용자의 몫이라 상당한 진입 장벽으로 작용하는게 사실입니다만, 무사히 마칠 수만 있다면 원하는 모델과 프롬프트를 넣어서 제한 없이 다양한 이미지를 생성해볼 수 있다는게 가장 큰 장점입니다.
이러한 Stable Diffusion 자체는 무료이지만, 앞에서 살펴본 MidJourney나 DALL-E (그리고 대부분의 상용 서비스)가 고성능의 클라우드 인프라에서 구동하는 것과는 달리, Stable Diffusion은 사용자의 컴퓨터, 즉 '로컬 환경'에서 구동한다는 점에서 과연 진정으로 '무료로 볼 수 있는가'는 생각해볼만한 부분도 있습니다.
전용 GPU 없이 CPU만 장착된 컴퓨터에서도 실행은 가능하지만, 이미지 생성에 소요되는 시간이 최소 몇 배, 보통은 수십배 차이가 나기 때문에 고가의 전용 GPU가 사실상 필수입니다. 저가형 GPU라도 있으면 CPU보다 훨씬 빠른 편이지만, GPU의 전용 메모리(VRAM) 크기에 따른 제약도 상당하기 때문에 최조한 중급 이상, 가능하다면 상급/최상급 GPU가 있어야 원활한 사용이 가능합니다.
때문에 Stable Diffusion을 무료로 구분하는 것이 다소 부적절할 수 있습니다. 하지만 이미지 생성형 AI 중에서는 유일한 공개 SW라는 점에서 일단은 '무료'로 구분하게 되었습니다.
📌 참고 : 새로운 이미지 생성 모델, 서비스가 등장할 때마다 '사용자 프롬프트에 대한 이해도가 크게 증가했다'는 설명이 따라오곤 합니다. MidJourney나 Stable Diffusion과 같이 낯선 형태의 프롬프트가 아니라, 사람이 일상에서 사용할법한 '자연어와 같은 프롬프트'로도 원하는 이미지를 더 잘 그려낸다는 의미입니다. 하지만 실상은 여전히 괴리가 큽니다. 어떤 글을 묘사하는 것 이상으로 어떤 이미지를 묘사하는 방법은 훨씬 복잡&다양한 '주관의 영역'이고 정석이라는 것이 존재하지 않기 때문이죠. 같은 이미지라도 그리는 사람(또는 AI)이나 보는 사람(또는 학습하는 AI)마다 다르게 묘사하고 해석할 여지가 크니, 사용자와 생성형 AI가 '언어'를 매개체로 비슷한 '그림'을 떠올리는 일은 기적에 가깝다고 볼 수 있습니다.
따라서 정교한 이미지 생성용 프롬프트를 구체적으로 작성하기란 지금도 쉽지 않고, 앞으로도 쉬워지기 어려울 것으로 보입니다. 그런데 '이미지 생성용 프롬프트 작성'도 역시 글쓰기의 하나이므로, 글쓰기 전문가인 LLM을 활용하면 도움은 받을 수 있습니다.
먼저 뤼튼, DALL-E 용 이미지 생성 프롬프트를 구체화하는 예를 들면,
또 MidJourney나 Stable Diffusion 용 프롬프트도, (약간의 프롬프트 엔지니어링이 가미된 결과를 보여드리면,)
이처럼 LLM을 이용하면 이미지 생성에 특화된 프롬프트를 따로 학습하지 않고도, 비교적 손쉽게 대화를 통해 원하는 것, 원하지 않는 것을 추가로 알려주며 사용자가 원하는 이미지를 생성하기 위한 구체적인 프롬프트를 작성할 수 있습니다.
혹시 이미지 생성용 프롬프트를 자세히 알아보고 싶다면 DALL-E 2 Prompt Book(PDF)과 같은 자료도 참고하기 바랍니다. 어떤 프롬프트가 어떤 결과로 이어지는지 시각적으로 바로 확인할 수 있게끔 정리돼 초보 화가(?)에겐 상당히 유용합니다. 참고로 이 가이드는 DALL-E용 가이드지만 MidJourney나 Stable Diffusion 등 다른 이미지 생성형 AI에도 거의 그대로 적용할 수 있습니다.
HeyGen🔗
ℹ 향후 업데이트 또는 개정판으로 추가 예정
Gen-2, Gen-3 Alpha (Runway)🔗
ℹ 향후 업데이트 또는 개정판으로 추가 예정



































































































































































































































