2. 대형 언어 모델
2.A. 텍스트 생성형 AI의 이해🔗
앞서 다양한 생성형 AI에 대해 설명했는데, 그 중에서도 비교적 우수한 성능과 다양한 활용도를 확보하여 현재 가장 널리 쓰이고 있는 '텍스트 생성형 AI'와 '대형 언어 모델(LLM)'에 대해 알아보겠습니다.
자연어 처리 기술의 발전🔗
텍스트 생성형 AI는 자연어 처리(Natural Language Processing, NLP) 기술의 한 분야로, 그 발전 과정을 간략히 정리하면 다음과 같습니다.
* AI 생성 이미지 with Nano Banana Pro
1. 초기 단계 (1950년대~2010년대 초반) 규칙 기반 시스템에서 시작하여 통계적 방법, 기계학습, 단어 임베딩(Word2Vec, GloVe) 기술까지 발전했습니다. 이 시기의 기술들은 단순한 패턴 인식은 가능했지만, 복잡한 문맥 이해나 창의적인 텍스트 생성에는 한계가 있었습니다.
2. 딥러닝 혁명 (2010년대 중반) 순환 신경망(RNN)과 LSTM, GRU 등이 도입되어 문맥을 고려한 언어 처리가 가능해졌습니다. 시퀀스 데이터를 처리할 수 있게 되면서 기계 번역, 텍스트 요약 등의 성능이 크게 향상되었습니다.
3. 트랜스포머의 등장 (2017년) "Attention is All You Need" 논문에서 소개된 트랜스포머 아키텍처는 현대 LLM의 기반이 되었습니다. 병렬 처리가 가능해 학습 속도가 빨라지고, 긴 문맥도 효과적으로 처리할 수 있게 되었습니다.
4. 대규모 언어 모델(LLM) 시대 (2018년~현재) BERT, GPT 시리즈를 시작으로 대규모 사전학습 모델이 등장했고, 2025년 현재는 GPT-5.1, Claude 4.5, Gemini 3, Deepseek, QWEN 3 등 더욱 발전된 모델들이 인간 수준의 텍스트 이해와 생성 능력을 보여주고 있습니다.
텍스트 생성형 AI와 LLM의 관계🔗
텍스트 생성형 AI는 인간의 언어를 이해하고 생성할 수 있는 모든 종류의 AI 시스템을 포함하는 넓은 개념입니다. 예를 들면 다음과 같은 것들이 있습니다.
- 간단한 템플릿 기반 텍스트 생성기
- 규칙 기반 챗봇
- 통계적 언어 모델
- 소규모 신경망 모델
- 대형 언어 모델(LLM)
반면 대형 언어 모델(LLM)은 텍스트 생성형 AI의 한 종류로, 특히 대량의 데이터로 학습된 고급 모델을 의미합니다.
즉, 모든 LLM은 텍스트 생성형 AI이지만, 모든 텍스트 생성형 AI가 LLM인 것은 아닙니다.
왜 이 구분이 중요한가?🔗
실무에서 AI 도구를 선택할 때, 모든 작업에 LLM이 필요한 것은 아닙니다:
- LLM이 필요한 경우: 창의적 글쓰기, 복잡한 추론, 다국어 번역, 코드 생성, 전문 지식 기반 대화
- 간단한 도구로 충분한 경우: 정형화된 답변, 키워드 추출, 간단한 분류, 템플릿 기반 문서 생성
요리사에 비유하면, 텍스트 생성형 AI는 집에서 요리하는 사람부터 전문 셰프까지 모든 요리사를 포괄하고, LLM은 미슐랭 스타 레스토랑의 수석 셰프와 같습니다. 계란 프라이를 만드는데 미슐랭 셰프를 부를 필요는 없듯이, 모든 텍스트 작업에 LLM을 사용할 필요는 없습니다.
💭 이들을 굳이 구분해 설명한 이유는, 어떤 목적/응용을 위해 엉뚱한 도구를 사용하려는 경우를 종종 보거나 듣기 때문입니다. 지나치게 단순한 문제에까지 복잡하고 무거운 도구(AI 등)를 쓰려고 하거나, 전문성을 갖춘 사람이 필요한 복잡한 문제에 너무 단순한 도구(또는 접근 방식)를 고려하는 식입니다.
심지어 기존에 충분히 훌륭한 해결책이나 대안이 존재하는 경우에도, 잘 모르거나 막연한 기대를 품고 불필요하게 AI를 도입하려는 사례가 계속해서 알려지고 있습니다. 이는 단순히 시간과 비용의 낭비를 야기할 뿐만 아니라, 이른바 'AI 거품'을 증폭시켜 결국 또 다른 'AI 암흑기' 또는 'AI 겨울'을 초래할 수 있는 위험한 행태라고 생각합니다.
잠시 여유가 있으시면 다음 글도 한번 읽어보시기 바랍니다. (번역본으로 이해하기 조금 어려운 부분도 있어, 원문 링크도 함께 첨부합니다.) 2024년의 글이지만 지금 읽어도 여러 생각을 하게끔 만드는 글입니다.
🔗 번역본 : [GN] 또 다시 AI를 언급하면 파일드라이버 해버릴꺼에요
2.B. 대형 언어 모델(LLM)의 특징과 선택 기준🔗
어쨌든, 결국, 돌고 돌아... 가장 현대적이고 많은 자본/자원과 첨단 기술을 집약시켜 탄생한 '대형 언어 모델(LLM)'을 쓸 수밖에 없는 이유와 이걸 언제 사용하면 좋은지 알아보겠습니다.
LLM의 핵심 특징🔗
* AI 생성 이미지 with Nano Banana Pro
1. 규모와 성능 LLM은 이름에서 알 수 있듯이 '대규모'입니다. 수십억에서 수조 개의 매개변수와 엄청난 양의 데이터로 학습되었습니다. 2025년 현재 GPT-5.1은 수조 개의 파라미터, Gemini 3와 Claude 4.5는 각각 고유한 아키텍처로 인간 수준의 추론 능력을 구현합니다.
2. 범용성과 적응력 하나의 모델로 번역, 요약, 질문 답변, 코드 생성, 창의적 글쓰기 등 다양한 작업을 수행할 수 있습니다. 특히 'In-context learning' 능력으로 몇 가지 예시만으로도 새로운 작업에 적응합니다.
3. 창발적 능력 모델 크기가 일정 수준을 넘어서면 학습하지 않은 능력이 갑자기 나타나기도 합니다. 복잡한 추론, 수학 문제 해결, 프로그래밍 등이 대표적이며 종종 새로운 접근 방식을 통해 난제로 여겨오던 문제를 LLM으로 해결했다는 사례가 보고되고 있습니다.
4. 다국어 및 멀티모달 지원 최신 LLM들은 최소 수십 개에서 100개 이상의 언어를 지원하며, ChatGPT, Claude, Gemini 등은 텍스트뿐만 아니라 이미지, 음성, 영상까지 처리하는 멀티모달 기능도 제공합니다.
언제 LLM을 사용하면 좋을까?🔗
LLM이 필수적인 경우 :
- 창의적 콘텐츠 생성: 마케팅 카피, 시나리오, 소설 등 독창성이 필요한 작업
- 복잡한 추론과 분석: 여러 정보를 종합하여 판단하거나 논리적 추론이 필요한 경우
- 전문 지식 활용: 법률, 의학, 과학 등 전문 분야의 질문 답변
- 코드 생성 및 디버깅: 복잡한 프로그래밍 작업이나 여러 언어 간 코드 변환
- 자연스러운 대화: 고객 서비스, 교육, 상담 등 인간과 같은 대화가 필요한 경우
간단한 도구로 충분한 경우 :
- 정형화된 작업: 양식 채우기, 템플릿 기반 문서 생성
- 단순 분류: 스팸 필터링, 감정 분석 (긍정/부정)
- 키워드 추출: 문서에서 주요 단어나 구문 찾기
- 규칙 기반 응답: FAQ 챗봇, 정해진 시나리오의 안내
2.C. 주요 LLM 모델과 서비스 비교🔗
2025년 현재 사용 가능한 주요 LLM 모델과 서비스를 종합적으로 비교하면 다음과 같습니다.
주요 LLM 모델 및 서비스 통합 비교표🔗
| 서비스/모델 (제공사) |
기반 모델 | 주요 특징 | 가격 | 추천 용도 |
|---|---|---|---|---|
| ChatGPT (OpenAI) |
GPT-5/5.1 | • 가장 널리 사용되는 서비스 • 플러그인 및 GPTs 생태계 • 웹 브라우징, 이미지 생성 |
무료 / Plus $20/월 Team $25/월 |
범용 업무, 창의적 작업 |
| Claude (Anthropic) |
Claude 4/4.1/4.5 | • 안전성과 윤리성 중시 • 긴 문맥 이해 (200K) • 정확한 지시 수행 |
무료 / Pro $20/월 | 문서 분석, 코딩, 학술 작업 |
| Copilot (Microsoft) |
GPT-4 기반 (추정) |
• MS Office 통합 • 기업용 보안 기능 • Windows 통합 |
무료 / Pro $20/월 기업용 별도 |
오피스 작업, 기업 업무 |
| Gemini (Google) |
Gemini 2.5/3.0 | • Google 서비스 통합 • Flash(빠른 속도), Pro(균형), Ultra(최고 성능) • 최대 100만 토큰 컨텍스트 |
무료 / Advanced $20/월 | 검색 연동, 멀티모달 작업 |
| Grok (xAI) |
Grok-3/4/4.1 | • X(구 트위터) 실시간 연동 • 위트/반항적 성격(Fun Mode) • 검열이 적은 편(Free Speech) |
무료 / SuperGrok $30/월 | 실시간 뉴스, 트렌드, 여론 등 검색 |
| HyperCLOVA X (NAVER) |
HyperCLOVA X | • 한국어 최적화 • 네이버 서비스 연동 • 한국 문화 이해 |
무료 (제한적) | 한국어 콘텐츠, 번역 |
| Llama 3 (Meta) |
Llama 3 (8B/70B/405B) | • 오픈소스 • 자체 호스팅 가능 • 커스터마이징 자유 |
무료 (자체 운영) | 연구, 자체 서비스 개발 |
| QWEN 2.5/3 (Alibaba) |
QWEN 시리즈 | • 오픈소스 • 수학/코딩 특화 • 다국어 지원 우수 |
무료 (자체 운영) | 기술 문서, 코딩, 수학 |
| Deepseek V3 (Deepseek) |
Deepseek-V3/3.2 | • 추론 능력 특화 • 비용 효율적 • 빠른 응답 속도 |
API 매우 저렴 | 논리 문제, 코딩, 분석 |
| Mistral Large (Mistral AI) |
Mistral Large 2/3 | • 유럽 기반 • 균형잡힌 성능 • 32개 언어 지원 |
API 중간 가격대 | 다국어 작업, API 통합 |
⚠️ 주의 : 작성 시점(2025년 9월~11월) 기준으로 종료되었거나 다른 서비스로 통합된 경우는 제외했고, 대부분 최신 정보로 업데이트 했습니다. 그럼에도 이 또한 언제든 변경될 수 있다는 점을 유의하기 바랍니다. (불과 두 달 사이에 몇 번을 고쳤는지...)
2025년 신규 및 주목할 모델🔗
2025년 11월 넷째 주는 LLM 업계 역사상 가장 격렬한 경쟁이 펼쳐진 시기로 기록될 것입니다. 단 일주일 사이에 주요 3사(OpenAI, Google, Anthropic)가 잇달아 최신 모델을 공개하며 '세계 최고'의 타이틀을 놓고 치열한 경쟁을 벌였습니다. 11월 18일 Google의 Gemini 3 Pro가 벤치마크 1위를 차지하자, 다음날 OpenAI가 GPT-5.1-Codex-Max로 코딩 특화 모델을 발표했고, 닷새 뒤 Anthropic이 Claude Opus 4.5로 다시 코딩 벤치마크 정상을 탈환하는 드라마틱한 한 주였습니다.
OpenAI의 GPT-5.1 시리즈 - 속도와 효율의 혁신
OpenAI는 2025년 8월 GPT-5를 출시한 지 3개월 만인 11월 12일, GPT-5.1 시리즈를 공개했습니다. 이번 업데이트의 핵심은 '적응형 추론(adaptive reasoning)'입니다. 간단한 질문에는 빠르게 답하고, 복잡한 문제에는 더 깊이 사고하는 방식으로, 기존 GPT-5 대비 2-3배 빠른 응답 속도를 달성하면서도 토큰 사용량을 절반으로 줄였습니다.
GPT-5.1은 크게 두 버전으로 제공됩니다. GPT-5.1 Instant는 일상적인 대화와 작업에 최적화되어 있으며, 더 따뜻하고 대화적인 톤을 지니면서도 적응형 추론으로 필요시 깊은 사고가 가능합니다. GPT-5.1 Thinking은 복잡한 추론이 필요한 작업에 특화되어 있으며, 문제의 난이도에 따라 사고 시간을 정밀하게 조절합니다. 간단한 작업에서는 기존보다 2배 빠르게, 어려운 문제에서는 2배 더 오래 사고하는 방식으로 작동합니다.
11월 19일에는 코딩 특화 모델인 GPT-5.1-Codex-Max가 추가로 출시되었습니다. 이 모델은 'compaction'이라는 새로운 기술로 여러 컨텍스트 윈도우에 걸쳐 수백만 토큰을 일관되게 처리할 수 있어, 대규모 리팩토링이나 긴 디버깅 세션에서 탁월한 성능을 보입니다. OpenAI 내부적으로는 엔지니어의 95%가 Codex를 사용하며, 도입 후 풀 리퀘스트 제출량이 70% 증가했다고 밝혔습니다.
Anthropic의 Claude 4.5 시리즈 - 코딩의 새로운 기준
Anthropic은 2025년 9월부터 11월까지 3개월간 Claude 4.5 시리즈를 순차적으로 출시했습니다. 9월 29일 Claude Sonnet 4.5로 시작해, 10월 15일 Claude Haiku 4.5, 그리고 11월 24일 최상위 모델인 Claude Opus 4.5까지 공개하며 완성도 높은 라인업을 구축했습니다.
특히 주목할 점은 Sonnet 4.5가 SWE-bench Verified에서 당시 최고 점수를 기록하며 "세계 최고의 코딩 모델"이라는 평가를 받았다는 것입니다. 복잡한 멀티스텝 작업에서 30시간 이상 집중력을 유지하는 능력을 보여주며, 코딩뿐만 아니라 컴퓨터 조작(computer use) 성능도 OSWorld 벤치마크에서 61.4%를 기록해 4개월 전 Sonnet 4의 42.2%에서 큰 도약을 이뤘습니다.
Haiku 4.5는 "과거의 최첨단이 이제는 더 빠르고 저렴하게"라는 컨셉으로, Sonnet 4 수준의 코딩 성능을 1/3 가격에 2배 이상의 속도로 제공합니다. 그리고 정점을 찍은 Opus 4.5는 SWE-bench Verified에서 80.9%를 달성하며 GPT-5.1과 Gemini 3 Pro를 모두 제치고 코딩 벤치마크 1위를 차지했습니다.
더욱 놀라운 것은 가격 정책입니다. Opus 4.5는 기존 Opus 4.1 대비 3배 저렴한 $5/$25 per million tokens로 책정되어, "프리미엄 모델에서 일상 업무용 모델"로 전환을 선언했습니다. Anthropic 내부 테스터들은 "Opus 4.5가 이해한다(just 'gets it')"며, 애매한 요구사항도 파악하고, 복잡한 멀티시스템 버그도 스스로 해결하며, 이전에는 Sonnet 4.5로도 거의 불가능했던 작업을 수행한다고 평가했습니다.
📌 참고 : Anthropic에서 공식적으로 공개한 바는 없지만, 우연히(?) '유출된' Claude 3 계열 모델의 시스템 프롬프트는 무려 수만 토큰(≒단어)에 이를 만큼, 매우 다양하고 구체적인 동작 원칙을 학습(각인)시킨 것이 고유의 특성의 비결인 것으로 뒤늦게 알려졌습니다.
여기서 말하는 '시스템 프롬프트'란 사용자가 채팅 창으로 지시하거나, 또는 API 쿼리에 지정할 수 있는 '세션의 System Prompt'가 아니고, LLM이 만들어지는 과정 전반에 주입되는 -그래서 '각인된다'고도 표현되는- 기본적인 학습, 추론 및 답변 등 동작 방식(지침들)을 의미합니다. 이는 LLM 고유의 특성뿐만 아니라 범죄나 테러 등 위험한 정보를 답변하지 않도록 하는 '안전장치'도 포함하고 있어, 일반적인 방법으로는 그 역시 LLM 스스로 답변하지 않도록 강제하는 지침도 포함되어 있습니다. (공개된다면 당연히 이를 우회하거나 무시할 수 있는 기법이 발견될 가능성이 올라가므로...)
Google의 Gemini 3 Pro - 멀티모달의 정점
2025년 11월 18일, Google은 Gemini 3 Pro를 공개하며 LMArena 리더보드 1위(1,501점)를 탈환했습니다. 이전 1위였던 xAI의 Grok 4.1 Thinking(1,483점)을 제치고, Gemini 2.5 Pro(1,452점)에서 큰 폭으로 상승하며 "세계 최고의 멀티모달 이해 모델"임을 증명했습니다.
Gemini 3 Pro의 가장 큰 강점은 멀티모달 성능입니다. MMMU-Pro(대학 수준 멀티모달 추론)에서 81.0%를 기록해 Gemini 2.5 Pro와 Claude Sonnet 4.5(둘 다 68.0%), GPT-5.1(76.0%)을 크게 앞섰습니다. ARC-AGI-2(시각적 추론 퍼즐)에서는 31.1%로 GPT-5.1(17.6%)과 Claude Sonnet 4.5(13.6%)를 압도했으며, GPQA Diamond(PhD 수준 과학 질문)에서도 91.9%로 최상위권을 차지했습니다.
100만 토큰의 컨텍스트 윈도우는 전체 책이나 대규모 코드베이스를 한 번에 처리할 수 있게 해줍니다. 특히 긴 영상 콘텐츠 분석에서 탁월한데, 고프레임레이트 이해 능력으로 빠르게 움직이는 장면도 놓치지 않으며, 수 시간의 연속 영상에서도 맥락을 유지하며 특정 순간을 정확히 찾아낼 수 있습니다.
Google은 Gemini 3을 출시 첫날부터 검색에 통합한 것도 이례적입니다. 'AI Mode in Search'를 통해 복잡한 추론이 필요한 검색에서 더욱 정교한 답변을 제공하며, 새로운 개발 플랫폼인 Google Antigravity에서는 에이전트 기능이 크게 강화되어 자율적으로 소프트웨어 개발 작업을 수행할 수 있습니다.
Gemini 3 시리즈는 앞으로 Gemini 3 Deep Think 모드가 Ultra 구독자에게 제공될 예정인데, 이는 Humanity's Last Exam에서 41.0%, GPQA Diamond에서 93.8%, ARC-AGI-2에서 45.1%를 기록하며 창의적 문제 해결과 전략적 사고가 필요한 작업에서 더욱 강력한 성능을 보일 것으로 기대됩니다.
경쟁의 새로운 차원: 코딩, 추론, 에이전트
2025년 11월의 경쟁에서 명확히 드러난 것은, 모든 주요 AI 기업이 코딩, 추론, 에이전트 세 가지 영역에 집중하고 있다는 점입니다. 단순한 벤치마크 점수 경쟁을 넘어, 실제로 개발자들이 프로덕션 환경에서 믿고 사용할 수 있는 도구를 만드는 것이 목표가 되었습니다.
비용 효율성도 중요한 경쟁 요소로 부상했습니다. Opus 4.5의 3배 가격 인하, GPT-5.1의 토큰 사용량 절반 감소, Gemini 3 Pro의 경쟁력 있는 가격($2/$12 per million tokens)은 모두 LLM이 "소수 엘리트의 실험실 장난감"에서 "모든 개발자의 일상 도구"로 전환되고 있음을 보여줍니다.
한편, 이 가이드를 작성하고 있는 2025년 11월 말 현재도 업데이트는 계속되고 있습니다. Anthropic과 Google 모두 추가 모델 출시를 예고하고 있으며, OpenAI 역시 GPT-5.1의 기능 확장을 진행 중입니다. 계속해서 업데이트되거나 새롭게 등장하는 모든 모델을 이 가이드에 담지는 못하는 점 널리 양해 바랍니다. 중요한 것은 특정 모델의 벤치마크 점수가 아니라, AI 기술이 실제 업무에서 어떤 가치를 창출하는지, 그리고 여러분이 어떻게 이를 현명하게 활용할 수 있는지입니다.
용도별 추천 서비스🔗
실제로 어떤 AI 서비스를 선택할 때는 작업의 성격, 예산, 보안 요구사항 등을 종합적으로 고려해야 합니다. 다음 표는 주요 용도별로 최적의 서비스를 정리한 것입니다.
| 용도 | 1순위 추천 | 2순위 추천 | 3순위 추천 | 선택 기준 |
|---|---|---|---|---|
| 일반 업무 및 창의적 작업 | ChatGPT 계열 | Claude 4.x Sonnet | Gemini 3.0 Flash/Pro | 안정성, 기능 다양성, 생태계 |
| 한국어 중심 작업 | HyperCLOVA X | ChatGPT 계열 | Claude 4.x 계열 | 한국어 이해도, 문화적 맥락 |
| 코딩 및 기술 작업 | Claude 4.5 Sonnet | GitHub Copilot | Deepseek-V3 또는 QWEN 3 | 코드 정확성, 디버깅 능력 |
| 연구 및 분석 | GPT-5.1 | Claude 4.5 Opus | Gemini 3.0 Pro/Ultra | 추론 능력, 문서 처리량 |
| 보안 중시 환경 | Azure OpenAI | 오픈 소스/오픈 웨이트 모델 (온프레미스) | 상용 LLM의 기업용(Enterprise) 계정 | 데이터 보안, 규정 준수 |
위 표를 해석할 때 주의할 점은, 1순위가 항상 최선의 선택은 아니라는 것입니다. 예를 들어, 한국어 작업에서 HyperCLOVA X가 1순위지만, 멀티모달 기능이 필요하다면 GPT 계열이나 Gemini 계열이 더 적합할 수 있습니다. 따로 정리하진 않았지만 비용 민감 프로젝트라면 대개 오픈 소스(Open Source) 또는 오픈 웨이트(Open Weight) 모델을 직접 구동하는게 유리하겠지만, 요구되는 성능, 품질, 보안 수준 등에 따라선 상용 LLM의 기업용(Enterprise) 서비스를 선택하는게 더 나을 수 있습니다.
한편 대부분의 서비스가 무료 체험이나 크레딧을 제공하므로, 실제 업무에 적용하거나 비용을 지불하기 전에 반드시 충분한 테스트를 거치고 결정할 것을 권장합니다. 남들이 아무리 좋다는 서비스도 '난 별로'일 수 있고, 반대로 유명하진 않아도 '내게 딱 맞는' 서비스가 있을 수 있습니다. '바쁠수록 돌아서 가라'는 말처럼, 초기에 충분한 테스트를 해보는 것이 결과적으로는 비용과 시간을 크게 절약할 수 있습니다.
2.D. 대화형 AI의 진화와 활용🔗
얼마 전까지만 해도 '대화형 서비스'라고 하면 거의 대부분 '챗봇'을 떠올리곤 했습니다. 특정 주제에 한정해 정해진 응답만 하는 기존의 챗봇은 '규칙 기반 자연어 처리' 기술을 활용하는 사례가 많았고, 그 결과 매끄러운 대화는커녕 엉뚱한 응답을 자주 하는 탓에 널리 적용되기 어려웠습니다.
그러나 강력한 성능의 LLM이 적용된 '대화형 AI 서비스'가 등장하자 모든 것이 달라졌습니다. 이 새로운 AI는 마치 사람과 대화하는 듯한 자연스러운 언변을 구사하며, 복잡한 질문에도 -사실 여부와는 별개로- 명쾌한 답변을 제시했습니다.
챗봇에서 대화형 AI로의 전환🔗
* AI 생성 이미지 with Nano Banana Pro
기존 챗봇의 한계 :
- 정해진 시나리오와 키워드 기반 응답
- 문맥 이해 부족으로 인한 엉뚱한 답변
- 복잡한 질문 처리 불가능
- 창의적이거나 유연한 대응 불가
LLM 기반 대화형 AI의 혁신 :
- 문맥을 이해하고 기억하는 대화
- 복잡한 추론과 창의적 응답 가능
- 다양한 주제에 대한 전문적 지식
- 사용자 의도 파악 및 선제적 제안
'멀티모달' 지원으로 인한 변화🔗
LLM 기반 대화형 AI 서비스의 혁신은 여기서 멈추지 않고, 텍스트뿐만 아니라 이미지, 음성, 영상을 모두 포함하는 '멀티모달' 지원으로 우리의 일상에 새로운 차원의 변화를 가져오고 있습니다.
* AI 생성 이미지 with Nano Banana Pro
가장 먼저 실현된 것은 음성 대화입니다. STT(Speech-to-Text)와 TTS(Text-to-Speech) 기술을 통해 이제 AI와 자연스러운 음성 대화가 가능해졌습니다. 마치 친구와 대화하듯 "오늘 날씨 어때?"라고 물으면 AI가 음성으로 답해주고, 운전 중에도 손을 쓰지 않고 메시지를 보내거나 일정을 확인할 수 있게 되었습니다. 특히 최신 모델들의 음성은 감정까지 담은 듯한 자연스러운 억양으로 대화하여, 때로는 AI와 대화하고 있다는 사실을 잊게 만들 정도입니다. (가끔 일부러 틀리거나 어색하게 말하나? 싶을 정도로 확 자연스러워진 느낌...)
이미지 인식은 일상을 더욱 편리하게 만들어주고 있습니다. 냉장고에 있는 재료 사진만 찍어 올리면 만들 수 있는 요리와 레시피를 알려주고, 길거리에서 마주친 꽃이나 나무 사진을 보여주면 어떤 종류인지 즉시 알려줍니다. 수학 문제를 사진으로 찍으면 풀이 과정까지 설명해주고, 외국어 메뉴판을 찍으면 번역과 함께 어떤 음식인지 설명까지 곁들여줍니다. 심지어 옷장 사진을 보여주며 "오늘 뭐 입을까?"라고 물으면 날씨와 일정을 고려한 코디 추천까지 받을 수 있습니다. 이어 등장한 이미지 생성 기능도 다양하게 활용되고 있습니다. (OpenAI의 서버가 녹을 정도였다는 '프사 만들기', 아직 안 해보신 분?)
영상 이해 기능도 빠르게 발전하고 있습니다. 유튜브 링크만 던져주면 1시간짜리 강의를 5분 만에 핵심만 요약해주고, 요리 영상을 보여주면 단계별 레시피로 정리해줍니다. 운동 영상을 업로드하면 자세가 올바른지 피드백을 주기도 하고, 아이의 발표 연습 영상을 보고 개선점을 조언해주기도 합니다. Gemini 2.5와 GPT-5는 실시간 영상 스트리밍도 이해할 수 있어, 화상 통화하듯 AI와 시각적 소통이 가능해졌습니다. 또한 영상 편집은 물론이고 새로운 영상을 제작하는 분야에도 계속해서 개선된 성능의 신규 모델 및 서비스가 등장하고 있습니다. (관점에 따라선 '가짜(딥페이크)'로 취급되기도 합니다만.)
💭 이번 개정판(2025년)에는 작년에 다루지 못했던 '멀티모달 AI'에 대한 내용을 추가했습니다. 한편 기존 LLM과는 근본적으로 다른 구조인 '확산 기반 언어 모델(DLM, Diffusion-based Language Model)'도 주목할 만한 점이 있지만, 아직 상대적으로 비주류이고 이 가이드에서 다룰 필요성이 낮다고 판단하였습니다.
향후 전망🔗
가까운 미래
머지않아 우리는 아침에 일어나자마자 AI와 대화를 시작하게 될 것입니다. 사용자가 일어났음을 감지한 스마트폰 또는 무언가가 "좋은 아침! 오늘 컨디션은 어때?"라며 말을 걸고, AI는 당신의 대답을 듣고 목소리 톤, 표정, 심지어 움직임까지 분석해 건강 상태를 체크하고 하루 일정을 조율해줄 것입니다. 이미 GPT-5와 Gemini 2.5는 감정을 읽고 공감을 표현하는 수준에 도달했으며, 곧 우울한 날엔 위로를, 기쁜 날엔 축하를 건네는 진짜 친구 같은 AI가 등장할 것입니다.
교육 현장도 완전히 달라질 것입니다. 아이들은 각자의 AI 튜터와 함께 공부하게 되는데, 이 AI는 아이의 학습 속도, 관심사, 심지어 그날의 기분까지 파악해 맞춤형 수업을 진행합니다. 역사를 좋아하는 아이에게는 타임머신을 타고 과거로 여행하는 듯한 가상현실 수업을, 과학을 좋아하는 아이에게는 실시간 실험 시뮬레이션을 제공할 것입니다. 숙제를 도와주는 것은 물론, "왜 공부해야 해?"라는 질문에도 아이가 납득할 만한 답을 줄 수 있는 현명한 멘토가 될 것입니다.
* AI 생성 이미지 with Nano Banana Pro
조금 더 먼 미래
AGI(인공 일반 지능)의 시대가 열리면, AI는 더 이상 도구가 아닌 동료가 됩니다. 회사에서는 AI 팀원이 실제 직원처럼 프로젝트에 참여하고, 자신만의 아이디어를 제안하며, 때로는 인간 직원보다 더 창의적인 해결책을 내놓을 것입니다. "AI 김대리"가 "어제 생각해봤는데, 이 프로젝트는 이렇게 접근하면 어떨까요?"라고 먼저 제안하는 날이 올 것입니다.
의료 분야에서는 AI 주치의가 24시간 당신을 모니터링합니다. 스마트워치, 스마트 의류, 심지어 스마트 변기(!)까지 연결된 AI는 당신의 건강 데이터를 실시간으로 분석하여 "3일 내에 감기에 걸릴 확률이 증가했습니다. 오늘은 비타민 C를 섭취하고 충분한 휴식을 취하세요"라고 미리 알려줄 것입니다. 응급 상황에서는 구급차가 도착하기 전에 이미 AI가 원격으로 응급처치를 지시하고, 병원에는 환자 정보와 예상 진단을 미리 전송해 골든타임을 확보합니다.
창작의 영역도 인간과 AI의 협업이 일상화됩니다. 작가는 AI와 함께 소설을 쓰고, 음악가는 AI와 잼 세션을 하며, 영화감독은 AI와 함께 스토리보드를 그립니다. "AI, 이 장면에서 좀 더 긴장감을 주고 싶은데?"라고 물으면 AI가 조명, 카메라 앵글, 음악, 편집까지 종합적으로 제안할 것입니다. 심지어 AI가 만든 예술작품이 인간의 작품과 구별되지 않을 정도가 되어, 예술의 정의 자체가 바뀔지도 모릅니다.
하지만 모든 전망이 장밋빛인 것은 아닙니다
2023년 5월, Geoffrey Hinton, Yoshua Bengio를 포함한 350명 이상의 AI 전문가들이 "AI로부터의 멸종 위험 완화가 팬데믹이나 핵전쟁과 같은 사회적 규모의 위험과 함께 글로벌 우선순위가 되어야 한다"는 성명서에 서명했습니다. 특히 'AI의 대부'로 불리는 Geoffrey Hinton은 2024년 노벨 물리학상을 수상한 직후, AI가 30년 내에 인류 멸종을 초래할 확률을 20%로 상향 조정했습니다. 그는 "우리는 지금까지 우리보다 더 지능적인 존재를 다뤄본 경험이 없다"며 "3살 아이가 어른을 통제하려는 것과 같은 상황이 될 것"이라고 경고했습니다.
실제로 우려되는 위험들은 매우 다양하고 구체적입니다. AI가 사이버 공격 능력을 극적으로 향상시켜 국제 안보를 불안정하게 만들 수 있으며, 딥페이크 기술로 선거를 조작하거나 "되돌릴 수 없는 전체주의 체제"를 구축하는 데 악용될 수 있습니다. 일부 전문가들은 AI가 생물학 무기 개발을 돕거나, 자율 무기 시스템이 인간의 통제를 벗어날 가능성까지 경고하고 있습니다. RAND 연구소의 2025년 보고서는 AI가 멸종 위협을 만들어내는 것이 "엄청나게 어렵지만 배제할 수 없다"고 결론지었습니다.
Yoshua Bengio는 현재의 AI 발전 속도가 "예상보다 훨씬 빠르다"며, 능력 곡선이 계속해서 AGI를 향해 가리키고 있다고 지적했습니다. 그는 기업들이 안전보다 이익을 우선시하는 상황에서, 정부 규제 없이는 이러한 위험을 통제할 수 없다고 강조합니다. 이에 따라 2025년 국제 AI 안전 보고서는 100명의 전문가들이 참여하여 AI의 위험을 체계적으로 분석하고, 각국 정부에 긴급한 대응을 촉구했습니다.
물론 이러한 경고가 기술의 발전이나 확산을 막자는 것은 아닙니다. (그랬다면 필자도 이런 가이드를 쓰고 있을리 없겠죠.) 오히려 AI의 혜택을 안전하게 누리기 위해서는 지금부터 충분한 안전장치를 마련해야 한다는게 핵심입니다. 마치 자동차를 발명한 후 안전벨트와 교통법규를 만들었듯이, AI 기술에도 적절한 안전 규범과 제도가 필요한 시점이 빠르게 다가오고 있습니다.
* AI 생성 이미지 with Nano Banana Pro





