2026년에 반드시 이해해야 할 20가지 AI 개념

모두가 AI를 사용합니다.

하지만 실제로 어떻게 작동하는지 이해하는 사람은 거의 없습니다.

사람들은 트랜스포머(transformers), 임베딩(embeddings), RAG, 에이전트(agents), RLHF 같은 용어를 마치 모두가 이미 알고 있는 것처럼 사용합니다.

대부분은 모릅니다.

솔직히 말해서요?

일단 멘탈 모델(mental models)을 이해하면 AI는 그렇게 복잡하지 않습니다.

ChatGPT, Claude, Midjourney, Cursor, 코딩 에이전트(Coding agents).

아래의 20가지 아이디어를 이해하면 이 모든 것이 이해됩니다.

박사 학위는 필요 없습니다. 전문 용어도 필요 없습니다. 간단한 설명과 시각 자료만 있으면 됩니다.

저장해두세요. 다시 사용하게 될 것입니다.

1부: AI의 실제 작동 방식 (모든 것이 구축된 기초)#

1. 신경망 (Neural Networks)#

모든 AI 모델의 두뇌입니다.

신경망은 계층(layer)의 파이프라인입니다.

→ 데이터가 입력층(input layer)에 들어갑니다 → 은닉층(hidden layers)을 통과합니다 → 예측값으로 출력됩니다

각 연결에는 '가중치(weight)'라는, 한 뉴런이 다음 뉴런에 얼마나 영향을 미치는지 제어하는 작은 점수가 있습니다.

훈련(Training) = 출력이 정확해질 때까지 수십억 개의 이러한 가중치를 조정하는 것입니다.

간단한 아이디어입니다. 규모가 커지면 엄청납니다.

GPT-4는 약 1.8조 개의 파라미터를 가지고 있습니다. Claude 3 Opus는 수천억 개를 가지고 있습니다.

모두 동일한 기본 개념에서 비롯되었습니다: 조정 가능한 연결을 가진 계층화된 뉴런.

2. 토큰화 (Tokenization)#

AI가 텍스트를 읽기 전에, 텍스트를 토큰(token)이라는 조각으로 나눕니다.

항상 완전한 단어는 아닙니다.

"playing" → "play" + "ing" "ChatGPT" → "Chat" + "G" + "PT" "dog" → "dog" (그대로 유지)

왜 완전한 단어를 사용하지 않을까요?

언어는 복잡합니다. 새로운 단어, 오타, 혼합 언어. 고정된 단어 어휘는 엄청나게 커질 것입니다.

토큰은 재사용 가능한 구성 요소입니다.

모델이 단어를 한 번도 본 적이 없더라도, 익숙한 조각으로 나누어 이해할 수 있습니다.

대략적인 규칙: 1토큰 ≈ 0.75단어.

1000토큰 ≈ 750단어.

3. 임베딩 (Embeddings)#

텍스트가 토큰화되면, 각 토큰은 숫자가 됩니다.

그 숫자는 의미를 나타내는 벡터(vector)인 임베딩(embedding)입니다.

단어를 위한 구글 지도(Google Maps)라고 생각하세요.

→ '의사(Doctor)'와 '간호사(Nurse)'는 가깝게 위치합니다 → '의사(Doctor)'와 '피자(Pizza)'는 멀리 떨어져 있습니다 → '왕(King)' - '남자(Man)' + '여자(Woman)' ≈ '여왕(Queen)'

모델은 여러분처럼 단어를 이해하지 않습니다.

모델은 거리(distance)와 방향(direction)을 이해합니다.

이것이 다음을 가능하게 합니다: → 의미론적 검색(Semantic search) → 추천(Recommendations) → RAG 시스템

'의도를 이해'하는 모든 것은 내부적으로 임베딩을 사용합니다.

4. 어텐션 (Attention)#

"Apple"이라는 단어는 다른 의미를 가집니다:

→ "I ate an Apple" → 과일 → "I bought Apple stock" → 회사

임베딩만으로는 이 문제를 해결할 수 없습니다.

어텐션(Attention)이 해결할 수 있습니다.

어텐션은 모든 단어가 문장 안의 다른 모든 단어를 보고 무엇이 중요한지 결정할 수 있게 합니다.

"She bought shares in Apple"에서: → "Apple"은 "shares"와 "bought"에 높은 어텐션을 줍니다 → 모델은 과일이 아닌 회사라고 결론 내립니다

어텐션 이전에는 모델이 왼쪽에서 오른쪽으로 읽었습니다. 느리고 제한적이었습니다.

어텐션 이후에는 모델이 전체 문장을 한 번에 봅니다.

이 하나의 아이디어가 현대 AI의 잠금을 해제했습니다.

5. 트랜스포머 (Transformers)#

오늘날 거의 모든 AI 모델을 구동하는 아키텍처입니다.

2017년 "Attention Is All You Need"라는 논문에서 소개되었습니다.

획기적인 점: 텍스트를 한 번에 한 단어씩 읽는 대신, 어텐션을 사용하여 모든 것을 병렬로 처리합니다.

작동 방식: → 텍스트 → 토큰 → 임베딩 → 쌓인 어텐션 계층 → 출력

각 계층은 이해를 정제합니다: → 초기 계층: 문법, 기본 구조 → 중간 계층: 단어 관계 → 깊은 계층: 복잡한 추론

결과: 훨씬 더 빠른 훈련과 훨씬 더 나은 출력.

GPT, Claude, Gemini, Llama, Mistral.

모두 트랜스포머입니다.

이 하나의 아키텍처를 이해한다면, 현대 AI를 이해하는 것입니다.

2부: LLM의 작동 방식 (AI와 채팅할 때 실제로 일어나는 일)#

6. LLM (Large Language Models)#

LLM은 방대한 양의 텍스트로 훈련된 트랜스포머입니다.

책, 웹사이트, 코드, 위키백과, Reddit.

수조 개의 토큰.

훈련 작업은 너무 간단해서 강력해 보이지 않습니다:

→ 다음 토큰을 예측하세요.

그게 전부입니다.

하지만 이것을 수조 개의 예제에 걸쳐 반복하면, 놀라운 일이 일어납니다.

모델은 문법을 배웁니다. 그다음 추론을 배웁니다. 그다음 코드 작성, 언어 번역, 수학 문제 해결 방법을 배웁니다.

아무도 그렇게 하라고 지시하지 않았습니다.

대규모의 다음 토큰 예측에서 나타났습니다(emerged).

"Large" = 수천억 개의 파라미터. 훈련 비용 = 수백만 달러.

ChatGPT, Claude, Gemini → 모두 LLM입니다.

7. 컨텍스트 윈도우 (Context Window)#

모든 AI 모델에는 메모리 제한이 있습니다.

이것을 컨텍스트 윈도우(context window)라고 합니다.

모델이 한 번에 '볼 수 있는' 최대 토큰 수입니다. (사용자의 메시지 + 응답 + 대화 기록)

초기 GPT: 약 4,000토큰. GPT-4: 128,000토큰. Claude 3.5: 200,000토큰. Gemini 1.5 Pro: 1,000,000토큰.

더 큰 윈도우 = 더 많은 컨텍스트 = 더 나은 답변.

하지만 함정이 있습니다.

모델은 모든 것을 동등하게 읽지 않습니다.

컨텍스트의 시작과 끝에 집중합니다.

중간은? 종종 무시됩니다.

이것을 "중간에서 길을 잃다(Lost in the Middle)" 문제라고 합니다.

큰 컨텍스트 윈도우 ≠ 완벽한 기억력.

이것을 이해하면 AI가 여러분이 분명히 언급한 것을 왜 가끔 '잊어버리는지' 설명해줍니다.

8. 온도 (Temperature)#

AI가 텍스트를 생성할 때, 매번 가장 가능성 높은 다음 단어만 선택하지는 않습니다.

온도(temperature)라는 다이얼이 있습니다.

→ 온도 = 0: 항상 가장 안전하고 예측 가능한 단어를 선택합니다 → 온도 = 1: 더 창의적으로 선택하며, 다양성이 더 큽니다 → 온도 = 2+: 난폭해지며, 때로는 이해할 수 없게 됩니다

낮은 온도 → 다음에 사용: 코드, 사실, 요약 높은 온도 → 다음에 사용: 브레인스토밍, 창작 글쓰기, 변형

대부분의 도구는 자동으로 설정합니다.

하지만 이것을 이해하면 AI가 때로는 '지루해' 보이고 때로는 여러분을 놀라게 하는 이유를 설명해줍니다.

9. 할루시네이션 (Hallucination)#

AI는 확신을 가지고 거짓말을 합니다.

의도적으로가 아닙니다. 말 그대로 어쩔 수가 없습니다.

이유는 다음과 같습니다.

LLM은 진실을 검색하지 않습니다.

가장 확률이 높은 다음 토큰이 무엇인지 예측합니다.

훈련 패턴에 기반하여 '다음에 와야 할 것처럼' 보이는 거짓 진술이 있다면, 그것을 생성합니다.

검증도, 조회도 없습니다. 순수한 패턴 매칭입니다.

따라서 다음과 같은 일을 합니다: → 존재하지 않는 연구 논문을 인용합니다 → 한 번도 만들어진 적 없는 API 함수를 발명합니다 → 완전한 확신을 가지고 가짜 역사적 '사실'을 진술합니다

이것을 할루시네이션(hallucination)이라고 합니다.

해결책: 확인 없이 사실에 대한 AI 출력을 절대 신뢰하지 마십시오.

RAG(개념 16)를 사용하여 실제 데이터에 근거를 두십시오.

10. 프롬프트 엔지니어링 (Prompt Engineering)#

질문하는 방식이 모든 것을 바꿉니다.

동일한 모델, 동일한 질문. 프레이밍 방식에 따라 결과가 완전히 달라집니다.

나쁜 프롬프트: → "API에 대해 설명해줘" → 결과: 모호하고 피상적인 답변

좋은 프롬프트: → "REST API가 인증을 처리하는 방법을 설명해줘. 실제 예제와 코드를 보여줘. 내가 주니어 개발자라고 가정해줘." → 결과: 구체적이고, 구조화되어 있으며, 즉시 유용함

프롬프트 엔지니어링은 명확한 의사소통일 뿐입니다.

실제로 효과가 있는 팁: → 컨텍스트 제공 ("X를 위한 SaaS를 만들고 있어") → 역할 할당 ("시니어 백엔드 엔지니어 역할을 해줘") → 예시 보여주기 ("내가 좋아하는 형식은 다음과 같아: ___") → 출력에 대해 구체적으로 말하기 ("번호가 매겨진 목록으로 5가지 옵션을 줘") → 복잡한 요청을 단계로 나누기

프롬프트 엔지니어링은 해킹이 아닙니다.

모델과 소통하는 주요 방법입니다.

3부: AI 모델의 개선 방식 (원시 모델이 유용한 제품이 되는 방법)#

11. 전이 학습 (Transfer Learning)#

처음부터 학습시키는 것은 비용이 많이 듭니다.

엄청난 양의 데이터. 막대한 컴퓨팅 자원. 수 주일의 학습 시간.

전이 학습이 이 문제를 해결합니다.

이미 방대한 일반 작업에 대해 학습된 모델을 가져와서 특정 작업에 맞게 조정하는 것입니다.

처음부터 시작하는 것이 아닙니다. 기존 지식을 기반으로 구축하는 것입니다.

이렇게 생각해보세요:

→ 당신은 이미 자전거 타는 법을 압니다 → 그 덕분에 오토바이 타는 법을 훨씬 빨리 배웁니다 → 이미 알고 있는 것을 전이(transfer)하는 것입니다.

오늘날 거의 모든 AI 제품이 이렇게 작동합니다:

→ OpenAI가 거대한 기반 모델(foundation model)을 학습시킵니다 → 기업들이 특정 사용 사례에 맞게 미세 조정(fine-tune)합니다 → 수백만 달러의 컴퓨팅 비용과 수개월의 학습 시간을 절약합니다

더 이상 처음부터 학습시키는 회사는 없습니다.

12. 미세 조정 (Fine-Tuning)#

전이 학습은 개념을 알려줍니다.

미세 조정은 그 개념을 실행하는 방법입니다.

사전 학습된 모델을 가져와서 더 작고 집중된 데이터셋으로 계속 학습시키는 것입니다.

모델은 이미 "언어"를 구사합니다.

이제 당신의 특정 도메인을 가르치는 것입니다.

예시: → 임상 기록에 미세 조정된 의료 모델 → 계약서에 미세 조정된 법률 모델 → GitHub에 미세 조정된 코딩 모델

결과: 사용 사례에 완벽하게 응답하는 모델.

비용: 수십억 개의 파라미터를 업데이트해야 합니다.

이는 심각한 컴퓨팅 자원(여러 GPU, 강력한 인프라)을 필요로 합니다.

(이것이 다음 개념인 LoRA가 중요한 이유입니다.)

13. RLHF (인간 피드백 기반 강화 학습)#

미세 조정은 모델을 특화시킵니다.

RLHF는 모델을 유용하고 안전하게 만듭니다.

RLHF가 없으면: 모델은 단지 텍스트를 예측할 뿐입니다. 유창하지만, 정렬(alignment)되지 않았습니다.

RLHF가 있으면: 모델은 인간이 실제로 선호하는 것을 학습합니다.

작동 방식은 다음과 같습니다:

→ 모델에 프롬프트를 보여줍니다 → 모델이 여러 응답을 생성합니다 → 인간이 응답의 순위를 매깁니다 → 모델이 인간이 선호하는 것을 선호하도록 학습합니다

이 과정을 수천 번 반복합니다.

모델은 "좋은 답변"에 대한 감각을 키웁니다: → 명확함 → 도움이 됨 → 정직함 → 안전함

이것이 ChatGPT와 Claude가 단순한 무작위 텍스트 생성기가 아니라 어시스턴트처럼 느껴지는 이유입니다.

RLHF가 없었다면, 여전히 인상적이었겠지만 훨씬 덜 유용하고, 덜 신뢰할 수 있으며, 제어하기가 훨씬 더 어려웠을 것입니다.

14. LoRA (저랭크 적응)#

미세 조정은 강력하지만 비용이 많이 듭니다.

수십억 개의 파라미터를 업데이트하려면 여러 GPU와 강력한 인프라가 필요합니다.

LoRA가 이 문제를 해결합니다.

전체 모델을 변경하는 대신, LoRA는:

→ 원본 모델은 고정(frozen) 상태로 유지합니다 → 그 위에 작은 학습 가능한 레이어를 추가합니다 → 이 레이어들은 전체 모델 크기의 극히 일부에 불과합니다

핵심 통찰: 대부분의 미세 조정 변경은 미미합니다.

전체 모델을 다시 작성할 필요가 없습니다.

작고 표적화된 조정만 있으면 됩니다.

결과: → 단일 소비자용 GPU에서 미세 조정: 가능 → 하나의 기본 모델을 저장하고 다른 LoRA 어댑터를 교체하며 사용: 실용적 → 막대한 저장 공간 없이 여러 특화 모델 보유: 가능

LoRA는 오픈소스 AI가 폭발적으로 성장한 이유입니다.

갑자기 누구나 노트북에서 강력한 모델을 미세 조정할 수 있게 되었습니다.

15. 양자화 (Quantization)#

모델이 점점 거대해지고 있습니다.

실행하려면 상당한 메모리와 컴퓨팅 자원이 필요합니다.

양자화는 모델을 더 작고 저렴하게 실행할 수 있게 만듭니다.

방법: 각 가중치의 정밀도를 줄입니다.

전체 정밀도로 저장된 가중치는 32비트를 사용합니다.

4비트로 양자화하면 → 8배 더 작아집니다.

놀라운 점: 품질 저하가 종종 놀라울 정도로 작다는 것입니다.

이것이 가능해진 이유입니다: → MacBook에서 LLaMA 실행 → 소비자용 GPU에서 로컬로 Mistral 실행 → 휴대폰에서 강력한 모델 사용

양자화가 없었다면, 대규모 모델은 데이터 센터에 갇혀 있었을 것입니다.

양자화 덕분에, 이제 여러분의 기기에서 실행됩니다.

파트 4: 실제 AI 시스템 구축 방법 (실제 사용하는 제품 뒤에 있는 것)#

16. RAG (검색 증강 생성)#

LLM은 기억에서 답변하기 때문에 환각(hallucination)을 일으킵니다.

RAG는 먼저 정보를 검색하도록 함으로써 이 문제를 해결합니다.

작동 방식:

사용자가 질문을 합니다
시스템이 지식 베이스에서 관련 문서를 검색합니다
해당 문서가 컨텍스트로 모델에 전달됩니다
모델이 추측이 아닌 실제 정보를 사용하여 답변합니다

이렇게 생각해보세요:

→ 오픈북 시험(RAG 없음): 기억에 의존, 자주 틀림 → 오픈북 시험(RAG 있음): 출처 확인, 훨씬 정확함

강력한 이유: → 데이터가 변경되어도 재학습이 필요 없음 — 문서만 업데이트하면 됨 → 모델이 항상 최신의 정확한 정보로 작업함 → 환각 현상을 극적으로 줄임

모든 진지한 AI 제품은 RAG를 사용합니다.

고객 지원 봇. 법률 도구. 의료 어시스턴트. 내부 지식 베이스.

17. 벡터 데이터베이스#

RAG는 올바른 문서를 빠르게 찾아야 합니다.

하지만 어떻게 키워드가 아닌 의미로 수백만 개의 문서를 검색할 수 있을까요?

벡터 데이터베이스입니다.

작동 방식은 다음과 같습니다:

모든 문서가 임베딩(숫자 벡터)으로 변환됩니다
이 벡터들은 데이터베이스에 저장됩니다
사용자가 질문하면, 질문도 벡터가 됩니다
데이터베이스가 질문 벡터와 가장 가까운 벡터를 찾습니다
의미상 가장 유사한 문서를 반환합니다

키워드 검색보다 나은 이유:

→ "심장병 치료" 검색어가 "심장 관리 프로토콜"에 대한 문서를 찾습니다 → 정확한 단어가 일치하지 않더라도 의미는 일치하기 때문입니다

도구: Pinecone, Qdrant, Weaviate, pgvector

벡터 데이터베이스는 AI 시스템이 단순히 문자열을 일치시키는 것이 아니라 "이해"할 수 있게 만드는 요소입니다.

18. AI 에이전트#

LLM은 메시지에 응답합니다.

AI 에이전트는 실제로 작업을 수행합니다.

차이점:

→ LLM: 질문하면 답변하고 끝남 → 에이전트: 목표를 주면 계획을 세우고, 행동하고, 결과를 확인하고, 조정하고, 반복합니다

에이전트 루프:

생각하기 → 행동하기 → 관찰하기 → 반복하기

예시: 버그를 수정하는 코딩 에이전트 → 이슈를 읽음 → 코드베이스를 탐색함 → 문제를 식별함 → 수정 코드를 작성함 → 테스트를 실행함 → 실패한 부분을 확인함 → 수정을 조정함 → 완료될 때까지 반복함

모델은 두뇌입니다. 도구는 손입니다.

에이전트가 사용할 수 있는 도구: → 웹 검색 → 코드 실행 → 파일 시스템 → API → 이메일 / 캘린더 → 데이터베이스

에이전트는 AI를 챗봇에서 협업자로 변화시킵니다.

19. 사고 사슬 (Chain of Thought, CoT)#

때때로 AI가 틀린 답을 얻는 이유는 바보여서가 아닙니다.

너무 빨리 답으로 건너뛰었기 때문입니다.

사고 사슬이 이 문제를 해결합니다.

최종 답변을 직접 요청하는 대신:

→ "풀기: 기차가 시속 60마일로 2.5시간 동안 이동하면 거리는?"

단계별로 생각하도록 프롬프트를 작성합니다:

→ "단계별로 풀기: 속도 = 60mph. 시간 = 2.5시간. 거리 = 속도 × 시간 = ?"

모델이 추론 과정을 따라갑니다: → 1단계: 공식 식별 → 2단계: 숫자 대입 → 3단계: 계산

수학, 논리, 다단계 문제에 대해 훨씬 더 신뢰할 수 있습니다.

핵심 통찰: 모델이 단순히 반응하는 것이 아니라 생각할 여유를 주는 것입니다.

이것이 "단계별로 생각해봐" 또는 "이것을 신중하게 추론해봐"와 같은 프롬프트가 실제로 효과가 있는 이유입니다.

20. 확산 모델#

지금까지는 모두 텍스트에 관한 내용이었습니다.

확산 모델은 AI가 어떻게 이미지를 생성하는지 설명합니다.

이 과정은 직관에 반합니다.

모델은 그림을 그리는 법을 배우지 않습니다.

모델은 이미지를 파괴하는 법을 배웁니다.

훈련: → 실제 이미지로 시작 → 단계적으로 노이즈를 추가하여 순수한 잡음(static)이 될 때까지 진행 → 이 과정을 역전시키는 법(단계적으로 노이즈 제거)을 모델에 훈련

생성: → 순수한 잡음으로 시작 → 모델이 단계적으로 노이즈 제거 → 사용자의 텍스트 프롬프트에 의해 안내 → 무작위성에서 이미지가 나타남

이름은 물리학에서 유래했습니다. 입자가 매질을 통해 무작위로 확산되는 현상, 마치 물에 잉크가 퍼지는 것과 같습니다.

여기서 모델은 그 확산을 역전시키는 법을 학습합니다.

더 이상 이미지에만 국한되지 않습니다: → 비디오 (Sora, Runway) → 오디오 → 3D 콘텐츠 → 약물 분자

확산 모델은 AI가 시각적인 모든 것을 생성하는 방식입니다.

이상으로 20가지였습니다.

요약하겠습니다:

AI 작동 방식:

→ 1. 신경망 — 계층적 패턴 학습

→ 2. 토큰화 — 텍스트를 조각으로 분할

→ 3. 임베딩 — 의미를 숫자로 표현

→ 4. 어텐션 — 맥락이 의미를 변화시킴

→ 5. 트랜스포머 — 모든 것의 기반이 되는 아키텍처

LLM 작동 방식:

→ 6. LLM — 대규모 차원의 다음 토큰 예측

→ 7. 컨텍스트 윈도우 — 메모리 한계와 중간 문제

→ 8. Temperature — 창의성 조절 다이얼

→ 9. 할루시네이션 — 확신에 차 있지만 틀린 답변

→ 10. 프롬프트 엔지니어링 — 소통 방식

모델 개선 방법:

→ 11. 전이 학습 — 기존 것을 기반으로 구축

→ 12. 파인튜닝 — 모델 전문화

→ 13. RLHF — 유용하도록 학습

→ 14. LoRA — 비용 효율적인 파인튜닝

→ 15. 양자화 — 작은 기기에서 대규모 모델 실행

실제 시스템 구축 방법:

→ 16. RAG — 먼저 검색한 후 답변

→ 17. 벡터 데이터베이스 — 의미 기반 검색

→ 18. AI 에이전트 — 답변에서 실행으로

→ 19. 사고의 사슬 — 생각할 여유 제공

→ 20. 확산 모델 — 노이즈에서 이미지로

이제 AI가 실제로 어떻게 작동하는지 이해하셨습니다.

매일 AI를 사용하는 대부분의 사람들은 이것을 모릅니다.

그 차이가 여러분의 강점입니다.

이 내용이 유용했다면:

→ 리포스트하여 네트워크와 공유하세요 → @sairahul1을 팔로우하여 더 많은 분석을 확인하세요 → 참고용으로 북마크하세요

저는 AI, 제품 구축, 그리고 사용자가 잠자는 동안에도 작동하는 시스템에 대해 글을 씁니다.