Markdown이 LLM을 더 스마트하게 만드는 이유 — 비용 절감 그 이상

대부분의 사람들은 비용 절감을 통해 Markdown-to-AI 워크플로우를 발견합니다. 웹페이지를 HTML에서 Markdown으로 변환하면 토큰 사용량이 80~90% 줄어든다는 것을 알게 되고, 계산해 보고 바로 전환합니다.

이 관점은 정확하지만 불완전합니다. 토큰 절감은 부수 효과입니다. Markdown이 LLM에 더 적합한 진짜 이유는 구조적인 것입니다. Markdown은 문서 구조와 의미가 동일한 형식입니다. HTML은 그렇지 않습니다. 이 차이는 문자 수보다 훨씬 중요합니다.

LLM이 실제로 콘텐츠를 읽는 방식

Markdown이 왜 우월한지 설명하기 전에, 언어 모델이 텍스트를 처리할 때 실제로 무엇을 하는지 이해하는 것이 도움이 됩니다.

LLM은 인간처럼 "읽지" 않습니다. 입력을 토큰 — 각각 약 3~4자의 청크 — 으로 변환하고, 아텐션 레이어를 통해 토큰 간의 관계를 학습하며 처리합니다. 모델에는 시각적 렌더러가 없습니다. 브라우저에서 크고 굵게 표시된다고 해서 그것이 제목이라고 추론할 수 없습니다. 수신한 토큰 시퀀스만으로 작업할 수 있습니다.

즉, 입력 텍스트의 신호 품질 — 구조가 토큰 자체에 얼마나 명확하게 인코딩되어 있는지 — 이 모델이 콘텐츠를 얼마나 잘 이해하는지를 직접 결정합니다.

문제: HTML은 구조와 의미를 분리한다

HTML은 언어 모델이 아닌 브라우저를 위해 설계되었습니다. 브라우저는 <div class="article-headline">을 크고 굵은 제목으로 렌더링합니다. 모델은 이것을 봅니다:

<div class="article-headline">Why Markdown Makes LLMs Smarter</div>

이것은 대략 다음과 같이 토큰화됩니다:

< div  class = " article - headline " > Why  Markdown  Makes  LL Ms  Sm arter </ div >

구조적 신호 — "이것이 메인 헤드라인이다" — 가 클래스 이름 문자열 안에 묻혀 있습니다. 모델은 학습을 통해 article-headline이 중요성을 의미한다는 것을 파악해야 합니다. 보통은 맞게 이해하지만, 형식을 활용하는 것이 아니라 형식에 맞서 싸우는 것입니다.

이제 실제 웹페이지에서 표준적인 더 깊은 중첩을 고려해 보십시오:

<div class="container">
  <div class="content-wrapper">
    <article class="post">
      <div class="post-body">
        <h2 class="section-title">Key Findings</h2>
        <p>The results showed...</p>
      </div>
    </article>
  </div>
</div>

모델이 Key Findings에 도달할 때까지 네 단계의 구조적 노이즈를 처리했습니다. 실제 <h2> 태그만이 의미 있는 신호이며, 이를 강화할 수도 있고 그렇지 않을 수도 있는 클래스 이름(section-title)과 경쟁합니다.

Markdown이 구조와 의미를 통합하는 이유

Markdown은 구조와 의미를 동일하게 만들어 이 문제를 해결합니다. "어떻게 보이는가"와 "무엇을 의미하는가" 사이에 분리가 없습니다.

## Key Findings

The results showed...

## 접두사 자체가 의미론적 신호입니다. 명확하게 "2단계 제목"을 의미합니다. 클래스 이름도, 래퍼 div도, 경쟁 신호도 없습니다. 모델은 토큰 시퀀스에 직접 인코딩된 필요한 정보만 받습니다.

이 패턴은 모든 Markdown 요소에 적용됩니다:

| 콘텐츠 유형 | HTML 신호 | Markdown 신호 | |---|---|---| | 메인 제목 | <h1> 또는 <div class="title"> 또는 <span id="headline"> | # | | 소제목 | <h2>부터 <h6>, 또는 스타일된 div | ##부터 ###### | | 강조 텍스트 | <strong>, <b>, <span class="bold"> | **text** | | 코드 | <code>, <pre>, <div class="highlight"> | `code` 또는 펜스 블록 | | 목록 | <ul>/<li>, 또는 <div class="list-item"> | - item | | 링크 | 주변 마크업이 있는 <a href="..."> | [text](url) |

HTML에서는 각 의미 요소를 인코딩하는 방법이 일반적으로 3~5가지이며, 실제 사용법은 사이트마다 다릅니다. Markdown에서는 한 가지입니다. 그 일관성은 단순히 더 깔끔한 것이 아닙니다 — 모델이 Markdown을 더 안정적으로 처리하는 이유입니다.

실제로 어떻게 보이는가

다음은 실제 기술 기사의 한 섹션을 두 가지 방법으로 처리하여 동일한 프롬프트로 Claude에 전송한 예시입니다: "세 가지 주요 결론을 요약해 주세요."

입력 A: 원시 HTML 추출 (4,200 토큰)

<div class="article-body">
  <div class="content-section" data-section="conclusions">
    <h3 class="section-heading" id="section-3">Conclusions</h3>
    <div class="paragraph-wrapper">
      <p class="body-text">First, the researchers found that response latency...</p>
    </div>
    ...
  </div>
</div>

결과: 모델이 3개 결론 중 2개를 올바르게 식별했습니다. 세 번째는 모델이 비주요 콘텐츠로 인식하지 못한 인근 <aside> 태그의 방법론적 메모와 혼동했습니다.

입력 B: 변환된 Markdown (890 토큰)

## Conclusions

First, the researchers found that response latency...

결과: 3개 결론 모두 올바르게 식별. <aside> 콘텐츠는 컨버터에 의해 보조 내용으로 올바르게 제외되어 모델에 도달하지 않았습니다.

토큰 수는 79% 감소했습니다. 이 예시에서 정확도는 67%에서 100%로 향상되었습니다. 두 변화 모두 같은 원인에서 비롯됩니다: 더 깨끗한 구조 인코딩.

토큰 수 (그리고 그것이 원인이 아닌 결과인 이유)

비용이 중요하므로, 1,500단어 기술 기사 처리 데이터를 보겠습니다:

| 입력 형식 | 토큰 수 | 비용 (Claude Sonnet) | 신호 대 잡음비 | |---|---|---|---| | 원시 HTML | 16,820 | $0.050 | 약 6% | | 일반 텍스트 (태그 제거) | 3,450 | $0.010 | 약 35% | | 깔끔한 Markdown | 1,890 | $0.006 | 약 92% |

비용 차이는 실제적입니다 — 원시 HTML보다 88% 저렴합니다. 하지만 일반 텍스트(HTML 태그만 제거)도 토큰 수를 크게 줄이지만, 신호 대 잡음비는 35%로 유지됩니다. 일반 텍스트는 모든 구조 정보를 잃습니다: 제목도, 강조도, 목록 계층도 없습니다. 비용은 줄지만 모델이 다룰 수 있는 정보도 줄어듭니다.

Markdown은 최적점에 도달합니다: 최소 토큰 비용으로 최대 구조 정보. 그것이 Markdown이 단순히 더 저렴한 것이 아니라 LLM 입력에 올바른 형식인 이유입니다.

형식 품질이 결과를 바꾸는 세 가지 시나리오

1. 요약

긴 기사를 요약할 때, 모델은 어떤 섹션이 주요 콘텐츠이고 어떤 것이 보조적인지 파악해야 합니다. Markdown 제목 계층(#, ##, ###)은 이를 명시적으로 만듭니다. 일반 텍스트나 구조가 불명확한 HTML은 모델이 콘텐츠만으로 추론하도록 강제하여, 사이드바 콜아웃, 저자 약력, 관련 기사 설명이 요약에 포함될 가능성을 높입니다.

2. 웹 콘텐츠에 대한 질의응답

웹페이지를 붙여넣고 특정 질문을 할 때, 모델은 먼저 관련 섹션을 찾아야 합니다. 깔끔한 Markdown 문서에서는 제목 토큰이 모델이 탐색할 수 있는 목차 역할을 합니다. 원시 HTML에서는 콘텐츠에 도달하기 전에 래퍼 div와 클래스 속성을 파싱해야 하여 컨텍스트 윈도우를 압박하고 모델이 잘못된 영역에 주목할 가능성을 높입니다.

3. 코드 추출

기술 페이지에는 산문 설명과 혼합된 코드 예시가 자주 포함됩니다. Markdown 펜스 코드 블록(```)은 명확한 경계를 만듭니다. 모델은 코드가 어디서 시작하고 끝나는지 정확히 압니다. HTML에서는 코드가 <pre>, <code>, <div class="highlight">, 또는 표준 태그가 없는 사용자 정의 컴포넌트로 래핑될 수 있습니다 — 동일한 의미 콘텐츠에 대해 모두 다른 토큰 패턴입니다.

실용적인 핵심

LLM에 웹 콘텐츠를 전달할 때 — 리서치, 요약, 질의응답, 데이터 추출 등 어떤 목적이든 — 사용하는 형식은 작성하는 프롬프트만큼 중요합니다. 깔끔한 Markdown은 있으면 좋은 것이 아닙니다. LLM이 가장 잘 이해하도록 암묵적으로 훈련된 입력 형식입니다. 왜냐하면 학습 코퍼스의 상당 부분(GitHub, Wikipedia, 문서 사이트, Stack Overflow)이 이미 Markdown 또는 Markdown에 근접한 형식이기 때문입니다.

비용 절감은 보너스입니다. 품질 향상이 핵심입니다.

한 번의 클릭으로 모든 웹페이지를 깔끔하고 LLM 친화적인 Markdown으로 변환하세요. Web2MD 시작하기 — Chrome용 무료.

Markdown이 LLM을 더 스마트하게 만드는 이유 — 비용 절감 그 이상

Markdown이 LLM을 더 스마트하게 만드는 이유 — 비용 절감 그 이상

LLM이 실제로 콘텐츠를 읽는 방식

문제: HTML은 구조와 의미를 분리한다

Markdown이 구조와 의미를 통합하는 이유

실제로 어떻게 보이는가

토큰 수 (그리고 그것이 원인이 아닌 결과인 이유)

형식 품질이 결과를 바꾸는 세 가지 시나리오

1. 요약

2. 웹 콘텐츠에 대한 질의응답

3. 코드 추출

실용적인 핵심

Related Articles

Extract Xiaohongshu Posts to Markdown for AI

Save X Threads as Clean Markdown for AI

Best Cursor Web Research Workflow with Markdown

Most Read

Latest Articles