Metadata

source	https://www.oreilly.com/radar/context-engineering-bringing-engineering-discipline-to-prompts-part-1/
created	2026-04-04
by	openai:gpt-5.4

Context Engineering: 프롬프트에 엔지니어링 규율을 도입하다--1부

다음 글은 애디 오스마니(Addy Osmani)의 원문 「 Context Engineering: Bringing Engineering Discipline to Parts」 3부작 가운데 1부이다.*

컨텍스트 엔지니어링(Context Engineering) 팁:

AI에서 최상의 결과를 얻으려면 명확하고 구체적인 컨텍스트(context)를 제공해야 합니다. AI 출력 품질은 입력 품질에 직접 좌우됩니다.

AI 프롬프트를 개선하는 방법:

정확하게 쓰세요: 모호한 요청은 모호한 답을 낳습니다. 구체적으로 쓸수록 결과가 좋아집니다.
관련 코드를 제공하세요: 요청의 핵심이 되는 특정 파일, 폴더, 코드 스니펫을 공유하세요.
설계 문서를 포함하세요: 관련 설계 문서의 일부를 붙여 넣거나 첨부해 AI가 더 큰 그림을 이해하도록 하세요.
오류 로그 전체를 공유하세요: 디버깅할 때는 항상 전체 오류 메시지와 관련 로그, 스택 트레이스를 함께 제공하세요.
데이터베이스 스키마를 보여 주세요: 데이터베이스 작업을 할 때는 스키마 스크린샷이 있으면 AI가 데이터 상호작용용 코드를 더 정확하게 생성하는 데 도움이 됩니다.
PR 피드백을 활용하세요: 풀 리퀘스트(pull request) 코멘트는 풍부한 컨텍스트를 담은 프롬프트 재료가 됩니다.
예시를 주세요: 최종 출력이 어떤 모습이길 원하는지 예를 보여 주세요.
제약 조건을 명시하세요: 사용할 라이브러리, 따라야 할 패턴, 피해야 할 사항 같은 요구사항을 분명히 적으세요.

프롬프트 엔지니어링(prompt engineering)이 질문을 영리하게 표현하는 일에 가까웠다면, 컨텍스트 엔지니어링(context engineering)은 AI가 문제를 안정적으로 해결할 수 있도록 전체 정보 환경을 구축하는 일이다.

“프롬프트 엔지니어링(prompt engineering)”은 더 나은 출력을 얻기 위해 입력을 어떻게 표현하느냐의 기술이라는 뜻으로 유행어가 되었다. 이 개념은 우리에게 영리한 한 줄 문장으로 “산문으로 프로그래밍(program in prose)”하는 법을 가르쳐 주었다. 하지만 AI 커뮤니티 밖에서는 이를 그저 챗봇에 그럴듯한 요청을 입력하는 일쯤으로 받아들이는 경우가 많았다. 이 용어는 LLM을 효과적으로 활용할 때 필요한 실제 정교함을 끝내 온전히 담아내지 못했다.

애플리케이션이 점점 복잡해지자, 단일 프롬프트에만 초점을 맞추는 접근의 한계가 분명해졌다. 어떤 분석에서는 이렇게 재치 있게 말했다. 프롬프트 엔지니어링이 걸었기에 컨텍스트 엔지니어링이 뛸 수 있게 됐다. 다시 말해, 기발한 단발성 프롬프트는 데모에서 사람들을 놀라게 할 수 있었지만, 신뢰할 수 있고 산업 현장에서 쓸 만한 수준의 LLM 시스템을 만들려면 훨씬 더 포괄적인 접근이 필요했다.

이런 인식 때문에 우리 분야는 AI에서 훌륭한 결과를 끌어내는 작업을 설명하는 더 적절한 표현으로 “컨텍스트 엔지니어링(context engineering)”에 점차 뜻을 모으고 있다. 컨텍스트 엔지니어링이란 LLM이 보는 전체 컨텍스트 윈도(context window)를 구성하는 일이다. 짧은 지시문 하나만이 아니라, 작업에 필요한 모든 배경 정보, 예시, 가이드를 함께 제공하는 것이다.

이 표현은 2025년 중반, 쇼피파이(Shopify) CEO 토비 뤼트케(Tobi Lütke)와 AI 리더 안드레이 카파시(Andrej Karpathy) 같은 개발자들에 의해 널리 퍼졌다.

“저는 ‘프롬프트 엔지니어링’보다 ‘컨텍스트 엔지니어링’이라는 표현이 정말 마음에 듭니다.” 토비는 이렇게 썼다. “이 용어가 핵심 역량을 더 잘 설명해 주기 때문입니다. LLM이 그럴듯하게 문제를 풀 수 있도록 작업에 필요한 모든 컨텍스트를 제공하는 기술이죠.” 카파시도 강하게 동의했다. 그는 “사람들은 프롬프트를 짧은 지시문으로 연상하지만, 진지한 모든 LLM 애플리케이션에서 컨텍스트 엔지니어링 이란 각 단계에 꼭 맞는 정보를 컨텍스트 윈도에 채워 넣는 섬세한 예술이자 과학입니다.”라고 말했다.

즉, 현실 세계의 LLM 애플리케이션은 운이나 원샷(one-shot) 프롬프트로 성공하지 않는다. 모델의 질의 주위에 컨텍스트를 세심하게 조립하기 때문에 성공한다.

이 용어 변화는 접근 방식의 진화를 보여 준다. 프롬프트 엔지니어링이 마법 같은 한 문장을 만들어 내는 일이었다면, 컨텍스트 엔지니어링은 AI를 위한 전체 각본을 쓰는 일에 가깝다. 이것은 구조적 전환이다. 프롬프트 엔지니어링은 좋은 프롬프트를 만드는 순간 끝나지만, 컨텍스트 엔지니어링은 기억, 지식, 도구, 데이터를 체계적으로 끌어오는 전체 시스템을 설계하는 데서 시작한다.

카파시의 설명처럼, 이를 잘 수행하려면 명확한 작업 지시와 설명은 물론, 퓨샷(few-shot) 예시, 검색된 사실(RAG), 경우에 따라 멀티모달(multimodal) 데이터, 관련 도구, 상태 이력까지 모두 다뤄야 한다. 그리고 이 모든 것을 제한된 윈도 안에 신중하게 압축해 넣어야 한다. 컨텍스트가 너무 적거나(또는 종류가 맞지 않으면) 모델은 최적으로 수행하는 데 필요한 정보를 얻지 못한다. 반대로 관련 없는 컨텍스트가 너무 많으면 토큰만 낭비하고 성능이 오히려 떨어질 수 있다. 그 균형점을 찾는 일은 결코 쉽지 않다. 카파시가 이를 과학이자 예술이라고 부르는 것도 무리가 아니다.

컨텍스트 엔지니어링(context engineering)이라는 표현이 퍼지는 이유는, 우리가 실제로 LLM 솔루션을 만들 때 하는 일을 직관적으로 잘 담아내기 때문이다. “프롬프트(prompt)”는 짧은 질의 하나처럼 들리지만, “컨텍스트(context)”는 AI를 위해 준비하는 더 풍부한 정보 상태를 떠올리게 한다.

의미상의 차이를 넘어, 왜 이런 전환이 중요할까? 이는 AI 개발을 바라보는 우리의 사고방식이 성숙해졌다는 신호이기 때문이다. 우리는 이제 프로덕션 환경의 생성형 AI는 단 하나의 마법 주문을 거는 일보다, AI를 위한 전체 환경을 엔지니어링하는 일에 더 가깝다는 점을 배웠다. 단발성 프롬프트로도 멋진 데모는 만들 수 있다. 하지만 견고한 솔루션을 만들려면 각 단계에서 모델이 무엇을 “알고”, 무엇을 “보는지”를 통제해야 한다. 그러려면 관련 문서를 검색해 오고, 대화 이력을 요약하고, 구조화된 데이터를 주입하고, 도구를 제공해야 하는 경우가 많다. 한마디로, 모델이 어둠 속에서 추측하지 않게 만드는 데 필요한 것은 무엇이든 해야 한다. 그래서 우리는 더 이상 프롬프트를 AI가 잘 해석해 주길 바라는 일회성 지시문으로 보지 않는다. 대신 AI가 성공하도록 돕는 모든 정보와 상호작용의 조합, 즉 컨텍스트 파이프라인(context pipelines)으로 생각한다.

프롬프트 엔지니어링 대 컨텍스트 엔지니어링

이를 더 분명히 보려면 관점 차이를 생각해 보면 된다. 프롬프트 엔지니어링은 종종 영리한 문구를 짜내는 연습이었다. “이렇게 표현하면 LLM이 내가 원하는 대로 해 주지 않을까?” 하는 식이다. 반면 컨텍스트 엔지니어링은 전통적인 엔지니어링에 더 가깝다. 이 시스템이 작업을 수행하려면 어떤 입력(데이터, 예시, 상태)이 필요한가? 그것들을 어떻게 가져와 주입할 것인가? 어떤 형식으로 넣을 것인가? 어느 시점에 넣을 것인가? 우리는 사실상 단일 프롬프트에서 성능을 억지로 끌어내는 단계에서, LLM 기반 시스템 자체를 설계하는 단계로 넘어왔다.

컨텍스트 엔지니어링이란 정확히 무엇인가?

컨텍스트 엔지니어링이란 AI가 성공하는 데 필요한 모든 것, 즉 지시문, 데이터, 예시, 도구, 이력을 실행 시점에 모델 입력 컨텍스트 안에 동적으로 담아 주는 일이다.

유용한 사고 모델(mental model)은 안드레이 카파시와 다른 이들이 제안한 것으로, LLM을 CPU에, 컨텍스트 윈도를 RAM 또는 작업 메모리에 비유하는 것이다. 엔지니어의 역할은 운영체제와 비슷하다. 즉, 해당 작업에 꼭 맞는 코드와 데이터로 작업 메모리를 채워 넣는 것이다. 실제로 이 컨텍스트는 다양한 출처에서 온다. 사용자의 질의, 시스템 지시문, 데이터베이스나 문서에서 검색한 지식, 다른 도구의 출력, 이전 상호작용 요약 등이 모두 포함될 수 있다. 컨텍스트 엔지니어링은 이런 조각들을 모델이 최종적으로 보게 되는 프롬프트 안에 오케스트레이션하는 일이다. 정적인 프롬프트가 아니라, 실행 시점에 정보를 동적으로 조립하는 과정인 셈이다.

그림: 여러 정보 출처가 LLM의 컨텍스트 윈도(그의 “작업 메모리”) 안으로 조합된다. 컨텍스트 엔지니어의 목표는 그 윈도를 올바른 정보로, 올바른 형식으로 채워 모델이 작업을 효과적으로 수행하게 만드는 것이다.

이 개념을 조금 더 풀어 보자.

이것은 일회성 프롬프트가 아니라 시스템이다. 잘 설계된 환경에서 LLM이 최종적으로 보는 프롬프트에는 여러 요소가 들어갈 수 있다. 예를 들어 개발자가 작성한 역할 지시문, 최신 사용자 질의, 실시간으로 가져온 관련 데이터, 원하는 출력 형식의 예시 몇 개가 함께 포함될 수 있다. 이 모든 것이 프로그램적으로 엮인다. 예를 들어 “이 인증 버그를 어떻게 고치죠?”라는 질의를 받는 코딩 도우미 AI를 상상해 보자. 그 뒤의 시스템은 자동으로 코드베이스를 검색해 관련 코드를 찾고, 관련 파일 스니펫을 가져온 뒤, 다음과 같은 프롬프트를 구성할 수 있다. “당신은 전문 코딩 어시스턴트입니다. 사용자는 인증 버그를 겪고 있습니다. 다음은 관련 코드 스니펫입니다: [code]. 사용자의 오류 메시지: [log]. 수정 방법을 제시하세요.” 최종 프롬프트가 여러 조각으로 만들어진다는 점에 주목하자. 컨텍스트 엔지니어링은 어떤 조각을 가져올지, 그리고 그것들을 어떻게 결합할지를 결정하는 로직이다. 이는 다른 함수 호출을 위해 인자를 준비하는 함수를 작성하는 일과 비슷하다. 다만 여기서 “인자(arguments)”는 컨텍스트 조각들이고, 함수는 LLM 호출이라는 점이 다를 뿐이다.
동적이며 상황에 따라 달라진다. 하나의 하드코딩된 프롬프트와 달리, 컨텍스트 조립은 요청마다 이뤄진다. 질의 내용이나 대화 상태에 따라 시스템이 포함하는 정보가 달라질 수 있다. 여러 차례 이어지는 대화라면, 공간 절약을 위해 전체 대화록 대신 지금까지의 대화 요약만 넣을 수도 있다. 사용자의 질문이 특정 문서를 가리킨다면(“설계 명세서에는 X에 대해 뭐라고 되어 있나요?”), 시스템은 위키에서 해당 명세를 가져와 관련 발췌문을 포함할 수 있다. 요컨대 컨텍스트 엔지니어링 로직은 현재 상태에 반응한다. 이는 프로그램의 동작이 입력에 따라 달라지는 것과 비슷하다. 이런 동적인 특성은 매우 중요하다. 번역 모델에 모든 문장을 번역할 때마다 똑같은 프롬프트를 주지는 않을 것이다. 매번 새 문장을 넣는다. 마찬가지로 AI 에이전트(agent)에서는 상태가 변할 때마다 어떤 컨텍스트를 줄지 계속 갱신해야 한다.
여러 종류의 콘텐츠를 섞는다. 랭체인(LangChain)은 컨텍스트 엔지니어링을 적어도 세 가지 맥락을 아우르는 우산 개념으로 설명한다. (1) 지시 컨텍스트(Instructional context) — 우리가 제공하는 프롬프트나 가이드로, 시스템 역할 지시와 퓨샷 예시를 포함한다. (2) 지식 컨텍스트(Knowledge context) — 외부 소스 검색을 통해 제공하는 도메인 정보나 사실이다. (3) 도구 컨텍스트(Tools context) — 도구나 API 호출을 통해 모델 환경에서 들어오는 정보로, 예를 들면 웹 검색 결과, 데이터베이스 질의 결과, 코드 실행 결과 등이 있다. 견고한 LLM 애플리케이션에는 대체로 이 세 가지가 모두 필요하다. 작업에 대한 명확한 지시, 관련 지식의 주입, 그리고 필요하다면 모델이 도구를 사용하고 그 결과를 다시 사고 과정에 반영할 수 있는 능력 말이다. 컨텍스트 엔지니어링은 이렇게 여러 정보 흐름을 관리하고 일관되게 합쳐 내는 규율이다.
형식과 명료성도 중요하다. 컨텍스트에 무엇을 넣느냐뿐 아니라, 그것을 어떻게 제시하느냐도 중요하다. AI 모델과의 의사소통은 놀랍게도 사람과의 의사소통과 비슷한 점이 있다. 구조 없는 방대한 텍스트 덩어리를 쏟아 넣으면 모델이 혼란스러워하거나 요점을 놓칠 수 있지만, 잘 정리된 입력은 모델을 올바르게 이끈다. 컨텍스트 엔지니어링의 한 부분은 정보를 압축하고 구조화해 모델이 중요한 것을 파악하도록 만드는 일이다. 긴 텍스트를 요약하거나, 핵심 사실을 강조하기 위해 불릿 포인트나 제목을 쓰거나, 필요하다면 JSON이나 의사 코드(pseudo-code) 형식으로 데이터를 정리하는 것도 여기에 포함된다. 예를 들어 문서 스니펫을 가져왔다면 “관련 문서:” 같은 머리말을 붙이고 따옴표로 감싸, 이것이 참고 자료라는 점을 모델이 알게 할 수 있다. 오류 로그가 있다면 100줄짜리 스택 트레이스 대신 마지막 5줄만 보여 주는 편이 나을 수 있다. 효과적인 컨텍스트 엔지니어링에는 종종 창의적인 정보 설계(information design)가 필요하다. 즉, LLM이 최대한 쉽게 소화할 수 있도록 입력을 다듬는 일이다.

무엇보다도 컨텍스트 엔지니어링은 AI가 성공하도록 판을 깔아 주는 일이다.

LLM은 강력하지만 초능력자는 아니다. 입력으로 받은 내용과 학습 과정에서 익힌 내용을 바탕으로만 답할 수 있다. 모델이 실패하거나 환각(hallucination)을 일으킨다면, 그 근본 원인은 대개 우리가 올바른 컨텍스트를 주지 않았거나, 주더라도 형편없이 구조화된 형태로 줬기 때문이다. LLM “에이전트”가 엉뚱하게 행동할 때는 대개 “적절한 컨텍스트, 지시, 도구가 모델에 제대로 전달되지 않았기” 때문이다. 잘못 넣으면 잘못 나온다. 반대로 관련 정보와 명확한 가이드를 모두 제공하면 모델 성능은 극적으로 좋아진다.

고품질 컨텍스트 공급하기: 실용 팁

그렇다면 실제로 AI에 필요한 것을 빠짐없이 주려면 어떻게 해야 할까? 다음은 AI 코딩 어시스턴트와 기타 LLM 애플리케이션을 만들면서 내가 유용하다고 느낀 실용적인 팁들이다.

관련 소스 코드와 데이터를 포함하라. AI에게 코드 작업을 맡긴다면 관련 코드 파일이나 스니펫을 제공하라. 모델이 어떤 함수를 기억해 낼 거라고 기대하지 말고, 실제 코드를 보여 주어야 한다. 마찬가지로 질의응답 작업에서는 관련 사실이나 문서를 포함하라(검색을 통해서라도). 컨텍스트가 빈약하면 출력 품질도 낮을 수밖에 없다. 모델은 주어지지 않은 내용에는 답할 수 없다.
지시문은 정확하게 써라. 무엇을 원하는지 분명히 밝혀라. 특정 형식(JSON, 특정 스타일 등)으로 답이 필요하다면 그렇게 말하라. AI가 코드를 작성한다면 어떤 라이브러리나 패턴을 사용해야 하는지(또는 피해야 하는지) 제약 조건을 명시하라. 요청이 모호하면 답도 갈피를 잡지 못한다.
원하는 출력의 예시를 제공하라. 퓨샷 예시는 강력하다. 어떤 스타일로 함수 문서를 작성하길 원한다면, 프롬프트 안에 그 스타일로 제대로 문서화된 함수 예시를 한두 개 보여 주어라. 출력 형태를 보여 주면 LLM이 무엇을 원하는지 정확히 이해하는 데 도움이 된다.
외부 지식을 활용하라. 작업에 모델의 학습 범위를 넘어서는 도메인 지식이 필요하다면(예: 회사 내부 세부사항, API 명세), 그 정보를 검색해 컨텍스트에 넣어라. 예를 들어 설계 문서의 관련 섹션이나 API 문서 스니펫을 첨부하라. LLM은 기억에 의존해 끌어내는 것보다, 제공된 텍스트에서 사실을 인용할 수 있을 때 훨씬 더 정확하다.
디버깅할 때는 오류 메시지와 로그를 포함하라. AI에게 버그 수정을 요청한다면 전체 오류 추적이나 로그 스니펫을 보여 주어라. 거기에 필요한 핵심 단서가 들어 있는 경우가 많다. 테스트 실패 원인을 묻는다면 테스트 출력도 함께 제공하라.
대화 이력을 유지하되 영리하게 관리하라. 채팅 시나리오에서는 지금까지의 대화 중 중요한 부분을 다시 넣어 주어라. 전체 이력이 꼭 필요한 것은 아니다. 핵심 요점이나 결정 사항을 간단히 요약해도 충분한 경우가 많고, 토큰 공간도 아낄 수 있다. 이렇게 하면 모델은 이미 무엇이 논의되었는지 맥락을 이해할 수 있다.
메타데이터와 구조를 주저하지 말고 활용하라. 때로는 어떤 컨텍스트를 왜 주는지 모델에 알려 주는 것만으로도 도움이 된다. 예를 들면 “다음은 사용자의 질의입니다.” 또는 “다음은 관련 데이터베이스 스키마입니다:” 같은 식의 머리말이다. “사용자 입력: … / 어시스턴트 응답: …” 같은 단순한 섹션 헤더도 여러 부분으로 된 프롬프트를 모델이 파악하는 데 도움을 준다. 마크다운(markdown), 불릿 목록, 번호 매기기 같은 형식을 활용해 프롬프트의 논리를 분명하게 하라.

황금률을 기억하라. LLM은 강력하지만 마음을 읽지는 못한다. 출력 품질은 제공한 컨텍스트의 품질과 관련성에 정비례한다. 컨텍스트가 너무 적거나(또는 필요한 조각이 빠지면) AI는 빈틈을 추측으로 메우려 들고, 그 추측은 종종 틀린다. 관련 없거나 잡음이 많은 컨텍스트도 마찬가지로 해롭다. 모델을 엉뚱한 방향으로 이끌 수 있다. 그러니 컨텍스트 엔지니어의 일은 모델에 꼭 필요한 것만, 그리고 불필요한 것은 빼고 공급하는 것이다.