메뉴

카테고리

AI Backend

공개 글 18개

AI Backend

RAG가 데모에서 망가지는 지점: 실제 문서, 토큰 예산, 프롬프트 인젝션

샘플 문서로 만든 RAG 흐름을 PDF, 웹 문서, Markdown 분할, token budget, prompt injection risk가 있는 운영 환경으로 옮길 때 확인할 경계를 정리합니다.

2026-07-09 · 7분 읽기

AI Backend

RAG 답변을 믿기 전에 봐야 할 것: 검색 평가, faithfulness, 출처 표시

RAG 답변이 그럴듯해 보여도 retriever 결과, answer faithfulness, citation, source attribution을 따로 확인해야 하는 이유와 점검 흐름을 정리합니다.

2026-07-08 · 7분 읽기

AI Backend

LangChain RAG 복습 04: 문서 구조를 살리는 검색 설계

LangChain RAG 학습 흐름을 따라 hybrid search, parent document retrieval, multi-vector retrieval로 검색 단위와 답변 단위를 분리하는 방법을 정리합니다.

2026-07-04 · 7분 읽기

AI Backend

LangChain RAG 복습 03: 검색 품질을 높이는 retriever 전략

LangChain RAG 학습 흐름을 따라 retriever 결과가 애매할 때 metadata filter, multi query retrieval, context compression, reranking으로 검색 품질을 점검하는 과정을 정리합니다.

2026-07-01 · 7분 읽기

AI Backend

LangChain RAG 복습 02: 검색기부터 프롬프트 체인까지

LangChain RAG 학습 흐름을 따라 chunk가 retriever 결과가 되고 prompt context와 chain 입력으로 이어지는 과정을 정리합니다.

2026-06-27 · 6분 읽기

AI Backend

LangChain RAG 복습 01: 문서 로딩부터 chunk까지

LangChain RAG 학습 흐름을 따라 예시 문서가 Document가 되고 검색 가능한 chunk로 나뉘는 과정을 정리합니다.

2026-06-24 · 6분 읽기

AI Backend

LLM 서비스를 PoC에서 프로덕션으로 끌어올리는 백엔드 로드맵

LLM 서비스를 PoC 수준에서 운영 가능한 백엔드 시스템으로 고도화하기 위한 학습 순서를 API, 캐시, 큐, RAG, Evals, Observability 관점으로 정리합니다.

2026-05-12 · 6분 읽기

AI Backend

LLM보다 백엔드 기본기가 먼저인 이유

LLM 서비스 개발에서 프롬프트와 프레임워크보다 API 계약, 데이터 모델, 캐시, 큐, 로그, 장애 대응 같은 백엔드 기본기가 먼저 필요한 이유를 정리합니다.

2026-05-12 · 5분 읽기

AI Backend

운영 가능한 API 설계

LLM 백엔드에서 운영 가능한 API를 만들기 위해 성공 응답보다 실패 응답, trace ID, idempotency, rate limit, health check를 먼저 설계하는 방법을 정리합니다.

2026-05-12 · 5분 읽기

AI Backend

Redis Cache Aside로 LLM 응답 캐시 설계하기

LLM 서비스에서 Redis Cache Aside 패턴을 이용해 응답 비용과 지연을 줄이는 방법을 cache key, TTL, 개인정보, cache stampede 관점으로 정리합니다.

2026-05-12 · 5분 읽기

AI Backend

Queue와 Idempotency

문서 색인, embedding 생성, 대량 요약처럼 오래 걸리는 AI 작업을 큐로 분리하고 idempotency key, retry, DLQ로 안정화하는 방법을 정리합니다.

2026-05-12 · 5분 읽기

AI Backend

Structured Outputs 실전

LLM 응답을 자유 텍스트가 아니라 JSON Schema 기반 API 계약으로 다루기 위해 Structured Outputs, validation, schema version, fallback을 설계하는 방법을 정리합니다.

2026-05-12 · 5분 읽기

AI Backend

Function Calling 설계

LLM이 내부 API를 호출하도록 만들 때 Function Calling을 어떻게 설계해야 하는지 tool boundary, 권한, 검증, 감사 로그, human approval 관점으로 정리합니다.

2026-05-12 · 6분 읽기

AI Backend

Prompt Caching과 Token Budget

LLM 서비스의 비용과 응답 지연을 줄이기 위해 Prompt Caching, token budget, prompt layout, usage metric을 어떻게 설계해야 하는지 정리합니다.

2026-05-12 · 6분 읽기

AI Backend

RAG 논문 백엔드 관점으로 읽기

Retrieval Augmented Generation 논문을 백엔드 개발자 관점에서 읽고, parametric memory, non parametric memory, retriever, generator를 서비스 아키텍처로 해석합니다.

2026-05-12 · 5분 읽기

AI Backend

pgvector RAG가 운영에서 버티려면: chunk, metadata filter, citation 설계

PostgreSQL pgvector로 문서형 RAG를 만들 때 chunk와 embedding 저장, metadata filter, vector similarity query, citation 연결을 운영 관점에서 정리합니다.

2026-05-12 · 5분 읽기

AI Backend

LLM Evals 입문

LLM 서비스에서 일반 테스트로 잡기 어려운 답변 품질을 Evals, golden set, grader, regression test로 측정하고 배포 기준으로 연결하는 방법을 정리합니다.

2026-05-12 · 5분 읽기

AI Backend

OpenTelemetry로 LLM 요청 Trace 연결하기

LLM 서비스에서 OpenTelemetry를 사용해 API 요청, retrieval, LLM 호출, validation, DB 저장을 하나의 trace로 연결하고 지연과 실패 원인을 분석하는 방법을 정리합니다.

2026-05-12 · 6분 읽기