카테고리: AI Backend
메뉴
Moonshot Notes orbit notebook mark
Moonshot NotesAI 도구와 개발 워크플로우 기록하는 공간

카테고리

AI Backend

공개 글 12개

AI Backend · 2026-05-12 · 4분 읽기

LLM보다 백엔드 기본기가 먼저인 이유

LLM 서비스 개발에서 프롬프트와 프레임워크보다 API 계약, 데이터 모델, 캐시, 큐, 로그, 장애 대응 같은 백엔드 기본기가 먼저 필요한 이유를 정리합니다.

  • LLM
  • Backend
  • API
  • Cache
  • Queue

AI Backend · 2026-05-12 · 4분 읽기

운영 가능한 API 설계

LLM 백엔드에서 운영 가능한 API를 만들기 위해 성공 응답보다 실패 응답, trace ID, idempotency, rate limit, health check를 먼저 설계하는 방법을 정리합니다.

  • LLM
  • Backend
  • API Design
  • Trace ID
  • OpenAPI

AI Backend · 2026-05-12 · 4분 읽기

Redis Cache Aside로 LLM 응답 캐시 설계하기

LLM 서비스에서 Redis Cache Aside 패턴을 이용해 응답 비용과 지연을 줄이는 방법을 cache key, TTL, 개인정보, cache stampede 관점으로 정리합니다.

  • LLM
  • Backend
  • Redis
  • Cache
  • Cost Optimization

AI Backend · 2026-05-12 · 4분 읽기

Queue와 Idempotency

문서 색인, embedding 생성, 대량 요약처럼 오래 걸리는 AI 작업을 큐로 분리하고 idempotency key, retry, DLQ로 안정화하는 방법을 정리합니다.

  • LLM
  • Backend
  • Queue
  • Idempotency
  • Reliability

AI Backend · 2026-05-12 · 5분 읽기

Structured Outputs 실전

LLM 응답을 자유 텍스트가 아니라 JSON Schema 기반 API 계약으로 다루기 위해 Structured Outputs, validation, schema version, fallback을 설계하는 방법을 정리합니다.

  • LLM
  • Backend
  • Structured Outputs
  • JSON Schema
  • Validation

AI Backend · 2026-05-12 · 5분 읽기

Function Calling 설계

LLM이 내부 API를 호출하도록 만들 때 Function Calling을 어떻게 설계해야 하는지 tool boundary, 권한, 검증, 감사 로그, human approval 관점으로 정리합니다.

  • LLM
  • Backend
  • Function Calling
  • Tool Boundary
  • Security

AI Backend · 2026-05-12 · 5분 읽기

Prompt Caching과 Token Budget

LLM 서비스의 비용과 응답 지연을 줄이기 위해 Prompt Caching, token budget, prompt layout, usage metric을 어떻게 설계해야 하는지 정리합니다.

  • LLM
  • Backend
  • Prompt Caching
  • Token Budget
  • Cost Optimization

AI Backend · 2026-05-12 · 4분 읽기

RAG 논문 백엔드 관점으로 읽기

Retrieval Augmented Generation 논문을 백엔드 개발자 관점에서 읽고, parametric memory, non parametric memory, retriever, generator를 서비스 아키텍처로 해석합니다.

  • LLM
  • Backend
  • RAG
  • Paper Review
  • Retrieval

AI Backend · 2026-05-12 · 4분 읽기

pgvector로 사내 문서형 RAG 서비스 만들기

PostgreSQL의 pgvector 확장을 사용해 문서 chunk와 embedding을 저장하고, metadata filter와 vector similarity query로 문서형 RAG 서비스를 구현하는 방법을 정리합니다.

  • LLM
  • Backend
  • RAG
  • pgvector
  • PostgreSQL

AI Backend · 2026-05-12 · 4분 읽기

LLM Evals 입문

LLM 서비스에서 일반 테스트로 잡기 어려운 답변 품질을 Evals, golden set, grader, regression test로 측정하고 배포 기준으로 연결하는 방법을 정리합니다.

  • LLM
  • Backend
  • Evals
  • Quality
  • Regression Test

AI Backend · 2026-05-12 · 5분 읽기

OpenTelemetry로 LLM 요청 Trace 연결하기

LLM 서비스에서 OpenTelemetry를 사용해 API 요청, retrieval, LLM 호출, validation, DB 저장을 하나의 trace로 연결하고 지연과 실패 원인을 분석하는 방법을 정리합니다.

  • LLM
  • Backend
  • OpenTelemetry
  • Tracing
  • Observability