Karpathy microgpt.py 해부: GPT 학습과 추론이 한 파일에서 돌아가는 방식
Andrej Karpathy의 microgpt.py를 한 파일짜리 GPT 실행체로 해부합니다. 문자 tokenizer, scalar autograd, Q/K/V attention, Adam update, autoregressive sampling이 어떻게 연결되는지 설명합니다.
- Karpathy
- GPT
- Transformer
- Autograd
- Python
카테고리
공개 글 5개
Andrej Karpathy의 microgpt.py를 한 파일짜리 GPT 실행체로 해부합니다. 문자 tokenizer, scalar autograd, Q/K/V attention, Adam update, autoregressive sampling이 어떻게 연결되는지 설명합니다.
Claude를 안정적으로 쓰는 첫 번째 기준은 프롬프트를 “질문”이 아니라 작업 명세서로 작성하는 것입니다.
Claude 프롬프트가 길어질수록 가장 먼저 무너지는 것은 정보의 경계입니다. 지시문, 참고자료, 예시, 사용자 입력, 출력 형식이 한 덩어리로 섞이면 Claude가 어느 문장이 명령이고 어느 문장이 데이터인지 헷갈릴 수 있습니다.
Claude 최신 모델을 운영할 때 프롬프트 내용만큼 중요한 것이 추론 깊이와 도구 사용 정책입니다. 복잡한 작업에서는 더 깊은 thinking이 필요하지만, 모든 요청에 높은 effort를 쓰면 비용과 지연 시간이 커집니다. 반대로 도구 사용 조건이 느슨하면 모델이 필요 이상으로 검색하거나, 위험한 액션을 시도할 수 있습니다.
프롬프트 품질을 안정화하려면 개인의 감각에 맡기면 안 됩니다. 자주 하는 작업은 템플릿으로 만들고, 작업 전 체크리스트로 빠진 조건을 확인해야 합니다.