Contextifier

v0.2.4

Document → AI Context

다양한 문서 포맷을 AI가 이해할 수 있는 구조화된 텍스트로 변환합니다. 5단계 균일 파이프라인으로 모든 문서 포맷에 일관된 결과를 제공합니다.

Python ≥ 3.12Apache-2.0

# Installation
$ pip install contextifier
# or with uv
$ uv add contextifier

핵심 기능

Contextifier가 제공하는 강력한 문서 처리 기능을 확인하세요.

80+ 포맷 지원

PDF, DOCX, DOC, PPTX, PPT, XLSX, XLS, HWP, HWPX, RTF, CSV, TSV, TXT, MD, HTML, 이미지, 코드 파일 등 80가지 이상의 확장자를 지원합니다.

지능형 텍스트 추출

문서 구조(제목, 테이블, 이미지 위치)를 유지하면서 자동 메타데이터 추출을 수행합니다.

OCR 5개 엔진

OpenAI, Anthropic, Google Gemini, AWS Bedrock, vLLM — 5가지 Vision LLM 엔진으로 이미지에서 텍스트를 추출합니다.

스마트 청킹

테이블 인식, 페이지 경계, 보호 영역, 재귀 분할 등 4가지 전략을 자동으로 선택하여 최적의 청크를 생성합니다.

테이블 처리

rowspan/colspan이 포함된 병합 셀도 지원하며, HTML/Markdown/Text 형식으로 변환합니다.

LangChain 통합

LangChain, LangGraph와 완벽하게 연동되어 AI 파이프라인에 바로 투입할 수 있습니다.

지원 포맷

80가지 이상의 파일 확장자를 처리할 수 있습니다.

문서

PDF, DOCX, DOC, PPTX, PPT, HWP, HWPX, RTF

스프레드시트

XLSX, XLS, CSV, TSV

마크업

HTML, MD, TXT

이미지

PNG, JPG, JPEG, WEBP, HEIF, TIFF, BMP

코드

PY, JS, TS, JAVA, C, CPP, RS, GO 등 30+

코드 예제

간단한 API로 복잡한 문서 처리를 수행하세요.

기본 텍스트 추출

from contextifier import DocumentProcessor

processor = DocumentProcessor()
result = processor.process("document.pdf")

print(result.text)
print(f"Pages: {result.metadata.page_count}")

OCR 처리

from contextifier import DocumentProcessor, ProcessingConfig

config = ProcessingConfig(
    ocr_enabled=True,
    ocr_engine="openai",  # or anthropic, gemini, bedrock, vllm
)
processor = DocumentProcessor(config=config)
result = processor.process("scanned_doc.pdf")

스마트 청킹

from contextifier import DocumentProcessor

processor = DocumentProcessor()
result = processor.process("long_document.pdf")

for chunk in result.chunks:
    print(f"[{chunk.type}] {chunk.text[:80]}...")
    # chunk.metadata contains page, position, etc.

5단계 균일 파이프라인

모든 문서 포맷에 동일한 처리 파이프라인을 적용합니다.

입력 감지

→

텍스트 추출

→

테이블 처리

→

OCR 처리

→

청킹

Contextifier로 시작하세요

pip install contextifier로 설치하고, 문서를 AI 컨텍스트로 변환하세요.

GitHub 문서 보기