핵심 기능
Contextifier가 제공하는 강력한 문서 처리 기능을 확인하세요.
80+ 포맷 지원
PDF, DOCX, DOC, PPTX, PPT, XLSX, XLS, HWP, HWPX, RTF, CSV, TSV, TXT, MD, HTML, 이미지, 코드 파일 등 80가지 이상의 확장자를 지원합니다.
지능형 텍스트 추출
문서 구조(제목, 테이블, 이미지 위치)를 유지하면서 자동 메타데이터 추출을 수행합니다.
OCR 5개 엔진
OpenAI, Anthropic, Google Gemini, AWS Bedrock, vLLM — 5가지 Vision LLM 엔진으로 이미지에서 텍스트를 추출합니다.
스마트 청킹
테이블 인식, 페이지 경계, 보호 영역, 재귀 분할 등 4가지 전략을 자동으로 선택하여 최적의 청크를 생성합니다.
테이블 처리
rowspan/colspan이 포함된 병합 셀도 지원하며, HTML/Markdown/Text 형식으로 변환합니다.
LangChain 통합
LangChain, LangGraph와 완벽하게 연동되어 AI 파이프라인에 바로 투입할 수 있습니다.
지원 포맷
80가지 이상의 파일 확장자를 처리할 수 있습니다.
문서
PDF, DOCX, DOC, PPTX, PPT, HWP, HWPX, RTF
스프레드시트
XLSX, XLS, CSV, TSV
마크업
HTML, MD, TXT
이미지
PNG, JPG, JPEG, WEBP, HEIF, TIFF, BMP
코드
PY, JS, TS, JAVA, C, CPP, RS, GO 등 30+
코드 예제
간단한 API로 복잡한 문서 처리를 수행하세요.
기본 텍스트 추출
from contextifier import DocumentProcessor
processor = DocumentProcessor()
result = processor.process("document.pdf")
print(result.text)
print(f"Pages: {result.metadata.page_count}")OCR 처리
from contextifier import DocumentProcessor, ProcessingConfig
config = ProcessingConfig(
ocr_enabled=True,
ocr_engine="openai", # or anthropic, gemini, bedrock, vllm
)
processor = DocumentProcessor(config=config)
result = processor.process("scanned_doc.pdf")스마트 청킹
from contextifier import DocumentProcessor
processor = DocumentProcessor()
result = processor.process("long_document.pdf")
for chunk in result.chunks:
print(f"[{chunk.type}] {chunk.text[:80]}...")
# chunk.metadata contains page, position, etc.5단계 균일 파이프라인
모든 문서 포맷에 동일한 처리 파이프라인을 적용합니다.
1
입력 감지2
텍스트 추출3
테이블 처리4
OCR 처리5
청킹