스캔문서의 고효율 압축의 대명사-DjVu 기 술 소개 DjVu High Compression Technology 전자화문서 고효율 압 축 배포 기술 스캔문서(전자화문서)의 고효율 압축을 유지하고 디지털 문서로서의 속성 을 모두 갖춘 DjVu 포맷 및 압축 기술에 대한 소개 및 대용량 이미지 및 문 서 조회를 위한 문서/페이지 스트리밍 기술에 대한 고찰 콘텐츠 DjVu 압축 포맷 및 페이지 스트리밍 기술 소개 1.소개 2. DjVu 압축 방식 소개 3. 흑백 문서를 위한 TIFF 포맷과 DjVu와의 비교 4. JPEG 포맷과 DjVu와의 비교 5. DjVu 와 JPEG2000의 비교 6. DjVu 와 PDF 비교 7. DjVu Page Streaming Server (DPSS) 기능 8. 본문 내용 검색 (페이지 단위 검색)을 위한 기술 9. Ajax 기반의 DjVu 뷰어 펼치기 DjVu 압축 포맷 및 페이지 스트리밍 기술 소개 작성자 : 최흥식( [email protected]) 1.소개 DjVu는 한마디로 정의하자면 오프라인상에서의 흑백 또는 컬러 종이문서의 세계를 온라인 디지털 웹에서도 그 품 질 그대로 유지하고 검색, 배포, 압축, 저장할 수 있게 한 새로운 압축 기술이다. 이 기술은 1990년대 후반에 미국 AT&T Lab에서 연구 개발된 것으로 2000년 초에 미국 시애들 소재의 Lizadtech에서 관련 기술을 인수하면서 보급 되기 시작한 솔루션이다. 현재는 Lizartech 사는 Celartem 사의 100% 자회사로서 흡수 통합되었다. DjVu 기술이 주는 주요 사상은 “Scan-to-Web’ 이다. 그 동안 스캐닝을 통해서 디지털화되는 일반 문서나 고화질 의 사진 등이 그 파일의 크기가 커서 웹을 통해서 서비스가 불가능 하던 문제점을 일소에 해소하는 기술인 것이다. 최근에는 고품질의 컬러 스캐너와 디지털 카메라의 보급으로 인하여 오프라인상의 종이 문서나 책자들에 대한 디 지털화 요구가 증대되고 있는 시점에서 이러한 기술은 더더욱 진가를 발휘하게 된다. DjVu라는 단어는 불어 ‘déjà vu’ 에서 온 것으로 ‘ 어디서 본 듯한 느낌 또는 착각’ 이란 뜯을 갖고 있다고 한다. 우리 말로는 ‘데자뷰’로 발음한다. DjVu는 웹 상에서 통용되는 TIFF, PDF, JPEG 과 같이 또 다른 하나의 파일 포맷이기도 하 다. DjVu로 만들어진 문서는 확장자가 ‘djvu’ 또는 ‘djv’로 표시 된다. DjVu로 표시된 문서는 PDF문서와 마찬가지로 자유롭게 웹에서 저장, 배포, 다운로드, 이메일 전송 등이 가능하다. DjVu 문서를 보기 위해서는 데자뷰테크놀러지 ( DjVu 뷰어자동설치)사 홈페이지에서 무료로 다운로드 받을 수 있다. 사용자의 브라우져에 따라서 윈도우시스템 에서는 익스플로러용 유닉스에서는 네스케이프용 그리고 Mac 사용자는 Mac용 reader 기를 다운로드 받아서 사 용할 수 있다. 1000페이지가 넘는 컬러 책자를 300DPI 해상도로 스캐닝 하여 웹에서 서비스 한다고 할 때 300DPI 해상도의 품질 을 웹에서 유지 하기 위해서는 적어도 400Mbytes (JPEG으로 페이지당 500Kbyte 정도 소요)이상의 파일 크기가 필요하게 된다. 400Mbytes 나 되는 책자를 웹에서 서비스하는 것은 거의 불가능하다고 볼 수 있을 것이다. DjVu는 2009-09-25 스캔문서의 고효율 압축의 대명사-… knol.google.co.kr/k/-/djvu/…/3 1/20
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
스캔문 고 축 -DjVu 술 개
DjVu High Compression Technology 전 문 고 축 포 술
스캔문 (전 문 ) 고 축 하고 문 갖춘 DjVu 포맷 축 술에 한 개 량 미 문 조 한 문 / 스트 술에 한 고찰
츠
DjVu 축 포맷 스트 술 개1. 개2. DjVu 축 식 개3. 흑 문 한 TIFF 포맷과 DjVu 4. JPEG 포맷과 DjVu 5. DjVu JPEG2000 6. DjVu PDF 7. DjVu Page Streaming Server (DPSS) 능8. 본문 내 검 ( 단 검 ) 한 술9. Ajax DjVu 뷰
DjVu는 한마 하 프 상에 또는 컬러 계 지 웹에 도 그 질 그 지하고 검색, 포, 압 , 할 수 게 한 새 운 압 술 다. 술 1990 후 에 미AT&T Lab에 연 개 것 2000 에 미 시애들 재 Lizadtech에 술 수하 보
시 한 루 다. 재는 Lizartech 사는 Celartem 사 100% 사 수 통합 었다.
DjVu 술 주는 주 사상 “Scan-to-Web’ 다. 그 동안 스 닝 통해 지 는 나 고 질 사진 등 그 가 커 웹 통해 스가 가능 하 에 해 하는 술 것 다.근에는 고 질 컬러 스 지 보 하여 프 상 나 책 들에 한
지 가 고 는 시 에 러한 술 욱 진가 하게 다.
DjVu 는 단어는 어 ‘déjà vu’ 에 것 ‘어 본 듯한 느낌 또는 착각’ 갖고 다고 한다. 우리말 는 ‘ 뷰’ 한다. DjVu는 웹 상에 통 는 TIFF, PDF, JPEG과 같 또 다 하나 포맷 도 하다. DjVu 만들어진 는 가 ‘djvu’ 또는 ‘djv’ 시 다. DjVu 시 는 PDF 마찬가지
게 웹에 , 포, 다운 드, 등 가능하다. DjVu 보 해 는 뷰 러지(DjVu 뷰어 동 )사 지에 료 다운 드 수 다. 사 우 에 도우시스에 는 스플 러 닉스에 는 스 프 그리고 Mac 사 는 Mac reader 다운 드 아 사
할 수 다.
1000 지가 는 컬러 책 300DPI 해상도 스 닝 하여 웹에 스 한다고 할 300DPI 해상도 질 웹에 지 하 해 는 어도 400Mbytes (JPEG 지당 500Kbyte 도 ) 상 가
필 하게 다. 400Mbytes 나 는 책 웹에 스하는 것 거 가능하다고 볼 수 것 다. DjVu는
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 1/20
400Mbytes 1/20 압 하여 20Mbtyes 만들 수 고 지 단 스트리 술 하여 책 지수 에 상 없 고 질 지 한 검색 도(1-2 도) 보 하 검색할 수 게 한
다.
지도나 도 지 할 경우 한 는 100Mbyt�s 또는 200Mbyt�s 상 는 경우가 보통 다. 도 웹에 스할 수 는 도 어 게 다. DjVu는 러한 지도나 도 과 같
한 미지 가 경우도 한 압 할 뿐만 아니 웹에 스할 경우 진
미지 술 통해 아 리 미지 도 사 에는 다림 없 미지 순식간에 볼 수가
게 하여 다.
스 닝 또는 지 통해 만들어진 든 지 료나 사진들 DjVu 변 가능하다. 뿐만 아니
MS-Offic� (워드, 워포 트, 엑 )나 아 아한 , PDF 등등 DjVu 변 할 수 다.
2. DjVu 압축 방식 소개
DjVu는 게 3가지 압 식 공한다.
(biton�l) 미지 압 JBIG2 술 한 JB2 압 식, 식 미지에 하여
Lossl�ss/Visu�l Lossl�ss 식 하여 압 할 수 다.
컬러 미지 압 W�v�l�t 식 IW44 압 . 식 JPEG2000과 같 w�v�l�t 술 사 한다.
MRC (Mixed Raster Content) 압 식- 식 앞에 개 것과 같 미지 내 하여 3개
계 동 리하여 각각 계 에 맞는 미지 압 식 한다
3. 흑백 문서를 위한 TIFF 포맷과 DjVu와의 비
우리는 스 통해 하거나 수신하 도 한다. 스 는 통해 껏 해야 9600bps
도 도 필 한 수신 한다. 러한 낮 도 통해 가능 한한 많 보 보
내 해 는 보량 한 는 것 건 것 다.
1980 에 CCITT 그룹에 는 Bi-level 미지( 미지) 하 한 Group 3 포맷 했다. 1984 에는 G3 향상 시 압 고안 Group 4가 었다. 스 뿐만 아니 지 도
야에 원 스 닝 하여 미지 하는 가 많 사 하고 는 포맷 G4 압 식
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 2/20
는 TIFF G4 타 다.
G4 후 1993 에 Joint Bi-level Images Experts Group (JBIG)에 는 새 운 미지 JBIG1 하 나 G4 보다 압 갖고 에도 하고 G4 만 리 보
지는 못하 다. 2000 에는 G4 보다 약 3 - 4 도 압 JBIG2가 었다. AT&T 는 당시
에 JBIG2 에 근거하여 미지 압 포맷 개 하 는 것 DjVu JB2 다.
DjVu JB2 포맷 TIFF G4 미지 보다 약 3-5 도 압 갖고 다..
TIFF G4는 단순 미지 압 하는 포맷 뿐 지 그 상도 아니다. TIFF 포맷 안에 PDF 같 차 보여주는 책갈피 보 삽 하여 할 수 게 하는 능, 타 미지 안에 삽 하여 검색
시 하는 능, 원 본 내 검색할 수 도 스트 보 원 미지 같 할 수 는 능 등 지원하지 않 에 러한 능 해 는 별도 프 그 만들어 공해야 하는 들 갖고
다.
다 미지 포맷과는 다 게 여러 지 하나 에 들 할 수 는 Multi-TIFF 능 공하도 하지만 에 언 한 능들 한 프 그 에 는 러한 Multi-TIFF 능과 함께 할 수 없 에
별 없는 것 어 다.
TIFF는 포맷 식 어 에도 하고 스플 러 같 우 에 직 TIFF 볼 수없 에 별도 TIFF vi�w�r 하여 하여야 하는 TIFF vi�w�r 능도 어 지 않 에
스 하는 나 업체에 그 사 과 안 는 갖고 도 하다.
비항목
DjVu TIFFG4/JBIG1
비고
개 처
미 AT&T에 개
한 에 는 Celartem Korea에공 술지원
Joint Bi-levelImage ExpertsGroup에 재 한
미지 압 규약
JBIG1 압 는 public domain에 source 가 공개S/W
지원 압식
- 미지는JBIG2/JB2 압
- 실/ 실 압 식 지원
-컬러 미지는 IW44 압 사
- DjVu는 /컬러 지원
- 미지 만 JBIG1 식
- 실 식만 지원
객 JBIG2/JB2 식 JBIG1 보다 2 - 4 압 것 평가 고
압 - 미지 TIFF G4 식보다 20– 40% 수
- JBIG1 미지 TIFF G4 식보
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 3/20
–
-컬러 미지 JPEG 보다 1/10 –1/30
다 60 – 80% 수
- 컬러 미지 가
내검색 능
- DjVu 내에 OCR texthidden text XML 삽하여 viewer 내에 full text 검색
검색 결과 highlight 처리
- 검색엔진과 연동하여 page단 검색 가능
- 가능
티 지 지원
- 본 티 지 지원
- 차 삽 display 능
- Multi-TIFF 지원
- TIFF 포맷에는 차 처리 능 공하지 않
OCR 처리능
- DjVu는 OCR 엔진 본공
- 3rd party OCR 과 어플리
level 연동
타 보삽 능
DjVu 안에 타 보 삽 능
- 가능 DjVu 안에 hidden text-XML 타 보 삽 하고 하는 능
컬러 미지 압 지원
지원 포맷
시각 애
스508 지원
-시각 애 한 스 508
- 가능 - 508 IT 어플리 시각 애 들
해 든 는 스트나 내 에 해 3rd
pary screen reader(508 ) 통해 text-to-speech 할 수 게 하는 스
- DjVu 는 문 내에 OCR 처 스트 Office 문 에 스트들 Djvu문 내에 hidden text 존 (hidden text는 XML 또는 plain text export 할 수 ) - hidden text는 word 단 ( /한 과 같 white space 묶여 는 문 열 한것) 또는 char 단 ( / 본 같 띄 쓰 가 는 문 열 한 것) 문 치정보 갖고 . - DjVu 시 에 해 word 단 할 것 니 char 단 할 것 결정 해 함. - Djvu문 는 본적 hidden text들 DjVu active/x plug-in viewer에 하여 하 라
트 처 시가 니다. ( 한 항 래 내 참조) - DjVu 뷰 에 는 검 엔 과 같 검 능 제공하 는 , PDF Acrobatreader 에 같 뷰 내에 검 스트 단 매칭에 해 sequential 하게 찾 가는 태 동
8.2. Hidden tex t 조
- 원문 스트 sample: "스캔문 / 량 미 고 축/고 전 /보 술"
1). word-공 (nospace) 스트가 경 - DjVutoText 추출하 : "스캔문 / 량 미 고 축/고 전 /보술" 같 추출 (단 단 에 공 는 태) - DjVuToXml 추출하 : <LINE>
- DjVu plug-in 뷰 에 검 시 하 라 트: 뷰 는 "스캔문 / 량 미 고축/고 전 /보 술" hidden text에 해 pattern matching 검
= 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술 = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 " 축/고 전
/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 " 전" -> 하 라 트 "스캔문 / 량 미 고 축/고 전
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 17/20
/보 " = 키워드 " 고" -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 "
2). word-공 (space) 스트가 경 - DjVutoText 추출 하 : 원문 스트 동 "스캔문 / 량 미 고 축/고 전 /보 술" (단 에 공 ) - DjVuToXML 추출 하 : 1) XML 과 동 - DjVu plug-in 뷰 에 검 시 하 라 트 = 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 "보 " -> 결과 = 키워드 " 전" -> 결과 = 키워드 " 고" -> 결과 3). char-공 (nospace) 스트가 경 - DjVutoText 추출하 : "스캔문 / 량 미 고 축/고 전 /보 술"
- DjVu plug-in 뷰 에 검 시 하 라 트: 뷰 는 "스캔문 / 량 미 고축/고 전 /보 술" hidden text에 해 pattern matching 검
= 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술 = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 " 축/고 전
/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 술" = 키워드 " 전" -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 " = 키워드 " 고" -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 " 4). char-공 (space) 스트가 경 - DjVutoText 추출하 : "스캔문 / 량 미 고 축/고 전 /보
술" (단 에 공 ) - DjVuToXml 추출하 : 3) 과 동
- DjVu plug-in 뷰 에 검 시 하 라 트: = 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 술 = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 술" = 키워드 "보 " -> 결과 = 키워드 " 전" -> 결과 = 키워드 " 고" -> 결과
8.3 DjVu Active/X plug-in 뷰 에 하 라 트 처
- DjVu viewer active/x componet 는 내 method 래 같 함수 제공합니다. = HighlightTerm(exp, bMatchCase, bMatchWord, bAllMatches, color) :
exp 문 열 식에 매칭 는 첫 째 또는 든 스트 정 컬러 하 라 트 시킵니다. = (VB6, JScript) myDjVu.HighlightTerm(" 축", 0, 0, 1, 0x0000FF); /* VB나 JScript 에 뷰 함수 출 하 해당 는 에 ' 축' 스트 치하는 든 스트는 color(0x0000FF) 하 라 트 - 하 라 트 처 는 태는 에 한 Hidden text 조에 해 결정
9. Ajax DjVu 뷰
DjVu는 실시간(on-the-fly) 원하는 크 미 추출하는 능 갖고 다.DjVu Streaming Server(DPSS)는 웹 http 프 에 해 DjVu문 원하는크 미 추출하는 능 제공한다.
DjVu Ajax 뷰 는 DPSS 연계하여 Fixed 태 Resizable 태 뷰
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 19/20
가능하다
- 한 Fixed Windows demo : (* 래 는 한 신문 나 든 저 해당 신문 에 *) http://demo.djvutech.com/ajax_viewer/DjVuTech-AJAXViewer/examples/oneimage2.html - 티 문 - Resizable Window demo (* PPT DjVu 1/10크 축한문 *) http://demo.djvutech.com/ajax_viewer/DjVuTech-AJAXViewer/examples/spiderman.html
10. 평가 S/W 다운 드
스캔 문 들 DjVu 축 해 보고 OCR (한 / / / 포함 수십개 원) 처 접 체험 하 래 트에 접 가 S/W 다 드 수
다. 가 30 간 또는 500 만 생 할 수 는 full 능 제공하고 다
- http://www.djvutech.com/download/01.asp
11. 한 트
에 DjVu 주 특징 들 능들 실제 체험할 수 는 트.
- http://demo.djvutech.com
쓰 그 해 주 .
러시 첨단 술 전러시 공동 술 원 학
02-769-6707www.sbc.or.kr
축 다 공개 료실, 틸, 축, 드라 , 프 웨 ,쉐 웨 등 료 제공.www.goodfile.net