Сканердсан эхээс монгол үг, үсэг таниулах

Ном, сэтгүүл болон цаасан дээр хэвлэсэн текстийг ахин шивэлгүйгээр компьютерт оруулах үед хүмүүс ABBYY FineReader програмыг санадаг эсвэл мэддэг хэн нэг нь бусаддаа санал болгодог. Гэвч тус програм чамгүй (200 орчим евро) үнэтэй. Иймд хялбар бөгөөд үнэгүй хэрэглэж болох програм танилцуулъя. Энэ бол tesseract юм. Зааврыг хүмүүсийн өргөн хэрэглэдэг Ubuntu зэрэг Debian суурьтай Linux тархацуудын хувьд бичлээ.

tesseract програмд монгол хэл суулгах

Тус програмд суулгасан хэлний жагсаалтыг дараах тушаалаар харж болно.

tesseract --list-langs

Харин монгол хэл нэмж суулгахдаа дараах тушаал өгнө.

sudo apt-get install tesseract-ocr-mon

Суулгах боломжтой бусад хэлний жагсаалтыг энд дарахад нээгдэх хуудаснаас олж үзэх боломжтой.

tesseract програмыг хэрэглэх буюу дуудаж ажиллуулах байдал

Ердийн текст

tesseract ocr_input.png ocr_output -l mon+eng

Дээрх тушаалаар ocr_test_input.png зураг дээрх монгол болон англи үг, үсгийг ялган таньж улмаар ocr_test_output текст файлд хадгална. Бас энд mon+eng болон eng+mon хоёр ялгаатай буюу эхний хэлийг илүү чухалчлахыг анхаарна уу.

Хүснэгт

Хүснэгт таниулах бол тушаалдаа tsv гэсэн аргумент нэмнэ.

tesseract ocr_input.png ocr_output -l mon+eng tsv

Текст давхарга бүхий PDF файл үүсгэх

Зургийн хувьд гарах үр дүнг текст давхарга бүхий PDF файл байдлаар хадгалж авах бол дараах хэлбэртэй тушаал өгнө.

tesseract ocr_input.png ocr_output -l eng pdf

Ийм PDF файлын хувьд харагдах байдал зураг боловч текст давхаргад нь тулгуурлан мэдээлэл хайх боломжтой юм.

Харин PDF файлд ийм давхарга нэмэх бол ocrmypdf гэдэг өөр програм хавсарч ашиглана.

ocrmypdf -l mon+eng --output-type pdf --optimize 0 book.pdf book_ocr.pdf

Энд буй --output-type pdf --optimize 0 параметрүүд нь зурган PDF файл дахь зургийг ахин боловсруулж чанарыг нь алдагдуулахаас сэргийлнэ.