Сканердсан эхээс монгол үг, үсэг таниулах
Хэвлэмэл материалаас сканердсан эсвэл зураг хэлбэртэй байгаа эхээс монгол, англи зэрэг хэл дээрх үг, үсэг таниулах хялбар бөгөөд үнэ өртөггүй арга
Ном, сэтгүүл болон цаасан дээр хэвлэсэн текстийг ахин шивэлгүйгээр компьютерт оруулах үед хүмүүс ABBYY FineReader програмыг санадаг эсвэл мэддэг хэн нэг нь бусаддаа санал болгодог. Гэвч тус програм чамгүй (200 орчим евро) үнэтэй. Иймд хялбар бөгөөд үнэгүй хэрэглэж болох програм танилцуулъя. Энэ бол tesseract юм. Зааврыг хүмүүсийн өргөн хэрэглэдэг Ubuntu зэрэг Debian суурьтай Linux тархацуудын хувьд бичлээ.
tesseract програмд монгол хэл суулгах
Тус програмд суулгасан хэлний жагсаалтыг дараах тушаалаар харж болно.
tesseract --list-langs
Харин монгол хэл нэмж суулгахдаа дараах тушаал өгнө.
sudo apt-get install tesseract-ocr-mon
Суулгах боломжтой бусад хэлний жагсаалтыг энд дарахад нээгдэх хуудаснаас олж үзэх боломжтой.
tesseract програмыг хэрэглэх буюу дуудаж ажиллуулах байдал
Ердийн текст
tesseract ocr_input.png ocr_output -l mon+eng
Дээрх тушаалаар ocr_test_input.png зураг дээрх монгол болон англи үг, үсгийг ялган таньж улмаар ocr_test_output текст файлд хадгална. Бас энд mon+eng
болон eng+mon
хоёр ялгаатай буюу эхний хэлийг илүү чухалчлахыг анхаарна уу.
Хүснэгт
Хүснэгт таниулах бол тушаалдаа tsv
гэсэн аргумент нэмнэ.
tesseract ocr_input.png ocr_output -l mon+eng tsv
Текст давхарга бүхий PDF файл үүсгэх
Зургийн хувьд гарах үр дүнг текст давхарга бүхий PDF файл байдлаар хадгалж авах бол дараах хэлбэртэй тушаал өгнө.
tesseract ocr_input.png ocr_output -l eng pdf
Ийм PDF файлын хувьд харагдах байдал зураг боловч текст давхаргад нь тулгуурлан мэдээлэл хайх боломжтой юм.
Харин PDF файлд ийм давхарга нэмэх бол ocrmypdf гэдэг өөр програм хавсарч ашиглана.
ocrmypdf book.pdf book_ocr.pdf -l mon+eng