I-scan at OCR

Magandang hapon

Marahil ang bawat isa sa atin ay nahaharap sa gawain kung kailangan mong isalin ang isang papel na dokumento sa elektronikong anyo. Ito ay kinakailangan lalo na para sa mga nag-aaral, nagtatrabaho sa dokumentasyon, isalin ang mga teksto gamit ang electronic dictionaries, atbp.

Sa artikulong ito nais kong ibahagi ang ilan sa mga pangunahing kaalaman sa prosesong ito. Sa pangkalahatan, ang pag-scan at pagkilala sa teksto ay lubos na nakakalipas ng oras, dahil ang karamihan sa mga operasyon ay kailangang gawin nang manu-mano. Susubukan naming malaman kung ano, paano at bakit.

Hindi agad nauunawaan ng lahat ang isang bagay. Pagkatapos ng pag-scan (umaangkop sa lahat ng mga sheet sa scanner) magkakaroon ka ng mga larawan ng format na BMP, JPG, PNG, GIF (maaaring mayroong iba pang mga format). Kaya mula sa larawang ito kailangan mong makuha ang teksto - ang pamamaraang ito ay tinatawag na pagkilala. Sa ganitong pagkakasunud-sunod, at ihaharap sa ibaba.

Ang nilalaman

  • 1. Ano ang kailangan para sa pag-scan at pagkilala?
  • 2. Mga pagpipilian sa pag-scan ng teksto
  • 3. Pagkilala sa teksto ng dokumento
    • 3.1 Teksto
    • 3.2 Mga Larawan
    • 3.3 Tables
    • 3.4 Hindi kailangang mga Item
  • 4. Pagkilala sa mga file na PDF / DJVU
  • 5. Pag-check ng error at pag-save ng mga resulta ng trabaho

1. Ano ang kailangan para sa pag-scan at pagkilala?

1) Scanner

Upang i-translate ang mga naka-print na dokumento sa form ng teksto, kailangan mo muna ng isang scanner at, nang naaayon, mga programang "katutubong" at mga driver na kasama nito. Sa kanila maaari mong i-scan ang dokumento at i-save ito para sa karagdagang pagproseso.

Maaari mong gamitin ang iba pang mga analogs, ngunit ang software na dumating sa scanner sa kit ay karaniwang gumagana nang mas mabilis at may higit pang mga pagpipilian.

Depende sa kung anong uri ng scanner ang mayroon ka - ang bilis ng trabaho ay maaaring mag-iba nang malaki. May mga scanner na makakakuha ng isang larawan mula sa isang sheet sa loob ng 10 segundo, may mga makakakuha nito sa loob ng 30 segundo. Kung i-scan mo ang isang libro sa 200-300 na mga sheet - sa palagay ko ay hindi mahirap na kalkulahin kung ilang beses magkakaroon ng pagkakaiba sa oras?

2) Programa para sa pagkilala

Sa aming artikulo, ipapakita ko sa iyo ang gawain sa isa sa mga pinakamahusay na programa para sa pag-scan at pagkilala ng ganap na anumang mga dokumento - ABBYY FineReader. Mula noon ang programa ay binabayaran, at pagkatapos ay agad ako ay magbibigay ng isang link sa isa pa - ang libreng analogue ng Cunei Form. Totoo, hindi ko ihambing ang mga ito, dahil sa ang katunayan na ang FineReader ay nanalo sa lahat ng aspeto, inirerekumenda ko na subukan ang lahat ng pareho.

ABBYY FineReader 11

Opisyal na site: //www.abbyy.ru/

Isa sa mga pinakamahusay na programa ng uri nito. Ito ay dinisenyo upang makilala ang teksto sa larawan. Nagtayo ng maraming mga pagpipilian at tampok. Maaari itong mai-parse ng isang grupo ng mga font, kahit na sinusuportahan ng mga bersyon ng sulat-kamay (bagaman hindi ko personal na sinubukan ito, sa tingin ko ito ay mabuti sa halos hindi makilala ang sulat-kamay na bersyon, maliban kung mayroon kang isang perpektong calligraphic na sulat-kamay). Higit pang impormasyon tungkol sa pakikipagtulungan sa kanya ay tatalakayin sa ibaba. Din namin tandaan dito na ang artikulo ay sumasakop sa trabaho sa 11 mga bersyon ng programa.

Bilang isang panuntunan, iba't ibang mga bersyon ng ABBYY FineReader ay hindi naiiba sa bawat isa. Maaari mong madaling gawin ang parehong sa iba pang. Ang mga pangunahing pagkakaiba ay maaaring nasa kaginhawahan, bilis ng programa at mga kakayahan nito. Halimbawa, ang mga naunang bersyon ay tumanggi na magbukas ng isang PDF na dokumento at DJVU ...

3) Mga dokumento upang i-scan

Oo, kaya narito, nagpasya akong kunin ang mga dokumento sa isang hiwalay na haligi. Sa karamihan ng mga kaso, i-scan ang anumang mga aklat-aralin, pahayagan, artikulo, magasin, atbp ang mga aklat na iyon at ang literatura na hinihiling. Ano ang humahantong sa akin? Mula sa personal na karanasan, maaari kong sabihin na magkano ang gusto mong i-scan - maaaring nasa net! Ilang ulit ako personal na nagtitipid ng oras kapag nakakita ako ng isang libro o isa pa na na-scan sa network. Kailangan ko lang kopyahin ang teksto sa dokumento at magpatuloy dito.

Mula sa simpleng payo na ito - bago mo i-scan ang isang bagay, suriin kung may naka-scan na ito at hindi mo kailangang mag-aaksaya ng iyong oras.

2. Mga pagpipilian sa pag-scan ng teksto

Dito, hindi ko pag-usapan ang tungkol sa iyong mga driver para sa scanner, ang mga program na kasama nito, sapagkat ang lahat ng mga modelo ng scanner ay naiiba, ang software ay magkakaiba din sa lahat ng dako at hulaan at mas malinaw na nagpapakita kung paano gumanap ang operasyon ay hindi makatotohanang.

Ngunit ang lahat ng mga scanner ay may parehong mga setting na maaaring makaapekto sa bilis at kalidad ng iyong trabaho. Narito ang tungkol sa mga ito ay makikipag-usap lang ako dito. Ilista ako sa pagkakasunud-sunod.

1) I-scan ang kalidad - DPI

Una, itakda ang kalidad ng pag-scan sa mga pagpipilian na hindi mas mababa kaysa sa 300 DPI. Mahalagang maglagay pa ng kaunti, kung maaari. Ang mas mataas na tagapagpahiwatig ng DPI ay, mas malinaw ang iyong larawan, at sa gayon, ang karagdagang pagpoproseso ay magaganap nang mas mabilis. Bilang karagdagan, mas mataas ang kalidad ng pag-scan - mas mababa ang pagkakamali na dapat mong itama sa ibang pagkakataon.

Ang pinakamahusay na pagpipilian ay nagbibigay, karaniwang 300-400 DPI.

2) chromaticity

Mahalaga ang parameter na ito sa oras ng pag-scan (sa pamamagitan ng paraan, ang DPI ay nakakaapekto rin, ngunit napakalakas nito, at tanging kapag ang gumagamit ay nagtatakda ng mga mahahalagang halaga).

Karaniwan mayroong tatlong mga mode:

- itim at puti (perpekto para sa plain text);

- Grey (angkop para sa teksto na may mga talahanayan at mga larawan);

- Kulay (para sa mga magasin ng kulay, mga libro, sa pangkalahatan, mga dokumento, kung saan mahalaga ang kulay).

Kadalasan ang oras ng pag-scan ay depende sa pagpili ng kulay. Matapos ang lahat, kung mayroon kang isang malaking dokumento, kahit na ang sobrang 5-10 segundo sa pahina nang buo ay magreresulta sa isang disenteng oras ...

3) Mga larawan

Maaari mong makuha ang dokumento hindi lamang sa pamamagitan ng pag-scan, kundi pati na rin sa pamamagitan ng pagkuha ng isang larawan nito. Bilang isang patakaran, sa kasong ito magkakaroon ka ng ilang iba pang mga problema: pagbaluktot ng imahe, pag-blur. Dahil dito, maaari itong mangailangan ng mas maraming pag-edit at pagproseso ng natanggap na teksto. Personal, hindi ko inirerekomenda ang paggamit ng mga camera para sa negosyong ito.

Mahalagang tandaan na hindi lahat ng naturang dokumento ay makilala, dahil i-scan ang kalidad na maaaring siya ay lubhang mababa ...

3. Pagkilala sa teksto ng dokumento

Ipinapalagay namin na ang mga itinuring na mga pahina na na-scan na natanggap mo. Kadalasan ang mga ito ay mga format: tif, bmb, jpg, png. Sa pangkalahatan, para sa ABBYY FineReader - ito ay hindi napakahalaga ...

Matapos buksan ang larawan sa ABBYY FineReader, ang programa, bilang isang patakaran, sa makina ay nagsisimula upang piliin ang mga lugar at kilalanin ang mga ito. Ngunit kung minsan ginagawa niya itong mali. Para sa mga ito isaalang-alang namin ang pagpili ng mga nais na lugar nang manu-mano.

Mahalaga! Hindi agad na nauunawaan ng lahat na pagkatapos ng pagbubukas ng isang dokumento sa programa, ang dokumento ng pinagmulan ay ipinapakita sa kaliwa sa bintana, kung saan mo i-highlight ang iba't ibang mga lugar. Pagkatapos ng pag-click sa pindutan ng "pagkilala", ang programa sa window sa kanan ay magdadala sa iyo ng natapos na teksto. Pagkatapos ng pagkilala, sa pamamagitan ng paraan, ito ay marapat na suriin ang teksto para sa mga error sa parehong FineReader.

3.1 Teksto

Ang lugar na ito ay ginagamit upang i-highlight ang teksto. Ang mga larawan at mga talahanayan ay dapat na hindi kasama dito. Ang mga bihirang at hindi pangkaraniwang mga font ay kailangang maipasok nang mano-mano ...

Upang pumili ng isang lugar ng teksto, bigyang-pansin ang panel sa tuktok ng FineReader. May isang pindutan na "T" (tingnan ang. Ang screenshot sa ibaba, ang pointer ng mouse ay nasa pindutang ito lamang). Mag-click dito, pagkatapos ay sa larawan sa ibaba piliin ang maayos na hugis-parihaba na lugar kung saan matatagpuan ang teksto. Sa pamamagitan ng paraan, sa ilang mga kaso kailangan mong lumikha ng mga bloke ng teksto ng 2-3, at kung minsan 10-12 bawat pahina, dahil Maaaring magkaiba ang pag-format ng text at huwag piliin ang buong lugar na may isang rektanggulo.

Mahalagang tandaan na ang mga imahe ay hindi dapat mahulog sa lugar ng teksto! Sa hinaharap, i-save ka nito ng maraming oras ...

3.2 Mga Larawan

Ginamit upang i-highlight ang mga imahe at mga lugar na mahirap makilala dahil sa hindi magandang kalidad o hindi pangkaraniwang font.

Sa screenshot sa ibaba, ang pointer ng mouse ay matatagpuan sa pindutan na ginamit upang piliin ang "larawan" na lugar. Sa pamamagitan ng paraan, ganap na anumang bahagi ng pahina ang maaaring mapili sa lugar na ito, at pagkatapos ay isingit ito ng FineReader sa dokumento bilang isang normal na imahe. Ibig sabihin lamang "bobo" ay kopyahin ...

Kadalasan, ang lugar na ito ay ginagamit upang i-highlight ang mga mahina scan na mga talahanayan, upang i-highlight ang hindi karaniwang teksto at font, ang mga larawan mismo.

3.3 Tables

Ipinapakita ng screenshot sa ibaba ang pindutan upang i-highlight ang mga talahanayan. Sa pangkalahatan, personal kong ginagamit ito napakababa. Ang katotohanan ay na kailangan mong lubos na gumuhit (talaga) bawat linya sa talahanayan at ipakita kung ano at kung paano ang programa. Kung maliit ang talahanayan at hindi masyadong magandang kalidad, inirerekomenda ko ang paggamit ng "larawan" na lugar para sa mga layuning ito. Sa gayon nagse-save ng maraming oras, at pagkatapos ay maaari mong mabilis na gumawa ng isang talahanayan sa Salita batay sa isang larawan.

3.4 Hindi kailangang mga Item

Mahalagang tandaan. Minsan may mga hindi kinakailangang elemento sa pahina na nagpapahirap sa pagkilala sa teksto, o hindi pinipili mong piliin ang nais na lugar sa lahat. Maaari silang alisin gamit ang "pambura" sa lahat.

Upang gawin ito, pumunta sa mode ng pag-edit ng imahe.

Piliin ang tool ng pambura at piliin ang hindi ginustong lugar. Ito ay mabubura at sa lugar nito ay magiging isang puting papel.

Sa pamamagitan ng paraan, inirerekomenda ko ang paggamit ng pagpipiliang ito sa iyo nang madalas hangga't maaari. Subukan ang lahat ng mga lugar ng teksto na iyong pinili, kung saan hindi mo kailangan ang isang piraso ng teksto, o mayroong anumang hindi kailangang mga punto, blurriness, distortions - tanggalin ng isang pambura. Dahil sa pagkilala na ito ay magiging mas mabilis!

4. Pagkilala sa mga file na PDF / DJVU

Sa pangkalahatan, ang pagkilala sa format na ito ay hindi naiiba mula sa iba - i.e. Maaari kang magtrabaho kasama ito tulad ng mga larawan. Ang tanging bagay na programa ay hindi dapat maging masyadong lumang bersyon, kung hindi mo buksan ang PDF / DJVU file - i-update ang bersyon sa 11.

Isang maliit na payo. Matapos buksan ang dokumento sa FineReader - awtomatiko itong magsimulang makilala ang dokumento. Kadalasan sa mga file na PDF / DJVU, hindi kinakailangan ang isang partikular na lugar ng pahina sa buong dokumento! Upang alisin ang naturang lugar sa lahat ng mga pahina, gawin ang mga sumusunod:

1. Pumunta sa seksyon ng pag-edit ng imahe.

2. Paganahin ang opsyon na "pagbabawas".

3. Piliin ang lugar na kailangan mo sa lahat ng mga pahina.

4. I-click ang nalalapat sa lahat ng mga pahina at pumantay.

5. Pag-check ng error at pag-save ng mga resulta ng trabaho

Tila na may mga problema pa rin kung kailan pinili ang lahat ng mga lugar, pagkatapos ay kinikilala - dalhin ito at i-save ito ... Hindi ito naroroon!

Una, kailangan nating suriin ang dokumento!

Upang paganahin ito, pagkatapos ng pagkilala, sa window sa kanan, magkakaroon ng "check" button, tingnan ang screenshot sa ibaba. Matapos itong i-click, ang programa ng FineReader ay awtomatikong ipapakita sa iyo ang mga lugar na kung saan ang programa ay may mga pagkakamali at hindi ito mapagkakatiwalaan na matukoy ang isa o isa pang simbolo. Kailangang pumili ka lamang, o sumasang-ayon ka sa opinyon ng programa, o ipasok ang iyong karakter.

Sa pamamagitan ng paraan, sa kalahati ng mga kaso, humigit-kumulang, ang programa ay mag-aalok sa iyo ng isang yari na tamang salita - kailangan mo lamang gamitin ang mouse upang piliin ang opsyon na gusto mo.

Pangalawa, pagkatapos ng pag-check kailangan mong piliin ang format kung saan mo i-save ang resulta ng iyong trabaho.

Narito ang FineReader sa iyo ng isang turn sa ganap na: maaari mo lamang ilipat ang impormasyon sa Word isa-sa-isa, at maaari mong i-save ito sa isa sa mga dose-dosenang mga format. Ngunit nais kong i-highlight ang isa pang mahalagang aspeto. Alinmang format ang pipiliin mo, mas mahalaga na piliin ang uri ng kopya! Isaalang-alang ang mga pinaka-kagiliw-giliw na pagpipilian ...

Eksaktong kopya

Ang lahat ng mga lugar na napili mo sa pahina sa nakilala na dokumento ay tugma nang eksakto sa source document. Ang isang maginhawang opsyon kapag mahalaga para sa iyo na huwag mawala ang pag-format ng teksto. Sa pamamagitan ng ang paraan, ang mga font ay magiging katulad din sa orihinal. Inirerekomenda ko ang pagpipiliang ito upang ilipat ang dokumento sa Word, upang magpatuloy sa karagdagang trabaho doon.

Nae-edit na kopya

Ang pagpipiliang ito ay mabuti dahil nakakuha ka ng naka-format na bersyon ng teksto. Ibig sabihin Indentation ng "kilometro", na maaaring sa orihinal na dokumento - hindi mo matugunan. Kapaki-pakinabang na pagpipilian kapag ikaw ay makabuluhang i-edit ang impormasyon.

Totoo, hindi mo dapat piliin kung mahalaga para sa iyo na mapanatili ang estilo ng disenyo, mga font, mga indent. Minsan, kung ang pagkilala ay hindi masyadong matagumpay - ang iyong dokumento ay maaaring "hilig" dahil sa nabagong pag-format. Sa kasong ito, maipapayo na pumili ng eksaktong kopya.

Plain text

Isang pagpipilian para sa mga nangangailangan lamang ng teksto mula sa pahina nang hindi lahat ng iba pa. Angkop para sa mga dokumento na walang mga larawan at mga talahanayan.

Tinatapos nito ang artikulo sa pag-scan at pagkilala ng dokumento. Umaasa ako na sa tulong ng mga simpleng tip na maaari mong malutas ang iyong mga problema ...

Good luck!

Panoorin ang video: OCR Indexing for Document Scanning (Abril 2024).