Pagkilala sa teksto. Libreng programa - analogue FineReader

Sa madaling panahon, ang lahat ng mga madalas na nagtatrabaho sa mga programa sa opisina ay may isang tipikal na gawain - i-scan ang teksto mula sa isang libro, magasin, pahayagan, mga leaflet lamang, at pagkatapos isalin ang mga larawang ito sa format ng teksto, halimbawa, sa isang dokumento ng Word.

Upang gawin ito kailangan mo ng scanner at isang espesyal na programa para sa pagkilala ng teksto. Tatalakayin ng artikulong ito ang libreng analogue ng FineReader -Cuneiform (tungkol sa pagkilala sa FineReader - tingnan ang artikulong ito).

Magsimula tayo ...

Ang nilalaman

  • 1. Mga tampok ng programa ng CuneiForm, mga tampok
  • 2. Isang halimbawa ng pagkilala ng teksto
  • 3. Batch text recognition
  • 4. Mga konklusyon

1. Mga tampok ng programa ng CuneiForm, mga tampok

Cuneiform

Maaari kang mag-download mula sa site ng nag-develop: //cognitiveforms.com/

Isang open source text recognition software. Bilang karagdagan, ito ay gumagana sa lahat ng mga bersyon ng Windows: XP, Vista, 7, 8, na nakalulugod. Plus, idagdag ang buong pagsasalin ng Russian ng programa!

Mga Pros:

- Pagkilala ng teksto sa 20 pinakasikat na wika ng mundo (ang Ingles at Ruso mismo ay kasama sa numerong ito);

- Malaking suporta para sa iba't ibang mga naka-print na font;

- suriin ang kinikilalang teksto ng diksyunaryo;

- ang kakayahang i-save ang mga resulta ng trabaho sa maraming paraan;

- pagpapanatili ng istraktura ng dokumento;

- Mahusay na suporta at mga talahanayan ng pagkilala.

Kahinaan:

- Hindi sinusuportahan ang napakaraming mga dokumento at mga file (higit sa 400 dpi);

- Hindi sinusuportahan ang ilang uri ng mga scanner nang direkta (mabuti, hindi ito nakakatakot, ang isang espesyal na scanner ay kasama sa mga driver ng scanner);

- ang disenyo ay hindi lumiwanag (ngunit kung sino ang kailangan nito kung ang programa ay ganap na solves ang problema).

2. Isang halimbawa ng pagkilala ng teksto

Ipinapalagay namin na natanggap mo na ang mga kinakailangang larawan para sa pagkilala (i-scan doon, o i-download ang libro sa format na pdf / djvu sa Internet at nakuha ang mga kinakailangang larawan mula sa kanila. Paano ito gawin - tingnan ang artikulong ito).

1) Buksan ang kinakailangang imahe sa programa ng CuineForm (file / bukas o "Cntrl + O").

2) Upang simulan ang pagkilala - kailangan mo munang pumili ng iba't ibang mga lugar: teksto, mga larawan, mga talahanayan, atbp. Sa Cuneiform na programa, ito ay maaaring gawin hindi lamang mano-mano, kundi pati na rin awtomatikong! Upang gawin ito, mag-click sa pindutan ng "markup" sa tuktok na pane ng window.

3) Pagkatapos ng 10-15 segundo. ang programa ay awtomatikong i-highlight ang lahat ng mga lugar na may iba't ibang kulay. Halimbawa, ang isang lugar ng teksto ay naka-highlight sa asul. Sa pamamagitan ng paraan, siya ay naka-highlight sa lahat ng mga lugar tama at sa halip mabilis. Sa totoo lang, hindi ko inaasahan ang gayong mabilis at tamang sagot mula sa kanya ...

4) Para sa mga hindi nagtitiwala sa awtomatikong markup, maaari mong gamitin ang manwal na isa. Para dito mayroong isang toolbar (tingnan ang larawan sa ibaba), salamat sa kung saan maaari mong piliin ang: teksto, talahanayan, larawan. Ilipat, dagdagan / bawasan ang unang imahe, putulin ang mga gilid. Sa pangkalahatan, isang mahusay na hanay.

5) Pagkatapos ng lahat ng mga lugar ay minarkahan up, maaari mong magpatuloy sa pagkilala. Upang gawin ito, i-click lamang ang pindutan ng parehong pangalan, tulad ng sa imahe sa ibaba.

6) Literal sa 10-20 segundo. Makakakita ka ng isang dokumento sa Microsoft Word gamit ang kinikilalang teksto. Ano ang kawili-wili, sa teksto para sa halimbawang ito, siyempre may mga pagkakamali, ngunit napakakaunti sa kanila! Lalo na, isinasaalang-alang kung gaano malinaw ang orihinal na materyal - ang larawan.

Ang bilis at kalidad ay lubos na maihahambing sa FineReader!

3. Batch text recognition

Ang function na ito ng programa ay maaaring dumating sa madaling-gamiting kapag kailangan mo upang makilala hindi isang larawan, ngunit maraming nang sabay-sabay. Ang shortcut upang ilunsad ang batch recognition ay karaniwang nakatago sa start menu.

1) Matapos buksan ang programa, kailangan mong lumikha ng isang bagong pakete, o buksan ang isang na-save na isa. Sa aming halimbawa - lumikha ng bago.

2) Sa susunod na hakbang ay binibigyan namin ito ng isang pangalan, mas mabuti na ang anim na buwan mamaya matatandaan namin kung ano ang nakaimbak dito.

3) Susunod, piliin ang wika ng dokumento (Ruso-Ingles), ipahiwatig kung mayroong mga larawan at mga talahanayan sa iyong na-scan na materyal.

4) Ngayon kailangan mong tukuyin ang folder kung saan matatagpuan ang mga file para sa pagkilala. Sa pamamagitan ng paraan, kung ano ang kagiliw-giliw na ang programa mismo ay mahanap ang lahat ng mga larawan at iba pang mga graphic file na maaari itong makilala at idagdag ang mga ito sa proyekto. Kailangan mo ring alisin ang sobra.

5) Ang susunod na hakbang ay hindi mahalaga - piliin kung ano ang gagawin sa source file, pagkatapos ng pagkilala. Inirerekomenda kong piliin ang checkbox na "wala".

6) Ito ay nananatiling lamang upang piliin ang format kung saan ang nakikilalang dokumento ay isi-save. Mayroong ilang mga pagpipilian:

- rtf - Ang file mula sa salitang dokumento ay binuksan ng lahat ng mga tanyag na tanggapan (kabilang ang mga libreng, isang link sa mga programa);

- txt - Format ng teksto, maaari mong i-save lamang ang teksto, mga larawan at mga talahanayan dito;

- htm - Hypertext na pahina, maginhawa kung iyong i-scan at makilala ang mga file para sa site. Kanya at pumili sa aming halimbawa.

7) Pagkatapos ng pag-click sa pindutan ng "Tapusin", magsisimula ang pagproseso ng iyong proyekto.

8) Ang programa ay gumagana medyo mabilis. Pagkatapos ng pagkilala, makikita mo ang isang tab na may mga htm file. Kung nag-click ka sa gayong file, nagsisimula ang isang browser kung saan mo makikita ang mga resulta. Sa pamamagitan ng paraan, maaaring i-save ang package para sa karagdagang trabaho dito.

9) Tulad ng makikita mo ang mga resulta Napakaganda ng trabaho. Madaling nakilala ng programa ang larawan, at madaling nakilala ang teksto sa ilalim nito. Habang ang programa ay libre, ito ay karaniwang sobrang!

4. Mga konklusyon

Kung madalas mong hindi i-scan at makilala ang mga dokumento, pagkatapos ay ang pagbili ng FineReader marahil ay hindi makatwiran. Ang CuneiForm ay madaling pinangangasiwaan ang karamihan sa mga gawain.

Sa kabilang banda, mayroon din siyang disadvantages.

Una, napakakaunting mga tool para sa pag-edit at pag-check sa nagresultang resulta. Pangalawa, kapag kailangan mong makilala ang maraming mga larawan, pagkatapos ay sa FineReader ito ay mas maginhawa upang makita agad ang lahat ng idinagdag sa proyekto sa haligi sa kanan: mabilis na alisin ang mga hindi kinakailangang, gumawa ng mga pag-edit, atbp At ikatlo, sa mga dokumento ng ganap na masamang kalidad, CuneiForm loses recognition: kailangan mong dalhin ang isip sa dokumento - tama ang mga pagkakamali, ilagay ang mga bantas, mga panipi, atbp.

Iyon lang. Alam mo ba ang iba pang disenteng libreng text recognition software?

Panoorin ang video: New Focusky Presentation (Nobyembre 2024).