Ena od stvari, ki me pogosto moti, je nezmožnost, da bi besedilo enostavno kopirali iz slik in nekaterih datotek PDF (npr. Tistih, ki so morda nastali iz skeniranih dokumentov). Na srečo so bile sčasoma razvite programske rešitve za reševanje te težave, ki omogočajo znatne prihranke časa, ki bi jih sicer porabili ročno za kopiranje in ponovno vnašanje besedila. V današnjem nasvetu bom govoril o brezplačnem programskem orodju z imenom Capture2Text, ki uporablja algoritem za optično prepoznavanje znakov (OCR), ki vam bo omogočil zajem besedila iz slikovnih in PDF datotek.
Namestitev in nastavitev
Za začetek pojdite na stran SourceForge projekta in prenesite najnovejšo različico Capture2Text. Programska oprema je kot arhiv zip in takrat ne vključuje namenskega namestitvenega programa. Ko ga naložite, razpakirajte arhiv in zaženite datoteko Capture2Text.exe. To bo zagnalo programsko opremo in v sistemsko vrstico odložilo ikono:
Najprej morate nastaviti nastavitve programske opreme, zlasti katere vroče tipke (ali bližnjice) uporabiti za zagon in zaustavitev zajema:
V mojem primeru sem se odločil, da za začetek zajema uporabim tipke “Windows + q”, za zaustavitev pa tipko “Enter”. Te možnosti lahko prilagodite tistemu, kar vam najbolj ustreza. Upoštevajte, da se tipka »Windows + s« pogosto uporablja za zajem zaslona (npr. Pri programih, kot je Microsoft One Note).
Na naslednjem zavihku je možno konfigurirati možnosti OCR, vključno z vhodnim jezikom (trenutno je podprtih sedem jezikov) in ali je treba za izboljšanje natančnosti uporabiti OCR predhodno obdelavo (zelo priporočljivo). Na koncu lahko na zavihku Izhod med drugimi možnostmi izberete, ali želite samo shraniti zajeto besedilo v odložišče ali zagnati ločeno pojavno okno.
Uporaba programske opreme
Ko je programska oprema nameščena in konfigurirana, jo lahko začnete uporabljati prek kombinacije hitrih tipk za zajem. Z miško izberite območje na sliki, ki vključuje besedilo, ki ga želite zajeti. Če želite ustaviti zajem, samo pritisnite tipko za vroč izbran, da zaustavite zajem. Besedilo bo nato kopirano v odložišče, izhodno pojavno okno ali oboje. Primer si lahko ogledate spodaj.
Iz hitrega testiranja orodja s slikami sem ugotovil, da je njegova natančnost spodobna. Očitno obstajajo omejitve orodij, kot sta ta in OCR na splošno. Na primer, močno spremenjeno besedilo (zelo kratko, poševno ali moderno) morda ne deluje dobro, včasih pa sploh ne. V nekaterih primerih bo pomagal nekoliko prilagoditi dimenzije polja za zajem ali se igrati z zoomom same slike, da bi dobili natančnejši rezultat.
Pri zajemanju besedila iz skeniranih dokumentov PDF je natančnost v redu, na posnetem izhodu pa je običajno še vedno potrebnih nekaj končnih sprememb (odvisno od kakovosti začetnega skeniranja). Prav tako sem opazil, da lahko obdelava programske opreme traja nekaj sekund dlje, še posebej, če zahteva pretvorbo velikih količin besedila.
Glede na vse, mislim, da na splošno orodje dobro deluje, še posebej, ker je prosto dostopno - spodbujam vas, da ga preizkusite.
Dodatek 16.11.2015:
Za tiste, ki imajo Googlove račune, je možna tudi uporaba Googlovih zmožnosti OCR z nalaganjem datoteke v Google Drive (več podrobnosti najdete tukaj). Poleg tega je na voljo tudi vtičnik OCR za uporabnike Google Chrome z imenom Copyfish, ki ga boste morda želeli preveriti.
