Szövegfelismerés. A FineReaderhez hasonló ingyenes program

Előző

1 Word dokumentum.

Ehhez szkennerre és speciális szövegfelismerő programra van szükség. Ez a cikk az ingyenes FineReader analógot tárgyalja – CuneiForm(a FineReader felismeréséről – lásd ezt a cikket).

Kezdjük...

finereaderhez
Ékforma

Letöltheti a fejlesztő webhelyéről: http://cognitiveforms.com/

Nyílt forráskódú szövegfelismerő program. Ezenkívül a Windows összes verziójában működik: XP, Vista, 7, 8, ami tetszik. Plusz, add hozzá a program teljes orosz fordítását!

Előnyök:

– szövegfelismerés a világ 20 legnépszerűbb nyelvén (ebben a számban az angol és az orosz is szerepel);

– hatalmas támogatás a különféle betűtípusokhoz;

– a felismert szövegszótár ellenőrzése;

- a munkaeredmények több változatban történő mentésének lehetősége;

- a dokumentum szerkezetének megőrzése;

– az asztalok kiváló támogatása és felismerése.

Hátrányok:

– nem támogatja a túl nagy (400 dpi feletti) dokumentumokat és fájlokat;

- nem támogat közvetlenül bizonyos típusú szkennereket (jó, ez nem ijesztő, a szkenner-illesztőprogramokhoz egy speciális szkennerprogram is tartozik);

– nem csillog a dizájn (de kinek kell, ha a program maradéktalanul megoldja a feladatot).

2. Példa szövegfelismerésre

Feltételezzük, hogy a felismeréshez szükséges képeket már megkaptad (ott beszkennelted, vagy letöltöttél egy könyvet az internetről pdf/djvu formátumban és beszerezted belőlük a szükséges képeket. Hogyan kell ezt megtenni, nézd meg ezt)cikkek).

1) Nyissa meg a kívánt képet a CuineForm programban (file/open vagy “Cntrl+O”).

2) A felismerés megkezdéséhez először ki kell választania a különböző területeket: szöveg, grafika, táblázatok stb. Az ékírásos programban ez nem csak manuálisan, hanem automatikusanis megtehető! Ehhez kattintson az ablak felső paneljén található "jelölés" gombra.

3) 10-15 másodperc múlva. a program automatikusan kiemeli az összes területet különböző színekkel. Például a szövegterület kék színnel van kiemelve. Mellesleg megfelelően és elég gyorsan megvilágította a területet. Őszintén szólva nem számítottam ilyen gyors és korrekt reakcióra tőle...

4) Aki nem bízik az automatikus jelölésben, használhatja a kézi jelölést is. Erre a célra van egy eszköztár (lásd az alábbi képet), aminek köszönhetően kiválasztható: szöveg, táblázatok, képek. Az eredeti kép mozgatása, nagyítása/kicsinyítése, a szélek levágása. Összességében jó készlet.

5) Az összes terület kijelölése után folytathatja a felismerést. Ehhez egyszerűen kattintson az azonos nevű gombra, mint az alábbi képen.

6) Szó szerint 10-20 másodperc után. egy felismert szöveggel rendelkező dokumentum nyílik meg a Microsoft Wordben. Ami érdekes, ennek a példának a szövegében természetesen voltak hibák, de nagyon kevés volt! Annál is inkább, ha figyelembe vesszük, hogy a forrásanyag – a kép – mennyire volt figyelemre méltó.

Sebességében és minőségében teljesen összevethető a FineReaderrel!

3. Kötegelt szövegfelismerés

A program ezen funkciója akkor lehet hasznos, ha nem egy, hanem egyszerre több képet kell felismernie. A csomagfelismerés indításának parancsikonja általában el van rejtve a "start" menüben.

1) A program megnyitása után létre kell hoznia egy újatcsomagot, vagy nyisson meg egy korábban elmentettet. Példánkban újat fogunk létrehozni.

2) A következő lépésben adunk neki egy nevet, lehetőleg olyat, hogy még hat hónap múlva is emlékezzünk rá, mi van benne.

3) Ezután válassza ki a dokumentum nyelvét (orosz-angol), jelezze, hogy vannak-e képek és táblázatok a beolvasott anyagban.

4) Most meg kell adnia azt a mappát, amelyben a felismeréshez szükséges fájlok találhatók. Egyébként érdekes módon maga a program megtalálja az összes képet és egyéb grafikus fájlt, amelyet felismer, és hozzáadja a projekthez. A feleslegeseket el kell távolítania.

5) A következő lépés nem fontos – a felismerés után te döntöd el, hogy mit kezdj a forrásfájlokkal. Azt javaslom, hogy jelölje be a "semmit ne csináljon" jelölőnégyzetet.

6) Már csak ki kell választani a formátumot, amelyben a felismert dokumentum mentésre kerül. Több lehetőség is van:

– rtf– Word fájl, amelyet minden népszerű iroda megnyit (beleértve az ingyeneseket is, a programokra mutató hivatkozásokat);

txt– szöveges formátum, csak szöveg menthető bele, képek és táblázatok nem megengedettek;

htm– hiperszöveges oldal, kényelmes, ha átvizsgálja és felismeri a webhely fájljait. Példánkban azt választjuk.

7) A "kész" gomb megnyomása után elindul a projekt feldolgozási folyamata.

A program elég gyorsan működik. A felismerés után megjelenik előtted egy fül a htm fájlokkal. Ha rákattint egy ilyen fájlra, elindul egy böngésző, ahol láthatja az eredményeket. A csomag egyébként elmenthető a további munkához.

9) Amint látja, a munka eredményenagyon lenyűgöző. A program könnyen felismerte a képet és az alatta lévő szöveget. Annak ellenére, hogy a program ingyenes, tényleg nagyszerű!

4.Következtetések

Ha nem gyakran olvas be és ismer fel dokumentumokat, akkor valószínűleg nincs értelme a FineReader program megvásárlásának. A CuneiForm könnyedén kezeli a legtöbb feladatot.

Másrészt hátrányai is vannak.

Először is, nagyon kevés eszköz áll rendelkezésre a kapott eredmény szerkesztéséhez és ellenőrzéséhez. Másodszor, ha sok képet kell felismernie a FineReaderben, kényelmesebb azonnal látni mindent, ami a projekthez hozzáadásra került a jobb oldali oszlopban: gyorsan törölje a felesleget, végezzen javításokat stb. Harmadszor pedig a már meglévő dokumentumokon. rossz minőség, a CuneiForm veszít a felismerés minőségében: eszünkbe kell juttatni a dokumentumot - szerkeszteni az ablakokat, írásjeleket, idézőjeleket tenni stb.

Ez minden. Tudsz más megfelelő szabad szövegfelismerő szoftvert?

Következő

Olvassa el tovabba: