Jump to content

SUBIECTE NOI
« 1 / 5 »
RSS
Joc Drone

Sfat achizitie AC Gree Fairy vs P...

MONITOR LG fara sonor !

Batalia pentru Bucuresti - ND, Fi...
 Identificare font

Samsung Galaxy A35

Sfat pentru aprinderea automata a...

Masina de copt paine - pareri
 Cum reactivez Google Maps?

Conectare tableta X220la Tv

Femeile tinere nu mai vor sa munc...

La mulți ani @un_dac!
 La multi ani de Sfantul Gheorghe&...

Job - Facultate sau certificare

Deadpool & Wolverine (2023)

sistem hibrid eoliana + panouri +...
 

Cautare prin PDF scanat

- - - - -
  • Please log in to reply
29 replies to this topic

#19
f300

f300

    30k si ma duc

  • Grup: Senior Members
  • Posts: 30,000
  • Înscris: 27.09.2008

 _-_, on 27 martie 2017 - 14:35, said:

Daca la transformarea unor imagini cu texte scanate in pdf este utilizat un software care sa faca si OCR, atunci cautarea in pdf este posibila, chiar daca pdf-ul contine doar imaginile scanate

Daca a fost facut OCR la scanare pdf-ul contine pe linga imagini si textul recunoscut (bun, prost, cum e).

 XORIAN_L, on 27 martie 2017 - 14:44, said:

Lucru dificil, fiindca multifuctionala firmei le da la scanuri denumirea care o vrea ea, iau eu trebuie sa le caut dupa codul comenzii si numarul piesei. Prin urmare eu trebuie sa gasesc tocmai fisierul scanat si nu originala lui.

Nu inteleg ce vrei sa spui prin "originala lui", daca ai informatia text in PDF atunci gasesti exact fisierul care are respectiva informatie.

Deci trebuie sa iti pui textul in PDF, trecind toate fisierele pe care le ai printr-un program gen Adobe Acrobat sau Abby Finereader sau cum s-o chema. Fisierele rezultate o sa fie tot pdf-uri care o sa arate la fel, o sa poti sa le tiparesti, dar in acelasi timp o sa aibe in interior si textul (in masura in care a fost recunoscut corect), astfel incit o sa poti sa il selectezi (daca vrei copy/paste), sa cauti, etc. Acrobatul poate sa caute in "multe" fisiere in caz ca ai de cautat in toate fisierele dintr-un director.

Si in plus pe viitor poti sa te uiti dupa un sistem care face OCR automat cind scaneaza documentele.

Edited by f300, 27 March 2017 - 14:46.


#20
XORIAN_L

XORIAN_L

    Senior Member

  • Grup: Senior Members
  • Posts: 7,201
  • Înscris: 01.10.2009
Dar eu nu caut informatia ci fisierul scanat care contine informatia. Deci la un control gestionara trebuie sa gaseaca rapid bonul de consum cu semnaturile pe el. Cum fac?

#21
f300

f300

    30k si ma duc

  • Grup: Senior Members
  • Posts: 30,000
  • Înscris: 27.09.2008
Evident ca o sa gasesti fisierul, de exemplu ca aici:

[ https://www.youtube-nocookie.com/embed/qmmQPemx05E?feature=oembed - Pentru incarcare in pagina (embed) Click aici ]

Punctul important e pentru ca sa gasesti "fisierul scanat care contine informatia" trebuie ca fisierele tale sa contina informatia (doh...). Aici intervine OCR-ul, pe care trebuie sa il faci inainte, fie la toate fisierele pe care le ai si dupa aia periodic pe masura ce acumulezi fisiere, fie sa le scanezi cu un program care face OCR automat, etc.

#22
159

159

    Senior Member

  • Grup: Senior Members
  • Posts: 2,609
  • Înscris: 22.05.2016

 XORIAN_L, on 27 martie 2017 - 14:44, said:

Asa ca imi trebuie un sistem electronic in care bunurile sa fie scanate la sfarsitul zilei de lucru.

Le scanezi ca text, nu ca poze.

#23
eiffel

eiffel

    BusyWorm

  • Grup: Moderators
  • Posts: 68,560
  • Înscris: 15.06.2004

 XORIAN_L, on 27 martie 2017 - 14:58, said:

Dar eu nu caut informatia ci fisierul scanat care contine informatia. Deci la un control gestionara trebuie sa gaseaca rapid bonul de consum cu semnaturile pe el. Cum fac?

Da, dar informatia aia nu e intr-un format care sa poata fi citit/indexat.

Un PDF poaate fi facut in mai multe feluri - Prin "printare" dintr-un document tip text sau excel sau mai stiu eu ce - caz in care acel PDf contine textul respectiv - il poti si selecta in Reader, sau prin scanare in POZA - care poate fi sau nu inclusa intr-un PDF. In cazul scanarilor automate intotdeauna acel PDF e doar pe post de container al unei poze. Nu contien fisier text deci nu poate fi indexat.
Daca ai scana de pe un calculator in fisier poza, iar acea poza ar fi incarcata intr-un soft OCR - care sa citeasca cuvintele din poza si sa le transforme in text, acel text ar putea fi indexat.

In cazul tau particular, cea mai buna solutie ar fi ca la sfarsitul zilei sa indexezi cumva acele poze - cu data macar si sa le cauti manual dupa data, astfel incat sa le gasesti tu, manual.

Altfel NU ai ce sa faci.

Degeaba cauti tu fisierul scanat care contine informatia, daca nu ai nicio baza in care sa o cauti.

Daca ai avea doar fisiere text ( NU TEXT INTR- O POZA ), ci text - asa cum sunt si cuvintele pe care le scriu acum ,atunci la o cautare dupa un cuvant anume ti-ar gasi documentul. Dar nu exista niciun soft capabil sa citeasca textul scris intr-o poza bagata intr-un document, fara sa deschida acel document si fara sa faca o cocnversie OCR.

De exemplu, cauta te rog in browser dupa cuvantul "Informatia" si zi-mi daca iti recunoaste cuvantul in poza de mai jos:
Attached File  new-2.jpg   8.08K   7 downloads

Rezultatul va fi negativ - va gasi cuvantul doar in partea scrisa si selectabila, dar nu si in poza.

Edited by eiffel, 27 March 2017 - 15:16.


#24
f300

f300

    30k si ma duc

  • Grup: Senior Members
  • Posts: 30,000
  • Înscris: 27.09.2008

 eiffel, on 27 martie 2017 - 15:15, said:

In cazul scanarilor automate intotdeauna acel PDF e doar pe post de container al unei poze. Nu contien fisier text deci nu poate fi indexat.

PDF-urile facute in ziua de azi nu sint intotdeauna "chioare", exista in multe situatii (dependente de aparat) posibilitatea (citeodata chiar activata default) sa faca OCR la scanare fara nici un pas suplimentar din partea operatorului! Lucru esential pentru ca exact asta ii trebuie initiatorului.

Cred ca aproape orice producator decent ofera asa ceva, cu rezultate de la "e acolo dar e ca si cum nu e" pina la "recunoaste mai bine decit daca as copia textul de mina" (cel putin pentru textele "normale" scrise cu un contrast bun gen negru pe alb pe coli A4).

Exemplu HP:

http://h71036.www7.h...0-0-39-121.html

Eu as recomanda ceva din gama ScanSnap - inclusiv softul e excelent, probabil singurul soft la care practic nu am avut ce sa schimb din setarile default.

#25
XORIAN_L

XORIAN_L

    Senior Member

  • Grup: Senior Members
  • Posts: 7,201
  • Înscris: 01.10.2009
OK
Va multumesc pentru raspunsuri!

#26
cipx2

cipx2

    Junior Member

  • Grup: Members
  • Posts: 200
  • Înscris: 17.01.2005
OCR-izarea (de asta nu scapi decat daca introduci tu textul de mana la fiecare bon scanat) se poate face si automat si fara bani si fara fisiere suplimentare.

Spre deosebire de marea majoritate a situatiilor in care se foloseste un OCR, ai marele avantaj ca tot tu (firma ta) esti cel care controleaza cum anume se tipareste sursa ce urmeaza a fi scanata deci ai avea un control maxim asupra reusitei OCR-izarii.

Fluxul ar fi asa: se scaneaza bonul > scanner-ul salveaza pdf-ul cu imaginea (sau numai imaginea) pe un disc intr-un folder > serverul vede ca a aparut un fisier nou si trece la treaba > OCR-izeaza imaginea (se pot preciza zone) > se asigura ca ce gaseste in zona X reprezinta un nr de bon iar numarul se regaseste in lista de bonuri emise in intervalul cutare etc => valideaza imaginea ca fiind bon si ii atribuie numele corect (nr bonului = N) > mai verifica in alte zone ca apar info conform unor alte criterii de cautare (de ex ca produsele din bonul scanat N sunt conforme cu ceea ce este stocat la emiterea/printarea bonului N) > mai OCR-izeaza ce mai vrei, mai valideaza ce te mai intereseaza pe tine (campuri cu semnaturi de exemplu) > ambaleaza imaginea si textul OCR-izat intr-un container pdf sau djvu  (care devin fisiere cautabile cu text invizibil selectabil) > pune rezultatul intr-un alt folder => job done
In caz de eroare pe traseu -- nr bon in afara intervalului, cod produs inexistent sau care nu se regaseste pe bonul emis, gaini cu trei picioare in loc de elefanti roz etc > email la tine sau la cine e responsabil

Sigur se poate pe o masina (server) linux, ar trebui sa se poate si pe una cu OS-ul asta unde am aterizat din eroare Posted Image

Edited by cipx2, 28 March 2017 - 09:58.


#27
vyctoras1985

vyctoras1985

    Guru Member

  • Grup: Validating
  • Posts: 11,765
  • Înscris: 01.07.2013

 eiffel, on 27 martie 2017 - 15:15, said:


Da, dar informatia aia nu e intr-un format care sa poata fi citit/indexat.

Un PDF poaate fi facut in mai multe feluri - Prin "printare" dintr-un document tip text sau excel sau mai stiu eu ce - caz in care acel PDf contine textul respectiv - il poti si selecta in Reader, sau prin scanare in POZA - care poate fi sau nu inclusa intr-un PDF. In cazul scanarilor automate intotdeauna acel PDF e doar pe post de container al unei poze. Nu contien fisier text deci nu poate fi indexat.
Daca ai scana de pe un calculator in fisier poza, iar acea poza ar fi incarcata intr-un soft OCR - care sa citeasca cuvintele din poza si sa le transforme in text, acel text ar putea fi indexat.

In cazul tau particular, cea mai buna solutie ar fi ca la sfarsitul zilei sa indexezi cumva acele poze - cu data macar si sa le cauti manual dupa data, astfel incat sa le gasesti tu, manual.

Altfel NU ai ce sa faci.

Degeaba cauti tu fisierul scanat care contine informatia, daca nu ai nicio baza in care sa o cauti.

Daca ai avea doar fisiere text ( NU TEXT INTR- O POZA ), ci text - asa cum sunt si cuvintele pe care le scriu acum ,atunci la o cautare dupa un cuvant anume ti-ar gasi documentul. Dar nu exista niciun soft capabil sa citeasca textul scris intr-o poza bagata intr-un document, fara sa deschida acel document si fara sa faca o cocnversie OCR.

De exemplu, cauta te rog in browser dupa cuvantul "Informatia" si zi-mi daca iti recunoaste cuvantul in poza de mai jos:
new-2.jpg

Rezultatul va fi negativ - va gasi cuvantul doar in partea scrisa si selectabila, dar nu si in poza.
softul ala de l-am dat eu chiar indexare facea

diferenta fiind probabil ca la o poza nu ai decat codul ascii pestru culori asezate intr-o anumita forma in timp ce la text ai cod ascii pentru caractere ceea ce e altceva.

#28
f300

f300

    30k si ma duc

  • Grup: Senior Members
  • Posts: 30,000
  • Înscris: 27.09.2008
Acum ca a mentionat cipx2 mi-a picat si mie fisa: daca de fapt tu tiparesti originalele poti pune bine mersi un barcode/QR code/etc. care sa fie practic sigur recunoscut dupa aia si dupa care sa poti sa gasesti orice fara probleme.

#29
cipx2

cipx2

    Junior Member

  • Grup: Members
  • Posts: 200
  • Înscris: 17.01.2005
Daca nu-i trebuie existenta/validarea/stocarea unor alte date/campuri completate ulterior tiparirii (de exemplu  semnaturi sau checkbox-i), atunci asta ^^^ e cea mai simpla solutie (QR e mai cuprinzator).
PS. ... dar chiar si asa, un QR simplifica mult de tot treaba.

Edited by cipx2, 28 March 2017 - 10:29.


#30
f300

f300

    30k si ma duc

  • Grup: Senior Members
  • Posts: 30,000
  • Înscris: 27.09.2008
Depinde la ce-i trebuie concret, abby (si probabil si alte programe) se lauda ca scaneaza si QR/barcode (si probabil il baga undeva ca informatie text) aia ar rezolva si disponibilitatea ca fisier pdf.

Altminteri daca ii trebuie doar sa gaseasca bonul (pe care l-a arhivat fizic undeva) poate sa puna in barcode o serie si sa le scaneze cu un scanner de-ala de mina. O data la saptamina (sau in functie de volum) "bipaie" citeva sute de bonuri in nici 10 minute, le pune intr-o folie (sau ce solutii de arhivare pentru hirtiute exista), scrie pe ea data, salveaza fisierul text cu seriile si gata.

Edited by f300, 28 March 2017 - 10:37.


Anunturi

Neurochirurgie minim invazivă Neurochirurgie minim invazivă

"Primum non nocere" este ideea ce a deschis drumul medicinei spre minim invaziv.

Avansul tehnologic extraordinar din ultimele decenii a permis dezvoltarea tuturor domeniilor medicinei. Microscopul operator, neuronavigația, tehnicile anestezice avansate permit intervenții chirurgicale tot mai precise, tot mai sigure. Neurochirurgia minim invazivă, sau prin "gaura cheii", oferă pacienților posibilitatea de a se opera cu riscuri minime, fie ele neurologice, infecțioase, medicale sau estetice.

www.neurohope.ro

0 user(s) are reading this topic

0 members, 0 guests, 0 anonymous users

Forumul Softpedia foloseste "cookies" pentru a imbunatati experienta utilizatorilor Accept
Pentru detalii si optiuni legate de cookies si datele personale, consultati Politica de utilizare cookies si Politica de confidentialitate