Ok la situazione si fa più complessa.
Qui c'è bisogno di pensare ad una strategia decente, non del codice.
Nella ditta i vecchi lavori sono così suddivisi: cartella cliente con dentro buste delle commesse.
Sto parlando di roba cartacea, NON di roba informatica!
La ditta vorrebbe appunto informatizzare i vecchi lavori, che sono migliaia di buste, in soldoni vorrebbero che da un gestionale (da fare) aprendo la voce di un cliente si vedano tutto ciò che lo riguarda (penso mail, progetti, commesse, vecchi lavori).
Per i vecchi lavori penso possa andare bene così: genero 1 pdf per ogni lavoro con la bolla come prima pagina.
Nella bolla è contenuto il numero di matricola, a questo punto bisognerebbe che la scansione estrapoli il codice matricola e lo usi per rinominare il pdf.
Ci sono vari programmi ed interfacce per l'OCR, ma leggere un intero A4 e cercarci dentro un numero è complesso, sicché pensavo di fare un ritaglio di massa delle immagini nella zona col numero di matricola e poi farne l'OCR, così salta fuori solo il numero matricola.
Per l'estrazione di immagini da un pdf c'è lo script batch di sgnablo.
Come già scritto, più che buttare giù linee di codice mi servirebbe fare una lista procedurale che risponda ai seguenti interrogativi:
1) Quale tipo di strumento informatico servirebbe per gestire l'associazione di clienti, magazzino, ordini nuovi da fare, ordini vecchi fatti, etc.?
Attualmente l'unico strumento informatico presente è il gestionale Metodo che serve per creare nuovi codici magazzino (sigla componente +progressivo), ricerca in base a filtri (tipo ricerca componenti esistenti in base a sigla, data, dimensioni, etc..), ed altre cose che non so.
Come procedere? Nuovo super-mega gestionale in sostituzione a Metodo? Un nuovo applicativo da affiancare a Metodo?
Questo punto è da ancora da chiarire, nel senso che non so quali siano le necessità delle varie figure aziendali, ma sto cercando di farmi un quadro d'insieme.
Questa domanda penso sia soprattutto per alesales.
2) Parlando solo di pdf le operazioni che ho individuato sono: estrazione immagine da pdf, ritaglio immagine, OCR immagine, rinominazione pdf con testo OCR.
Voi vedete un percorso migliore?
3) Una volta individuato il percorso, com'è meglio procedere? N programmi, uno per ogni operazione, attivati in sequenza da uno script?
Un mega programma unico?
N programmi separati da usare manualmente?
I computer qua sono tutti Windows 7, che uso? Non penso di poter usare bash...

4) Creo una nuova discussione o N discussioni separate per ogni sotto problema?