Gå till innehåll
Just nu i M3-nätverket

Konvertera fysiska adresslistor


joelthedeen
 Share

Rekommendera Poster

joelthedeen

HJÄLP!

Jag kommer snart att få en hög papper med namn, mailadresser, sysselsättning etc. Dessa personer ska sedan läggas in i en maillista för att få nyhetsbrev.

Finns något smidigt sätt att konvertera genom att tex scanna?

Jag har testat att scanna dokument som PDF för att sedan extrahera texten via automator, men den är inte tillräckligt bra på att läsa ("ti" blir "3" och "tt" blir "P" bla).

Det bästa vore om det gick att få slutprodukten som en .xls eller liknande så jag bara kan kopiera en hel kolumn och exportera som en maillista-

Det rör sig om några tusen kontakter, så det kommer att ta en evighet att göra manuellt.

Är det någon som har ett bra tips? ALLA tips mottages med kärlek och enorm tacksamhet!

Ha en fin dag!

J

Länk till kommentar
Dela på andra webbplatser

15 minuter sedan, joelthedeen säger:

HJÄLP!

Jag kommer snart att få en hög papper med namn, mailadresser, sysselsättning etc. Dessa personer ska sedan läggas in i en maillista för att få nyhetsbrev.

Finns något smidigt sätt att konvertera genom att tex scanna?

Jag har testat att scanna dokument som PDF för att sedan extrahera texten via automator, men den är inte tillräckligt bra på att läsa ("ti" blir "3" och "tt" blir "P" bla).

Det bästa vore om det gick att få slutprodukten som en .xls eller liknande så jag bara kan kopiera en hel kolumn och exportera som en maillista-

Det rör sig om några tusen kontakter, så det kommer att ta en evighet att göra manuellt.

Är det någon som har ett bra tips? ALLA tips mottages med kärlek och enorm tacksamhet!

Ha en fin dag!

J

Skulle en ”läspenna” fungera?

Visserligen blir det en del manuellt jobb, men det finns ju fullt av skolungdomar som har sommarlov. 

Länk till kommentar
Dela på andra webbplatser

27 minuter sedan, joelthedeen säger:

HJÄLP!

Jag kommer snart att få en hög papper med namn, mailadresser, sysselsättning etc. Dessa personer ska sedan läggas in i en maillista för att få nyhetsbrev.

Finns något smidigt sätt att konvertera genom att tex scanna?

Jag har testat att scanna dokument som PDF för att sedan extrahera texten via automator, men den är inte tillräckligt bra på att läsa ("ti" blir "3" och "tt" blir "P" bla).

Det bästa vore om det gick att få slutprodukten som en .xls eller liknande så jag bara kan kopiera en hel kolumn och exportera som en maillista-

Det rör sig om några tusen kontakter, så det kommer att ta en evighet att göra manuellt.

Är det någon som har ett bra tips? ALLA tips mottages med kärlek och enorm tacksamhet!

Ha en fin dag!

J

Vilken programvara använder du?

resultatet borde inte bli så dåligt som du beskriver, om inte originalet är mycket dåligt.

 

Redigerad av boevil
Länk till kommentar
Dela på andra webbplatser

Om man scannar i svart-vitt och hög upplösning med en flatbäddsscanner (t.ex. har jag en Canon CanoScan Lide 120 ) till PDF och sedan öppnar i OCR program (jag har PDFPen Pro 10 som var rimligt billigt och klarar svenska, nya versionen PDFPen Pro 13 är dyr) så får jag en text som är 97% rätt om originalet är bra. Enstaka bokstäver kan dock slumpvis bli fel så om det ska vara rätt får man korrekturläsa.

 

Länk till kommentar
Dela på andra webbplatser

Om det är handskrivet kan problem uppstå, men om det är maskinskrivet så borde det inte vara ett problem i ett bra OCR program som klarar svensk text. 

Länk till kommentar
Dela på andra webbplatser

joelthedeen
2021-06-24 16:20, boevil säger:

Vilken programvara använder du?

resultatet borde inte bli så dåligt som du beskriver, om inte originalet är mycket dåligt.

 

jag har tillgång till hela adobe CC-sviten. det jag gjort är följande; rensa i bilden, justera nivåer och konvertera till bitmap och sedan spara som pdf. Sedan kör jag Acrobat OCR-läsning. så här långt fungerar det ganska bra.

Problemet uppstår när jag vill extrahera texten i dokumentet till tex en .txt genom automator.

Texten som kommer ut blir ganska svårläslig och inkorrekt.

Tanken är att det ska kunna föras in i excel för att sedan exporteras som en maillista.

 

har suttit och klurat hela förmiddagen men resultatet blir helt enkelt inte tillräckligt bra.. 😕

Länk till kommentar
Dela på andra webbplatser

1 timme sedan, joelthedeen säger:

jag har tillgång till hela adobe CC-sviten. det jag gjort är följande; rensa i bilden, justera nivåer och konvertera till bitmap och sedan spara som pdf. Sedan kör jag Acrobat OCR-läsning. så här långt fungerar det ganska bra.

Problemet uppstår när jag vill extrahera texten i dokumentet till tex en .txt genom automator.

Texten som kommer ut blir ganska svårläslig och inkorrekt.

Tanken är att det ska kunna föras in i excel för att sedan exporteras som en maillista.

 

har suttit och klurat hela förmiddagen men resultatet blir helt enkelt inte tillräckligt bra.. 😕

Nu förstår jag inte… får du ett pdf-dokument som ser ok ut, men att det blir fel när du klipper/kopierar dess text till ett .txt-dokument?

 

 

Länk till kommentar
Dela på andra webbplatser

joelthedeen
Just nu, boevil säger:

Nu förstår jag inte… får du ett pdf-dokument som ser ok ut, men att det blir fel när du klipper/kopierar dess text till ett .txt-dokument?

 

 

nej, när jag skapat min PDF (har läst att Acrobat DC ska göra ett väldigt bra jobb) vill jag importera hela filen rakt in i excel och det är här det blir knas!

Länk till kommentar
Dela på andra webbplatser

4 minuter sedan, joelthedeen säger:

nej, när jag skapat min PDF (har läst att Acrobat DC ska göra ett väldigt bra jobb) vill jag importera hela filen rakt in i excel och det är här det blir knas!

Om du, manuellt, markerar texten i pdf-dokumentet och kopierar och sedan klistrar in i excel, fungerar det då? Dvs. Är du säker att pdf-en innehåller text och inte bara en bitmap?

 

Länge sedan jag använde OCR, men vissa program fuskar emellanåt?

 

Vilket format har originalet, handskrivet?

 

Länk till kommentar
Dela på andra webbplatser

joelthedeen
Just nu, boevil säger:

Om du, manuellt, markerar texten i pdf-dokumentet och kopierar och sedan klistrar in i excel, fungerar det då? Dvs. Är du säker att pdf-en innehåller text och inte bara en bitmap?

 

Länge sedan jag använde OCR, men vissa program fuskar emellanåt?

 

Vilket format har originalet, handskrivet?

 

Originalet är utskriven text från dator.

Pdf:en är enligt photoshop en 8bit RGB när den kommer från scannern. 

Vad är optimalt att ha innan jag plockar in den i Acrobat för ocr-läsning?

Länk till kommentar
Dela på andra webbplatser

15 minuter sedan, joelthedeen säger:

Originalet är utskriven text från dator.

Pdf:en är enligt photoshop en 8bit RGB när den kommer från scannern. 

Vad är optimalt att ha innan jag plockar in den i Acrobat för ocr-läsning?

Jag vet inte, när jag använde OCR för läääänge sedan tror jag programmet fanns i scannern. Då var Svart-vit bäst.


Har du inte möjlighet att få originalet som en fil istället för utskrift, som @pajj föreslår?

 

Redigerad av boevil
Länk till kommentar
Dela på andra webbplatser

31 minuter sedan, joelthedeen säger:

nej, när jag skapat min PDF (har läst att Acrobat DC ska göra ett väldigt bra jobb) vill jag importera hela filen rakt in i excel och det är här det blir knas!

Efter OCR-jobb mm har du alltså en PDF-fil, som är ordentligt läsbar för människor, med adresserna?

 

Hur ser det ut om du försöker markera/kopiera text i PDF-filen? Ibland verkar sådana filer innehålla kolumner eller tabeller som är osynliga vid mänsklig läsning, men som gör textmarkering till ett helvete.

 

Kan du inte få OCR-reultatet i annat format än PDF, som om jag fattat rätt suger för ditt ändamål?

Länk till kommentar
Dela på andra webbplatser

5 minuter sedan, Mattiasgbg säger:

Efter OCR-jobb mm har du alltså en PDF-fil, som är ordentligt läsbar för människor, med adresserna?

 

Hur ser det ut om du försöker markera/kopiera text i PDF-filen? Ibland verkar sådana filer innehålla kolumner eller tabeller som är osynliga vid mänsklig läsning, men som gör textmarkering till ett helvete.

 

Kan du inte få OCR-reultatet i annat format än PDF, som om jag fattat rätt suger för ditt ändamål?

Som jag förstår TS innehåller pdf:n 8 bitars bitmap.?

Länk till kommentar
Dela på andra webbplatser

4 timmar sedan, boevil säger:

Som jag förstår TS innehåller pdf:n 8 bitars bitmap.?

Den var i alla fall det innan Acrobat började engagera sig i ärendet.

Hade jag fått bestämma så skulle OCR-appen, Acrobat i det här fallet, spotta ut resultatet som vanlig trist oformaterad text. Att blanda in PDF känns som en onödig omväg.

 

Utan att kunna Acrobat alls, och med begränsade kunskaper i PDF och Postscrict (.ps) så verkar det vettigare att låta Acrobat skapa en ps-fil istället.

https://answers.acrobatusers.com/Batch-converting-ps-files-q233491.aspx

 

Ps-filen borde relativt lätt kunna läsas av människor, exempelvis genom att öppna Terminal och där skriva cat följt av filens sökväg (dra filen till fönstret). Förhoppningsvis ser man då i Terminal filens innehåll och kan upptäcka eventuellt mönster i adressdatan. Hittas ett mönster är det lätt att plocka ut adresserna.

Länk till kommentar
Dela på andra webbplatser

 Share



×
×
  • Skapa nytt...