Konvertera fysiska adresslistor

24 juni, 2021

HJÄLP!

Jag kommer snart att få en hög papper med namn, mailadresser, sysselsättning etc. Dessa personer ska sedan läggas in i en maillista för att få nyhetsbrev.

Finns något smidigt sätt att konvertera genom att tex scanna?

Jag har testat att scanna dokument som PDF för att sedan extrahera texten via automator, men den är inte tillräckligt bra på att läsa ("ti" blir "3" och "tt" blir "P" bla).

Det bästa vore om det gick att få slutprodukten som en .xls eller liknande så jag bara kan kopiera en hel kolumn och exportera som en maillista-

Det rör sig om några tusen kontakter, så det kommer att ta en evighet att göra manuellt.

Är det någon som har ett bra tips? ALLA tips mottages med kärlek och enorm tacksamhet!

Ha en fin dag!

J

24 juni, 2021

15 minuter sedan, joelthedeen säger:

HJÄLP!

Jag kommer snart att få en hög papper med namn, mailadresser, sysselsättning etc. Dessa personer ska sedan läggas in i en maillista för att få nyhetsbrev.

Finns något smidigt sätt att konvertera genom att tex scanna?

Jag har testat att scanna dokument som PDF för att sedan extrahera texten via automator, men den är inte tillräckligt bra på att läsa ("ti" blir "3" och "tt" blir "P" bla).

Det bästa vore om det gick att få slutprodukten som en .xls eller liknande så jag bara kan kopiera en hel kolumn och exportera som en maillista-

Det rör sig om några tusen kontakter, så det kommer att ta en evighet att göra manuellt.

Är det någon som har ett bra tips? ALLA tips mottages med kärlek och enorm tacksamhet!

Ha en fin dag!

J

Skulle en ”läspenna” fungera?

Visserligen blir det en del manuellt jobb, men det finns ju fullt av skolungdomar som har sommarlov.

24 juni, 2021

27 minuter sedan, joelthedeen säger:

HJÄLP!

Jag kommer snart att få en hög papper med namn, mailadresser, sysselsättning etc. Dessa personer ska sedan läggas in i en maillista för att få nyhetsbrev.

Finns något smidigt sätt att konvertera genom att tex scanna?

Jag har testat att scanna dokument som PDF för att sedan extrahera texten via automator, men den är inte tillräckligt bra på att läsa ("ti" blir "3" och "tt" blir "P" bla).

Det bästa vore om det gick att få slutprodukten som en .xls eller liknande så jag bara kan kopiera en hel kolumn och exportera som en maillista-

Det rör sig om några tusen kontakter, så det kommer att ta en evighet att göra manuellt.

Är det någon som har ett bra tips? ALLA tips mottages med kärlek och enorm tacksamhet!

Ha en fin dag!

J

Vilken programvara använder du?

resultatet borde inte bli så dåligt som du beskriver, om inte originalet är mycket dåligt.

Redigerad 24 juni, 2021 av boevil

24 juni, 2021

Om man scannar i svart-vitt och hög upplösning med en flatbäddsscanner (t.ex. har jag en Canon CanoScan Lide 120 ) till PDF och sedan öppnar i OCR program (jag har PDFPen Pro 10 som var rimligt billigt och klarar svenska, nya versionen PDFPen Pro 13 är dyr) så får jag en text som är 97% rätt om originalet är bra. Enstaka bokstäver kan dock slumpvis bli fel så om det ska vara rätt får man korrekturläsa.

24 juni, 2021

Be avsändaren om en digital kopia istället 🙂

24 juni, 2021

Om det är handskrivet kan problem uppstå, men om det är maskinskrivet så borde det inte vara ett problem i ett bra OCR program som klarar svensk text.

24 juni, 2021

Problemet är OCR, se https://en.wikipedia.org/wiki/Optical_character_recognition.

När du löst det är resten relativt enkelt.

28 juni, 2021

2021-06-24 16:20, boevil säger:

Vilken programvara använder du?

resultatet borde inte bli så dåligt som du beskriver, om inte originalet är mycket dåligt.

jag har tillgång till hela adobe CC-sviten. det jag gjort är följande; rensa i bilden, justera nivåer och konvertera till bitmap och sedan spara som pdf. Sedan kör jag Acrobat OCR-läsning. så här långt fungerar det ganska bra.

Problemet uppstår när jag vill extrahera texten i dokumentet till tex en .txt genom automator.

Texten som kommer ut blir ganska svårläslig och inkorrekt.

Tanken är att det ska kunna föras in i excel för att sedan exporteras som en maillista.

har suttit och klurat hela förmiddagen men resultatet blir helt enkelt inte tillräckligt bra.. 😕

28 juni, 2021

1 timme sedan, joelthedeen säger:

jag har tillgång till hela adobe CC-sviten. det jag gjort är följande; rensa i bilden, justera nivåer och konvertera till bitmap och sedan spara som pdf. Sedan kör jag Acrobat OCR-läsning. så här långt fungerar det ganska bra.

Problemet uppstår när jag vill extrahera texten i dokumentet till tex en .txt genom automator.

Texten som kommer ut blir ganska svårläslig och inkorrekt.

Tanken är att det ska kunna föras in i excel för att sedan exporteras som en maillista.

har suttit och klurat hela förmiddagen men resultatet blir helt enkelt inte tillräckligt bra.. 😕

Nu förstår jag inte… får du ett pdf-dokument som ser ok ut, men att det blir fel när du klipper/kopierar dess text till ett .txt-dokument?

28 juni, 2021

Just nu, boevil säger:

Nu förstår jag inte… får du ett pdf-dokument som ser ok ut, men att det blir fel när du klipper/kopierar dess text till ett .txt-dokument?

nej, när jag skapat min PDF (har läst att Acrobat DC ska göra ett väldigt bra jobb) vill jag importera hela filen rakt in i excel och det är här det blir knas!

28 juni, 2021

4 minuter sedan, joelthedeen säger:

nej, när jag skapat min PDF (har läst att Acrobat DC ska göra ett väldigt bra jobb) vill jag importera hela filen rakt in i excel och det är här det blir knas!

Om du, manuellt, markerar texten i pdf-dokumentet och kopierar och sedan klistrar in i excel, fungerar det då? Dvs. Är du säker att pdf-en innehåller text och inte bara en bitmap?

Länge sedan jag använde OCR, men vissa program fuskar emellanåt?

Vilket format har originalet, handskrivet?

28 juni, 2021

Just nu, boevil säger:

Om du, manuellt, markerar texten i pdf-dokumentet och kopierar och sedan klistrar in i excel, fungerar det då? Dvs. Är du säker att pdf-en innehåller text och inte bara en bitmap?

Länge sedan jag använde OCR, men vissa program fuskar emellanåt?

Vilket format har originalet, handskrivet?

Originalet är utskriven text från dator.

Pdf:en är enligt photoshop en 8bit RGB när den kommer från scannern.

Vad är optimalt att ha innan jag plockar in den i Acrobat för ocr-läsning?

28 juni, 2021

15 minuter sedan, joelthedeen säger:

Originalet är utskriven text från dator.

Pdf:en är enligt photoshop en 8bit RGB när den kommer från scannern.

Vad är optimalt att ha innan jag plockar in den i Acrobat för ocr-läsning?

Jag vet inte, när jag använde OCR för läääänge sedan tror jag programmet fanns i scannern. Då var Svart-vit bäst.

Har du inte möjlighet att få originalet som en fil istället för utskrift, som @pajj föreslår?

Redigerad 28 juni, 2021 av boevil

28 juni, 2021

31 minuter sedan, joelthedeen säger:

nej, när jag skapat min PDF (har läst att Acrobat DC ska göra ett väldigt bra jobb) vill jag importera hela filen rakt in i excel och det är här det blir knas!

Efter OCR-jobb mm har du alltså en PDF-fil, som är ordentligt läsbar för människor, med adresserna?

Hur ser det ut om du försöker markera/kopiera text i PDF-filen? Ibland verkar sådana filer innehålla kolumner eller tabeller som är osynliga vid mänsklig läsning, men som gör textmarkering till ett helvete.

Kan du inte få OCR-reultatet i annat format än PDF, som om jag fattat rätt suger för ditt ändamål?

28 juni, 2021

5 minuter sedan, Mattiasgbg säger:

Efter OCR-jobb mm har du alltså en PDF-fil, som är ordentligt läsbar för människor, med adresserna?

Hur ser det ut om du försöker markera/kopiera text i PDF-filen? Ibland verkar sådana filer innehålla kolumner eller tabeller som är osynliga vid mänsklig läsning, men som gör textmarkering till ett helvete.

Kan du inte få OCR-reultatet i annat format än PDF, som om jag fattat rätt suger för ditt ändamål?

Som jag förstår TS innehåller pdf:n 8 bitars bitmap.?

28 juni, 2021

4 timmar sedan, boevil säger:

Som jag förstår TS innehåller pdf:n 8 bitars bitmap.?

Den var i alla fall det innan Acrobat började engagera sig i ärendet.

Hade jag fått bestämma så skulle OCR-appen, Acrobat i det här fallet, spotta ut resultatet som vanlig trist oformaterad text. Att blanda in PDF känns som en onödig omväg.

Utan att kunna Acrobat alls, och med begränsade kunskaper i PDF och Postscrict (.ps) så verkar det vettigare att låta Acrobat skapa en ps-fil istället.

https://answers.acrobatusers.com/Batch-converting-ps-files-q233491.aspx

Ps-filen borde relativt lätt kunna läsas av människor, exempelvis genom att öppna Terminal och där skriva cat följt av filens sökväg (dra filen till fönstret). Förhoppningsvis ser man då i Terminal filens innehåll och kan upptäcka eventuellt mönster i adressdatan. Hittas ett mönster är det lätt att plocka ut adresserna.

Konvertera fysiska adresslistor

Rekommendera Poster

joelthedeen

Länk till kommentar

Dela på andra webbplatser

ante_77

Länk till kommentar

Dela på andra webbplatser

boevil

Länk till kommentar

Dela på andra webbplatser

TB-000

Länk till kommentar

Dela på andra webbplatser

pajj

Länk till kommentar

Dela på andra webbplatser

Raphael

Länk till kommentar

Dela på andra webbplatser

Mattiasgbg

Länk till kommentar

Dela på andra webbplatser

joelthedeen

Länk till kommentar

Dela på andra webbplatser

boevil

Länk till kommentar

Dela på andra webbplatser

joelthedeen

Länk till kommentar

Dela på andra webbplatser

boevil

Länk till kommentar

Dela på andra webbplatser

joelthedeen

Länk till kommentar

Dela på andra webbplatser

boevil

Länk till kommentar

Dela på andra webbplatser

Mattiasgbg

Länk till kommentar

Dela på andra webbplatser

boevil

Länk till kommentar

Dela på andra webbplatser

Mattiasgbg

Länk till kommentar

Dela på andra webbplatser

Nya ämnen

Senaste nyheter

Obesvarade ämnen

Senaste inlägg

Senaste som Tittar