fredag 2 januari 2009

Vad är egentligen problemet?

I mitt huvud låter det här egentligen ganska enkelt. Alla fall i det första steget. Bunta ihop en mängd Word-filer till ett enda stort Excel-ark. Väl där är det inga problem att trycka in det i en databas där resten av trolleriet kan ske. (jo, jag vet att det resterande trolleriet är gigantiskt, men skulle jag tänka mer på det nu skulle jag nog lägga ner hela projektet).

Men tillbaka till den första delen. Hur svårt kan det vara?
Låt mig visa det så här;

Här är en slumpvis vald person från materialet;

Födda 1795, 3 Mars
Johan
Föräldrar: Torparen Olof Jansson och Brita Ersdotter, senast fylld 28 år, boende vid Svepholmen


Såg alla "poster" ut så här vore det enklare. Men alla poster ser inte ut så här. I vissa fall saknas datumet, i vissa fall saknas pappans namn. I vissa fall finns uppgifter om den ena förälderns ålder, i vissa fall inte alls. I vissa fall står det var dom bodde, medan för vissa står inget alls.

Vad jag behöver göra är att försöka dela upp varje post i mindre delar, så att varje del hamnar i en ruta i Excel. Dagen i en ruta, månaden i en. Barnets namn i en ruta och föräldrarna i egna rutor. Typ så här;

17950303TorparenJohanOlofJanssonBritaErsdotter28Svepholmen


För att i ett senare läge kunna matcha ihop just den här personen, med andra personer måste jag ha lite mer data. Materialet sträcker sig från 1700 till 1919, så är Johans föräldrar födda på Gräsö finns dom rimligtvis med i något annat Word-dokument. Vidare, har Johan senare i livet fått några barn finns han också med senare i dokumenten.
För att kunna hitta Johan i senare dokument räcker det inte att han "bara" heter Johan. Han måste ha ett efternamn. Här måste jag skapa ett efternamn åt honom. Eftersom vi vet pappans namn i det här fallet är det enkelt. Det är troligt att han kommer att heta Olofsson när vi hittar honom nästa gång. Det borde fungera, åtminstone så länge patronymikon används, vilket borde vara fram till sista halvan av 1800-talet.
Sen står det ju att mamman är 28 år gammal när hon föder Johan. Med hjälp av det kan vi räkna ut att hon borde vara född mellan 1756 och 1758. Alla som sysslat med släktforskning vet att det kan vara lite si och så korrektheten med dessa åldrar, därav att spannet är hela tre år.

Så, sammantaget behöver jag alltså justera ovanstående tabell med dessa nya data. En "färdig" tabell borde alltså se ut något som den här;
17950303TorparenJohanOlofssonOlofJansson
BritaErsdotter2817561758Svepholmen


Det gäller att göra rätt från början. Att sitta och gå igenom materialet "för hand" kommer att ta riktigt lång tid. Överslagsräknat kan man lätt konstatera att om man lägger 30 sekunder på varje post för att kolla att allt ser rätt ut (det kan lätt bli mer), så med närmare 7000 namn så blir det runt 3500 minuter, dvs nästan 60 timmars arbete. Bara i det här läget.

Hmm. Bäst att jag sätter igång direkt.

Inga kommentarer:

Skicka en kommentar