Poproszony przez Jacka Młochowskiego, w związku ze zbliżającym się sympozjum NDAP-PTG :
Wypowiadam się jedynie o okresie 1826-1909 i pierwopisach/wtóropisach ASC polsko i rosyjskojęzycznych.
O pozostałych mam za małe doświadczenie, aby coś sugerować. Tj spostrzeżenia mam, ale "nieudokumentowane statystycznie"
Czyli to co poniżej: na podstawie prac Warszawskiego Zespołu Indeksacyjnego, czyli ponad 100 000 aktów, przysłane uwagi, analiza wstępna Włodzimierz Sroczyński
I. Odnośnie formatu danych
I.A.Uwagi dotyczące formatu (czyli "formatka") chrzty/urodzenia oraz zgony
1. XLS - sam format pliku zachowałbym, ze względu na:
- kompatybilność - dostępność dla osób pracujących zarówno na Microsofcie (w różnych wersjach) OpenOffice jak i innych niekoniecznie arkuszach kalkulacyjnych
- łatwość późniejszej obróbki danych przez osobę prowadzącą bazę (eksport do csv jak i innych typowo bazodanowych ale bardziej zaawansowanych)
2. pole lp - zbędne na etapie wypełniania, nie identyfikuje wystarczająco rekordu, tworzy problemy gdy księga opracowywana jest w częściach przez różne osoby,
3. pole "rok" - jeśli ma być wystarczające do zidentyfikowania księgi - za mało informacji (różnice pierwopis/wtóropis ew trydent/brudnopis etc). Do podstawowego przypisania rekordu wraz z polem akt - wystarczający (patrz uwaga o prefiksie/sufiksie). Bywają problemy, gdy księga jest prowadzona w dwóch tomach, a w każdym tomie numeracja od początku (vide: rok 1866 w parafii Św. Jana i być może w innych parafiach)
4. pole akt: w przypadku ksiąg o ponumerownaych aktach wystarczające z zastrzeżeniem
5. pole sufix: wymaga doprecyzowania przypadków zastosowania. (patrz punkty 3-5)
6. pole 1 imię (patrz też imiona pozostałe) zachowałbym podział na pierwsze i pozostałe z uwagi na ułatwienie we wprowadzaniu (autouzupełnianie). Doprecyzowania wymaga kwestia standaryzacji zapisu imion. Moim zdaniem dal tego okresu warto przyjąć zapis wystandaryzowany (tj Marianna nie Maryjanna/Maryanna/Marjanna, Jakub nie Jakób etc) ale nie jest to kwestia o priorytetowym zanaczeniu, Argumenty za: łatwiejsza korekta poprawności (literówki wykrywane przez wbudowane lub stworzone słowniki), autouzupełnianie. Przeciw: konieczność decyzji czy dane imię zapisywać w formie polskiej czy tak jak zostało zapisane jeśłi nie ma polskiej wersji (Jelizawieta etc)
7. pole imiona pozostałe (patrz też pierwsze imię) zachowałbym podział na pierwsze i pozostałe z uwagi na ułatwienie we wprowadzaniu (autouzupełnianie). imiona oddzielone spacją. Patrz p.6
8. "pole nazwisko0". Nie stosowaliśmy
9. pole nazwisko: Moim zdaniem należy utrzymać zasady - tj stosować nadal wpisywanie formy żeńskiej, jeśli nazwisko kobiety jest odmienialne, sprecyzować i zdefiniować kwestie nazwisk podwójnych, przyrostków etc
10. pole vel - traktowane jako "alias". Wykorzystywane szeroko:
- do wpisywania form występujących w akcie jako "vel"
- do wpisywania wersji wynikających z różnic przy zapisie (inna forma w informacji o nazwisku rodziców, inna przy nazwisku "głównego podmiotu", inna w podpisie)
- do wpisywania poprzednio noszonych nazwisk (akty chrztu/konwersji, akty przysposobienia/uznania
- do wpisywania jednego z członów dwuczłonowych nazwisk (dzielonych na dwa pola w celu łatwiejszego odszukania)
- do wpisywania form nazwisk występujących w innych źródłach (np innych aktach ASC, informacji nadesłanych etc)
- do wpisywania form nazwisk wynikających z dopisków o zmianie nazwiska
- inne (wątpliwości przy odczycie, niezgodności, różnice w interpretacji etc)
11. pole płeć - moim zdaniem zbędne, za duży nakład czasu w stosunku do efektów
12. pole miejscowość - nie wypełnialiśmy (większość aktów, które indeksowaliśmy dotyczyła tej samej miejscowości) - jeśłi ma identyfikować parafię/oddział USC moim zdaniem za mało. Także różnice w nazewnictwie prowadzą do niejednoznaczności
13. pole plik - zbytnio wiąże bazę indeksów (tekstową) z konkretnym uporządkowaniem bazy kopii. W przypadku kilku egzemplarzy baz kopii aktów SC i różnicach zastosowanych przy nazwaniu konkretnego pliku zawierającego daną kopię -będą nieporozumienia wynikające z niejednoznaczności. do dyskusji system nazewnictwa. Co do zasady: coś powinno być, jednak nie powinny tego wypełniać osoby , które posiadają umiejętności odczytu nazwisk. Te umiejętności powinny być wykorzystane stricte do rzeczy najbardziej merytorycznych
14. pole uwagi: minimalna zawartość -dookreślenie użytych nazwisk i veli, wymaga standaryzacji - ustalenia formy podstawowych informacji. Przykładowo wyznaczenia form wyjaśnienia w uwagach uwaga o aktach chrztów /konwersji, wieku zmarłego etc. Pozostała (poza wymaganymi podstawowymi) zawartość zależna od chęci indeksującego. Nie cała zawartość tego pola była weryfikowana. Przykłądaowo jeśłi wpisujący w uwagach wprowadzał dopiski dot. małżeństwa czy zgonu, bądź inne - nie były one weryfikowane
15 pole data: moim zdaniem w przypadku, gdy akty są numerowane -zbędne. W większości ksiąg ograniczaliśmy się do wpisania rocznej daty urodzenia, jeśli była inna niż rok księgi. Czasem zawiera datę dzienną urodzenia w przypadku dzieci z rodziców nieznanych. Postulowałbym niewypełnianie w ogole , gdy akt można zidentyfikowac po numerze. Do wykorzystania w przypadku ksiąg, gdzie zapis jest identyfikowalny jedynie po dacie. Jednak wtedy nie będzie to data urodzenia czy zgonu a data sporządzenia aktu. Do dyskusji
16.pole imiona ojca. Imiona oddzielone spacją. Patrz uwagi o unifikacji imion. W przypadku ojców nieznanych (tj wyraźnej informacji w treści aktów, że ojciec nieznany oznaczaliśmy "NN", w przypadkach opuszczeń rzadkich ale się zdarzały pole pozostawialiśmy puste
17. pole imiona matki: patrz p. 16 ad NN
18. pole nazwisko rodowe matki. ad NN patrz p. 16. Dodtakow przy więcej niż jednej formie nazwiska - rozdzielone spacją w tej samej komórce/polu
19 pole ID1 - do dyskusji (z uwagi na nieindywidualny charakter opracowania stosowaliśmy jeden grupowy ID)
20 pole ID2 - do dyskusji patrz p 19
I.B. Uwagi dotyczące formatki aktów małżeństw:
nie omawiam poszczególnych pól - występuje analogia. Podstawowe różnice są przy velach wynikających z poprzednio noszonych nazwisk młodych (w przypadkach kobiet rozwódki i wdowy) oraz uwagach z tego wynikających
I.C. Multiplikacja rekordów "zvelowanych"
Bazy zawierające dane dot aktów chrztów/urodzeń zawierają ok 5% więcej rekordów niż liczba aktów. Wynika to z powielenia rekordów. W przypadku, gdy zaistnial vel powtarzaliśmy rekord w odwrontym układzie, aby przy prostym przeglądaniu rekordów (posortowanym po polu nazwisko) można było odnaleźć akt zarówno po zawartości pola "vel jak i nazwisko. W przypadku aktów małżeństw veli było więcej (drugie i trzecie małżeństwa wdów i rozwódek i kolejna zmiana nazwiska) stąd współczynnik był większy niż 5% z chrztów w zależności od roku - sięgał i ponad 100%! (opracowanie ślubów z parafii Św. Krzyża "hybrydowe" dane z pierwopisu ASC i z księgi trydenckiej).
Zgony "gdzieś pośrodku" więcej veli niż w urodzeniach, mniej niż w małżeństwach
I.X Podsumowanie części dot. formatki:
niektóre z pól uważam za zbędne (lp, nazwisko0, płeć, miejscowość, data) przy wypełnianiu danymi z ASC po 1826 z zaboru rosyjskiego
niektóre wymagają doprecyzowania stosowanych zapisów lub ponownej dyskusji (formy imion, plik, uwagi,)
brak w formularzy jednoznacznej identyfikacji zespołu/jednostki akt (te przekazywaliśmy w nazwie pliku i uwagach). Będzie to poważny problem, gdy pojawią się inne księgi z tego samego roku z tego samego obszaru geograficznego (inne wyznanie ew. różnice pierwopis/wtóropis ASC tego samego wyznania). Postulowałby wprowadzenie jednoznacznego określenia miejsca wytworzenia. Moim zdaniem współrzędnych geograficznych siedziby (parafia lub inne miejsce wytwarzania aktów stanu cywilnego). Dyskusja o tym wykracza poza przedmiot opracowania.
II. Uwagi ogólniejsze:
Praktyka Warszawskiego Zespołu Indeksacyjnego wskazuje na konieczność patrzenia szerzej na bazę danych niż opisany wyżej formularz. Tj
II.A. Format danych a wyszukiwarka danych.
Krótko (temat znany osobom zajmującym się bazami a ogólniej IT czy informacją w ogóle, reszta się znudzi:)
O tego czym i jak będzie przeszukiwana baza zależy co i jak będzie do niej wprowadzone. I odwrotnie - to co jest w bazie ma wpływ czym i jak będziemy szukać.
Stąd zagadnienie multiplikacji rekordów, veli, rozdzielenia nazwisk dwuczłonowych, wpisywania różnych dorm domo matek w jednym pole etc.
Postulowałbym takie przygotowanie baz, aby prac w nich była możliwa zarówno dla najprostszych form (typu przeglądanie posortowanych rekordów) jak i bardziej złożonych (wyszukiwarki oparte na SOUNDEX-ie, może w przyszłości na sieciach neuronowych).
Np ograniczenie ilości rekordów w wyniku wyszukania powinno być rozwiązywane na poziomie wyszukiwarki nie bazy! Czyli jeśli istnieją przesłanki aby wynikiem kwerendy nie były powielony rekordy to eliminacje tych zmultiplikowanych winna wykonywać wyszukiwarka ew nawet i nakładka na nią
II.B. Opisanie bazy danych
Moim zdaniem, do bazy należy dołączyć informację o wersji danych (np poprzez datę ostatniej aktualizacji danego zbioru lub podzbioru danych), informacja ta winna być dostępna w wyniku wyszukiwania (produkcie stworzonym przez wyszukiwarkę)
II.C. Inne: pomoce związane etc
Należałoby poważnie przedyskutować formę elektronicznego inwentarza (wraz ze wstępem) opracowanych zasobów. Nie "elektronicznej wersji papierowego inwentarza" a dokumentu wykorzystującego możliwości hypertesktu, odwołującego się do źródeł zewnętrznych, nie opartego o system hierarchiczny. Zawierające informacje o "sąsiadujących" zespołach ASC (geograficznie w oparciu współrzędne geograficzne), czasowo (także o przekształceniach nazw etc), o innych wyznaniach) i nie tylko ASC (powiązanych z danym terenem jednostkach i zespołach np notariat, księgi
meldunkowe, inne)
część dotycząc technicznego prowadzenia baz/administrowania
1. Niezbędny jest moim zdaniem moduł (działający lokalnie - przed wysłaniem bazy na serwer) do badania zgodności "formalnej" tj kolejności pól, obecności znaków zabronionych , być może także integralności /zupełności danego fragmentu bazy (czy wszystkie rekordy zostały wprowadzone etc).
2. Niezbędne jest spopularyzowanie w formie nie budzącej wątpliwości (opisu projektu?):
- sposobów przekazywania danych komu personalniewysyłać (postuluję dwie niezależne drogi typu dwa maile. inof "admin@genealodzy.pl" to za mało. Z imienia i nazwiska -kto administruje danymi (w danym okresie/zakresie). kwestia potwierdzenia otrzymania etc
- zasad wprowadzania i weryfikacji obowiązujących nadsyłających
- zasad przekazywani informacji co i kiedy będzie robione
- zasad przekazywania informacji o stanie zaawansowania prac , ewentualnych opóźnieniach
- informacji o brakach w materiałach źródłowych i wpływie na publikacje (np czy czekamy z publikacją na dorobienie zdje ć 2 aktów gdy 1000 jest gotowe)
- trybie zgłaszania błędów - zarówno w indeksach jak i brakach w publikowanych kopiach
Rozdzieliłem , bo to trochę inny zakres niż na spotkanie NDAP-PTG:)
pozdrawiam
Włodek Sroczyński
to nie ma być kropka nad i a początek , więc zachęcam do dyskusji