|
|
|
Czym są indeksy i do czego służą? cz.1 |
Dodano: piątek, 03 maja 2024 - 13:58 Autor: GeneRys |
Uważam, że musimy sobie po raz kolejny odpowiedzieć na pytanie:
„czym indeksy genealogiczne powinny być a czym ze względów obiektywnych nie będą”.
Mam świadomość, że swoja otwartą wypowiedzią mogę zakłócić "odwieczny porządek" i "ustalone standardy" dotyczące tematu indeksowania prezentowane na forum przez uczestników PTG.
Na wstępie muszę określić swoje własne - subiektywne rozumienie indeksacji zbioru danych - widziane z perspektywy emerytowanego inżyniera IT ze sporym doświadczeniem zawodowym w przetwarzaniu masowych danych o skomplikowanych strukturach.
Wbrew temu co twierdzą - niestety liczni uczestnicy forum - podmiotem indeksowania są OSOBY znane z imienia i nazwiska a nie ponumerowane lub bez numeru akty metrykalne z zapisanymi nie zawsze poprawnymi informacjami. Tak więc pierwotną informacją tzw. kluczem poszukiwań są nazwiska, imiona, miejsca (parafie) i daty a nie nr aktów, które są dopełnieniem informacji
Osobiście jestem zwolennikiem, pełnej indeksacji tj. takie w której zwarte jest, jak najwięcej informacji bez konieczności sięgania do oryginalnego aktu niezrozumiałego dla przeciętnego użytkownika. Sam też korzystam z tych indeksów przy zachowaniu ostrożności .
Tu przy okazji muszę wspomnieć o trochę kuriozalnej formie indeksacji z jaka się spotkałem na lokalnym portalu, gdzie indeks sprowadza się do rocznika (księgi nie zdarzenia), nazwiska i imienia w danej parafii i nr aktu, jeżeli istniał (akty łacińskie niejednokrotnie go nie posiadały) co przy braku daty zdarzenia stanowi info typu: „wiem ale nie powiem 😊”
Proszę się zastanowić: czy np. znana zapewne wszystkim książka telefoniczna (obszerny indeks) jest spisem numerów czy może raczej abonentów z przypisanymi im numerami telefonów? Jeżeli w tej książce nie odnajdziemy stosownej nazwy abonenta to czy losowo wybieramy numery abonentów tu metryk?
Podobnie książka adresowa kodów pocztowych w której w 99% szukamy kodu pocztowego dla znanego adresu a nie odwrotnie. I ponownie pytam, czy jeżeli nie znajdziemy pasującej nazwy miejscowości, ulicy itd. to będzie próbować wymyślać kod pocztowy – no, chyba nie!
Czy znajdzie się choć jedna osoba, która wykaże sens by np. zamiast personaliów naszych przodków najlepiej byłoby przedstawić diagram hierarchicznie uporządkowany rocznikami i ułożonych numerami spis (indeks) aktów metrykalnych naszych przodków a zainteresowani krewni nich sobie ich poszukają sami. Już widzę zachwyt i aplauz żyjących członków rodziny, na widok tak przedstawionego diagramu rodowodu :)
Dlaczego wręcz z uporem maniakalnym próbujemy sprowadzić sen tworzenia indeksu do poszerzonego spisu aktów metrykalnych wzorem rejestru alfabetycznego na końcu każdego rocznika w księdze?
|
|
Strona << | 1 | 2 | 3 | >>
Autor |
Komentarze
|
Komentarze
Sympatyk
____________
Od: Lip 02, 2006
Posty: 4513
|
Napisano:Maj 03, 2024 - 13:58
|
|
|
|
|
bielecki
Sympatyk
____________
Od: Paź 18, 2007
Posty: 512
|
Napisano:Maj 03, 2024 - 20:28
|
|
Tyle, że taki przez autora artykułu wyobrażony indeks nie będzie już indeksem, ale czymś w rodzaju krytycznego opracowania księgi. To byłoby nawet pożyteczne dla genealogów dzieło, jednak jego wykonanie należałoby powierzyć najtęższym głowom z naszego grona, które lata spędziły na analizie metrykaliów z danego terenu.
W rzeczywistości w ogóle nie ma na przykład czegoś takiego, jak "poprawny zapis/brzmienie nazwiska". To tylko pewien konstrukt, w który łatwo uwierzyć ludziom dzisiejszym, których personalia zapisane są cyfrowo, więc z definicji nie mogą podlegać odstępstwom od jednej jedynej formy. Tak kiedyś nie było, jak dobrze nam wiadomo.
Łukasz Bielecki
|
|
|
|
|
Sroczyński_Włodzimierz
Członek PTG
____________
Od: Paź 09, 2008
Posty: 34166
skąd:Warszawa
|
Napisano:Maj 03, 2024 - 20:43
|
|
"zapisane są cyfrowo, więc z definicji nie mogą podlegać odstępstwom od jednej jedynej form" nie ma takiej definicji i nigdy nie było. To mit. Lipa. Tak jak (skutecznie!) wmawiano w 30-40 lat temu "musi być bez polskich znaków bo t komputer" - tak i np dziś polskie (narodowo) nazwisko, które przeszło drogę mp z terenów CeCeCePi, cyrylicy i ukraińskiego alfabetu do "łacińskiej pisowni" od której zęby bolą - to nie konieczność, a wybór formatu/metody. Podobnie jak kobieta "ski". System informacyjny (a za nim informatyczny) nie musi wymuszać "jednej jedynej formy". Cyfrowy czy niecyfrowy.
Co do meritum - nie ma, Łukaszu, sporu. Indeks (także, a może przede wszystkim w IT) ma swoje znaczenie. I miał w latach 50, 60, 70 XX wieku. Zbiór indeksowany też. Jeśli zbiór jest produktem , to i tak niczego to nie zmienia. Indeksując zbiór indeksuje się zbiór:) nie to co stanowiło podstawę do jego wytworzenia. I tyle:)
No może warto dodać (też z teorii i praktyki nauk informacyjnych), że indeksów (różnych) do zbioru (niepustego o ile pamiętam) może być naprawdę naprawdę dużo.
|
_________________ Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module=MailUsers&op=main&touname=Sroczy%F1ski_W%B3odzimierz
|
|
|
|
semux
____________
Od: Kwi 20, 2023
Posty: 8
|
Napisano:Maj 03, 2024 - 23:14
|
|
Wydaje mi się, że już niedługo będzie można wykorzystać możliwości modeli językowych AI do opracowywania danych. Na dziś podstawowym problemem jest rozpoznanie tekstu, choć nie jest z tym tak źle np. https://www.transkribus.org - to jeszcze daleko do ideału. Ale jak już będziemy mieli treść dokumentu to możemy z niego wyciągać informacje.
Tu przykład możliwości ChatGPT w wersji 3.5 Podałem mu metrykę urodzenia mojego przodka o treści "Działo się w Piotrkowie dnia dwudziestego pierwszego stycznia tysiąc ośmset sześdziesjątego szóstego roku, o godzinie czwartej po południu stawił się Walenty Muszalski lat trzydzieści mający w obec Tomasza Ostrowskiego mularza i Mateusza Wodzińskiego wyrobnika obu z Piotrkowa po lat czterdzieści mających i okazał nam dziecię płci męskiej urodzone w Piotrkowie dnia oszegdajszego o godzinie piątej w Wieczór, z jego małżonki Julianny z Piotrowskich lat trzydzieści jeden mającej Dziecięciu temu na Chrzcie Św. dziś uroczyście odbytym nadane zostało imię Antoni Walenty a Rodzicami jego Chrzestnemi byli: Tomasz Ostrowski i Agnieszka Krzeminska. Akt ten stawającemu i swiadkom przeczytany, a że pisać nie umieją przez nas tylko podpisany został."
I zadawałem pytania: P: Czy ten tekst jest metryką ślubu? Odpowiedz tak lub nie. O: Nie.
P: Czy ten tekst jest metryką zgonu? Odpowiedz tak lub nie. O: Nie.
P: Czy ten tekst jest metryką urodzenia? Odpowiedz tak lub nie. O: Tak.
P: Jakiej płci było urodzone dziecko ? O: Urodzone dziecko było płci męskiej.
P: Podaj imiona i nazwiska rodziców O: Rodzicami dziecka byli Walenty Muszalski i Julianna Muszalska z domu Piotrowska.
P: Podaj imiona i nazwiska świadków O: Świadkami byli Tomasz Ostrowski i Mateusz Wodziński.
P: W jakim dniu urodziło się dziecko O: Dziecko urodziło się „dnia oszegdajszego o godzinie piątej w Wieczór”. Tekst wydaje się zawierać literówkę lub błąd w przepisywaniu; prawdopodobnie miało być napisane "dzisiejszego", co oznaczałoby, że dziecko urodziło się tego samego dnia, co zarejestrowano akt urodzenia, czyli 21 stycznia 1866 roku.
P: W jakim dniu urodziło się dziecko ? Podaj datę w formacie YYYY-MM-DD O: Dziecko urodziło się 1866-01-21.
P: Podaj wszystkie imiona dziecka i ustal jego nazwisko. Podaj tylko imiona i nazwisko. O: Imiona: Antoni Walenty, Nazwisko: Muszalski
P: Podaj imiona i nazwiska rodziców chrzestnych O: Imiona i nazwiska rodziców chrzestnych to Tomasz Ostrowski i Agnieszka Krzemińska.
P: Czy chrzestni lub któryś z nich był też podany jako świadek? O: Tak, w tekście wspomniano, że Tomasz Ostrowski był jednym z rodziców chrzestnych dziecka oraz jednym ze świadków aktu, który nie potrafił pisać, więc podpisał się.
Jak widać można wyciągać wszystkie informacje
Odpowiednie budowanie prompt'ów i będzie można budować bazy z danymi. Potem wyobrażam sobie, że model nakarmiony danymi z metryk, będzie wyszukiwał pokrewieństwa, znajdował błędy, odkrywał historię zmian nazwisk itp.
Pozdrawiam Sergiusz
|
|
|
|
|
Kliknij aby przejść do komentarzy na forum
|
|
|
|