Genealodzy.PL Genealogia

Indeksacja metryk - projekty PTG - Geneteka - Nazwiska równoważne na potrzeby wyszukiwania

rafal_rr - 24-05-2023 - 12:34
Temat postu: Geneteka - Nazwiska równoważne na potrzeby wyszukiwania
Dzień dobry wszystkim.
Jest na forum osobny wątek odnośnie imion równoważnych: https://genealodzy.pl/PNphpBB2-viewtopi ... -asc.phtml

Chciałbym się dowiedzieć, gdzie można zgłaszać listę nazwisk, które występują w aktach jako równoważne, ale wyszukiwarka geneteki nie ma o tym wiedzy?

Pozdrawiam,
Rafał
Giemza_Karol - 25-05-2023 - 21:46
Temat postu: Geneteka - NAZWISKA równoważne na potrzeby wyszukiwania
W parafii, którą indeksuję (lata 40te XIX w.) właśnie pojawili się koloniści niemieccy.
W aktach urodzin jest raz Szmitke, a raz Kowalski, a potem znowu Szmitke.
Również Sztejn występije jako Sztajn i też jako Kamiński.

Nie wiem czy dodanie z automatu "Kowalski" do wyszukiwania "Szmit" nie spowoduje lawiny wyników - niekoniecznie właściwych.

Pozdrawiam
Karol Giemza
pawel_bo - 27-01-2025 - 22:39
Temat postu: Geneteka - NAZWISKA równoważne na potrzeby wyszukiwania
Wyszukiwarka Geneteki traktuje obecnie jako równoważne nazwiska w formie męskiej i żeńskiej kończące się przyrostkami -cki/-cka oraz -ski/-ska, zaś taka równoważność nie występuje w przypadku form nazwisk kończących się przyrostkiem -dzki/-dzka.

Czy możliwe byłoby wprowadzenie modyfikacji do wyszukiwarki powodującej traktowanie nazwisk w formach męskich i żeńskich kończących się przyrostkiem -dzki/-dzka jako równoważne?

Pozdrawiam,
Paweł
Kamil0123 - 28-01-2025 - 07:12
Temat postu: Geneteka - NAZWISKA równoważne na potrzeby wyszukiwania
Panie Karolu

Genealodzy indeksujący tę parafię mający tam przodków doskonale wiedzą jakie jest nazwisko rodowe ich przodków .Ja zawsze tego typu poprawki robię w programie do wyszukiwania przodków .Zapisy skrybów a nazwisko rodowe to dwie różne sprawy .
Najważniejsze jest aby w indeksie było nazwisko takie jakie jest w metryce.Interpretację najlepiej zna mający tam przodków . On sobie doskonale dopowie jakie nazwisko ma być .
Pozdrawiam
Kamil
SlawomirB - 28-01-2025 - 10:34
Temat postu:
Nazwiska "równoważne" można wpisać w pole "vel".
Markos - 29-01-2025 - 13:53
Temat postu:
Jeżeli to "vel" widnieje również w akcie. W przeciwnym wypadku wprowadzi to tylko niepotrzebne zamieszanie.
semux - 29-01-2025 - 15:56
Temat postu:
Mi brakuje:
Zaremba i Zaręba

pozdrawiam
Sergiusz
SlawomirB - 29-01-2025 - 18:10
Temat postu:
Markos napisał:
Jeżeli to "vel" widnieje również w akcie. W przeciwnym wypadku wprowadzi to tylko niepotrzebne zamieszanie.

Dodatkowe formy nazwiska zapisane w kolumnie "vel" w wynikach wyszukiwania pojawiają się tylko w dymkach - więc niczego nie zamieszają, a jedynie pozwolą na wyszukanie, czy podpowiedź indeksującego, jakie jeszcze formy danego nazwiska są w tej parafii czy dla danej osoby.
Nazwiska mają jeszcze trzecią kolumnę - czyli forma taka jak w indeksie dla dziwnie zapisanych nazwisk - i ona też pojawia się w tym samym dymku co nazwiska w kolumnie "vel".
Markos - 30-01-2025 - 00:17
Temat postu:
Jeżeli użytkownik trafi na indeks, w którym widnieje "vel", a po przejściu do skanu nie jest w stanie zlokalizować tego "vel" w akcie, to jak najbardziej powoduje to zamieszanie, bo:
1.) skąd to "vel" skoro w akcie nie ma o tym słowa?
2.) Na jakiej podstawie autor indeksu to "vel" dodał?
3.) Skoro to inwencja autora indeksu to czy na pewno dobrze wydedukował?
4.) A może się pomylił i miało to dotyczyć poprzedniego/następnego indeksu?

Czasem akty są wybrakowane, np. pisarz zapomniał wpisać nazwiska rodowego matki dziecka. Przecież można by odnaleźć akt ślubu danej pary i w indeksie to nazwisko wpisać. Ale jednak tak się nie robi, z prostej przyczyny: to jest indeks tego konkretnego aktu, tylko i wyłącznie.
rafal_rr - 30-01-2025 - 07:03
Temat postu:
Jako autor wpisu, pozostawionego bez odpowiedzi i odkopanego po dłuższym czasie, czuję się zobowiązany rozwinąć moją myśl. Zakładając wątek chciałem poznać JAKI JEST MECHANIZM stojący za tym, że wpisując w genetece nazwisko, wyświetlają się inne nazwiska, będące (teoretycznie) obocznościami tego nazwiska.

Przykłady: wpisując nazwisko moich przodków "Wieteska", nie wyświetlają się indeksy z nazwiskiem "Wieteszka", będące zapisem tego nazwiska w XIX wieku (par. Krzemienica, Łódzkie). Wyświetlają się natomiast z nazwiskami "Witek", "Witczak", "Witkowski", które w mojej rodzinie nie były nigdy innymi formami nazwiska Wieteska.
Tak samo z innym nazwiskiem moich przodków, które tu już zostało wspomniane: Zaręba/Zaremba.

I tak miałem zamiar odkopać ten wątek, skrupulatnie sobie notuję listę takich nazwisk z mojego drzewa, mam już ponad 50 linijek. Jeśli to tylko kwestia wprowadzenia do bazy, to wyślę


Pozdrawiam,
Rafał
Kamil0123 - 30-01-2025 - 09:21
Temat postu:
Panie Rafale

Mówiąc szczerze mam za niską inteligencję ale za Chiny nie wiem o co chodzi w tym poście .
Co Pan chce wysyłać do bazy ? To baza indeksacji , czyli wpisów brzmienia metryk .
Tak indeksujący widział tekst i tak wiernie wpisał .
Nie interpretuje się nazwisk ale wpisuje się tak jak indeksujący je widzi .
Pozdrawiam

Kamil
rafal_rr - 30-01-2025 - 10:04
Temat postu:
Kamil0123 napisał:
Panie Rafale

Mówiąc szczerze mam za niską inteligencję ale za Chiny nie wiem o co chodzi w tym poście .
Co Pan chce wysyłać do bazy ? To baza indeksacji , czyli wpisów brzmienia metryk .
Tak indeksujący widział tekst i tak wiernie wpisał .
Nie interpretuje się nazwisk ale wpisuje się tak jak indeksujący je widzi .
Pozdrawiam

Kamil


Panie Kamilu.

To może krok po kroku, najpierw chciałbym dowiedzieć się jak działa wyszukiwanie w genetece. Pokażę na przykładzie:
- wybieramy łódzkie
- wybieramy parafię Lubochnia
- wpisujemy nazwisko "Wieteska"
- pierwszych kilkadziesiąt indeksów to indeksy aktów z nazwiskiem "Witek" - nie ma ani w akcie, ani w żadnej komórce indeksu nazwiska "Wieteska".

Dlaczego geneteka zwraca te indeksy?

Pozdrawiam,
Rafał
Adamus_P - 30-01-2025 - 10:08
Temat postu:
Wygląda na to, że ż wyszukiwanie imion i wyszukiwanie nazwisk to są zupełnie dwa różne mechanizmy.

Prawdopodobnie w dużym uproszczeniu:
Po podaniu w wyszukiwarce imienia X, do bazy wysyłany jest komunikat:
"Znajdź osoby, które mają IMIĘ = X lub IMIĘ = (imię równoważne imienia X)".

Te imiona równoważne prawdopodobnie są przechowywane w dodatkowej tabeli bazy danych.

Natomiast podczas podania w wyszukiwarce nazwiska Y, do bazy danych wysyłany jest komunikat:
"Znajdź osoby, dla których PRZETWORZONY(Y) mieści się w PRZETWORZONY(NAZWISKO) lub w PRZETWORZONY(NAZWISKO_VEL)".

Przykładowo dla Y= KOWALSKI, PRZETWORZONY(Y) może się równać KOWAL.
I wtedy w wynikach dostajemy osoby, które mają na nazwisko z kawałkiem tekstu "KOWAL", typu Kowalski, Kowal. Przy czym nie znam szczegółów tego, jak dokładnie działa algorytm "PRZETWORZONY" i jakie końcówki odcina, a jakie nie. Może nie ogranicza się tylko do odcinania końcówek, ale również do zamiany pojedynczych znaków i dzięki temu wpisując "Wójcik", otrzymamy też "Wujcik".

Niezależnie od tego co ten algorytm ma dokładnie w bebechach, to wniosek jest przede wszystkim taki, że w przeciwieństwie do imion, przy nazwiskach nie ma czegoś takiego jak lista nazwisk równoważnych, a podczas zwracania wyników wykorzystuje się stopień podobieństwa porównywanych fragmentów tekstu.

Jak szukać by znaleźć? Być kreatywnym podczas korzystania z Geneteki i wprowadzać do wyszukiwarki różne kombinacje brzmienia badanego nazwiska.
Kamil0123 - 30-01-2025 - 10:33
Temat postu:
Pani Patrycjo

To jest banalne w każdym Excelu gdzie możemy filtrować do woli w poprzek i jak się chce i wymarzy .
Nie mówiąc o dziesiątkach specjalnych programów do wyszukiwania przodków amatorskich i komercyjnych .
Przepraszam nigdy nie wyszukiwałem bezpośrednio w bazie , więc nie znam się .
Pozdrawiam

Kamil
rafal_rr - 30-01-2025 - 23:33
Temat postu:
Adamus_P napisał:
Wygląda na to, że ż wyszukiwanie imion i wyszukiwanie nazwisk to są zupełnie dwa różne mechanizmy.

Prawdopodobnie w dużym uproszczeniu:
Po podaniu w wyszukiwarce imienia X, do bazy wysyłany jest komunikat:
"Znajdź osoby, które mają IMIĘ = X lub IMIĘ = (imię równoważne imienia X)".

Te imiona równoważne prawdopodobnie są przechowywane w dodatkowej tabeli bazy danych.

Natomiast podczas podania w wyszukiwarce nazwiska Y, do bazy danych wysyłany jest komunikat:
"Znajdź osoby, dla których PRZETWORZONY(Y) mieści się w PRZETWORZONY(NAZWISKO) lub w PRZETWORZONY(NAZWISKO_VEL)".

Przykładowo dla Y= KOWALSKI, PRZETWORZONY(Y) może się równać KOWAL.
I wtedy w wynikach dostajemy osoby, które mają na nazwisko z kawałkiem tekstu "KOWAL", typu Kowalski, Kowal. Przy czym nie znam szczegółów tego, jak dokładnie działa algorytm "PRZETWORZONY" i jakie końcówki odcina, a jakie nie. Może nie ogranicza się tylko do odcinania końcówek, ale również do zamiany pojedynczych znaków i dzięki temu wpisując "Wójcik", otrzymamy też "Wujcik".

Niezależnie od tego co ten algorytm ma dokładnie w bebechach, to wniosek jest przede wszystkim taki, że w przeciwieństwie do imion, przy nazwiskach nie ma czegoś takiego jak lista nazwisk równoważnych, a podczas zwracania wyników wykorzystuje się stopień podobieństwa porównywanych fragmentów tekstu.

Jak szukać by znaleźć? Być kreatywnym podczas korzystania z Geneteki i wprowadzać do wyszukiwarki różne kombinacje brzmienia badanego nazwiska.


Myślę, że wątpliwości rozwiałaby osoba zajmująca się kodem geneteki. Mogłaby po prostu spojrzeć w implementację i wytłumaczyć na forum jak to w końcu działa. Czy ktoś ma kontakt?
Scowron - 31-01-2025 - 00:23
Temat postu:
Nawet jeśli funkcja/algorytm Soundex nie jest użyty/-a w bazie Geneteki tylko inny mechanizm to polecam o tym poczytać. Poniżej kawałek tego co zapodał Chat GPT.

Funkcja Soundex opiera się na algorytmie fonetycznym opracowanym na [początku XX wieku przez Robert C. Russell i William S. Church, którzy pracowali nad poprawą sposobu kodowania słów w kontekście analizy nazwisk i genealogii. Celem algorytmu było stworzenie systemu kodowania, który pozwalałby na porównywanie słów na podstawie ich wymowy, a nie pisowni, co miało ułatwić porównywanie podobnych dźwiękowo słów, szczególnie w sytuacjach, gdzie błędy ortograficzne były częste.

Podpytując o logikę otrzymamy proste przykłady jak działa metoda.

Piotrek
Wszystkie czasy w strefie CET (Europa)
Powered by PNphpBB2 © 2003-2006 The PNphpBB Group
Credits