Serwis Polskiego Towarzystwa Genealogicznego

flag-pol flag-eng home login logout Forum Fotoalbum Geneszukacz Parafie Geneteka Metryki Deklaracja Legiony Straty
czwartek, 28 marca 2024

longpixel


Napisz nowy temat   Odpowiedz do tematu
Zobacz poprzedni temat Wersja gotowa do druku Zaloguj się, by sprawdzić wiadomości Zobacz następny temat
Autor Wiadomość
Aftanas_JerzyOffline
Temat postu:   PostWysłany: 10-07-2012 - 19:09
Sympatyk


Dołączył: 15-04-2009
Posty: 3289

Status: Offline
Sroczyński_Włodzimierz napisał:
pomimo opinii, że zapotrzebowanie równe zeru i niszowości problemu podtrzymuję zainteresowanie:
jeśli ktoś stworzy coś co w trybie wsadowym lokalnie, nie w chmurze będzie sprawnie "przerzucać" plik źródłowy cyrylicy (różnie kodowany) na "nasz" - zastosowanie się znajdzie


Włodku,
o jaki "nasz" Ci chodzi? Czy chodzi o zapisanie znaków cyrylicy rosyjskiej w systemie znaków języka polskiego (czyli czy np znak 'ш' ma być zapisany jako 'sz', a może 'sh' lub 'sch'? ). Nie ożywam tu terminów transkrypcja i transliteracja, bo ich znaczenia są często mylone.

_________________
Serdeczne pozdrowienia
Jerzy Aftanas
 
 Zobacz profil autora Wyślij prywatną wiadomość MSN Messenger  
Odpowiedz z cytatem Powrót do góry
Sroczyński_WłodzimierzOffline
Temat postu:   PostWysłany: 10-07-2012 - 19:20
Członek PTG


Dołączył: 09-10-2008
Posty: 31599
Skąd: Warszawa
Status: Offline
a jak "nasz użytkownik" szuka?
Tschernienko czy Czernionko wpisze szukając Черненко?

Schmitd musi się liczyć (i na ogół się liczy) z zapisem Szmitdt Szmit
Szymański szukać po Tschimanski raczej nie będzie
zresztą, nie ma powodu eliminować żadnego wynikowego, mogą być wersje do wyboru, to nie jest problem istotny ta alternatywa

_________________
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Andrzejowski_RyszardOffline
Temat postu:   PostWysłany: 10-07-2012 - 19:54
Sympatyk


Dołączył: 22-05-2011
Posty: 95
Skąd: Tarnowskie Góry
Status: Offline
Sroczyński_Włodzimierz napisał:
pomimo opinii, że zapotrzebowanie równe zeru i niszowości problemu podtrzymuję zainteresowanie:
jeśli ktoś stworzy coś co w trybie wsadowym lokalnie, nie w chmurze będzie sprawnie "przerzucać" plik źródłowy cyrylicy (różnie kodowany) na "nasz" - zastosowanie się znajdzie


Co prawda nie lokalnie i wsadowo, ale o podobny efekt chodzi? http://soundex.andrzejowski.tgory.pl/in ... n&start=on
Uwaga! Strona może się dość wolno ładować, ale w końcu załadować się powinna. Smile

_________________
Pozdrawiam
Rysiu Andrzejowski
 
 Zobacz profil autora Wyślij prywatną wiadomość Gadu-Gadu MSN Messenger  
Odpowiedz z cytatem Powrót do góry
Aftanas_JerzyOffline
Temat postu:   PostWysłany: 10-07-2012 - 20:08
Sympatyk


Dołączył: 15-04-2009
Posty: 3289

Status: Offline
Sroczyński_Włodzimierz napisał:
a jak "nasz użytkownik" szuka?
Tschernienko czy Czernionko wpisze szukając Черненко?

Schmitd musi się liczyć (i na ogół się liczy) z zapisem Szmitdt Szmit
Szymański szukać po Tschimanski raczej nie będzie
zresztą, nie ma powodu eliminować żadnego wynikowego, mogą być wersje do wyboru, to nie jest problem istotny ta alternatywa


Znane mi systemy transliterują cyrylicę (niektóre wg 8 standardów), ale nie transkrybują na polskie zapisy odpowiedników znaków.
Np. najnowszy system dla ukraińskiej cyrylicy >>> http://translit.kh.ua/#latynka U dołu można przewijać i wybierać standardy (naukowy, angielski, niemiecki, internetowy). Coś podobnego jest dla rosyjskiej cyrylicy.

_________________
Serdeczne pozdrowienia
Jerzy Aftanas
 
 Zobacz profil autora Wyślij prywatną wiadomość MSN Messenger  
Odpowiedz z cytatem Powrót do góry
Sroczyński_WłodzimierzOffline
Temat postu:   PostWysłany: 10-07-2012 - 20:47
Członek PTG


Dołączył: 09-10-2008
Posty: 31599
Skąd: Warszawa
Status: Offline
Ryszardzie: podobny, tyle że bardziej elastycznie zarówno co do
formy wprowadzania (z plików o różnym formacie, kodowaniu etc..niekoniecznie musi być automatyczne rozpoznawanie)
efektów (czyli nie czarna skrzynka, ale z możliwością wprowadzania modyfikacji - gdy w trakcie prac okazałoby się, soundex należy zmodyfikować to żeby było można...zewnętrznym plikiem 'tablica kodowa/wymian'?
produktu (do pliku o określonym formacie i co do kodowania i formy bazodanowej/układ pól a nawet typu/rozszerzenia

ot moduł modyfikowalny dla osób, które mogłyby spisać z bukw pisanych (cyrylicy i obecnej i przed reformą) na 'cyrylicę obecną/poprzednią' pozostawiając zamianę danych spisanych w cyrylicy na formę najbardziej użyteczną dla użytkowników baz procesowi quasiautomatycznemu

Jerzy: toteż nie poszukuję odpowiedzi na "gdzie mogę znaleźć" a na pytanie "kto napisze"
nie tylko do wypełniania tabelek metrykalnych by się przydało, coraz więcej tekstów OCRerowanych bukwiastych z nazwiskami w sieci jest, "klientów" i na wtyczkę do przeglądarki byłoby..niepomijalnie dużoSmile

_________________
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Andrzejowski_RyszardOffline
Temat postu:   PostWysłany: 10-07-2012 - 21:38
Sympatyk


Dołączył: 22-05-2011
Posty: 95
Skąd: Tarnowskie Góry
Status: Offline
To co zaprezentowałem, to test i połączenie dwóch algorytmów, nie wiem jaka jest ich fachowa nazwa, ja je nazywam "pseudofonetycznymi", by je zaimplementować w pewnej bazie. Wiem, że nie jest to do końca to, o co Ci chodziło.
Zresztą wyszukiwanie nazwisk poprzez wpisywanie ich cyrylicą nie było w sobie. To możliwości algorytmu Beider-Morse Phonetic Matching (BMPM): http://stevemorse.org/phoneticinfo.htm
W obecnej jego wersji obsługuje następujące "niełacińskie" alfabety: obecna cyrylica, grecki, hebrajski. Z alfabetów opartych na alfabecie łacińskim mamy: czeski, duński, angielski, francuski, niemiecki, grecki "latin", węgierski, włoski, polski, portugalski, rumuński, rosyjski "latin", hiszpański i turecki. Modyfikacja i rozszerzenie algorytmu jest możliwe ale dość karkołomne. To ze względu na to, że jest on bardzo rozbudowany i dość skomplikowany. Sam parę modyfikacji w moich testach wprowadziłem (np. by Mickievicius był Mickiewiczem), udało się, choć logiki algorytmu wciąż nie umiem do końca ogarnąć. Smile
Drugi algorytm, SoundexPL_2 jest zmodyfikowaną przeze mnie wersją algorytmu znalezionej w sieci pracy magisterskiej: http://hektor.umcs.lublin.pl/~mikosmul/ ... matyka.pdf
Wracając do Twojego pomysłu, Włodzimierzu, sprawa ciekawa, warta przemyślenia, ale dopiero za jakiś czas, jaki nie potrafię się w tej chwili określić. Muszę najpierw pozamykać parę rozpoczętych rzeczy. Ale programować umiem i lubię, a zagadnienie ciekawe więc będę je miał w pamięci. Smile

Drobna uwaga, jakby ktoś chciał się bawić stronką, którą wcześniej zaprezentowałem. W bazie mam nazwiska od A do V, nic więc dziwnego jeśli nie znajdzie np. pana Zakrzewskiego. Smile

_________________
Pozdrawiam
Rysiu Andrzejowski
 
 Zobacz profil autora Wyślij prywatną wiadomość Gadu-Gadu MSN Messenger  
Odpowiedz z cytatem Powrót do góry
Sroczyński_WłodzimierzOffline
Temat postu:   PostWysłany: 10-07-2012 - 21:50
Członek PTG


Dołączył: 09-10-2008
Posty: 31599
Skąd: Warszawa
Status: Offline
SOUNDEX był modyfikowany we WZIerniku (o którego reaktywacji Sebastian Gąsiorek wspomniał naście minut temu w "problematycznym wątku metrykalnym)
a modyfikowany na podstawie dość unikalnej tj zestawienia różnych form zapisu nazwisk tych samych osób z bazy zawierającej kilkaset tysięcy rekordów, ASC rzymskokatolickie głównie warszawskie, droga połowa XIX i początek XX w.)
materiału porównywalnego chyba wcześniej nie było (jak i chętnych do zbadania "soundexowej" tego dość wąskiego zakresu)
od tego czasu trochę mojżeszowych, ewangelickich i prawosławnych materiałów przybyło, więc byłoby czym uzupełnić
to nie jest bardzo palące, ale może z Sebastianem przysiądziecie kiedyś...bo dość unikalna sprawa - jest materiał, który daje podstawy do mówienia o tym, że modyfikacja SOUNdexa (do tych zastosowań) będzie solidnie umocowana w rzezcywistości, w realiach, oparta na dużym materiale porównawczym
czyli nie tylko "zastąpmy/wymieńmy bo zdaje się, że tak mogli robić" ale "jest X przykładów że to1 było zastępowane na to2"
a czy kwestia że było tak, bo powinno być..,nieistotne chyba:)
jeśli nawet były to błędnie stosowane "zasady" albo i błędy pisarskie - to i tak dobrze byłoby mechanizm identyfikowania "par" (czasem "piątek" szóstek") zbitek literowych wymienianych na inne zidentyfikować

ja nawet zastanawiałem się czy nie byłoby ciekawie pokusić się nie o rozpoznanie procesów szy-schi-shi-szchy-shy etc a pozostawić to sieciom, bez wnikania "dlaczego?"Smile jak działa (wysoka korelacja) to działa i już..niech samo się uczy;)

_________________
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Andrzejowski_RyszardOffline
Temat postu:   PostWysłany: 10-07-2012 - 22:25
Sympatyk


Dołączył: 22-05-2011
Posty: 95
Skąd: Tarnowskie Góry
Status: Offline
Do takich modyfikacji jakie opisujesz, dającym więcej swobody w modyfikacji, zdaje się być podejście tego algorytmu BMPM. W wielkim skrócie, jak to działa.

Dla każdego generowany jest pewien zestaw kodów, np.
Andrzejowski => anziiofski anziiufski onziiofski onziiufski andriiofski andriiufski ondriiofski ondriiufski andrziiofski andrziiufski ondrziiofski ondrziiufski
Później porównując te kody z kodami, w moim przypadku w bazie, otrzymujemy wyniki, jeśli inne nazwisko ma jeden lub więcej kodów pasujących.

Dokonując mądrych (w odpowiedni sposób) zmian w algorytmie możemy rozszerzać listę generowanych kodów. Oczywiście by wszystko działało jak należy trzeba też powtórnie wygenerować kody w bazie, co przy wielu rekordach zajmuje trochę czasu. Sad Ale to akurat moje podejście do problemu, niekoniecznie optymalne.

_________________
Pozdrawiam
Rysiu Andrzejowski
 
 Zobacz profil autora Wyślij prywatną wiadomość Gadu-Gadu MSN Messenger  
Odpowiedz z cytatem Powrót do góry
Aftanas_JerzyOffline
Temat postu:   PostWysłany: 11-07-2012 - 00:54
Sympatyk


Dołączył: 15-04-2009
Posty: 3289

Status: Offline
Włodku i Rysiu,
w taki to sposób dyskusja przeszła na wyższy teoretycznie i praktycznie poziom w stosunku do tematu , który zainicjowałem jako zwykły komunikat o jednym z prostych w użyciu narzędzi jakimi są gotowe klawiatury wirtualne. Proponuję więc zamknąć ten temat, a ponieważ sprawa przez Włodka przedstawiona i podjęta kompetentnie przez Ryszarda jest ważna i potrzebna, otwórzcie razem lub pojedynczo nowy temat, pod nową nazwą i ze wstępem precyzującym przedmiot, z problemami do dyskusji na forum i z ewent. wnioskami organizacyjnymi.

_________________
Serdeczne pozdrowienia
Jerzy Aftanas
 
 Zobacz profil autora Wyślij prywatną wiadomość MSN Messenger  
Odpowiedz z cytatem Powrót do góry
Wyświetl posty z ostatnich:     
Skocz do:  
Wszystkie czasy w strefie GMT - 12 Godzin
Napisz nowy temat   Odpowiedz do tematu
Zobacz poprzedni temat Wersja gotowa do druku Zaloguj się, by sprawdzić wiadomości Zobacz następny temat
Powered by PNphpBB2 © 2003-2006 The PNphpBB Group
Credits
donate.jpg
Serwis Polskiego Towarzystwa Genealogicznego zawiera forum genealogiczne i bazy danych przydatne dla genealogów © 2006-2024 Polskie Towarzystwo Genealogiczne
kontakt:
Strona wygenerowana w czasie 0.522746 sekund(y)