Serwis Polskiego Towarzystwa Genealogicznego

flag-pol flag-eng home login logout Forum Fotoalbum Geneszukacz Parafie Geneteka Metryki Deklaracja Legiony Straty
czwartek, 28 marca 2024

longpixel


Napisz nowy temat   Odpowiedz do tematu
Zobacz poprzedni temat Wersja gotowa do druku Zaloguj się, by sprawdzić wiadomości Zobacz następny temat
Autor Wiadomość
jesiekOffline
Temat postu: Przegladanie kilkunastu tysiecy skanow metryk  PostWysłany: 28-06-2018 - 20:03


Dołączył: 14-03-2018
Posty: 5

Status: Offline
Witam,
Mam kilkanasie tysiecy stron zdygitalizowanych metryk (AU, AM, AZ), ktore chce przegladnac pod katem mojego nazwiska. Oczywiscie mam do nich indeksy ale sa one nie kompletne, nie zawieraja nazwisk swiadkow, etc.
Przegladanie reczne jest bardzo pracochlonne, szacuje okolo 30sek na jeden dokument cyfrowy. Nie ma zadnego softwareu OCR/ICR moglby poprawnie odczytac pismo odreczne.

Moj pomysl to uzycie crowdsourcing, a dokladniej Amazon Mechanical Turk. Nie chodzi mi tu o indeksowanie, przepisywanie ale tylko i wylacznie o oflagowanie tych dokumentow, ktore moga zawierac moje nazwisko.

Dla tych ktorzy nie sa zaznajomieni w temacie, proces wyglada tak:
1. Uzytkownicy przegladaja dokumenty/skany jeden po drugim
2. Przy kazdym dokumencie zaznaczaja "znalazlem nazwisko" lub "nieznalazlem nazwiska"
3. Za kazdy przegladniety dokument, uzytkownik ma placone (stawke ustalam ja, np. $0.03/skan)
4. Uzytkownicy sa z calego swiata, ale zazwyczaj do tego rodzaju pracy zglaszaja sie uzytkownicy z azji.

Zastanawiam sie czy ktos probowal takiego podejscia do sprawy, a moze jest jakis inny sposob.

Z gory dziekuje za kazdy komentarz i przepraszam za brak ogonkow.
Jasiek
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Ted_BOffline
Temat postu:   PostWysłany: 28-06-2018 - 21:05
Sympatyk


Dołączył: 18-02-2016
Posty: 1193

Status: Offline
Witam !
Masz szansę się wykazać i stworzyć taki program.
Istniejące programy typu OCR średnio radzą sobie z pismem drukowanym - zaś przy piśmie ręcznym nieraz charakter pisma jest taki, a nie inny. Trudny do normalnego odczytania.
Pozdrawiam !
Tadek
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
jesiekOffline
Temat postu:   PostWysłany: 28-06-2018 - 21:13


Dołączył: 14-03-2018
Posty: 5

Status: Offline
Tadek - OCR/ICR napewno nie da rady, dlatego pomysl z serwisem Amazon Mechanical Turk. Juz teraz jest on wykorzystywany do flagowania roznego rodzaju zdjec, to dlaczego by go nie uzyc do metryk.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Ted_BOffline
Temat postu:   PostWysłany: 28-06-2018 - 21:25
Sympatyk


Dołączył: 18-02-2016
Posty: 1193

Status: Offline
Sam bym chciał, żeby taki program powstał.
Ale to raczej marzenie.
Pozdrawiam !
Tadek
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
pawel.dyda
Temat postu: Przegladanie kilkunastu tysiecy skanow metryk  PostWysłany: 28-06-2018 - 21:30
Zasłużony
Członek PTG


Dołączył: 31-07-2010
Posty: 129
Skąd: Warszawa
Zakładam, że Turk jest Ci potrzebny, żeby zrobić jakiś model, bo inaczej trochę byłoby bez sensu.
Jeżeli masz odpowiednie umiejętności i nie brzydzisz się programowaniem to...

Podobno wyszukiwanie jest znacznie łatwiejsze, niż rozpoznawanie:
http://www.cs.tau.ac.il/~wolf/papers/ma ... otting.pdf

Niestety nie znalazłem do tego kodu.

_________________
Pozdrawiam,
Paweł.
 
 Zobacz profil autora Wyślij prywatną wiadomość MSN Messenger  
Odpowiedz z cytatem Powrót do góry
jesiekOffline
Temat postu: Przegladanie kilkunastu tysiecy skanow metryk  PostWysłany: 28-06-2018 - 22:31


Dołączył: 14-03-2018
Posty: 5

Status: Offline
Ted_B - moim celem nie jest stworzenie programu, a wykorzystanie instejacego serwisu Amazon Mechanical Turk. W serwisie tym, ktos "za mnie" przeglada metryki. Jesli zaloze ze moj czas jest cenniejsz niz osoby przegladajacej, wydaje sie ze takie podejscie ma sens.

pawel.dyda - dzieki za dokument. Gdyby sprobowac stworzyc taki soft, mozna by do tego uzyc ten projekt z Githubu: https://github.com/Breta01/handwriting-ocr
Trzeba by go "nauczyc", czyli zapodac wiele probek pisma. Ale z drugiej strony majac juz jakies metryki w swoim drzewie, z probkami nie powinno byc problemow. Na ale napisanie softu to odrebny projekt, ja skupie sie na uzyciu istniejacego serwisu Amazonu.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Robert1Offline
Temat postu:   PostWysłany: 29-06-2018 - 02:34
Zasłużony
Sympatyk


Dołączył: 08-07-2014
Posty: 225

Status: Offline
Sam piszesz, że większość użytkowników to Azjaci. Wyniki rozpoznawania przez nich dokonanego mogą się okazać wątpliwe. Wystarczy sobie przypomnieć ile razy rozszyfrowanie księżowskich kulfonów sprawiło nam samym ogromną trudność.
Ale próbuj - może jak wypadną dobrze, to im się zleci indeksowanie też Smile

_________________
Pozdrawiam,
Robert
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
EderOffline
Temat postu:   PostWysłany: 29-06-2018 - 08:33
Zasłużony
Sympatyk


Dołączył: 20-11-2008
Posty: 428
Skąd: Toruń
Status: Offline
Zgadza się, dziwny pomysł. W jednej z gałęzi trafiłem na szlacheckich przodków ze znanych i znaczących rodów. Szybko znalazłem ich monografie, a potem to już "poleciało", kolejne książki i kolejni przodkowie, Drzewo bardzo urosło, wręcz eksplodowało, wystarczy, że zerknę do następnej książki czy encyklopedii i mogę wpisywać kolejnych, tylko, że straciłem zapał, żadnej satysfakcji, żadnej przyjemności. Właśnie szukanie było tym czymś.
Pozdrawiam, Andrzej
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
radicalmanOffline
Temat postu:   PostWysłany: 29-06-2018 - 09:46
Sympatyk


Dołączył: 09-10-2007
Posty: 353
Skąd: Legnica
Status: Offline
Tylko nie Azjaci. Indeksy na FS z Tarnowa robili Azjaci, w ramach właśnie podobnie mądrego pomysłu... Wyniki są powszechnie znane Smile

R.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
jesiekOffline
Temat postu:   PostWysłany: 29-06-2018 - 09:51


Dołączył: 14-03-2018
Posty: 5

Status: Offline
Bea - wykorzystanie technologii to dziwny pomysl? A czy przypadkiem nie kazdy z nas siega do ulatwien zaczynajac od indexow ksiag, przez wciskanie CTRL+F przegaldajac Szemantyzm Galicji i konczac na narzedziach w tym serwisie? Kazdemu co innego sprawia przyjemnosc, jednemu zmudne przegladanie metryk strona po stronie, a mnie sam fakt znalezienia kolejnej osoby w drzewie i mozliwosci szukania kolejnych informacji o niej. A co jezeli nasz przodek byl ekonomem, przemieszal sie czesto? Czy wtedy nie sprobojesz masowo przeszukac kilku okolicznych parafii? W tym wypadku ilosc dokumentow sie mnozy i moze siegnac kilku tysiecy.

Eder - doskanale ci rozumiem. Chcesz zbudowac drzewo, a ktos podsuwa ci je gotowe...
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Sroczyński_WłodzimierzOffline
Temat postu:   PostWysłany: 29-06-2018 - 11:00
Członek PTG


Dołączył: 09-10-2008
Posty: 31603
Skąd: Warszawa
Status: Offline
R. : no właśnie nie są chyba znane, tzn praca została wycofana z obiegu publicznego z uwagi na niską jakość i nikt się nie przyznaje do jej wyników (może to kwestia punktu odniesienia do dyskusji nt wyceny, wartości indeksów pozostałych, dobrych?:)

_________________
Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Wyświetl posty z ostatnich:     
Skocz do:  
Wszystkie czasy w strefie GMT - 12 Godzin
Napisz nowy temat   Odpowiedz do tematu
Zobacz poprzedni temat Wersja gotowa do druku Zaloguj się, by sprawdzić wiadomości Zobacz następny temat
Powered by PNphpBB2 © 2003-2006 The PNphpBB Group
Credits
donate.jpg
Serwis Polskiego Towarzystwa Genealogicznego zawiera forum genealogiczne i bazy danych przydatne dla genealogów © 2006-2024 Polskie Towarzystwo Genealogiczne
kontakt:
Strona wygenerowana w czasie 0.539804 sekund(y)