|
|
|
Autor |
Wiadomość |
Krzyżanowski |
|
Temat postu: AI a spis powszechny USA za 1950 rok.
Wysłany: 14-05-2023 - 08:14
|
|
Dołączył: 07-09-2017
Posty: 26
Status: Offline
|
|
Indeksacja a AI (sztuczna inteligencja)
Dowiedziałem się że do indeksacji spisu powszechnego w USA z 1950 roku została wykorzystana AI. Czy ktoś wie coś więcej na ten temat.
Leszek Krzyżanowski |
|
|
|
|
|
PawelKoss |
|
Temat postu: AI a spis powszechny USA za 1950 rok.
Wysłany: 14-05-2023 - 09:13
|
|
Dołączył: 21-03-2021
Posty: 355
Status: Offline
|
|
Tak to się ten świat zmienia. Kiedyś to się nazywało ocr do pisma ręcznego, teraz to już sztuczna inteligencja. Ancestry sobie zrobiło soft do odczytywania pisma ręcznego i tyle. Żadna to inteligencja, chyba że mówimy o inteligencji twórców rozwiązania. Jeśli zadziałało to szacunek, bo to co automatycznie było podczytywane w FS, to belkot.
Pozdrawiam
Paweł |
|
|
|
|
|
Krzyżanowski |
|
Temat postu: AI a spis powszechny USA za 1950 rok.
Wysłany: 14-05-2023 - 09:23
|
|
Dołączył: 07-09-2017
Posty: 26
Status: Offline
|
|
Jak się dowiedziałem to zacząłem wyrywkowo porównywać to co było w odręcznym oryginale z tym co zindeksowane i byłem zaskoczony jakością tego. Nie wiem czy człowiek w tym uczestniczył jako weryfikator ale przeszukanie tych milionów rekordów to parę sekund. I powstaje pytanie czemu naszych metryk nie robimy w ten sposób?
LKR |
|
|
|
|
|
PawelKoss |
|
Temat postu: Re: AI a spis powszechny USA za 1950 rok.
Wysłany: 14-05-2023 - 09:34
|
|
Dołączył: 21-03-2021
Posty: 355
Status: Offline
|
|
Krzyżanowski napisał:
Jak się dowiedziałem to zacząłem wyrywkowo porównywać to co było w odręcznym oryginale z tym co zindeksowane i byłem zaskoczony jakością tego. Nie wiem czy człowiek w tym uczestniczył jako weryfikator ale przeszukanie tych milionów rekordów to parę sekund. I powstaje pytanie czemu naszych metryk nie robimy w ten sposób?
LKR
Na FS system wyświetlał to co przeczytał z dokumentu a ludzie poprawiali. Sam, szukając danych rodziny, poprawiłem ok. setki wpisów.
Pozdrawiam
Paweł |
|
|
|
|
|
Krzyżanowski |
|
Temat postu: Re: AI a spis powszechny USA za 1950 rok.
Wysłany: 14-05-2023 - 10:12
|
|
Dołączył: 07-09-2017
Posty: 26
Status: Offline
|
|
Czy to co jest ze spisu 1950 na FS jest tożsame ze spisami z Census Bureau?
LKR |
|
|
|
|
|
PawelKoss |
|
Temat postu: Re: AI a spis powszechny USA za 1950 rok.
Wysłany: 14-05-2023 - 10:15
|
|
Dołączył: 21-03-2021
Posty: 355
Status: Offline
|
|
Krzyżanowski napisał:
Czy to co jest ze spisu 1950 na FS jest tożsame ze spisami z Census Bureau?
LKR
Z tego co zrozumiałem każdy z portali indeksował samodzielnie. Czy dawał informację zwrotna do Biura, nie mam pojęcia.
Pozdrawiam
Paweł |
|
|
|
|
|
|
Temat postu: RE: Re: AI a spis powszechny USA za 1950 rok.
Wysłany: 14-05-2023 - 11:40
|
|
Dołączył: 31-07-2010
Posty: 130
Skąd: Warszawa
|
|
Dlaczego nie robimy w ten sposób?
TL;DR: bo to dużo trudniejsze, niż się komuś na pierwszy rzut oka może wydawać. Ale nie to żebyśmy nie próbowali.
Problemy:
Rozpoznawanie ciągłego pisma odręcznego (Connected-Offline Handwriting Recognition) to trudny problem badawczy, do niedawna w ogólnym przypadku nierozwiązywalny. Dopiero od kilku lat są metody uczenia maszynowego (pojęcie "Sztuczna Inteligencja" to ładne hasło reklamowe), które pozwalają się do niego w ogóle zabrać (wcześniej SVM dawał stopę błędów rzędu 30% na słowach).
A samo rozpoznanie słów to jeszcze nie wszystko, bo później trzeba dokonać ekstrakcji informacji (IE), czyli wyciągnąć interesujące nas dane.
Ale ponieważ akurat osobiście się tym zajmuję, to pozwólcie Państwo że wyjaśnię gdzie nas (badaczy) boli:
1. Do wyuczenia dobrego modelu do rozpoznawania pisma odręcznego potrzebna ogromnych ilości dobrej jakości danych. To są raczej setki tysięcy jak nie miliony ręcznie zaanotowanych (i to poprawnie!) danych.
2. Język polski ma tę wredną cechę, że posiada bogatą fleksję. I to może nie byłby taki problem, bo metryki mają na ogół bardzo podobny format, ale mówimy o języku anachronicznym i to jeszcze z różnych lat - ten ewaluował. To tylko zwiększa potrzebną ilość danych i nakłada dodatkowo konieczność tłumaczenia z formy anachronicznej na współczesną (coś co robimy automatycznie nawet nie myśląc Maryanna -> Marianna).
3. Metryki mamy w różnych językach od łaciny (przed kodeksem Napoleona), przez polski do 1864 i po 1914, przez rosyjsko-polsko-rosyjskawy do niemieckiego (na określonych terenach). Aha, jak ktoś ma rodzinę z Galicji, to i ukraiński zarówno cyrylicą jak i alfabetem łacińskim z polskimi znakami może się trafić.
4. Ale przecież rekordów w Genetece mamy miliony! Tak, ale niestety z bardzo dużymi szumami. Akurat niedawno sprawdzałem swoje pierwsze indeksy: tam jest sporo błędów. Nie czarujmy się: w Genetece ich nie brakuje. Nawet jeżeli większość jest prawidłowa.
4a. To co mamy w Genetece nie nadaje się do uczenia modeli COHWR (popularnie: OCR). Brakuje anotacji *wszystkich* słów, które są na obrazku. I ustalania jakiejś spójnej w całym zbiorze kolejności czytania.
5. Pismo odręczne jest bardzo nieregularne, te same słowa mają zupełnie różne rozmiary w zależności od rekordu (polecam zmierzyć sobie rosyjskie Состаялосъ). I każdy człowiek ma swój charakter pisma. Tu zarówno człowiek, jak i model muszą się nauczyć te udziwnienia czytać i rozumieć. Każdy kto indeksował wie o czym piszę.
5a. Jakby ktoś myślał że "no przecież można zrobić syntetyczne obrazki czcionkami przypominającymi pismo odręczne" polecam poszukać takich czcionek ze wsparciem dla języka polskiego i cyrylicy. Ewentualnie próbę zrobienia takiej czcionki (dla użytkowników Linuksa mogę podpowiedzieć jak).
6. Szczególnie język rosyjski jest interesujący, bo przed reformą ortografii (a z takim się tu mierzymy) były jeszcze takie ciekawe literki jak Fita, i znak twardy stosowany po prawie każdej spółgłosce. Na dodatek, żeby było mało, mała litera de ma dwie różne glify: małe łacińskie g i albo grecka mała delta, albo znak pochodnej cząstkowej. I nie umiem wskazać reguły.
6a. Co ksiądz to różny sposób zapisu imienia: albo transkrypcja do cyrylicy, albo tłumaczenie. Te ostatnie często błędne.
6b. A jak zapisać polskie nazwiska? Z polskimi diakrytykami, których w rosyjskim nie ma? Z tym się mierzyli ludzie piszący te księgi i stosowali różne rozwiązania; np. ó zapisywali jako у (u w cyrylicy) lub о (o w cyrylicy usuwając diakrytyk). OK, rozpoznać rozpoznamy tak jak jest, ale później musimy to zindeksować (i się zaczyna...).
7. Metryki obcojęzyczne mogą mieć podane polskie formy - to czyni model do rozpoznawania tekstu wielojęzycznym, a to jest DUŻO trudniejszy problem.
A co do samej ekstrakcji danych:
a) Możemy mieć wiele rekordów na jednej stronie. Jak zwrócić dane dla konkretnego rekordu (jak je w ogóle wyekstrahować bez uprzedniego podziału na rekordy)? To jest oddzielny problem badawczy, służę artykułami jak kogoś interesuje, nie jest rozwiązany.
b) Formaty są podobne, ale jednak różne. Model musi się nauczyć na co ma zwracać uwagę - to akurat jest w miarę dobrze opanowane.
c) Rekordy mogą być podzielone między strony - takich przypadków jest mało i trudno jest nauczyć komputer je rozumieć. A jeżeli akurat dane są podzielone między różne obrazki, to w ogóle jest to dużo trudniejsze zadanie (te modele nie mają pamięci krótkoterminowej).
d) Jakość rozpoznawania znaków jest krytyczna - przy zbyt dużej stopie błędów model w ogóle nie będzie w stanie nic wyekstrahować.
e) Co prawda istnieją tzw. modele języka dla polskiego, czy rosyjskiego, ale są one gorszej jakości niż dla języka angielskiego, a to takie modele stanowią naszą bazę dla modelu do ekstrakcji danych. A mówimy tu o języku anachronicznym, przypominam. Takich danych, to modele bazowe nawet nie widziały. Jak jeszcze - nie daj Boże - będzie to model wielojęzyczny, to będzie jeszcze trudniej (skądinąd wiadomo że modele dedykowane działają znacznie lepiej).
Może na razie wystarczy, pozdrawiam wytrwałych
Jakby ktoś chciał się czymś takim zająć (i wie mniej-więcej o czym piszę), to zapraszam do kontaktu. Nie dalej jak przedwczoraj skończyłem artykuł naukowy w tym temacie. Pracy jest bardzo dużo, dla wielu wystarczy.
Dla przykładu można by przygotować te skromne kilkadziesiąt tysięcy czystych rekordów (tj. zweryfikowanych danych z Geneteki). Na razie mam tylko nieco ponad 4k swoich, to trochę mało. |
_________________ Pozdrawiam,
Paweł.
|
|
|
|
|
Sroczyński_Włodzimierz |
|
Temat postu: RE: Re: AI a spis powszechny USA za 1950 rok.
Wysłany: 14-05-2023 - 11:54
|
|
Dołączył: 09-10-2008
Posty: 33530
Skąd: Warszawa
Status: Offline
|
|
To wszystko prawda, ale dla całości zagadnienia.
Warto problem rozbić na segmenty. Z wielu przyczyn warto.
1. Jednym z najbardziej wartościowych indeksów są te sporządzane z ksiąg niemających skorowidzów/rejestrów - pozwalają zaoszczędzić relatywnie najwięcej czasu
2. Język sporządzania dokumentów jest różny (tzn jest wiele języków, co nie znaczy, ze rozwiązanie "OCRowe" musi dotyczyć całego zakresu.
3. Schematy - chyba słowo klucz, zaraz obok "jakość, ilość próbek etc"
4. Często pomijana kwestia - weryfikacja indeksów. To nie jest krańcowo odmienne od uczenia. Nie tożsame, ale zbliżone (analogiczne?).
z (1), (2), (3) nasuwa się - czas zająć się łaciną i to z okresu staropolskiego (tzn dla nas staropolskiego), na materiałach z dużej części Europy
z (4) - we współpracy (płatnej i to dobrze? grantowej) z fachowcami od opracowań takich właśnie ksiąg |
_________________ Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
|
|
|
|
|
|
Temat postu: RE: Re: AI a spis powszechny USA za 1950 rok.
Wysłany: 14-05-2023 - 13:40
|
|
Dołączył: 31-07-2010
Posty: 130
Skąd: Warszawa
|
|
Panie Włodzimierzu,
Szczerze pisząc nie rozumiem punktu 2. "Nie musi dotyczyć całego zakresu". Sugeruje Pan żeby pomijać jakieś fragmenty?
Ad 4. Weryfikacja to istotna kwestia. Jeżeli zastosowalibyśmy uczenie maszynowe, to nie czarujmy się - konieczna. Nawet najlepszy model będzie robił błędy (w końcu my ludzie też je robimy).
Zajęcie się łaciną... Z pewnych względów zacząłem od rosyjsko-polskich ksiąg To co Pan pisze - łacina z terenu całej Europy ma pewną wadę. Otóż inaczej będziemy tłumaczyli imiona na polski, a inaczej na pozostałe języki... No i te metryki są "gęste", to znaczy jest kilkadziesiąt rekordów na stronie. Akurat OCR pewnie się da zrobić, i to jestem dziwnie pewien że "od ręki", bo na pewno istnieją już dość dobre modele (inna kwestia ile by kosztowało ich uruchomienie). Ale z ekstrakcją danych, to jest przypisaniem tych imion i nazwisk do odpowiednich rekordów... Czarno to widzę. Moi koledzy z pracy zajmowali się podobnym zagadnieniem i wyniki są dość słabe. A ich i tak są najlepsze na świecie |
_________________ Pozdrawiam,
Paweł.
|
|
|
|
|
Sroczyński_Włodzimierz |
|
Temat postu:
Wysłany: 14-05-2023 - 13:56
|
|
Dołączył: 09-10-2008
Posty: 33530
Skąd: Warszawa
Status: Offline
|
|
tzn że nie ma potrzeby rozważać identyfikacji tekstu jako jednolitego bloku, podzielić na mniejsze zagadnienia. Polska fleksja, zmiany w grażdżance nie mają wpływu na możliwość automatycznego odczytu niemieckich USC 1876-1918 czy łacińskich ksiąg z XVIII lub dutkó
Tak jak brak możliwości zrozumienia jakiś etruskich czy innych nie zatrzymuje prac nad egipskim.
Nie ma sensu tłumaczyć poprzez trudności z jednego zakresu trudności w innym.
Weryfikacja - moim zdaniem nie tylko teoretycznym - jest niezbędna także przy indeksach "ludzkich". Pytanie o jej mechanizm etc Ale niezbędna jest. Przy niektórych modelach - nie różni się ona od procesu uczenia. Czasem weryfikatorowi łatwiej (szybciej) wytrenować OCR-a niż indeksującego, czasem przeciwnie. Uzysk za to - przepaść:)
Nie ma potrzeby tłumaczyć imion "na polski". Jeśli w ogóle to nie na etapie rozpoznawania.
"Ekstrakcja danych" - kwestia budżetu. Są edycje ksiąg łacińskich dostępne. Tj odczyt i zapis. Są też takie w trakcie prac. są więc zestawy "kopia" + odczyt (fachowy), może być więcej.
Są to dziesiątki tysięcy obrazów "ludzko, ze zrozumieniem" przepisanych. Mogą być setki tysięcy. IMHO - na start już jest na czym pracować.
Ale raczej nie w modelu wolontariatu jeśli profesjonalnie i szybko. Nawet jeśli narzędzie byłoby potem open - raczej nie sądzę:( Może dla już wydanych (opłaconych) jest szansa na prawie bezkosztowe wykorzystanie pracy (tj naprawdę tanią licencję)
pewnie warto raczej myśleć na początek o identyfikacji np w chrztach "leg. tori" (i równoważnych)i "ilegit." ( i równoważnych) jako początku łańcucha
ja staram się czarno nie widzieć, tym bardziej nie siać czarnowidztwa:) da się. Dałoby się nawet "wczoraj", nie tylko "dziś", a jutro - da się na pewno.
Nawet zrzutkowo pozyskując budżety na usługi zewnętrzne, ale modelowo - lepiej grantowo z warunkami dostępności narzędzia dla każdego.
P.S. spora część "rosyjskich" (co przekłada się na miliony rekordów) sprowadza się do identyfikacji zawartości graficznej nawiasu ("polski" alfabet) i przełożeniu na alfanumeryki. Tak - nie wszystko, ale nawet 30% z kilkunastu milionów to miliony wstępnie odczytanych. Może nie gotowych rekordów, ale np propozycji do zaakceptowania / zmiany, do dalszego etapu. Czyli prościej niż w polskojęzycznych - bo jest nawias wyróżniający interesujący nas zakres obrazka!
Przykładowo:
https://metryki.genealodzy.pl/ar1-zs0179d-sy1887-kt3
i dalsze niezindeksowane do 1914 włącznie
sprawdź: nawias, w nim imię i nazwisko w mianowniku.
To nie całość informacji, które można wyciągnąć z aktu, ale to co można bez kwestii grażdanka /fleksja etc i to w miarę do wyuczenia gdzie ten interesujący fragment.
a takich "najmniej problemowych rosyjskich" - wieleset tysięcy na wyciągnięcie ręki |
_________________ Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
|
|
|
|
|
|
Temat postu:
Wysłany: 14-05-2023 - 16:38
|
|
Dołączył: 31-07-2010
Posty: 130
Skąd: Warszawa
|
|
Mówiąc o finansach mamy na myśli różne rzeczy. Modele AI też kosztują, nie ma nic za darmo. Np. jeżeli chodzi o "OCR" to takie coś jest dostępne (np. https://readcoop.eu/transkribus/public-models/), ale od pewnego momentu kosztuje.
Co do innych rzeczy:
Raczej wolałbym imiona przetłumaczyć (nazwiska też mogą być potrzebne, ze względu na formę). W Genetece raczej oczekujemy polskich. Ale to oczywiście rzecz poboczna.
To że jakieś dane do uczenia są teoretycznie to wiem. Problem w tym, że nie mogą być "jakieś", tylko zweryfikowane i w jednym i tym samym formacie (konwersja z reguły trwa najdłużej).
Osobiście nie wiem czemu "prawość" łoża jest aż tak istotna (sama identyfikacja wydaje się prosta, gorzej z przypisaniem do konkretnego rekordu), ale to da się na pewno zrobić.
Natomiast nie mogę się zgodzić, że wystarczy przepisać to, co w nawiasie. O ile w ogóle jest nawias (niestety zdarzało się twórcom aktów "zapomnieć"), to najpierw trzeba znaleźć te miejsce, zrozumieć o kogo chodzi (nie chcielibyśmy mieć jako ojca Rozalii Laskowskiej, akuszerki...), a potem przetłumaczyć to "co się widzi" na konkretny tekst. No i przecież jeżeli np. Jan Laskowski ma córkę, to ona ma na nazwisko Laskowska. A tego nigdzie otwartym tekstem w metryce nie ma. Da się to zrobić, potrzeba po prostu odpowiednio dużo danych. A potem jak już się ma coś co działa z sensowną dokładnością (nie myli się w 95% przypadków), możemy po prostu używać. Też pewnie nie za darmo, ale na pewno taniej (i znacznie szybciej) niż ręcznie indeksować.
To że pokazuję problemy, to nie znaczy że w ogóle czarno wszystko widzę. Po prostu chciałem przybliżyć gdzie nas coś może "ugryźć". Pracuję nad takimi rzeczami od kilku lat, i będę się starał to zrobić w ramach pracy badawczej. Ale wiadomo: mój czas jest ograniczony. I nie wszystkie problemy są takie łatwe jak się może wydawać
Naprawdę nie można projektować ludzkiego sposobu myślenia na komputery: one nie myślą, to po prostu czysta matematyka. Jak kąt między hiperprzestrzeniami będzie odpowiedni, to zwrócą właściwą wartość, jak nie, to przykro mi, ale będzie błąd |
_________________ Pozdrawiam,
Paweł.
|
|
|
|
|
Sroczyński_Włodzimierz |
|
Temat postu:
Wysłany: 14-05-2023 - 16:46
|
|
Dołączył: 09-10-2008
Posty: 33530
Skąd: Warszawa
Status: Offline
|
|
"w genetece oczekuje polskiego" - pominę, nie ma znaczenia dla problemu
"prawość łoża" jest tak samo istotna jak "nieprawość " - pozwala zidentyfikować początek bloku w kórym jest nazwisko, umieścić znacznik
nie ma znaczenia legitimi czy nie legitimi, ma znacznie gdzie
i jest to w miarę stały (parę kombinacji pokrywa 95% zdarzeń) element - stad istotność w jego rozpoznaniu
podobnie jaj "Nne" /zrównane
ale może ze względu na "nie ma nic za darmo" na tym poprzestanę - uznam ten argument |
_________________ Bez PW. Korespondencja poprzez maila:
https://genealodzy.pl/index.php?module= ... 3odzimierz
|
|
|
|
|
Pietruszka |
|
Temat postu:
Wysłany: 06-02-2024 - 20:38
|
|
Dołączył: 01-06-2022
Posty: 49
Skąd: Olsztyn, Warmia
Status: Offline
|
|
|
|
|
|
|
|
|
|
|