Autor |
Wiadomość |
Kamil_Reszczyk |
|
Temat postu: Automatyczne rozpoznawanie tekstu w zasobach AKM
Wysłany: 02-11-2023 - 00:48
|
|
Dołączył: 29-04-2023
Posty: 25
Status: Offline
|
|
Cześć wszystkim!
Miałem wczoraj wolny wieczór i postanowiłem połączyć swoją pasję genealogii z technologią.
Udało mi się napisać kod, który umożliwia pobieranie rękopisów z archiwum kurii metropolitalnej w Krakowie. Następnie, za pomocą usług Google Cloud, automatycznie wykrywa tekst pisany odręcznie i przekształca go na tekst maszynowy. Efekty mojej pracy można zobaczyć pod poniższym linkiem:
Na pierwszy rzut użyłem: https://caak.upjp2.edu.pl/j/5ec4fe512cc ... bf15/s/0/f
efekt:
http://genealogia.reszczyk.pl/AKM/ACTA% ... Aadm24.txt
Chciałbym poznać waszą opinię na ten temat. Ktoś może próbował czegoś podobnego?
Czekam na wasze opinie i komentarze. |
|
|
|
|
|
piotr_nojszewski |
|
Temat postu:
Wysłany: 02-11-2023 - 01:15
|
|
Dołączył: 21-04-2013
Posty: 1606
Skąd: Warszawa
Status: Offline
|
|
Super. Generalnie to przyszłość. I tak trzeba.
Mormoni tak już od pewnie 2 lat indeksują metryki. Podobnie zapewne indeksowano spis mieszkańców USA z 1950.
Rozpoznaje się tekst metryki a potem AI rozpoznaje imiona i nazwiska.
W zasadzie w tak odczytanym tekście nawet ChatGPT odszuka nazwiska.
Potem interfejs białkowy to weryfikuje.
Warto to kontynuować. |
_________________ pozdrawiam
Piotr
|
|
|
|
|
Lena8806 |
|
Temat postu:
Wysłany: 02-11-2023 - 12:25
|
|
Dołączył: 02-11-2023
Posty: 1
Status: Offline
|
|
Brawo. Podziwiam. czy istnieje jakaś technologiczna możliwość własnie przekształcenie pisma odręcznego (cyrylica rosyjska ) na pismo drukowane/maszynowe? Mam bardzo dużo aktów własnie pisanych cyrylicą, i nie jestem w stanie nawet tego odczytac. |
|
|
|
|
|
mzielinski.pl |
|
Temat postu:
Wysłany: 02-11-2023 - 12:39
|
|
Dołączył: 08-04-2022
Posty: 23
Skąd: Bangkok
Status: Offline
|
|
Lena8806 napisał:
czy istnieje jakaĹ technologiczna moĹźliwoĹÄ wĹasnie przeksztaĹcenie pisma odrÄcznego (cyrylica rosyjska ) na pismo drukowane/maszynowe?
Tak, technologia nazywa się OCR. nawet można spróbować na różnych modelach, które rozpoznają pismo ręczne. Działa to czasem dobrze, czasem niekoniecznie. Można zobaczyć np. tutaj przykładowe modele: https://readcoop.eu/model/russian-civil-records-late-xix-cent/ Można również samemu spróbować takie modele wytrenować, jednak dosyć sporo czasu by zajęło kolekcjonowanie danych i ich oczyszczanie.
Pozdrawiam |
_________________ Pozdrawiam
Michał
|
|
|
|
|
Kamil_Reszczyk |
|
Temat postu:
Wysłany: 02-11-2023 - 12:47
|
|
Dołączył: 29-04-2023
Posty: 25
Status: Offline
|
|
|
|
|
Kamil_Reszczyk |
|
Temat postu:
Wysłany: 05-11-2023 - 13:23
|
|
Dołączył: 29-04-2023
Posty: 25
Status: Offline
|
|
|
|
|
Lewandowicz_Adam |
|
Temat postu:
Wysłany: 05-11-2023 - 14:30
|
|
Dołączył: 14-07-2018
Posty: 4
Status: Offline
|
|
To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!! |
|
|
|
|
|
|
Temat postu: Re: Automatyczne rozpoznawanie tekstu w zasobach AKM
Wysłany: 05-11-2023 - 14:35
|
|
Dołączył: 11-07-2021
Posty: 1198
|
|
Kamil_Reszczyk napisał:
Udało mi się napisać kod, który umożliwia pobieranie rękopisów z archiwum kurii metropolitalnej w Krakowie.
Pomijając już, że CAAK to kapiszon za publiczne pieniądze, to czy zostanie udostępnione narzędzie do pobierania ksiąg? |
_________________ Łukasz
|
|
|
|
|
Kamil_Reszczyk |
|
Temat postu:
Wysłany: 05-11-2023 - 15:27
|
|
Dołączył: 29-04-2023
Posty: 25
Status: Offline
|
|
Kod który używam prawie nie różni się od tego opisanego poniżej:
https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam napisał:
To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!
|
|
|
|
|
|
marekzaborski |
|
Temat postu:
Wysłany: 05-11-2023 - 20:34
|
|
Dołączył: 27-08-2010
Posty: 392
Status: Offline
|
|
Kamil_Reszczyk napisał:
Kod który używam prawie nie różni się od tego opisanego poniżej:
https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam napisał:
To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!
Dzień dobry,
można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt
Pozdrawiam
Marek |
|
|
|
|
|
Kamil_Reszczyk |
|
Temat postu:
Wysłany: 05-11-2023 - 20:51
|
|
Dołączył: 29-04-2023
Posty: 25
Status: Offline
|
|
Na podstawie tego:
https://postimg.cc/jCsCZQhL
To jest interesujące. Bo wygląda na to że w AG15 ściągnęło dużo więcej skanów niż wygląda na to że jest udostępnione na stronie. Musze to zbadać co tam zaszło.
[edit]
Ok, już widzę że w AG15 mam AEP107. Poprawiam.
Dzięki za wyłapanie tego
marekzaborski napisał:
Kamil_Reszczyk napisał:
Kod który używam prawie nie różni się od tego opisanego poniżej:
https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam napisał:
To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!
Dzień dobry,
można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt
Pozdrawiam
Marek
|
|
|
|
|
|
igoriosso |
|
Temat postu:
Wysłany: 05-11-2023 - 22:24
|
|
Dołączył: 25-12-2007
Posty: 417
Status: Offline
|
|
Może warto dla przykładu jakąś księgę metrykalną w to wrzucić? Albo księgę sądową?
Pozdrawiam!
IgorD. |
|
|
|
|
|
Kamil_Reszczyk |
|
Temat postu:
Wysłany: 05-11-2023 - 23:00
|
|
Dołączył: 29-04-2023
Posty: 25
Status: Offline
|
|
igoriosso napisał:
Może warto dla przykładu jakąś księgę metrykalną w to wrzucić? Albo księgę sądową?
Pozdrawiam!
IgorD.
Na pewno warto, ta usługa od google radzi sobie całkiem dobrze z rozpoznawaniem tekstu. Wrzucam ten na szybko napisany kawałek kodu, który użyłem do tego:
https://github.com/k4Mr3/AKMCrawler
AKMCrawler.py - służy do ściągania ksiąg z AKM
GoogleOCR.py wysyła wszystkie pliki o nazwach od 1.jpg do n.jpg do googla i zapisuje jako tekst. Trzeba mieć skonfigurowany google cloud do tego.
Jakiś minimum znajomości programowania w python potrzeba aby z tego skorzystać.
Sam zamierzam się zając księgami ziemskimi krakowskimi.
https://www.szukajwarchiwach.gov.pl/en/ ... a/13464491
[edit]
Tak wyszło:
http://genealogia.reszczyk.pl/Ksiegi%20 ... ie/468.txt |
Ostatnio zmieniony przez Kamil_Reszczyk dnia 06-11-2023 - 01:44, w całości zmieniany 1 raz
|
|
|
|
|
sirdaniel |
|
Temat postu:
Wysłany: 06-11-2023 - 01:31
|
|
Dołączył: 25-03-2012
Posty: 293
Status: Offline
|
|
To jest naprawdę sprawa o wielkim znaczeniu. W internecie jest i przybędzie mnóstwo ksiąg sądowych, czy innych, metryk itp. Których rozczytywanie trwa długo, a czasem jest niemozliwe. Taka usługa to skarb dla społeczności. Myslę, że można to ustawic na jakiejśc stronie i robić dekrypcje czy indeksy na wzór geneteki, itp. Najlepiej jakby ktos sie tym zajmował na stałe |
_________________ Jego Najjaśniejsza Mość Wielmożny Wielce Szanowny Mocium Pan Magister Daniel
|
|
|
|
|
marekzaborski |
|
Temat postu:
Wysłany: 06-11-2023 - 09:07
|
|
Dołączył: 27-08-2010
Posty: 392
Status: Offline
|
|
Kamil_Reszczyk napisał:
Na podstawie tego:
https://postimg.cc/jCsCZQhL
To jest interesujące. Bo wygląda na to że w AG15 ściągnęło dużo więcej skanów niż wygląda na to że jest udostępnione na stronie. Musze to zbadać co tam zaszło.
[edit]
Ok, już widzę że w AG15 mam AEP107. Poprawiam.
Dzięki za wyłapanie tego
marekzaborski napisał:
Kamil_Reszczyk napisał:
Kod który używam prawie nie różni się od tego opisanego poniżej:
https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.
Lewandowicz_Adam napisał:
To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!
Dzień dobry,
można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt
Pozdrawiam
Marek
Dzięki za sprawdzenie.
Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?
Pozdrawiam
Marek |
|
|
|
|
|
|