Serwis Polskiego Towarzystwa Genealogicznego

flag-pol flag-eng home login logout Forum Fotoalbum Geneszukacz Parafie Geneteka Metryki Deklaracja Legiony Straty
piątek, 29 marca 2024

longpixel


Napisz nowy temat   Odpowiedz do tematu
Zobacz poprzedni temat Wersja gotowa do druku Zaloguj się, by sprawdzić wiadomości Zobacz następny temat
Autor Wiadomość
Kamil_ReszczykOffline
Temat postu: Automatyczne rozpoznawanie tekstu w zasobach AKM  PostWysłany: 02-11-2023 - 00:48
Sympatyk


Dołączył: 29-04-2023
Posty: 23

Status: Offline
Cześć wszystkim!

Miałem wczoraj wolny wieczór i postanowiłem połączyć swoją pasję genealogii z technologią.

Udało mi się napisać kod, który umożliwia pobieranie rękopisów z archiwum kurii metropolitalnej w Krakowie. Następnie, za pomocą usług Google Cloud, automatycznie wykrywa tekst pisany odręcznie i przekształca go na tekst maszynowy. Efekty mojej pracy można zobaczyć pod poniższym linkiem:

Na pierwszy rzut użyłem: https://caak.upjp2.edu.pl/j/5ec4fe512cc ... bf15/s/0/f

efekt:

http://genealogia.reszczyk.pl/AKM/ACTA% ... Aadm24.txt

Chciałbym poznać waszą opinię na ten temat. Ktoś może próbował czegoś podobnego?

Czekam na wasze opinie i komentarze.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
piotr_nojszewskiOffline
Temat postu:   PostWysłany: 02-11-2023 - 01:15
Zasłużony
Sympatyk


Dołączył: 21-04-2013
Posty: 1582
Skąd: Warszawa
Status: Offline
Super. Generalnie to przyszłość. I tak trzeba.
Mormoni tak już od pewnie 2 lat indeksują metryki. Podobnie zapewne indeksowano spis mieszkańców USA z 1950.

Rozpoznaje się tekst metryki a potem AI rozpoznaje imiona i nazwiska.
W zasadzie w tak odczytanym tekście nawet ChatGPT odszuka nazwiska.
Potem interfejs białkowy to weryfikuje.

Warto to kontynuować.

_________________
pozdrawiam
Piotr
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Lena8806Offline
Temat postu:   PostWysłany: 02-11-2023 - 12:25


Dołączył: 02-11-2023
Posty: 1

Status: Offline
Brawo. Podziwiam. czy istnieje jakaś technologiczna możliwość własnie przekształcenie pisma odręcznego (cyrylica rosyjska ) na pismo drukowane/maszynowe? Mam bardzo dużo aktów własnie pisanych cyrylicą, i nie jestem w stanie nawet tego odczytac.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
mzielinski.plOffline
Temat postu:   PostWysłany: 02-11-2023 - 12:39
Sympatyk


Dołączył: 08-04-2022
Posty: 21
Skąd: Bangkok
Status: Offline
Lena8806 napisał:
czy istnieje jakaś technologiczna możliwość własnie przekształcenie pisma odręcznego (cyrylica rosyjska ) na pismo drukowane/maszynowe?
Tak, technologia nazywa się OCR. nawet można spróbować na różnych modelach, które rozpoznają pismo ręczne. Działa to czasem dobrze, czasem niekoniecznie. Można zobaczyć np. tutaj przykładowe modele: https://readcoop.eu/model/russian-civil-records-late-xix-cent/ Można również samemu spróbować takie modele wytrenować, jednak dosyć sporo czasu by zajęło kolekcjonowanie danych i ich oczyszczanie.
Pozdrawiam

_________________
Pozdrawiam
Michał
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 02-11-2023 - 12:47
Sympatyk


Dołączył: 29-04-2023
Posty: 23

Status: Offline
Będę dodawał więcej pod adresem:

http://genealogia.reszczyk.pl/AKM/
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 05-11-2023 - 13:23
Sympatyk


Dołączył: 29-04-2023
Posty: 23

Status: Offline
W czasie ostatnich kilku dni przetworzyła się:

(całość)
ACTA EPISCOPALIA
http://genealogia.reszczyk.pl/AKM/ACTA%20EPISCOPALIA/

i

(do Aadm15)
ACTA ADMINISTRATORIALIAM
http://genealogia.reszczyk.pl/AKM/ACTA% ... ATORIALIA/

W niedługim czasie dodam jeszcze opcje wyszukiwania na stronie, tak aby można było wyszukiwać konkretnych nazwisk jeszcze wygodniej.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Lewandowicz_AdamOffline
Temat postu:   PostWysłany: 05-11-2023 - 14:30
Zasłużony


Dołączył: 14-07-2018
Posty: 4

Status: Offline
To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Lakiluk
Temat postu: Re: Automatyczne rozpoznawanie tekstu w zasobach AKM  PostWysłany: 05-11-2023 - 14:35
Sympatyk


Dołączył: 11-07-2021
Posty: 1083

Kamil_Reszczyk napisał:
Udało mi się napisać kod, który umożliwia pobieranie rękopisów z archiwum kurii metropolitalnej w Krakowie.

Pomijając już, że CAAK to kapiszon za publiczne pieniądze, to czy zostanie udostępnione narzędzie do pobierania ksiąg?

_________________
Łukasz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 05-11-2023 - 15:27
Sympatyk


Dołączył: 29-04-2023
Posty: 23

Status: Offline
Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting

Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.

Lewandowicz_Adam napisał:
To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
marekzaborskiOffline
Temat postu:   PostWysłany: 05-11-2023 - 20:34
Sympatyk


Dołączył: 27-08-2010
Posty: 382

Status: Offline
Kamil_Reszczyk napisał:
Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting

Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.

Lewandowicz_Adam napisał:
To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!



Dzień dobry,

można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt

Pozdrawiam
Marek
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 05-11-2023 - 20:51
Sympatyk


Dołączył: 29-04-2023
Posty: 23

Status: Offline
Na podstawie tego:
https://postimg.cc/jCsCZQhL

To jest interesujące. Bo wygląda na to że w AG15 ściągnęło dużo więcej skanów niż wygląda na to że jest udostępnione na stronie. Musze to zbadać co tam zaszło. Smile

[edit]

Ok, już widzę że w AG15 mam AEP107. Poprawiam.

Dzięki za wyłapanie tego Smile

marekzaborski napisał:
Kamil_Reszczyk napisał:
Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting

Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.

Lewandowicz_Adam napisał:
To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!



Dzień dobry,

można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt

Pozdrawiam
Marek
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
igoriossoOffline
Temat postu:   PostWysłany: 05-11-2023 - 22:24
Zasłużony
Administrator Geneteki


Dołączył: 25-12-2007
Posty: 417

Status: Offline
Może warto dla przykładu jakąś księgę metrykalną w to wrzucić? Albo księgę sądową?
Pozdrawiam!
IgorD.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 05-11-2023 - 23:00
Sympatyk


Dołączył: 29-04-2023
Posty: 23

Status: Offline
igoriosso napisał:
Może warto dla przykładu jakąś księgę metrykalną w to wrzucić? Albo księgę sądową?
Pozdrawiam!
IgorD.


Na pewno warto, ta usługa od google radzi sobie całkiem dobrze z rozpoznawaniem tekstu. Wrzucam ten na szybko napisany kawałek kodu, który użyłem do tego:

https://github.com/k4Mr3/AKMCrawler

AKMCrawler.py - służy do ściągania ksiąg z AKM
GoogleOCR.py wysyła wszystkie pliki o nazwach od 1.jpg do n.jpg do googla i zapisuje jako tekst. Trzeba mieć skonfigurowany google cloud do tego.

Jakiś minimum znajomości programowania w python potrzeba aby z tego skorzystać.

Sam zamierzam się zając księgami ziemskimi krakowskimi.

https://www.szukajwarchiwach.gov.pl/en/ ... a/13464491

[edit]

Tak wyszło:
http://genealogia.reszczyk.pl/Ksiegi%20 ... ie/468.txt


Ostatnio zmieniony przez Kamil_Reszczyk dnia 06-11-2023 - 01:44, w całości zmieniany 1 raz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
sirdanielOffline
Temat postu:   PostWysłany: 06-11-2023 - 01:31
Sympatyk


Dołączył: 25-03-2012
Posty: 280

Status: Offline
To jest naprawdę sprawa o wielkim znaczeniu. W internecie jest i przybędzie mnóstwo ksiąg sądowych, czy innych, metryk itp. Których rozczytywanie trwa długo, a czasem jest niemozliwe. Taka usługa to skarb dla społeczności. Myslę, że można to ustawic na jakiejśc stronie i robić dekrypcje czy indeksy na wzór geneteki, itp. Najlepiej jakby ktos sie tym zajmował na stałe Smile

_________________
Jego Najjaśniejsza Mość Wielmożny Wielce Szanowny Mocium Pan Magister Daniel
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
marekzaborskiOffline
Temat postu:   PostWysłany: 06-11-2023 - 09:07
Sympatyk


Dołączył: 27-08-2010
Posty: 382

Status: Offline
Kamil_Reszczyk napisał:
Na podstawie tego:
https://postimg.cc/jCsCZQhL

To jest interesujące. Bo wygląda na to że w AG15 ściągnęło dużo więcej skanów niż wygląda na to że jest udostępnione na stronie. Musze to zbadać co tam zaszło. Smile
[edit]
Ok, już widzę że w AG15 mam AEP107. Poprawiam.
Dzięki za wyłapanie tego Smile
marekzaborski napisał:
Kamil_Reszczyk napisał:
Kod który używam prawie nie różni się od tego opisanego poniżej:

https://cloud.google.com/vision/docs/handwriting
Różnica jest tylko taka że dodałem pętle które w wysyła kolejne wcześniej pobrane strony. Ten model dobrze radzi sobie z tekstem który jest dość wyraźnie napisany tak jak w przypadku większości staropisów AKM. Czasem zdarzają się problemy co widać przypadku pliku Aadm15 i starszych. Do tych trzeba znaleźć/stworzyć inny model.

Lewandowicz_Adam napisał:
To jest kapitalne!!! Czy moglbym prosic o link do rozpoznawania tekstu? W koncu odczytane zostaloby kujawskie ksiegi grodzkie i ziemskie. Nareszcie nasza historyczna pasja zacznie rozwijac sie w tym kierunku, ktorym powinna. Brawo!!!

Dzień dobry,
można poprosić o właściwe źródło? chodzi mi o zdjęcie 707, tylko nie wiem czego.
http://genealogia.reszczyk.pl/AKM/ACTA% ... A/AG15.txt
Pozdrawiam
Marek


Dzięki za sprawdzenie.

Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?

Pozdrawiam
Marek
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Wyświetl posty z ostatnich:     
Skocz do:  
Wszystkie czasy w strefie GMT - 12 Godzin
Napisz nowy temat   Odpowiedz do tematu
Zobacz poprzedni temat Wersja gotowa do druku Zaloguj się, by sprawdzić wiadomości Zobacz następny temat
Powered by PNphpBB2 © 2003-2006 The PNphpBB Group
Credits
donate.jpg
Serwis Polskiego Towarzystwa Genealogicznego zawiera forum genealogiczne i bazy danych przydatne dla genealogów © 2006-2024 Polskie Towarzystwo Genealogiczne
kontakt:
Strona wygenerowana w czasie 0.750535 sekund(y)