Serwis Polskiego Towarzystwa Genealogicznego

flag-pol flag-eng home login logout Forum Fotoalbum Geneszukacz Parafie Geneteka Metryki Deklaracja Legiony Straty
środa, 01 stycznia 2025

longpixel


Napisz nowy temat   Odpowiedz do tematu
Zobacz poprzedni temat Wersja gotowa do druku Zaloguj się, by sprawdzić wiadomości Zobacz następny temat
Autor Wiadomość
Kamil_ReszczykOffline
Temat postu: Stała Komisja Wojenno-Śledcza (1833-1863) INDEKSY  PostWysłany: 28-12-2024 - 22:48
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
Miałem ostatnio trochę wolnego czasu po świętach i postanowiłem poszukać informacji o moich XIX-wiecznych krewnych, którzy w tamtych czasach weszli w konflikt z prawem. Zainteresował mnie zespół archiwalny "Stała Komisja Wojenno-Śledcza ustanowiona przy Namiestniku i Głównodowodzącym Wojskami w Królestwie Polskim", a konkretnie pierwsza jednostka zawierająca chronologiczny spis osób (4059 pozycji), w których sprawie Komisja Śledcza prowadziła śledztwo; wpisy zawierają dane personalne, krótki opis przestępstwa i decyzje Komisji Śledczej.

Sygnatura: 1/241/0/-/1.

Aby szybciej przejrzeć dokumenty, najpierw automatycznie zamieniłem tekst pisany cyrylicą (rosyjskim) na tekst maszynowy przy pomocy Google Vision. Potem wygenerowane pliki wrzuciłem do modelu gtp-4o, prosząc o przetłumaczenie na polski.
Efekt tej pracy udostępniam – wrzucam zarówno T1 ROS.txt (rozpoznawanie tekstu maszynowego w języku rosyjskim), jak i T1 POL.txt (tekst przetłumaczony na polski).

Może dzięki temu ktoś z Was odnajdzie informacje o swoich krewnych z tamtego okresu albo przynajmniej zyska dodatkowy indeks do dalszych poszukiwań.

LINK: http://genealogia.reszczyk.pl/Stala%20K ... miestniku/
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
PietruszkaOffline
Temat postu: Stała Komisja Wojenno-Śledcza (1833-1863) INDEKSY  PostWysłany: 29-12-2024 - 07:13
Sympatyk


Dołączył: 01-06-2022
Posty: 57
Skąd: Olsztyn, Warmia
Status: Offline
Cześć
Możesz opisać jak zamieniasz tekst odręczny na tekst edytowalny w Google Vision? Interfejs jest bardzo rozbudowany. Czy da się efektywnie pracować na rastrach z ksiąg metrykalnych w układzie tabelarycznym?

_________________
Piotr
Parafie moich przodków:
św. Apostołów Piotra i Pawła w Dryświatach (dekanat Brasław)
św. Andrzeja Apostoła w Krzywiczach (dekanat Wilejka)
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 29-12-2024 - 13:14
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
Jak to robię.

1. Ściągam całą jednąstkę z szukajwarchiwach (opcja "wszystkie" i pobierz w widoku skanów jednostki)
2. Kiedy mam już wszystkie skany w danym folderze używam tego:

Kod:
import os
from google.cloud import vision


def detect_document(path):
    client = vision.ImageAnnotatorClient()

    file_list = os.listdir(path)

    with open(path + ".txt", "a") as file:

        for filename in file_list:
            if filename.endswith(".jpg"):

                number_str = ''.join(filter(str.isdigit, filename))
                number = int(number_str)


                if (number > 0):
                    print(f"Przetwarzam plik {filename}")
                    with open(path + "/" + filename, "rb") as image_file:
                        content = image_file.read()

                    image = vision.Image(content=content)

                    response = client.document_text_detection(image=image)

                    strona = ""

                    for page in response.full_text_annotation.pages:
                        for block in page.blocks:

                            for paragraph in block.paragraphs:

                                if paragraph.confidence > 0.7:

                                    for word in paragraph.words:
                                        word_text = "".join([symbol.text for symbol in word.symbols])

                                        strona += word_text + " "

                    file.write('\n\nStrona ' + filename + '\n\n')
                    file.write(strona)

                    if response.error.message:
                        raise Exception(
                            "{}\nFor more info on error messages, check: "
                            "https://cloud.google.com/apis/design/errors".format(response.error.message)
                        )


# Nazwa folderu z plikami od 1.jpg do n.jpg
detect_document('AG15')


Ten skrypt otwiera folder ze skami (w tym przykładzie AG15) i po kolei wysyła skany do google vision. Wyniki zapisuje w pliku tekstowym o takiej samej nazwie jak nazwa folderu (AG15.txt).

Efekt powinien być taki sam jak w pliku T1 ROS.txt który wrzuciłem w tym wątku. Skryp ignoruje dane słowo jeśli współczynnik pewności co do przetłumaczonego słowa jest niższy niż 0.7. Kiedy przetwarzałem AKM w zeszłym roku po prostu metodą prób i błędów ta wartość dawała zadowalające efekty.

Jeśli chodzi o przetwarzanie danych w układzie tabelrycznym, poszczególne obszary tekstowe będą w różny sposób wymieszane ze sobą.

Przykład:
https://www.szukajwarchiwach.gov.pl/ska ... b6aa8dfa6b

Efekt:
Kod:
1 Имя , фамилья и В обвиняетск Korda представлено дило u sanivorenie Kosinuiciu . ныхъ медалей литыхъ изъ слова iz bu ikin прочихь дитских игрушек одноглавины хорлами . не для какой либо политической цили то впершить сну , any , чтобы таких медалей будущее время не дѣлалъ , вмѣнивь смер А наказание содержаніе его подъ apečlonk bor 18 Прусскій подданный Арестованк во Кеви на поддержнию , 20 % Октября 1833года ли № 564 . въ Mapmunt Позловский не есть ли онх мното Позловский рядовой Ť Позлований объяснялах , что онх вы 6 пахотного полка бывиться Польскимъ шель uso dhimpia въ и для отыска Abempice войска , который въ шайки блоумышленно , най себя спржбина суконних фабрикам на Залесского вошаль , въ Царство Помской , не на опроверженію объяснения вы види сего Ты ничего ныть . Показани это представи Bapuaberony Bocuno.sy Fydepramopy 19. Служившій въ мятежни Произнесь дерогих выражения про recruxs bouckass be sbanių mube Jocydapx Usnepamepa , Odpuyepa Jocupr Hobanz 20 Сынъ обывателя г Bapwaber Tocups . Hab . He donecuu Harasemby a repousuele Варшавы Не донесли . Начальству проманесе ловичь ніи въ присутств иль Новакомъ , иль , Новокомъ дерним выраженій противъ особы Государя Императора 24. Обыватем г. Варша bu Kaper Doprobeniu 1833 20 Октября 1859 года ва F563 . pedant ceo boennoniy Cydy . Предять военному Ajudemnabueno Suazoya companio Bap Представлено благоусмотрѣнію шавскаго Росннаго Губернатора 20 - октября 1833 года Чѣмъ дѣло рѣшено на года 18.33 " 2 : 22. Подпоручикк б . Польские Подозриваемя быль въ свяями св дѣйствовать мятежнику мятежнику Завишт войств Украситя Махвиць злоумышленниками въ готовности 20. Октября 1835 года за № 563 . Подозрине это по изглядованію подтвердилось ? 


Akurat dla mnie nie był to duży problem, ponieważ kluczowym było dla mnie szukanie konkretnych nazwisk, nazw miejscowości. Jeśli taki się pojawiały zawsze wracałem to skanu źródłowego.

Google Vision w trakcie przetwarzania skanów zwraca sporo więcej informacji których ja akurat nie zapisuje bo nie są dla mnie istotne np. położenie wykrytych bloków tekstowych. Myślę że jakby tkoś zainwestował trochę swojego czasu mógłby z powodzeniem przetwarzać informację nie gubiąc kontekstu wynikającego z układu tabeli.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
mbeelasOffline
Temat postu: Re: Stała Komisja Wojenno-Śledcza (1833-1863) INDEKSY  PostWysłany: 29-12-2024 - 16:54
Sympatyk


Dołączył: 31-07-2022
Posty: 211

Status: Offline
Kamil_Reszczyk napisał:
Miałem ostatnio trochę wolnego czasu po świętach i postanowiłem poszukać informacji o moich XIX-wiecznych krewnych, którzy w tamtych czasach weszli w konflikt z prawem. Zainteresował mnie zespół archiwalny "Stała Komisja Wojenno-Śledcza ustanowiona przy Namiestniku i Głównodowodzącym Wojskami w Królestwie Polskim", a konkretnie pierwsza jednostka zawierająca chronologiczny spis osób (4059 pozycji), w których sprawie Komisja Śledcza prowadziła śledztwo; wpisy zawierają dane personalne, krótki opis przestępstwa i decyzje Komisji Śledczej.

Sygnatura: 1/241/0/-/1.

Aby szybciej przejrzeć dokumenty, najpierw automatycznie zamieniłem tekst pisany cyrylicą (rosyjskim) na tekst maszynowy przy pomocy Google Vision. Potem wygenerowane pliki wrzuciłem do modelu gtp-4o, prosząc o przetłumaczenie na polski.
Efekt tej pracy udostępniam – wrzucam zarówno T1 ROS.txt (rozpoznawanie tekstu maszynowego w języku rosyjskim), jak i T1 POL.txt (tekst przetłumaczony na polski).

Może dzięki temu ktoś z Was odnajdzie informacje o swoich krewnych z tamtego okresu albo przynajmniej zyska dodatkowy indeks do dalszych poszukiwań.

LINK: http://genealogia.reszczyk.pl/Stala%20K ... miestniku/


Super narzędzie, ale kompletnie nie rozumiem jak się za nie zabrać. Ono przerabia każdy tekst pisany na drukowany? Czy robi błędy?

_________________
Marcin
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu: Re: Stała Komisja Wojenno-Śledcza (1833-1863) INDEKSY  PostWysłany: 29-12-2024 - 17:45
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
Na pierwszym etapie zamienia tekst odręcznie pisany na drukowany. Błędy zdarzają się przy niewyraźnym piśmie,
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
PietruszkaOffline
Temat postu:   PostWysłany: 29-12-2024 - 17:48
Sympatyk


Dołączył: 01-06-2022
Posty: 57
Skąd: Olsztyn, Warmia
Status: Offline
Kamil_Reszczyk napisał:

2. Kiedy mam już wszystkie skany w danym folderze używam tego:

[code]import os
from google.cloud import vision
...


Aby używać Google Vision (GV), trzeba posiadać tam konto a w tym kodzie nie ma procedury logowania do GV.
Także Kamilu, prosimy o więcej informacji.

mbeelas napisał:

Super narzędzie, ale kompletnie nie rozumiem jak się za nie zabrać.

Aby kodować w python'ie lub innych językach trzeba zainstalować sam interpreter języka. Tutaj python:
https://www.python.org/downloads/
No i jakiś edytor kodu, np. ten:
https://code.visualstudio.com/

Ktoś kto nigdy nie kodował będzie musiał poświęcić wiele czasu i motywacji aby zaczęło to przynosić realne efekty.

_________________
Piotr
Parafie moich przodków:
św. Apostołów Piotra i Pawła w Dryświatach (dekanat Brasław)
św. Andrzeja Apostoła w Krzywiczach (dekanat Wilejka)
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 29-12-2024 - 19:04
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
@Pietruszka

Wystarczy skonfigurowa CLI z google i ten kod będzie działał:

https://cloud.google.com/sdk/docs/install

Masz rację, ten kod wymaga podstawowej wiedzy z programowania, ale moim celem było przede wszystkim podzielenie się efektem przetwarzania jednostki Stała Komisja Wojenno-Śledcza (1833-1863), bo może się to przydać komuś w poszukiwaniach genealogicznych. 😊

Zapytałeś kilka postów wyżej jak to zrobiłem to postarałem się wyjaśnić
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
PietruszkaOffline
Temat postu:   PostWysłany: 29-12-2024 - 21:09
Sympatyk


Dołączył: 01-06-2022
Posty: 57
Skąd: Olsztyn, Warmia
Status: Offline
Bardzo Ci dziękuję za te informacje. Nie zdawałem sobie sprawy, że istnieje taka technologia, i że można to w dość prosty sposób automatyzować. Ale niestety aby uruchomić tę usługę, Google wymaga podpięcie karty debetowej lub kredytowej co bardzo mi się nie podoba. W takich przypadkach niektóre firmy, w tym Google potrafiły pobrać środki w nieuzasadnionych przypadkach.

Mam jeszcze jedną prośbę, możesz napisać jakie są realne koszty tej usługi Google Vision?

_________________
Piotr
Parafie moich przodków:
św. Apostołów Piotra i Pawła w Dryświatach (dekanat Brasław)
św. Andrzeja Apostoła w Krzywiczach (dekanat Wilejka)
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 29-12-2024 - 22:50
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
Z tego, co widzę, przetworzenie jednostki 1/241/0/-/1 kosztowało około 30 zł.

Prawdopodobnie, zakładając tam konto po raz pierwszy, możesz skorzystać z bonusowych środków oferowanych przez Google, które mają na celu umożliwienie nauki korzystania z ich usług. Wtedy dawali takie środki na około miesiąc. W tym czasie przetworzyłem bardzo dużą liczbę rękopisów z AKM (łącznie 138 816 stron), a mimo to nie wyczerpałem całego przyznanego limitu:

http://genealogia.reszczyk.pl/AKM/

Widzę, że nadal oferują 300 dolarów do wykorzystania w ciągu 90 dni.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Wyświetl posty z ostatnich:     
Skocz do:  
Wszystkie czasy w strefie CET (Europa)
Napisz nowy temat   Odpowiedz do tematu
Zobacz poprzedni temat Wersja gotowa do druku Zaloguj się, by sprawdzić wiadomości Zobacz następny temat
Powered by PNphpBB2 © 2003-2006 The PNphpBB Group
Credits
donate.jpg
Serwis Polskiego Towarzystwa Genealogicznego zawiera forum genealogiczne i bazy danych przydatne dla genealogów © 2006-2025 Polskie Towarzystwo Genealogiczne
kontakt:
Strona wygenerowana w czasie 0.422351 sekund(y)