Serwis Polskiego Towarzystwa Genealogicznego

flag-pol flag-eng home login logout Forum Fotoalbum Geneszukacz Parafie Geneteka Metryki Deklaracja Legiony Straty
środa, 29 stycznia 2025

longpixel


Napisz nowy temat   Odpowiedz do tematu
Zobacz poprzedni temat Wersja gotowa do druku Zaloguj się, by sprawdzić wiadomości Zobacz następny temat
Autor Wiadomość
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 06-11-2023 - 12:42
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
marekzaborski napisał:
[quote="Kamil_Reszczyk"

Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?

Pozdrawiam
Marek


Jeśli chodzi o poprawianie wyników rozpoznawania, niestety narzędzie Google Cloud Vision API samo w sobie nie jest w stanie się uczyć w sensie tradycyjnego uczenia maszynowego.

Aby poprawić jakość rozpoznawania pisma odręcznego dla konkretnego zestawu danych lub przypadku, potrzebowałbyś własnego modelu OCR (Optical Character Recognition), który byłby dostosowany do twoich potrzeb. Tworzenie własnego modelu OCR to zaawansowany proces, który wymaga zbierania i przygotowania odpowiednich danych treningowych, trenowania modelu oraz jego dostosowywania do konkretnej aplikacji.

Należałoby zwrócić się do specjalistów z dziedziny uczenia maszynowego lub deep learning, którzy byliby w stanie pomóc w opracowaniu i wdrożeniu własnego modelu OCR. Jednak jest to znacznie bardziej zaawansowany projekt niż korzystanie z gotowego narzędzia takiego jak Google Cloud Vision.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
marekzaborskiOffline
Temat postu:   PostWysłany: 06-11-2023 - 14:44
Sympatyk


Dołączył: 27-08-2010
Posty: 392

Status: Offline
Kamil_Reszczyk napisał:
marekzaborski napisał:
[quote="Kamil_Reszczyk"

Bardzo fajne narzędzie. Na podstawie moich kwerend i poszukiwanego wczesniej nazwiska (Zaborski) - różnie jest ono zapisywane przez narzędzie, czasem dobrze, czasem dość mocno zniekształcone. Znalazłem to co źle zapisało, po nazwie wsi która była zapisywana zazwyczaj poprawnie.
Nie znam się, czy program może się uczyć w jakiś sposób?

Pozdrawiam
Marek


Jeśli chodzi o poprawianie wyników rozpoznawania, niestety narzędzie Google Cloud Vision API samo w sobie nie jest w stanie się uczyć w sensie tradycyjnego uczenia maszynowego.

Aby poprawić jakość rozpoznawania pisma odręcznego dla konkretnego zestawu danych lub przypadku, potrzebowałbyś własnego modelu OCR (Optical Character Recognition), który byłby dostosowany do twoich potrzeb. Tworzenie własnego modelu OCR to zaawansowany proces, który wymaga zbierania i przygotowania odpowiednich danych treningowych, trenowania modelu oraz jego dostosowywania do konkretnej aplikacji.

Należałoby zwrócić się do specjalistów z dziedziny uczenia maszynowego lub deep learning, którzy byliby w stanie pomóc w opracowaniu i wdrożeniu własnego modelu OCR. Jednak jest to znacznie bardziej zaawansowany projekt niż korzystanie z gotowego narzędzia takiego jak Google Cloud Vision.


Dziękuję za wyjaśnienie.

Czy mógłbym Cię poprosić o przetworzenie w wolnej chwili również wcześniej opublikowanych sygnatur CAAK?

https://sdm.upjp2.edu.pl/obiekty-archiwalne

Zwłaszcza AEP Smile

Pozdrawiam
Marek
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 06-11-2023 - 15:36
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
Myślę że AEP dodam w wolnej chwili.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Lakiluk
Temat postu:   PostWysłany: 06-11-2023 - 18:17
Sympatyk


Dołączył: 11-07-2021
Posty: 1198

Czy CAAK nakłada jakieś blokady? Twój kod wyrzuca mi 403 przy próbie ściągania plików. Sporadycznie coś pobierze.

_________________
Łukasz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 06-11-2023 - 18:33
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
Lakiluk napisał:
Czy CAAK nakłada jakieś blokady? Twój kod wyrzuca mi 403 przy próbie ściągania plików. Sporadycznie coś pobierze.


Sprawdziłem przed chwilą, i u mnie działa.

Testowałem dla AEP71, taki URL wpisałem do sturtury url_tab, i nazę folderu pod jakim to ma zapisać lokalnie:

url_tab = [["https://sdm.upjp2.edu.pl/obiekty-archiwalne/volumen-v-actorum-episcopalium-r-d-joannis-malachowski-episcopi-cracoviensis-ducis-severiae-per-annos-1690-et-1691-acticatorum-quorum-index-ad-finem-praesentis-voluminis-exhibetur-adnotatus", "AEP71"]]


python3 AKMCralwer.py:
Folder 'AEP71' został utworzony.
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/1.jpg (czas: 0.96 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/3.jpg (czas: 0.98 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/4.jpg (czas: 0.98 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/2.jpg (czas: 0.99 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/5.jpg (czas: 0.71 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/6.jpg (czas: 0.92 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/8.jpg (czas: 0.93 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/7.jpg (czas: 0.95 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/9.jpg (czas: 0.30 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/10.jpg (czas: 0.85 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/11.jpg (czas: 0.88 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/12.jpg (czas: 0.86 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/13.jpg (czas: 0.83 sekundy)
Pobrano i zapisano zawartość z https://sdm.upjp2.edu.pl/synchronized/A ... 1699291744 do AEP71/14.jpg (czas: 0.24 sekundy)

Zasówa aż miło Smile

Pokaż co wrzuciłeś do struktury url_tab, bo może coś dałeś za dużo do adresu URL
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Lakiluk
Temat postu:   PostWysłany: 06-11-2023 - 18:41
Sympatyk


Dołączył: 11-07-2021
Posty: 1198

Raz pobierze:
https://caak.upjp2.edu.pl/j/63ab6c32a12 ... 71e4/s/0/f

Kod:
d4f32a05e6e15918245f8jpg/ do caak/21.jpg (czas: 21.38 sekundy)


A raz nie:
https://caak.upjp2.edu.pl/j/5e5c4f6d29f ... 1b82/s/0/f

Kod:
Nie udało się pobrać zawartości z https://caak.upjp2.edu.pl/iiif/3/5f7d92 ... 951c1jpg/. Kod odpowiedzi: 403

_________________
Łukasz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 06-11-2023 - 18:52
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
Zmieniasz w kodzie:

Kod:

url_tab = [["https://caak.upjp2.edu.pl/j/63ab6c32a126762a2e5671e4/s/0/f", "TEST1"]]


Odpalasz:

Kod:


Folder 'TEST1' został utworzony.
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac65 ... 0f56f6jpg/ do TEST1/2.jpg (czas: 1.12 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac65 ... 261145jpg/ do TEST1/1.jpg (czas: 1.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac68 ... 3b644fjpg/ do TEST1/4.jpg (czas: 1.31 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a ... 167212jpg/ do TEST1/6.jpg (czas: 0.22 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a ... 383cd8jpg/ do TEST1/7.jpg (czas: 0.14 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a ... 42fa77jpg/ do TEST1/8.jpg (czas: 0.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac68 ... c72a7ejpg/ do TEST1/3.jpg (czas: 1.57 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a ... ce4393jpg/ do TEST1/5.jpg (czas: 0.59 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b ... 22db94jpg/ do TEST1/12.jpg (czas: 0.13 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a ... 411877jpg/ do TEST1/9.jpg (czas: 5.11 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b ... 20d3bcjpg/ do TEST1/13.jpg (czas: 4.86 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a ... 1e8729jpg/ do TEST1/10.jpg (czas: 5.22 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b ... 6d3c3djpg/ do TEST1/16.jpg (czas: 0.21 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6a ... ff0a09jpg/ do TEST1/11.jpg (czas: 5.55 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b ... a37dddjpg/ do TEST1/14.jpg (czas: 5.15 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b ... 7db63cjpg/ do TEST1/15.jpg (czas: 5.40 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b ... 31fdf9jpg/ do TEST1/17.jpg (czas: 5.19 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b ... d8ae8ajpg/ do TEST1/18.jpg (czas: 5.20 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b ... 2346ddjpg/ do TEST1/22.jpg (czas: 0.14 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b ... 8245f8jpg/ do TEST1/21.jpg (czas: 0.48 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b ... 7d77b8jpg/ do TEST1/19.jpg (czas: 4.63 sekundy)
Pobrano i zapisano zawartość z https://caak.upjp2.edu.pl/iiif/3/63ac6b ... 51ab6fjpg/ do TEST1/20.jpg (czas: 4.83 sekundy)
Wszystkie pliki zostały pobrane.



Najlepiej skopjuj mi i wklej tutaj url_tab
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Lakiluk
Temat postu:   PostWysłany: 06-11-2023 - 19:08
Sympatyk


Dołączył: 11-07-2021
Posty: 1198

Teraz szybko pobrało.

Ale wygląda, że nie wszystko można pobierać.

Kod:
url_tab = [["https://caak.upjp2.edu.pl/j/5e5c4f6d29fd527f36331b82/s/0/f", "TEST1"]]


Kod:
Folder 'TEST1' już istnieje.
Nie udało się pobrać zawartości z https://caak.upjp2.edu.pl/iiif/3/5f7d92 ... 133cdjpg/. Kod odpowiedzi: 403
[...]

_________________
Łukasz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 06-11-2023 - 19:24
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
Ok, już widzę o co chodzi.

W przypadku tej konkretnej jednostki nie można pobrać zdjęć w tak wysokiej rozdzielczości jak ustawiłem w skrypcie.

Zmień w linijce 11 z "2000" na przykład na "1000":

Kod:

        response = requests.get(url + "full/1000,/0/default.jpg", timeout=timeout)


i pójdzie jak trzeba.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Lakiluk
Temat postu:   PostWysłany: 06-11-2023 - 19:33
Sympatyk


Dołączył: 11-07-2021
Posty: 1198

Dzięki, teraz śmiga fajnie.

_________________
Łukasz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
turbokidOffline
Temat postu:   PostWysłany: 26-11-2023 - 19:31
Sympatyk


Dołączył: 15-02-2020
Posty: 145

Status: Offline
A ile kosztuje ta usługa Google Cloud (bo nie wierzę, że jest za darmo)?
Ja kiedyś próbowałem tym modelem odczyywać metryki (ściągnąć na dysk i przetwarzać w pętli), ale słabo to wychodziło:

https://github.com/anusikh/OCR_Resnet/tree/main



Pozdrawiam,
Łukasz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 15-12-2023 - 18:51
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
Za darmo nie jest. Ale jak się zarejestrujesz, to masz dostęp "demo" 2 miesiące i budżet 1300 pln do testowania.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
MrTomiQOffline
Temat postu:   PostWysłany: 10-01-2024 - 15:18
Sympatyk


Dołączył: 23-06-2022
Posty: 232

Status: Offline
Dzień Dobry
Próbowałem pobrać: Aoff166 strona 624, ale wyskakuje mi błąd 500, jak klikam na skan.

Proszę o pomoc.

Pozdrawiam
Tomasz
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Kamil_ReszczykOffline
Temat postu:   PostWysłany: 12-01-2024 - 20:55
Sympatyk


Dołączył: 29-04-2023
Posty: 30

Status: Offline
Szukałem: "testamenti supra" znalazło Aoff166, strona: 624. Link wygenerowany do skanu jest taki:

https://caak.upjp2.edu.pl/en/j/5ff851ad ... d8/s/623/f

I otwiera się prawidłowo.

Może masz starszą wersję zapamiętaną gdzieś w pamięci cache strony i może to przez wersję starszą bazy tych linków gdzie cześć rzeczywiście miałem uszkodzoną Smile

Jak możesz skopiuj mi adres URL jaki tam dostajesz pod tym przyciskiem "SKAN". Jakby to się jeszcze gdzieś pojawiało to można też bezpośrednio wchodzić na stronę CAAK i tam manualnie szukać odpowiedniej księgi i numeru strony.

Wydawało mi się że już wyłapałem wszystkie te uszkodzone linki.
 
 Zobacz profil autora Wyślij prywatną wiadomość  
Odpowiedz z cytatem Powrót do góry
Wyświetl posty z ostatnich:     
Skocz do:  
Wszystkie czasy w strefie CET (Europa)
Napisz nowy temat   Odpowiedz do tematu
Zobacz poprzedni temat Wersja gotowa do druku Zaloguj się, by sprawdzić wiadomości Zobacz następny temat
Powered by PNphpBB2 © 2003-2006 The PNphpBB Group
Credits
donate.jpg
Serwis Polskiego Towarzystwa Genealogicznego zawiera forum genealogiczne i bazy danych przydatne dla genealogów © 2006-2025 Polskie Towarzystwo Genealogiczne
kontakt:
Strona wygenerowana w czasie 0.488201 sekund(y)