Genealodzy.PL Genealogia

Tłumaczenia - rosyjski - Narzędzie do rozpoznawania cyrylicy

Tomek_Kielpinski - 27-05-2022 - 09:58
Temat postu: Narzędzie do rozpoznawania cyrylicy
Sam bardzo długo szukałem takiego narzędzia, bo znajomość rosyjskiego jest u mnie na szczątkowym poziomie (jak się kiedyś śmialiśmy z kolegą, rozpoznaję Żuczka i Fortepian Wink), z odręczną cyrylicą nie radzę sobie prawie wcale a staram się szanować czas tłumaczy i z prośbą o pomoc zwracać się jak najrzadziej.

I znalazłem Smile

https://readcoop.eu/model/russian-gener ... writing-1/

Model na tyle przyzwoicie rozpoznaje pismo (które potem można oczywiście wrzucić do translatora google, który robi również transkrypcję na alfabet łaciński), że część poszukiwaczy będzie w stanie zapoznać się z większością informacji w dokumencie samodzielnie, bez angażowania tłumaczy. A jeśli nawet pomoc będzie potrzebna, to w mniejszym zakresie.

Pozdrawiam,
Tomek
Majcher - 27-04-2023 - 22:17
Temat postu: Narzędzie do rozpoznawania cyrylicy
Jesteś wielkim optymistą! Wypróbowałem program na nabazgranej metryce i wyszło na to, że lepiej rozpoznaję takie kulfony po rosyjsku. Program jest tylko tekstów pisanych prawie kaligraficznie.
palyst - 29-06-2023 - 09:59
Temat postu: Re: Narzędzie do rozpoznawania cyrylicy
Tomek_Kielpinski napisał:
Sam bardzo długo szukałem takiego narzędzia, bo znajomość rosyjskiego jest u mnie na szczątkowym poziomie (jak się kiedyś śmialiśmy z kolegą, rozpoznaję Żuczka i Fortepian Wink), z odręczną cyrylicą nie radzę sobie prawie wcale a staram się szanować czas tłumaczy i z prośbą o pomoc zwracać się jak najrzadziej.

I znalazłem Smile

https://readcoop.eu/model/russian-gener ... writing-1/

Model na tyle przyzwoicie rozpoznaje pismo (które potem można oczywiście wrzucić do translatora google, który robi również transkrypcję na alfabet łaciński), że część poszukiwaczy będzie w stanie zapoznać się z większością informacji w dokumencie samodzielnie, bez angażowania tłumaczy. A jeśli nawet pomoc będzie potrzebna, to w mniejszym zakresie.

Pozdrawiam,
Tomek


A ja dziękuję za twój post ["Tomek_Kielpinski"]
Nie jest to narzędzie idelane, ale bardzo pomocne.
Jestem z pokolenia, które jeszcze miało język rosyjski w szkole podstawowej. Więc łącząc moją wiedzę i to narzędzie udało mi się częściowo rozszyfrować/przetłumaczyć akt urodzenia Smile
Quit - 28-10-2023 - 19:09
Temat postu: Re: Narzędzie do rozpoznawania cyrylicy
Fajne narzedzie. Ma sporo bledow, ale jal Palyst napisal, to narzedzie + rosyjski z podstawowki, daje nowe mozliwosci.
Ja jestem fanka Smile
Bagins - 07-02-2024 - 22:23
Temat postu:
Świetna sprawa, że są OCRy do odręcznej cyrylicy. Z tego skrótu do Transkribusa znalazłem jeszcze dwa inne projekty w tym samym duchu. Chciałem je porównać, więc sprawdziłem je ichnim przykładowym obrazkiem, zamieszczonym na tym pierwszym OCRze podanym przez Tomka czyli RGH 2 . Dwie linijki (trudna nr8 i łatwa nr9) z tego obrazka i to co zostało odczytane przez każdą wersję, a na końcu moje odczytanie:



Russian Generic Handwriting 2
https://readcoop.eu/model/russian-generic-handwriting/
Иня въ избу. Иемный беръ.
Но скоро мны увидим травку.

Russian Civil Records late XIX cent.
https://readcoop.eu/model/russian-civil-records-late-xix-cent/
Голя въ горду Ипельный беръ.
По скерами двадил превлу-

Russian Handwriting early 20th century
https://readcoop.eu/model/russian-handwriting-early-20th-century/
Чонъ въ избу гкоѣемный барь...
Но скоро сни двидлатъ травая

A ja widzę to tak:
Гоня въ избу. И въ темный баръ,...
Но скаро мы увидимъ тровку.

Gdy się przeglądnie cały tekst na obrazku to wyraźnie widać rozróżnienie na a i o. Jednak ze względu na odwrócenie użycia niektórych a i o wygląda jakby ktoś pisał ze słuchu, bo powinno być: бор, скоро, травку. Widać, że te algorytmy mają trudności gdy litery są skomasowane ale za to poprawiają błędy, uwspółcześniają pisownię, ponieważ likwidują znak twardy i nie używają ówczesnych czcionek „przed rewolucyjnych" jak np: Jać. Wydaje mi się, że dopasowują litery z częściowo odczytanego słowa i porównują ją z bazą słownikową. Dopiero gdy nic nie mogą znaleźć to zostawiają je tak jak jest, nawet jeśli takie słowo nie istnieje.

Niesamowita w Transkribusie jest sama ilość otwartych projektów czytania odręcznego pisma: 140 rodzajów pisma od XV wieku w przeróżnych językach i krojach pisma. https://readcoop.eu/transkribus/public-models/
Może kiedyś księgi parafialne będą czytane bez konieczności ręcznej indeksacji?

Przy okazji znalazłem również oprogramowanie do zainstalowania i używania offline - tam gdzie dane są bardziej prywatne lub dotyczą współcześnie żyjących osób: https://github.com/AmalAkh/russian-handwritten-text-recognition
Jednak nie jest to tak proste jak wklejenie obrazka online, bo do samego oprogramowania trzeba doinstalować silnik Tensorflow i mieć Pythona (w wersji min. 3.9), więc na razie tego nie przetestowałem. Ale obrazek z przykładami jest obiecujący, bo nie skupia się na jednej formie i charakterze pisma jak w przypadku Transkribusa. Jednak trzeba przetestować, aby móc coś więcej powiedzieć i ocenić skuteczność.

Pozdrawiam
Artur
Wszystkie czasy w strefie CET (Europa)
Powered by PNphpBB2 © 2003-2006 The PNphpBB Group
Credits