|
|
|
Autor |
Wiadomość |
Tomek_Kielpinski |
|
Temat postu: Narzędzie do rozpoznawania cyrylicy
Wysłany: 27-05-2022 - 09:58
|
|
Dołączył: 30-06-2020
Posty: 29
Status: Offline
|
|
Sam bardzo długo szukałem takiego narzędzia, bo znajomość rosyjskiego jest u mnie na szczątkowym poziomie (jak się kiedyś śmialiśmy z kolegą, rozpoznaję Żuczka i Fortepian ), z odręczną cyrylicą nie radzę sobie prawie wcale a staram się szanować czas tłumaczy i z prośbą o pomoc zwracać się jak najrzadziej.
I znalazłem
https://readcoop.eu/model/russian-gener ... writing-1/
Model na tyle przyzwoicie rozpoznaje pismo (które potem można oczywiście wrzucić do translatora google, który robi również transkrypcję na alfabet łaciński), że część poszukiwaczy będzie w stanie zapoznać się z większością informacji w dokumencie samodzielnie, bez angażowania tłumaczy. A jeśli nawet pomoc będzie potrzebna, to w mniejszym zakresie.
Pozdrawiam,
Tomek |
|
|
|
|
|
Majcher |
|
Temat postu: Narzędzie do rozpoznawania cyrylicy
Wysłany: 27-04-2023 - 22:17
|
|
Dołączył: 09-06-2015
Posty: 4
Status: Offline
|
|
Jesteś wielkim optymistą! Wypróbowałem program na nabazgranej metryce i wyszło na to, że lepiej rozpoznaję takie kulfony po rosyjsku. Program jest tylko tekstów pisanych prawie kaligraficznie. |
_________________ Krzysztof Majcher
|
|
|
|
|
palyst |
|
Temat postu: Re: Narzędzie do rozpoznawania cyrylicy
Wysłany: 29-06-2023 - 09:59
|
|
Dołączył: 04-08-2008
Posty: 47
Status: Offline
|
|
Tomek_Kielpinski napisał:
Sam bardzo długo szukałem takiego narzędzia, bo znajomość rosyjskiego jest u mnie na szczątkowym poziomie (jak się kiedyś śmialiśmy z kolegą, rozpoznaję Żuczka i Fortepian ), z odręczną cyrylicą nie radzę sobie prawie wcale a staram się szanować czas tłumaczy i z prośbą o pomoc zwracać się jak najrzadziej.
I znalazłem
https://readcoop.eu/model/russian-gener ... writing-1/
Model na tyle przyzwoicie rozpoznaje pismo (które potem można oczywiście wrzucić do translatora google, który robi również transkrypcję na alfabet łaciński), że część poszukiwaczy będzie w stanie zapoznać się z większością informacji w dokumencie samodzielnie, bez angażowania tłumaczy. A jeśli nawet pomoc będzie potrzebna, to w mniejszym zakresie.
Pozdrawiam,
Tomek
A ja dziękuję za twój post ["Tomek_Kielpinski"]
Nie jest to narzędzie idelane, ale bardzo pomocne.
Jestem z pokolenia, które jeszcze miało język rosyjski w szkole podstawowej. Więc łącząc moją wiedzę i to narzędzie udało mi się częściowo rozszyfrować/przetłumaczyć akt urodzenia |
|
|
|
|
|
Quit |
|
Temat postu: Re: Narzędzie do rozpoznawania cyrylicy
Wysłany: 28-10-2023 - 19:09
|
|
Dołączył: 20-07-2011
Posty: 172
Status: Offline
|
|
Fajne narzedzie. Ma sporo bledow, ale jal Palyst napisal, to narzedzie + rosyjski z podstawowki, daje nowe mozliwosci.
Ja jestem fanka |
_________________ ----------------------
/Iwona
|
|
|
|
|
Bagins |
|
Temat postu:
Wysłany: 07-02-2024 - 22:23
|
|
Dołączył: 11-02-2009
Posty: 169
Status: Offline
|
|
Świetna sprawa, że są OCRy do odręcznej cyrylicy. Z tego skrótu do Transkribusa znalazłem jeszcze dwa inne projekty w tym samym duchu. Chciałem je porównać, więc sprawdziłem je ichnim przykładowym obrazkiem, zamieszczonym na tym pierwszym OCRze podanym przez Tomka czyli RGH 2 . Dwie linijki (trudna nr8 i łatwa nr9) z tego obrazka i to co zostało odczytane przez każdą wersję, a na końcu moje odczytanie:
Russian Generic Handwriting 2
https://readcoop.eu/model/russian-generic-handwriting/
Иня въ избу. Иемный беръ.
Но скоро мны увидим травку.
Russian Civil Records late XIX cent.
https://readcoop.eu/model/russian-civil-records-late-xix-cent/
Голя въ горду Ипельный беръ.
По скерами двадил превлу-
Russian Handwriting early 20th century
https://readcoop.eu/model/russian-handwriting-early-20th-century/
Чонъ въ избу гкоѣемный барь...
Но скоро сни двидлатъ травая
A ja widzę to tak:
Гоня въ избу. И въ темный баръ,...
Но скаро мы увидимъ тровку.
Gdy się przeglądnie cały tekst na obrazku to wyraźnie widać rozróżnienie na a i o. Jednak ze względu na odwrócenie użycia niektórych a i o wygląda jakby ktoś pisał ze słuchu, bo powinno być: бор, скоро, травку. Widać, że te algorytmy mają trudności gdy litery są skomasowane ale za to poprawiają błędy, uwspółcześniają pisownię, ponieważ likwidują znak twardy i nie używają ówczesnych czcionek „przed rewolucyjnych" jak np: Jać. Wydaje mi się, że dopasowują litery z częściowo odczytanego słowa i porównują ją z bazą słownikową. Dopiero gdy nic nie mogą znaleźć to zostawiają je tak jak jest, nawet jeśli takie słowo nie istnieje.
Niesamowita w Transkribusie jest sama ilość otwartych projektów czytania odręcznego pisma: 140 rodzajów pisma od XV wieku w przeróżnych językach i krojach pisma. https://readcoop.eu/transkribus/public-models/
Może kiedyś księgi parafialne będą czytane bez konieczności ręcznej indeksacji?
Przy okazji znalazłem również oprogramowanie do zainstalowania i używania offline - tam gdzie dane są bardziej prywatne lub dotyczą współcześnie żyjących osób: https://github.com/AmalAkh/russian-handwritten-text-recognition
Jednak nie jest to tak proste jak wklejenie obrazka online, bo do samego oprogramowania trzeba doinstalować silnik Tensorflow i mieć Pythona (w wersji min. 3.9), więc na razie tego nie przetestowałem. Ale obrazek z przykładami jest obiecujący, bo nie skupia się na jednej formie i charakterze pisma jak w przypadku Transkribusa. Jednak trzeba przetestować, aby móc coś więcej powiedzieć i ocenić skuteczność.
Pozdrawiam
Artur |
|
|
|
|
|
|
|
|
|
|
|