ВходНаше всё Теги codebook 无线电组件 Поиск Опросы Закон Четверг
18 сентября
1542509
CS! (Вчера, 03:35, просмотров: 929)
Порекомендуйте инструментарий для OCR (преобразования сканированного документа в текст). Пытаюсь перевести документацию на станок, думал, что в наш век (недо)развитых LLM и прочих ИИ-прелестей, такие задачи щёлкаются на раз. Сам языковой перевод текста - не проблема, здесь всё решаемо, попробовал WPS office - довольно удобно переводить с помощью ИИ, сразу видишь исходный текст и результат, правишь, что не устраивает. Но сам WPS Office никому не посоветую - очень много 

хочет о вас знать, внаглую перенастраивает ассоциации файлов по расширению, постоянно предлагает открыть открываемые другими софтинами документы в себе. В общем, ведёт себя, как не слишком дружелюбная скотина. Но анализ изображения - говно. Вообще не догоняет, что в тексте непропорциональный шрифт и, надо - не надо, вставляет пробелы между буквами в словах, сам шрифт не признаёт, генерит кучу разных в одном и том же абзаце.


Пробовал несколько онлайн OCR-сервисов, даже денежку потратил на них - результат заставил орать навзрыд). Если с текстами ещё кое-как, что-то можно было бы использовать (хотя форматирование распознаётся хреново, чессговоря, но где в исходном документе вставки из таблиц/картинок начинают сходить с ума. Не ужели нет таких программ/сервисов, где можно в исходнике отметить места, где не нужно делать распознование текста, где можно точно указать, какие фонты там использованы, на каком языке исходник (чтобы LLM мог отфильтровать ошибки машинного зрения по контексту дополнительно?


Пока что, вывод следующий - не факт, что вручную перенабрать 100 с лишним страниц - точнее, скопипастить с последующим восстановлением оригинального форматирования (сам текст-то более-менее распознаётся, с несущественными недочётами) не получится быстрее, чем пользоваться OCR... Помнится, лет 20+ назад Finereader с задачей справлялся не хуже, если не лучше.. Я в смятении.


Дополнение - сам текст-то более-менее распознаётся, с не существенными недочётами. Но хотелось бы получить результат, более-менее соответствующий тому, что было в оригинале визуально.