Сегодня при работе над этой рекламной статьей , использовал инструментарий, который предоставляет Google для распознавания текста.

Изначально был готовый проспект, информацию из которого надо было перенести в цифровой вид и разместить на сайте. Сканировал проспект я с помощью замечательной утилиты под Linux – xsane. Ее преимущества я расписывать не хочу, но такого инструментария под windows просто не существует. Потом сохранил полученные изображения в docs.google, где мне и было предложено воспользоваться услугами по распознаванию моего текста.

В результате в тексте было примерно 0,5 – 1 % ошибок (жить можно), но таблицы или более сложный текст (с использованием английских названий, на темном фоне и объединенных в таблицы) распознан не был вообще. В результате можно сказать, что Google OCR способен распознавать простые тексты (например, книгу), но при наличии какого-либо намека на форматирование, теряется и отказывается работать. К сожалению, в профессиональной работе Google OCR не конкурент коммерческим продуктам.

Похожие записи:

  1. +1 Google
  2. Олимпийские логотипы Google
  3. Самые популярные логотипы Google
  4. Google Font API