Страницы: 1 2 След.
RSS
OCR в VBA: распознавание текста с картинки
 
Всем привет!
Нужно распознать простой текст по ссылке.
Кто чем пользуется?
Статью Игоря читал - не взлетает такое решение.
«Бритва Оккама» или «Принцип Калашникова»?
 
А в какой версии Экселя оно должно работать? А то я видел что в OneNote 2010+ есть встроенный OCR, может к этому функционалу как-то можно обратиться через объектную модель в VBA? Я по ссылке особо не лазил, но возможно почерпнете себе что-то полезное.
З.Ы. Вашу картинку распознал примерно так:  :D Так что я теперь даже и не знаю, советовать ли такое.
Скрытый текст
Изменено: PooHkrd - 02.03.2020 17:53:49
Вот горшок пустой, он предмет простой...
 
Версии 2010-2016х64. Смотрю, нули он не любит )
Вообщем, мне нужны цифры. Буквы не важны.
«Бритва Оккама» или «Принцип Калашникова»?
 
Попробуйте здесь. Единственное без регистрации доступно только 10 страниц. Результат сохраняет в Word, потом можно скопировать данные и вставить в excel. Но главное все цифры правильно определились.
 
bedvit, всегда интересно когда вижу такие задачки: это просто такая хотелка заказчика, или в сети реально больше нет нормальных источников для получения этих котировок без танцев с бубном?
Вот горшок пустой, он предмет простой...
 
bedvit, Виталий, может надо взглянуть на систему более тщательно? https://docs.microsoft.com/en-us/uwp/api/windows.media.ocr MS туда чего только не запихнул.
Изменено: БМВ - 02.03.2020 19:22:38
По вопросам из тем форума, личку не читаю.
 
Цитата
Вообщем, мне нужны цифры.
Использую ABBYY PDF Transformer + , выпуск 12.0.104.225, артикул 1132.27
Загрузил картинку
Выделил нужный диапазон
Расставил горизонтальные и вертикальные разделители.
Скопировал таблицу и вставил в Excel
 
PooHkrd, для данных в реальном времени - перерыл разные источники не нашел, возможно это платные API на биржевых платформах, а платить никто не хочет.
Михаил, посмотрю, есть у меня мысли, завтра оформлю, если успею
Kuzmich, все здорово, только это нужно автоматически, несколько раз в день, без Homo.
Андрей_26, да, в онлайне можно, но надо постоянно несколько раз в день снимать показания.
«Бритва Оккама» или «Принцип Калашникова»?
 
а вот так word
картинку в ворд на лист и запись в PDF. Открыть PDF вордом.
По вопросам из тем форума, личку не читаю.
 
Цитата
bedvit написал:
да, в онлайне можно, но надо постоянно несколько раз в день снимать показания.
Там вроде API есть
 
Цитата
bedvit: нужно автоматически, несколько раз в день, без Homo
совсем без человека туфта получиться - НЕТ ещё таких надёжных технологий оптического распознавания…
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Цитата
Jack Famous написал:
НЕТ ещё таких надёжных технологий оптического распознавания…
Алексей, контрастность повыше и от 400 dpi и машинный текст ра познается давно очень четко. Друкое дело что на примере есть проблемы и с тем и с другим
По вопросам из тем форума, личку не читаю.
 
bedvit  попробуйте Puma.NE
Для Вас не составит труда приспособить под свои нужды, есть пример на шарпе.
Я пользуюсь этой OCR, если надо установщик, я сброшу Вам.
 
Цитата
БМВ: контрастность повыше и от 400 dpi и машинный текст распознается давно очень четко
а как же обстоят дела со спецификациями типа Насос Dunfoss ME456FS Ду125 PE (выдуманная строка для демонстрации смешанного текста)?  :)
Там потом надо дополнительно прогонять по алгоритму символы "чужого" языка среди "родных"

Это я не говорю про распознавание таблиц из отсканированных PDF со сдвигами и прочими "радостями" — ограничился только примером
Я уже "наелся" этими распознаваниями и периодически "перекусываю"  :D

Цитата
bedvit: Кто чем пользуется?
Aiseesoft PDF Converter Ultimate, т.к. показал себя несколько лучше FineReader на тестах, но это такой холивар, который сильно зависит от исходных данных
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Jack Famous,  Алексей,
OCR - optical characters recognition  , character - символ иенроглиф
символ распознан правильно - задача выполнена, а то что за этим символом стоит другая буква - это уже optical text recognition.
По вопросам из тем форума, личку не читаю.
 
Цитата
БМВ: символ распознан правильно
по-моему вы рака за камень заводите  :D
Распознать форму чёрных пикселей и связать её с наиболее похожим символом (из списка) — оно, конечно, хорошо, но, если на выходе распознанный текст не идеинтичен оригинальному, то я считаю ,что точность распознавания недостаточная (хоть и технически можно объявить виноватой интерпритацию)  :)
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Off
Алексей, а кто сказал что в оригинале именно те буквы что вы ожидаете?
Какие буквы разрешены в гос номерах автомобилях и почему? ? точнее для чего? Были ж раньше ЛГ, ЛД....
По вопросам из тем форума, личку не читаю.
 
Цитата
БМВ: кто сказал что в оригинале именно те буквы что вы ожидаете?
здравый смысл: все слова есть в словарях или известны, как употребимые, но пока не закреплённые. Торговые марки, конкретные модели и прочее также проверяются по списку — что это вообще за вопрос такой?))
Цитата
БМВ: Какие буквы разрешены в гос номерах автомобилях и почему?
те, которые имеют аналог написания в латинице, чтобы все менты прочитать могли в любой стране.
Хороший интерактивчик, только к чему вы ведёте?)))
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
off
Я к тому что ВОТ <> BOT хотя и в русском есть предлог и в Eng слово. и  - игровой вот R2D2 читается и там и там, а уж смысл  - это не задача OCR.
По вопросам из тем форума, личку не читаю.
 
БМВ, ну а писать в слове "поcадка" латинскую ЦЭ уж можно?))) иногда и такие ляпы бывают…
А так я же как раз и говорил, что
Цитата
Jack Famous: совсем без человека туфта получиться
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Цитата
БМВ написал:
картинку в ворд на лист и запись в PDF. Открыть PDF вордом.
Интересный механизм, к сожалению ошибается.
Цитата
Андрей_26 написал:
Там вроде API есть
есть, но я так понял есть определенные ограничения, плюс это нестабильный источник, завтра может закрыться, вся обработка отвалится.
Цитата
doober написал:
попробуйте  Puma.NE
интересный продукт, почитаю внимательнее про него.
с .NET можно перейти на C++ (проще в свою библиотеку положить, при необходимости)
Хочу попробовать Tesseract OCR и здесь можно скачать в собранном виде
Изменено: bedvit - 03.03.2020 19:50:51
«Бритва Оккама» или «Принцип Калашникова»?
 
Цитата
Jack Famous написал:
без человека туфта получиться
смотря какие задачи стоят. Для моей - вполне, даже необходимо. С проверкой на ошибки.
Цитата
Jack Famous написал:
Aiseesoft PDF Converter Ultimate,
бесплатная версия есть, ограничения, API?
«Бритва Оккама» или «Принцип Калашникова»?
 
Цитата
bedvit написал:
Интересный механизм, к сожалению ошибается.
а так уже меньше
По вопросам из тем форума, личку не читаю.
 
doober, на странице Puma.NE, почему-то не удалось посмотреть исходники. Есть собранная библиотека?
«Бритва Оккама» или «Принцип Калашникова»?
 
После установки в папке программы есть папка примеры
Залил на яндекс установщик
 
Цитата
bedvit: бесплатная версия есть, ограничения, API?
тут не подскажу. Использовал полную и без взаимодействия с API
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄
 
Tesseract бесплатный и работает.
Если есть деньги, лучше довериться enterprise решениям. Мне нравится (не реклама!):
https://www.abbyy.com/ru-ru/ocr-sdk/
https://docs.microsoft.com/ru-ru/azure/cognitive-services/computer-vision/
С уважением,
Федор/Все_просто
 
Сегодня по быстрому попытался систематизировать выше предоставленные данные.
Делал на двух примерах: раз, два
1.OneNote 2016 - некоторые символы не распознаны

2.  https://docs.microsoft.com/en-us/uwp/api/windows.media.ocr MS - к сожалению написано, что требуется win10

3."ABBYY PDF Transformer + , выпуск 12.0.104.225, артикул 1132.27" - не пробовал в силу отсутствия данного продукта и необходимых ручных действий (возможно ли автоматизировать?)

4."картинку в ворд на лист и запись в PDF. Открыть PDF вордом"- в Word2016 - один из рисунков не распознался совсем

5.Puma.NE - быстро не взлетело

6.Tesseract с настройками по умолчанию ("Это просто позор какой-то" (с) т. Швондер.) - в одном из рисунков большая часть данных вообще не попала в итог.
Делал через командную строку итог выполнения программы

7. Первый попавшийся онлайн-конвертер, который работал по ссылке - первую распознал, вторую нет
Изменено: bedvit - 04.03.2020 20:11:38
«Бритва Оккама» или «Принцип Калашникова»?
 
doober, сможете Puma.NE протестировать? Разбирать код некогда (библы подключил, Студия 2017, проект запускал в папке Sample). Если результат будет, тогда гляну в чем там засада (если получится)
Изменено: bedvit - 04.03.2020 20:22:25
«Бритва Оккама» или «Принцип Калашникова»?
 
Цитата
bedvit написал:
4."картинку в ворд на лист и запись в PDF. Открыть PDF вордом"- в Word2016 - один из рисунков не распознался совсем
Виталий, не хватает контрастности для второго примера. Если повысить то распознается, а повысить не так и сложно
По вопросам из тем форума, личку не читаю.
Страницы: 1 2 След.
Наверх