Уважаемые коллеги,
По работе сейчас появилась цель создание собственной базы данных, связанной с траекториями скважин (первоначальный объём около 20 тыс. скв). Исходные данные - репорты directional survey в формате pdf. Интересует, был ли у кого опыт такой работы и как осуществили/ осуществляете?
Цель - автоматизировать процесс обработки данных, обеспечить преобразование pdf в тектовый формат (xls, docx, и тд). В идеале выгрузка в excel данных: номер скважины, месторождение, координаты устья и забоя, конструкция, 3 столбца с данными MD, Inc, Azimuth
Файлы pdf могут быть представлены сканами страниц репортов, могут быть оцифрованы. Имеют различную структуры, проще говоря порядка 35 источников и каждый предоставляет данные чуть-чуть в разном формате, то есть сама инклинометрия в одном файле начинается на 1ой странице, в другом на 3ей, количество столбцов с данными варьируется, различается название столбцов, например MD в 1ом случаем, в другом Measured depth, Survey depth и тп.
В настоящий момент пробуем сделать разбивку на различные структуры для оцифрованных форматов и создать робота на базе kapow который будет в зависимости от структуры включать свой алгоритм по извлечению данных и перекладывать информацию в excel, но пока определенные проблемы в распозновании структуры данным продуктом. Для сканов страниц в настоящий момент тестируем различные программы для распознования текста, пока результаты не удовлетворяют по качеству. Использовать помощь низкооплачиваемых коллег из Индии и прочих стран для ручного перенесения информации пока не рассматриваем.
Спасибо за время потраченное на прочтение, буду признателен за любые советы!
а робот по контролю оригинал-excel планируется ли
а то можно наоцифроать такого что потом сами знаэтэ
Нет, тяжело реализовать, планируем обкатать на одной структуре, после нескольких файлов проверить качество обработки вручную, от этого дальше отталкиваться. Но роботы на базе kapow больше заточены на web scraping, где файлы имеют четкую однородную структуру, чего не скажешь о pdf, поэтому ищем альтернативные пути решения и собственно поэтому интересуюсь опытом других людей.
Нк рассматривали ручную оцифровку? Инклинометрия содержит не много данных, забить надо глубину, угол и азимут, все остальное можно рассчитать. За час можно спокойно забить данные по одной скважине, учитывая рутинность работы и экономию на персонале можно взять 2 часа, при 8 часовом рабочем дне 10 человек справятся за 4-5 месяцев.
Учитывая качество материала, после оцифровки все придется перепроверять, те же 10 человек месяца 3 будут сидеть.
Лет 10 назад много компаний предлагали такие услуги, последне время я с этой областью не работаю, но думаю сможете найти подрядчика.
НДЛ, вы ABBYY OCR SDK web API не пробовали тестировать на качество распознования.
serg1c,
В головном посте написал, что ручную оцифровку пока не рассматриваем, так как объемы большие, на начальном этапе только порядка 20 тыс. скважин, как я писал выше, а сроки достаточно сжатые + деньги. Уже есть первые результаты автоматизации, верю в лучшее)
Рушан,
Продукты ABBYY показывают себя в распознавании одними из лучших, конкретно данный их продукт не проверяли пока. Сейчас самый актуальный вопрос с пост обработкой файлов, после оцифровки и переведения в excel форматы. То есть для подгрузки в базу файлы должны быть преведены к определенному шаблону, а так как файлы имеют различную структуру, сделать это весьма затруднительно.
А зачем индусов кормить, поищите компании в России :)
Если хотите автоматизировать процесс, сразу заложите алгоритмы проверки, однозначно качество выходно материала будет низкое, а так хоть грубые ошибки сможете поправить (где запятая не распозналась, 7 вместо 1 и т.д.)
занятная атоматизация, сначала в эксель вбить, потом из экселя в базу
http://www.sql.ru/forum/actualutils.aspx?action=gotomsg&tid=1272977&msg=20835642
Эксель - промежуточный этап, позволит вручную оперативно проверить и сравнить необходимые данные, хранить их в требуемом формате, также есть уже макросы, которые преобразуют инфу из экселя в необходимый template для подгрузки в базу.
Я согласен, что это лишний этап, но пока без него нельзя обойтись.
kealon, если есть какие-либо идеи было бы приятно выслушать.
Спасибо за инфу, изучу продукты, которые упоминаются в теме нейросетей.
обратитесь в http://comteco.ru/ , возможно быстро и не за гигантские деньжища сделают, это их специализация