Работа с текстовыми полями таможеннных баз

Работа с текстовыми полями таможеннных баз, Машинное обучение и другие идеи

Пользователь

Сообщений: 8 Регистрация: 15.11.2014

03.09.2016 14:48:19

Доброго дня всем.

Есть выгрузки из базы таможенных деклараций. По некоторым кодам ТН ВЭД можно точно установить объект импорта, с ними никаких проблем. Проблемы с кодами ТН ВЭД, по которым завозятся различные товарные категории. Есть текстовое поле произвольной длины, которое заполняет,видимо, декларант, содержащее неструктурированный набор информации. Необходимо на основании этого поля присвоить соответствующие признаки.

Пока решение следующее:
Сделал несколько словарей ключевых слов, проверяю их наличие в тесте, по комбинации условий ЕСЛИ получаю признаки. Точность -- процентов 75%, т.е. приходится просматривать 1500 текстовых полей ежемесячно. Основная проблема -- ключевые слова встречаются в произвольном количестве и в произвольных комбинациях. Есть мысль строить регрессионную модель, которая будет для каждого поля рассчитывать вероятность, но возможно есть более простое решение.

Наверняка кто-то из уважаемой публики уже решал задачку с получением из текстовых полей таможенных деклараций.
Вообще, интересны любые идеи.

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

03.09.2016 15:34:32

Цитата
Eleoo написал: Необходимо на основании этого поля присвоить соответствующие признаки. ... Сделал несколько словарей ключевых слов, проверяю их наличие в тесте, по комбинации условий

замечательно
??

Цитата
Eleoo написал: рассчитывать вероятность

для присваивания признака группе товара в таможенной декларации?
ЗАЧЕМ статистика и какая вероятность вам нужна (для работы с таможенными декларациями) - чтобы просто проверить наличие слова в строковой переменной?.. - просто составьте качественный полный словарь - и дальше тестируйте на совпадение... можно делать словари в словарях - например, существительные в именительном падеже - основной словарь, а однокоренные прилагательные или др. падежи - словари 2-го порядка... отталкивайтесь от основного словаря (Полного) в им. падеже... или пополняйте его по мере встречаемости новых слов... CreateObject("scripting.dictionary")... и далее сужайте выборку по доп. словарю... имхо... чем вам поможет статистика и вероятность в проверке слов на наличие ключевых??... когда вам надо сверить на совпадение...

чтобы не гадать на кофейной гуще, кто вам отвечает и после этого не совершать кучу ошибок - обратитесь к собеседнику на ВЫ - ответ на ваш вопрос получите - а остальное вас не касается (п.п.п. на форумах)

ZVI

Пользователь

Сообщений: 4615 Регистрация: 23.12.2012

03.09.2016 22:19:18

В качестве идеи: макросом делать запросы на онлайн-сервис и парсить результат запроса.
Пример сервиса - http://tnved.info/ но в таких сервисах обычно при превышении лимита запросов в сутки с одного IP-адреса предлагается купить (дорого) полную программу.

Eleoo

Пользователь

Сообщений: 8 Регистрация: 15.11.2014

08.09.2016 08:57:43

Цитата
JeyCi написал: - просто составьте качественный полный словарь - и дальше тестируйте на совпадение...

Вот примерно за этим:

Слово ЯБЛОКО встречается во всех трёх строках, а ещё ЯБЛОКО бывает в виде начинки, пюре, кондитерского изделия и т,.д. и т.п. мне же нужен только один конкретный форм фактор, кроме яблока ещё три десятка категорий. Ещё бывает, например, что в строке одновременно два вхождения ключевых слов -- ЯБЛОКО и АПЕЛЬСИН в третьем примере.
Там много подобных комбинаций и тонкостей, поэтому и ищу какой-то более осмысленный способ чем перебор всех возможных сочетаний слов в строке.

Цитата
ZVI написал: В качестве идеи: макросом делать запросы на онлайн-сервис и парсить результат запроса.

Пока не вижу, чем мне это может помочь. Меня не столько коды ТН ВЭД интересуют, сколько написанный разными людьми текст в самих ГТД.

JayBhagavan

Пользователь

Сообщений: 11833 Регистрация: 17.01.2014

ПОЛ: МУЖСКОЙ | Win10x64, MSO2019x64

08.09.2016 10:03:31

Eleoo, пока таможенники не будут вести нормально базу, то Ваше желание вряд ли исполнится.

П.С.

Формула массива (ФМ) вводится Ctrl+Shift+Enter
Memento mori

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

08.09.2016 13:58:49

Цитата
Eleoo написал: Слово ЯБЛОКО встречается во всех трёх строках

нет смысла цепляться к каждому слову... научить людей главное писать первым, потом брать первое существительное (хотя бы)... потом подсловари - ваши глазури, начинки и т.д... можно ещё подсловари до любого колена... а по-хорошему использовать (полагаю, вы это и хотели вначале, когда просили вероятности) алгоритм самообучающейся Нейронной сети - про ценники на такие алгоритмы вам намекнули в #3... сложность разработки такой вещицы - это не Вопрос по XL

... лучше погуглите и, наверно, придётся лопату в руки брать... успехов (знаю, что слов много и в любых вариациях, пока люди не начнут сами структурировать свои слова, железу будет сложно ковыряться в их творчестве, когда нет логики)

Eleoo

Пользователь

Сообщений: 8 Регистрация: 15.11.2014

09.09.2016 14:30:57

Цитата
JeyCi написал: алгоритм самообучающейся Нейронной сети

Машинное обучение -- решение, но трудозатраты не соответствуют экономической выгоде для компании. Затем и спрашиваю, может более простое решение какое-либо имеется. Вряд ли я первый решаю задачку, человек из ответа выше Вашего, похоже, уже много лет базы ТС ненавидит.

JayBhagavan

Пользователь

Сообщений: 11833 Регистрация: 17.01.2014

ПОЛ: МУЖСКОЙ | Win10x64, MSO2019x64

09.09.2016 14:58:11

Цитата
Eleoo написал: простое решение какое-либо имеется

Только руцями этот бардак разгребать, если имеет какую-то ценность содержимое.

Формула массива (ФМ) вводится Ctrl+Shift+Enter
Memento mori

ZVI

Пользователь

Сообщений: 4615 Регистрация: 23.12.2012

09.09.2016 15:09:44

Цитата
Eleoo написал: Пока не вижу, чем мне это может помочь. Меня не столько коды ТН ВЭД интересуют, сколько написанный разными людьми текст в самих ГТД.

Под идеей подразумевалось, что каким-то образом (хоть вручную) Вам нужно выделить в тексте ключевые слова и макросом делать запрос на сайт, по которому считать ответы в порядке убывания вероятности совпадения. Вот например, что получилось по Вашим данным из сообщения #4

Запрос 1: КУКУРУЗНЫЕ ЗЕРНА ОБЖАРЕННЫЕ В РАСТИТЕЛЬНОМ МАСЛЕ
Ответы:
Код ТНВЭД; Вероятность; Описание
1.1. 2106909809; 83.32 %; прочие пищевые продукты, в другом месте не поименнованые или не включенные
1.2. 2103909009; 14.62 %; прочие продукты для приготовления соуса, готовые соусы, вкусовые добавки и приправы смешанные

Запрос 2: ФРУКТЫ ПРИГОТОВЛЕННЫЕ ПОДСУШЕННЫЕ ЯБЛОКИ
Ответы:
Код ТНВЭД; Вероятность; Описание
2.1. 2008994900; 98.54 %; прочие плоды, орехи и прочие съедобные части растений, не содержащие спиртовых добавок, содержащие добавки сахара, в первичных упаковках нетто-массой более 1 кг

Запрос 3: ГЛАЗУРЬ КОНДИТЕРСКАЯ ЦВЕТНАЯ БЕЗ СОДЕРЖАНИЯ КАКАО ПОРОШКА
Ответы:
Код ТНВЭД; Вероятность; Описание
3.1. 1704909900; 69.61 %; прочие кондитерские изделия из сахара, не содержащие какао
3.2. 1806901900; 19.25 %; прочие шоколадные конфеты, с начинкой или без начинки, не содержащие алкоголь
3.3. 1806209500; 9.71 %; прочие готовые изделия,содержащие какао, в брикетах,пластинках,плитках,в жидком,пастообразном,порошкообразном,гранулированном или другом аналогичном виде в конт...

Если же проблема в "каким-то образом, не вручную, нужно выделить", то вряд ли поиск алгоритма - это вопрос для форума по Excel.

Изменено: ZVI - 09.09.2016 15:14:06

Hugo Пользователь Сообщений: 26326 Регистрация: 22.12.2012	#10 09.09.2016 15:19:32 3.3. точно мимо. И эта программа стОит больших денег?

ZVI

Пользователь

Сообщений: 4615 Регистрация: 23.12.2012

#11

09.09.2016 17:35:56

Игорь, для 3.3 вероятность угадывания же всего лишь 9.71 %, при том, что у 3.1 вероятность 69.61 %, поэтому п.3.3. нужно проигнорировать, конечно. Это я для сравнения привёл только несколько первых результатов, там еще по штук 15 в каждом запросе предлагается. Программа, как по мне, дорогостоящая, там вроде еще и одноразовый ключ покупать нужно. Но для кого-то стоимость проблемы может оказаться и выше.
Вообще-то речь не о конкретной программе (это просто пример), а об идее использовать нечеткий поиск, например, запросом на чей-то готовый сервис, или с помощью самостоятельного решения, как об этом написано в сообщении #1 (см. "Пока решение следующее:").

Изменено: ZVI - 09.09.2016 17:36:22

Hugo Пользователь Сообщений: 26326 Регистрация: 22.12.2012	#12 09.09.2016 17:41:45 Я вижу что процент невелик, но если на строку "БЕЗ СОДЕРЖАНИЯ КАКАО" предлагают " изделия,содержащие какао" - значит есть недоработка...

JeyCi

Пользователь

Сообщений: 3399 Регистрация: 27.11.2013

#13

09.09.2016 17:53:55

Цитата
Hugo написал: есть недоработка...

ну почему же

... изделие может содержать какао, а глазурь его покрывающая - не содержать... "know-how" кондитеров

Изменено: JeyCi - 09.09.2016 17:54:06

Читают тему