Доброго дня всем.
Есть выгрузки из базы таможенных деклараций. По некоторым кодам ТН ВЭД можно точно установить объект импорта, с ними никаких проблем. Проблемы с кодами ТН ВЭД, по которым завозятся различные товарные категории. Есть текстовое поле произвольной длины, которое заполняет,видимо, декларант, содержащее неструктурированный набор информации. Необходимо на основании этого поля присвоить соответствующие признаки.
Пока решение следующее:
Сделал несколько словарей ключевых слов, проверяю их наличие в тесте, по комбинации условий ЕСЛИ получаю признаки. Точность -- процентов 75%, т.е. приходится просматривать 1500 текстовых полей ежемесячно. Основная проблема -- ключевые слова встречаются в произвольном количестве и в произвольных комбинациях. Есть мысль строить регрессионную модель, которая будет для каждого поля рассчитывать вероятность, но возможно есть более простое решение.
Наверняка кто-то из уважаемой публики уже решал задачку с получением из текстовых полей таможенных деклараций.
Вообще, интересны любые идеи.
Есть выгрузки из базы таможенных деклараций. По некоторым кодам ТН ВЭД можно точно установить объект импорта, с ними никаких проблем. Проблемы с кодами ТН ВЭД, по которым завозятся различные товарные категории. Есть текстовое поле произвольной длины, которое заполняет,видимо, декларант, содержащее неструктурированный набор информации. Необходимо на основании этого поля присвоить соответствующие признаки.
Пока решение следующее:
Сделал несколько словарей ключевых слов, проверяю их наличие в тесте, по комбинации условий ЕСЛИ получаю признаки. Точность -- процентов 75%, т.е. приходится просматривать 1500 текстовых полей ежемесячно. Основная проблема -- ключевые слова встречаются в произвольном количестве и в произвольных комбинациях. Есть мысль строить регрессионную модель, которая будет для каждого поля рассчитывать вероятность, но возможно есть более простое решение.
Наверняка кто-то из уважаемой публики уже решал задачку с получением из текстовых полей таможенных деклараций.
Вообще, интересны любые идеи.