Здравствуйте! Не очень понимаю как это кратко объяснить, поэтому напишу как могу:
есть список номенклатуры текстом, пример(жирным выделен размер):
Практически всегда размер указан в конце названия товара. Цель - вычленить наименования игнорируя размеры только в 1 строчке, например у некоторых товаров больше сотни вариантов соотношения размер/рост. Т.е. из общего списка товаров (с указанием размера) нужно оставить только тип товара, без указания размера насколько это возможно. Если все со 100% вероятностью вычленить не удастся, то хотя-бы бОльшую часть.
Т.е. есть эксель файл с 20к строк, чтобы после выполнения работы было 0,5-2к строк товаров условно конечно
Самое простое, что приходит на ум удалить дубликаты, но не по точному соответствию,а по соответствию первой части названия, например размер чаще всего занимает от 2 до 10 последних символов в названии товара
Либо Фильтр уникальных значений (кроме N-го количества последних символов)
Кроме размера ещё могут быть характеристики типа цвета, ткани.
Надеюсь кто-нибудь отзовётся и сможет нам помочь. Рассчитываю на сумму до 1000 руб, но рассмотрю все предложения. Желательно через какой нибудь фриланс сервис оплату провести
есть список номенклатуры текстом, пример(жирным выделен размер):
Скрытый текст |
---|
Шапка н/м циг. облогор.серый,р.56 ВС Шапка н/м циг. облогор.серый,р.57 ВС Шапка н/м циг. облогор.серый,р.58 ВС Х-т"Джина" МД 174 д/р р.40 Х-т"Джина" МД 174 д/р р.41 Х-т"Джина" МД 174 д/р р.42 Х-т"Джина" МД 174 д/р р.43 Х-т"Эмма" 38/164 Х-т"Эмма" 46/176 Х-т"Нина"д/рук М249 54/170,176 Х-т"Нина"д/рук М249 56/158,164 Х-т"Нина"д/рук М249 56/170,176 Х-т"Нина"д/рук М249 58/158,164 Сорочка форменн.к.р. белая 38/152 Сорочка форменн.к.р. белая 38/158 Сорочка форменн.к.р. белая 38/2 Сорочка форменн.к.р. белая 38/3 Сапоги резинов.,К11 р.26.2(41) Сапоги резинов.,К11 р.27.0(42) Сапоги резинов.,К11 р.27.7(43) Сапоги болотные(Haski ЭВА) С095 с чулком триплекс, р.40-41 Сапоги болотные(Haski ЭВА) С095 с чулком триплекс, р.41-42 Брюки казак п/ш син+вас 48/182 Брюки казак п/ш син+вас 48-50/3,4 Брюки казак п/ш син+вас 52-54/5,6 Комплект муж.062 р.XL 1640р. Комплект муж.062 р.XS 1640р. Комплект муж.062 р.XXL 1640р. Футболка т-синяя 4XL Футболка т-синяя 5XL Футболка черная XXL(60-62) Футболка черная XXXL(64-66) Футболка черная "Охрана" р.54(XXL) Футболка черная "Охрана" р.56(3XL) Эл.пит.Energizer MAX LR03 Эл.пит.Energizer MAX LR6 Шеврон"KARATE KYOKUSHINKAI"(35х43) Шеврон"KARATE KYOKUSHINKAI"(65х80) Фуражка ФПС р.57 (погранич.)(ИП Головкова) с/о. Фуражка ФПС р.58 (погранич.)(ИП Головкова) с/о. Фуражка ФПС р.59 (погранич.)(ИП Головкова) с/о. |
Практически всегда размер указан в конце названия товара. Цель - вычленить наименования игнорируя размеры только в 1 строчке, например у некоторых товаров больше сотни вариантов соотношения размер/рост. Т.е. из общего списка товаров (с указанием размера) нужно оставить только тип товара, без указания размера насколько это возможно. Если все со 100% вероятностью вычленить не удастся, то хотя-бы бОльшую часть.
Т.е. есть эксель файл с 20к строк, чтобы после выполнения работы было 0,5-2к строк товаров условно конечно
Самое простое, что приходит на ум удалить дубликаты, но не по точному соответствию,а по соответствию первой части названия, например размер чаще всего занимает от 2 до 10 последних символов в названии товара
Либо Фильтр уникальных значений (кроме N-го количества последних символов)
Кроме размера ещё могут быть характеристики типа цвета, ткани.
Надеюсь кто-нибудь отзовётся и сможет нам помочь. Рассчитываю на сумму до 1000 руб, но рассмотрю все предложения. Желательно через какой нибудь фриланс сервис оплату провести
Изменено: superrr - 30.01.2020 14:46:14