Страницы: 1
RSS
Парсить прайсы поставщиков - формирование строк модели и цены товара
 
Требуется выполнить настройку парсинга данных из прайсов шести поставщиков смартфонов, разных брендов - у каждого свой формат, у некоторых расположение данных в ОДНОМ столбце вместе с ценой, а значит расчётом по по пробелам разделителям не обойтись. Вот пример:
Samsung G998 Galaxy S21 Ultra 5G  6,8" 12/128Gb Серебристый Фантом 76500
Xiaomi Redmi 9T 4/128Gb Blueкаждое слово в этих строчках может быть расположено в другом порядке - у каждого поставщика, а часть информации отсутствовать, например: S21 Ultra 128 - подразумевает ту же модель из 1 строчки примера.

Может разделить задачу на подзадачи?:

Первая подзадача:
Например скрипт пробегается по данным - задаёт вопросы пользователю:
- "Что это за тип данных" - Samsung - я нажимаю Brand
- "Что это за тип данных" - G998  - я нажимаю Model1
- "Что это за тип данных" - Galaxy S21 Ultra - я нажимаю Model2- "Что это за тип данных" - Серебристый Фантом  - я нажимаю Color и т.д. до тех пор, пока находятся не распределённые по типам данные.
Извлечение данных в отдельный лист и использовать его как базу данных со следующими столбцами, например: Brand; МодельНоменклатурная(1); МодельРекламная(2); ОбъёмПамяти; Цвет; Цена- Сохранение этих данных в 6 столбцов(база данных регулярок)

Вторая подзадача:
- сделать поиск данных в том же исходном тексте и валидацию его через созданную ранее базу регулярок.
- поскольку данные от поставщиков дополняются - первая подзадача должны повторяться - добавление текстовых данных, которые отсутствуют в базе данных.

Ушел от идеи форматирование исходного текста формулами т.к. у разных поставщиков меняются местами написание модели и формат, а так же присутствуют технические символы выделяющие "горячие предложения" и т.п.

Уже весь интернет перерыл, пробовал разные парсеры, но все они в основном перебирают столбцы и склеивают на их основе данные.
Прикрепил прайсы поставщиков для тестирования. Предложите какой бюджет потребуется для выполнения работ.
Изменено: Дмитрий Трубин - 11.05.2021 15:54:47
 
Пишу в личку

_а в ответ тишина_
Изменено: Joiner - 11.05.2021 17:17:48
Никому не отвечай, кoгда ты зол, ничего не обeщай, когда ты счастлив, никогда нe решай, когда ты грустeн.
 
Цитата
Joiner написал:
Пишу в личку
В личных и на email нет сообщений.
Написал Вам на email
 
Цитата
Дмитрий Трубин написал:
В личных и на email нет сообщений.
Смотрите спам. Наверное туда ушло.
Никому не отвечай, кoгда ты зол, ничего не обeщай, когда ты счастлив, никогда нe решай, когда ты грустeн.
 
Joiner, давайте проверим работу с ЛС - напишите мне в личку.
 
В личку сообщение пришло, а вот дуюликата на почте нет.
 
Цитата
Юрий М написал:
В личку сообщение пришло, а вот дуюликата на почте нет.
мне на почту пришло.

Кстати, когда на почту ТСу писал, то в зеленой строке заголовке темы над названием светилась красным надпись что-то типа "ID не определен"
Никому не отвечай, кoгда ты зол, ничего не обeщай, когда ты счастлив, никогда нe решай, когда ты грустeн.
Страницы: 1
Наверх