Выбрать дату в календареВыбрать дату в календаре

Страницы: 1
Парсить прайсы поставщиков - формирование строк модели и цены товара
 
Требуется выполнить настройку парсинга данных из прайсов шести поставщиков смартфонов, разных брендов - у каждого свой формат, у некоторых расположение данных в ОДНОМ столбце вместе с ценой, а значит расчётом по по пробелам разделителям не обойтись. Вот пример:
Samsung G998 Galaxy S21 Ultra 5G  6,8" 12/128Gb Серебристый Фантом 76500
Xiaomi Redmi 9T 4/128Gb Blueкаждое слово в этих строчках может быть расположено в другом порядке - у каждого поставщика, а часть информации отсутствовать, например: S21 Ultra 128 - подразумевает ту же модель из 1 строчки примера.

Может разделить задачу на подзадачи?:

Первая подзадача:
Например скрипт пробегается по данным - задаёт вопросы пользователю:
- "Что это за тип данных" - Samsung - я нажимаю Brand
- "Что это за тип данных" - G998  - я нажимаю Model1
- "Что это за тип данных" - Galaxy S21 Ultra - я нажимаю Model2- "Что это за тип данных" - Серебристый Фантом  - я нажимаю Color и т.д. до тех пор, пока находятся не распределённые по типам данные.
Извлечение данных в отдельный лист и использовать его как базу данных со следующими столбцами, например: Brand; МодельНоменклатурная(1); МодельРекламная(2); ОбъёмПамяти; Цвет; Цена- Сохранение этих данных в 6 столбцов(база данных регулярок)

Вторая подзадача:
- сделать поиск данных в том же исходном тексте и валидацию его через созданную ранее базу регулярок.
- поскольку данные от поставщиков дополняются - первая подзадача должны повторяться - добавление текстовых данных, которые отсутствуют в базе данных.

Ушел от идеи форматирование исходного текста формулами т.к. у разных поставщиков меняются местами написание модели и формат, а так же присутствуют технические символы выделяющие "горячие предложения" и т.п.

Уже весь интернет перерыл, пробовал разные парсеры, но все они в основном перебирают столбцы и склеивают на их основе данные.
Прикрепил прайсы поставщиков для тестирования. Предложите какой бюджет потребуется для выполнения работ.
Изменено: Дмитрий Трубин - 11.05.2021 15:54:47
Страницы: 1
Наверх