Требуется выполнить настройку парсинга данных из прайсов шести поставщиков смартфонов, разных брендов - у каждого свой формат, у некоторых расположение данных в ОДНОМ столбце вместе с ценой, а значит расчётом по по пробелам разделителям не обойтись. Вот пример: Samsung G998 Galaxy S21 Ultra 5G 6,8" 12/128Gb Серебристый Фантом 76500 Xiaomi Redmi 9T 4/128Gb Blueкаждое слово в этих строчках может быть расположено в другом порядке - у каждого поставщика, а часть информации отсутствовать, например: S21 Ultra 128 - подразумевает ту же модель из 1 строчки примера.
Может разделить задачу на подзадачи?:
Первая подзадача: Например скрипт пробегается по данным - задаёт вопросы пользователю: - "Что это за тип данных" - Samsung - я нажимаю Brand - "Что это за тип данных" - G998 - я нажимаю Model1 - "Что это за тип данных" - Galaxy S21 Ultra - я нажимаю Model2- "Что это за тип данных" - Серебристый Фантом - я нажимаю Color и т.д. до тех пор, пока находятся не распределённые по типам данные. Извлечение данных в отдельный лист и использовать его как базу данных со следующими столбцами, например: Brand; МодельНоменклатурная(1); МодельРекламная(2); ОбъёмПамяти; Цвет; Цена- Сохранение этих данных в 6 столбцов(база данных регулярок)
Вторая подзадача: - сделать поиск данных в том же исходном тексте и валидацию его через созданную ранее базу регулярок. - поскольку данные от поставщиков дополняются - первая подзадача должны повторяться - добавление текстовых данных, которые отсутствуют в базе данных.
Ушел от идеи форматирование исходного текста формулами т.к. у разных поставщиков меняются местами написание модели и формат, а так же присутствуют технические символы выделяющие "горячие предложения" и т.п.
Уже весь интернет перерыл, пробовал разные парсеры, но все они в основном перебирают столбцы и склеивают на их основе данные. Прикрепил прайсы поставщиков для тестирования. Предложите какой бюджет потребуется для выполнения работ.