Страницы: 1
RSS
Импорт данных с сайта.
 
Добрый день.

Вопрос по Google Docs, но все же, это очень смежно с Excel. Сейчас активно разбираюсь с импортом данных в таблицы, со сторонних ресурсов. Импорт таблиц таблиц освоил без проблем, сейчас экспериментирую с IMPORTXML. Уперся в одном примере, хочется уже принципиально добить, хоть это и сугубо интерес. Не могу выгрузить описание товара с сайта МВидио. С ДНСа выгружал, но там одной табличкой и без проблем. На МВидео уперся с составление XPath.
Например страница: https://www.mvideo.ru/products/televizor-samsung-ue50ru7200u-10021620/specification
Цитата
<div class="product-details-tables-holder sel-characteristics-table">
Вот этот блок должен выгрузится, там только таблица и заголовки. Но я ни как не могу нормально составить XPatch, который это все выдернет. Буду рад, если кто-то увлекался подобным и сможет помочь.
 
Доброе время суток
Цитата
AVERS написал:
Например
Не удачный пример, нет там тэга DIV с атрибутом class="product-details-tables-holder sel-characteristics-table". И потом, вы уверены, что эта страница удовлетворяет стандарту XML?
Например кусок Html кода страницы
Цитата
<span class="header-nav-item-text">Телевизоры, <br><nobr>аудио, Hi-Fi</nobr></span>
Изменено: Андрей VG - 15.11.2019 09:30:15
 
Не уверен, у меня не очень глубокие познания в HTML. Нозаметил, что код у них какой-то кривой.  
 
Судя по справке по функции IMPORTXML, она может брать данные и из HTML (т.е. из невалидного XML)

Цитата
нормально составить XPatch, который это все выдернет
куда выдернет? в каком виде?
где пример результата, и ссылка на гугл документ с вашими попытками это сделать?

что и как делали? что получилось? что ожидали получить?
 
Цитата
Игорь написал:
(т.е. из невалидного XML
Игорь, в принципе да, но только то что есть в коде страницы. Но в коде нет например данных по весу. Следовательно ImportXml ничего не вернёт. Судя по всему, это динамически формируемая скриптами после загрузки страница. Скорее всего специально сделано, чтобы не собирали данные.
 
Да, Андрей, верно.
Для получения списка характеристик там выполняется отдельный запрос, на адрес вида
https://www.mvideo.ru/products/televizor-samsung-ue50ru7200u-10021620/specification?ssb_block=descriptionTabContentBlock

PS: Раньше много раз парсил этот сайт, были все данные на странице
А сделано это не в целях защиты от парсинга (любой парсер сможет взять эти данные), а просто специфика движка сайта, постоянно усложняющегося в процессе развития сайта
Изменено: Игорь - 16.11.2019 19:16:37
 
Я так понимаю, что название темы нужно уточнить
Страницы: 1
Наверх