Страницы: 1
RSS
Нужен парсер сайта, парсер
 
Необходимо написать парсер, который с сайта http://ru.investing.com/economic-calendar/ сможет спарсить календарь на нужную мне дату/диапазон дат со всеми необходимыми параметрами:

- Дата или диапазон дат (с учетом нужного часового пояса (часовой пояс не принципиален, но желателен))
- Время (с учетом нужного часового пояса)***
- Страна (в календаре отображается только флаг страны, но если поднести мышь к флагу то отображается название, вот это название и нужно)
- Валюта
- Важность (там где быки нарисованы (можно в виде цифры от 1 до 3))
- Событие (без месяца или прочего в хвосте (например, если написано "Индекс опережающих экономических индикаторов (м/м) (июль)", то нужно сделать чтобы она вставила "Индекс опережающих экономических индикаторов (м/м)"))
- Факт.
- Прогноз
- Предыдущее
- Описание события (для этого в календаре нужно нажать по событию и во вновь открывшейся странице будет его описание, там же будет история данных события) и иметь возможность отключения парсинга описания события.

-  Историю (в формате: СТРАНА_Событие, например: "Япония Индекс опережающих экономических индикаторов (м/м)") в отдельный файл (формата xls или csv (на худой конец txt, но xls предпочтительней) (но это не критично), при чем если программа натыкается на такой же файл в папке, то ей уже не нужно парсить данные. Для этой настройки так же нужно предусмотреть возможность отключения. История находится на той же странице где и описание события.

***ОБЯЗАТЕЛЬНО чтобы программа парсила именно ТОЛЬКО ВРЕМЯ, потому что на сайте предусмотрено 2 варианта отображения времени:
  1. Время до выхода события
  2. Только время
Так же необходимо иметь возможность выбрать страны и/или хотя бы иметь возможность указать что нужно по всем странам отфильтровать, потому что по умолчанию в фильтр подбирается только несколько стран. Так же в фильтре нужно выбрать все категории и все важности.
Фильтр стран в EXCEL лучше всего реализовать посредством userform (с флажками) с привязкой к листу настройки, где будут сохраняться отборы.

Программу нужно сделать так, чтобы она могла работать и с русской и с английской версией сайта (http://investing.com/economic-calendar/).

Структура файла должна повторять структуру календаря с сайта, за исключением того что слева добавить еще 1 столбец с датой, а справа столбец с описанием события.

Соответственно Факт, Прогноз и Предыдущее показание должны быть представлены в виде чисел, а не текста, а дата и время в соответствующих форматах.

По оплате ориентироваться на 10 тысяч. В остальном все обговариваемо и если Вы сможете сделать такой парсер, по оплате мы договоримся!

Пожалуйста, не пишите что сделаете или готовы взяться, пока не посмотрите сайт. Парсер сделать довольно не просто.

ПРОГРАММА НЕ ДОЛЖНА ЗАДЕЙСТВОВАТЬ БРАУЗЕР, КОД ПРОГРАММЫ ДОЛЖЕН БЫТЬ ОТКРЫТ!!!
 
Чего-то уж чересчур сложного в парсинге я не вижу. Если делать грубой силой на Python - 5 строчек кода, и даже без указания RequestHeaders. Другое дело, что можно делать один запрос за день (как сделал это я), а можно делать 1 запрос каждую секунду в течение дня. Тогда наверняка будет работать некая защита от ботов/скраперов/пауков и тогда надо будет идти в дебри cookies и прочего, а это уже совсем другой проект. В глубь сайта не смотрел, но думаю там может быть некое подобие API, хотя это мои догадки, не более.

Забыл написать. Мой основной инструментарий - коллекция нужных макросов на VBA - на работе. Поэтому пока не буду ничего обещать. Попробую завтра днем что-нибудь настрочить.
Изменено: Все_просто - 09.09.2015 23:02:32
С уважением,
Федор/Все_просто
 
Все_просто, ножно именно 1 запрос за день. Постоянного обновления не требуется. То есть данные спарсили и все, макрос отработал и закрылся. Это в excel можно реализовать без дополнительных программ итд?
 
Думаю, да. Можно. Для меня самым сложным является не сам парсинг, а работа с формами, вникание в ТЗ и пр.
С уважением,
Федор/Все_просто
 
Все_просто, формы в принципе я и сам могу отрисовать если макросы будут готовы для меня это не проблемма. Главное сделать все остальное, формы это мелочь
 
Взял в разработку.
С уважением,
Федор/Все_просто
Страницы: 1
Наверх