Страницы: 1
RSS
Мощность Power Query
 
Всем привет. Хочу поинтересоваться у экспертов по вопросу развертывания базы ФИАС на Power Query с целью проверки адресов на листах Excel на соответствие ей. Сама база как я понял с сайта весит 5ГБ в формате XML и проверятся будут десятки тысяч строк адресов. Такая реализация вообще возможна на нем, и как адекватно и быстро она сможет работать? Или не стоит заморачивать этим голову и оставить задачу для более серьезного софта?
 
Сам софт  PQ тоже серьезный. Но xml в качестве источника для постоянной работы и такого обьема - бред. То есть надо будет перегонять в другой формат. Если до миллиона записей в ней то можно и на лист, но лучше любая база.
По вопросам из тем форума, личку не читаю.
 
Здравствуйте, коллеги! Архив с полной базой ФИАС в формате XML весит 5,1 ГБ. Так что Excel - не лучшее место для хранения. В Oracle (при "обычном" железе и известной сноровке) загрузка занимает часа два.
В сети есть несколько специализированных сайтов для проверки адресов - ими обычно и пользуются. Пакетная проверка одного адреса стоит в районе 5 копеек. Провайдеры продоставляют также API для онлайн работы.
Изменено: sokol92 - 28.01.2019 20:25:04
Владимир
 
Цитата
sokol92 написал:
В Oracle (при "обычном" железе и известной сноровке) загрузка занимает часа два
Владимир, приветствую. А как грузится? У MS SQL есть встроенный парсер, и конечно не гигабайты но приличные объемы (биллинг с детализацией мобильной связи нескольких сотен абонентов) грузили и было быстро.
По вопросам из тем форума, личку не читаю.
 
Цитата
БМВ написал:
А как грузится?
Михаил, уточню у "ораклистов". Пример обсуждения этой темы у банкиров.
Владимир
 
Доброе время суток.
А почему не из DBF? Не проще ли будет?
 
Цитата
sokol92 написал:
вствуйте, коллеги! Архив с полной базой  ФИАС  в формате XML весит 5,1 ГБ. Так что Excel - не лучшее место для хранения. В Oracle (при "обычном" железе и известной сноровке) загрузка занимает часа два.
Для своих задач портирую базу ФИАС в MS SQL. На самом деле, самый "тяжелый" файл - номера домов.
Города-Улицы гораздо меньше. Базу из xml конвертирую самописным парсером.

кол-во срок в таблице "адресные объекты" (ADROBJ) 1 390 698
кол-во срок в таблице "дома" (HOUSE): 27 700 444

P/s кол-во фактических ошибок в ФИАС оказалось гораздо выше, чем я предполагал изначально
Изменено: pharmaprofi - 28.01.2019 22:42:26
 
Цитата
sokol92 написал:
уточню у "ораклистов".
Загрузка выполнялась из XML файлов путем их копирования на файловую систему сервера и создания внешних таблиц (CREATE TABLE ... ORGANIZATION EXTERNAL). Из этих таблиц многопотоковым Insert через XMLTABLE вставлялись данные в обычные таблицы Oracle. ЦП Intel® Xeon® CPU  E5520  @ 2.27GHz  - 2 штуки. ОЗУ 72ГБ.
Изменено: sokol92 - 29.01.2019 12:14:41
Владимир
 
день добрый,
обработку большого xml можно вести в Talend Data Integration Studio (бесплатное open source ПО) - легко можно создать любой ETL workflow.
job можно скомпилировать в jar и запускать по расписанию. Результат работы можно писать в любую БД.
Для себя сейчас открыл мощную связку Excel/Access (ввод данных) -> VBA->sqlite  (data storage)- не требует развертки сервера и прав администратора.
Страницы: 1
Наверх