none
Обработка больших массивов данных RRS feed

  • Вопрос

  • Уважаемое сообщество,

    прошу помочь в поиске адекватных инструментов. Задача: 

    Имеется: массив данных в виде нескольких таблиц, в каждой таблице - от миллиона до трех миллионов строк и около 300 столбцов; каждая таблица представляет собой данные за определенный период, каждая строка в таблице - данные по конкретному клиенту; в столбцах - параметры клиента (например - город) и данные по его активностям (показатели).

    Нужно: получать отчеты по активностям (показателям) конкретного клиента или группы клиентов (например: все клиенты из одного города) в разрезе временных периодов (динамика изменений показателей по годам, например).

    Какой из продуктов Microsoft наиболее подходит для решения таких задач? 

    Excel таблицы такого размера не открывает даже.

    Из доступных есть:

    Power Pivot в Excel,

    Power BI,
    Miscrosoft SQL server 2014.

    Ни с одним из них никогда раньше не работал, но научусь. Вопрос в том: на изучение какого продукта тратить время?

    Дополнительная проблема:
    скорее всего, исходные данные требуют предварительной обработки; по крайней мере, при попытке создать связанные таблицы по идентификатору клиента, и Power BI и Power Pivot выдают замечание о невозможности создания ключа в связи с тем, что значения в столбце не уникальны. Как (в чем?) найти и очистить (исправить) повторяющиеся значения, если Excel таблицы не открывает?

    22 марта 2017 г. 13:08

Ответы

  • Это весьма небольшой массив данных.

    Думаю SQL Server для хранения и первичной фильтрации данных, потом Excel (64 bit) к которому вы судя по всему уже привыкли. В принципе после переноса данных в SQL можно что угодно прицепить...

    Что до ключей то в каком формате у вас данные сейчас? 


    This posting is provided "AS IS" with no warranties, and confers no rights.

    • Помечено в качестве ответа ЖукMVP, Moderator 31 марта 2017 г. 22:49
    22 марта 2017 г. 16:37
    Модератор
  • Добрый день.

    Чуть расширю предыдущее предложение. Посмотрите в сторону MS SQL Analysis Services. Постройте куб, а дальше из Excel будете получать любые нужные вам разрезы по периодам, городам и т.д.

    • Помечено в качестве ответа ЖукMVP, Moderator 31 марта 2017 г. 22:49
    24 марта 2017 г. 5:29

Все ответы

  • Это весьма небольшой массив данных.

    Думаю SQL Server для хранения и первичной фильтрации данных, потом Excel (64 bit) к которому вы судя по всему уже привыкли. В принципе после переноса данных в SQL можно что угодно прицепить...

    Что до ключей то в каком формате у вас данные сейчас? 


    This posting is provided "AS IS" with no warranties, and confers no rights.

    • Помечено в качестве ответа ЖукMVP, Moderator 31 марта 2017 г. 22:49
    22 марта 2017 г. 16:37
    Модератор
  • Добрый день.

    Чуть расширю предыдущее предложение. Посмотрите в сторону MS SQL Analysis Services. Постройте куб, а дальше из Excel будете получать любые нужные вам разрезы по периодам, городам и т.д.

    • Помечено в качестве ответа ЖукMVP, Moderator 31 марта 2017 г. 22:49
    24 марта 2017 г. 5:29