Posibniki.com.ua Інформатика Корпоративні інформаційні системи 5.3. АДМІНІСТРУВАННЯ ІНФОРМАЦІЙНИХ СХОВИЩ


< Попередня  Змiст  Наступна >

5.3. АДМІНІСТРУВАННЯ ІНФОРМАЦІЙНИХ СХОВИЩ


Функціями адміністрування є наповнення та обслуговування інформаційних сховищ.

Наповнення інформаційних сховищ складається з кількох етапів: екстракції, трансформації, завантаження.

Екстракція (витягування) даних розпочинається з ідентифікації базової СУБД, у якій зберігаються первинні дані. Це можуть бути як реляційні дані, так і звичайні лінійні масиви. Потім за допомогою певних програмних процедур дані витягуються (експортуються) з інформаційних підсистем, виробничих відділів та інших джерел і посилаються (імпортуються) до сховища даних. Дані, які надходять в інформаційне сховище, утворюють інформаційні потоки. Наймогутніший потік пов’язаний з приливом первинних даних із OLTP-систем (транзакційних) та інших зовнішніх джерел (Inflow).

На цьому етапі дані не просто копіюються в сховище даних, а зазнають інтелектуального оброблення: таблиці денормуються, дані очищаються, до них додаються нові атрибути і т. ін. При цьому первинні дані транзакційних систем можуть змішуватися з інформацією з зовнішніх джерел — текстових файлів, повідомлень електронної пошти, відповідних електронних таблиць, географічно розподілених БД тощо.

Трансформація. Потрапивши до сховища, дані проходять другий етап оброблення (Upflow), у перебігу якого, з погляду кінцевого користувача, підвищується їхня практична цінність. Вони консолідуються, агрегуються, розбиваються на фракції (partitions), коригуються й трансформуються у відповідні формати.

Як правило, консолідовані дані утворюються з первинної інформації, отриманої із транзакційних систем. Однак є винятки, коли сумарні дані також імпортуються. Прикладом може слугувати баланс корпорації, який щокварталу складає бухгалтерія. Основні показники балансу (прибуток, витрати, пасиви тощо) використовуються багатьма підрозділами корпорації (відділи маркетингу, продаж тощо), тому мають бути загальнодоступними і зберігатися у сховищі даних у консолідованому вигляді.

Завантаження. Після екстракції та трансформації здійснюється процес завантаження даних в інформаційне сховище. Під час завантаження відбувається синхронізація з датою або якимись зовнішніми подіями.

Обслуговування інформаційного сховища охоплює низку поточних робіт з адміністрування, до яких належать: копіювання баз даних, налаштування тиражування, відправлення застарілих даних до архіву, управління правами користувачів, створювання й редагування графічних діаграм БД тощо.

Щоб інформаційне сховище працювало надійно, методи адміністрування мають бути автоматизовані. Ключем до успішної автоматизації адміністрування є використання метаданих.

Метадані — це дані про дані, які визначають джерело, приймальник та алгоритм трансформації даних під час перенесення їх від джерела до приймальника.

Метадані містять:

1. Описи структур даних та їхніх взаємозв’язків.

2. Інформацію про джерела даних і міру їх імовірності. Та сама інформація могла потрапити до сховища даних із різних джерел. Користувач повинен мати можливість дізнатися, яке джерело було обране основним, і яким способом робилися узгодження й очищення даних.

3. Інформацію про власників даних. Користувачеві OLAP-системи може бути корисною інформація про наявність у системі даних, до яких він не має доступу, про власників цих даних і про дії, які необхідно виконати, щоб одержати доступ до даних.

4. Схему перетворення стовпців вхідних таблиць на стовпці кінцевих таблиць.

5. Правила сумування, консолідації й агрегування даних.

6. Інформацію про періодичність оновлення даних. Бажано знати не лише якому періоду відповідають дані, що цікавлять користувача, а й коли їх наступного разу буде оновлено.

7. Каталог використовуваних таблиць, стовпців і ключів.

8. Фізичні атрибути стовпців.

9. Число табличних рядків та обсяг даних.

10. Кількість бірки (дата та час ствоення/модифікації записів).

11. Статистичні оцінки часу виконання запитів. До виконання запиту корисно мати бодай приблизну оцінку часу для відповіді та обсяг цієї відповіді.

Уже зараз відомі приклади сховищ даних, що містять терабайти інформації. Найбільш відпрацьовану методику створення і впровадження сховищ даних, очевидно, має компанія NCR, на рахунку якої близько 600 сховищ. Компанії належить рекорд не лише за кількістю розроблених сховищ даних, а й за обсягом найбільшого у світі сховища — від 7 до 24 Тбайт різноманітних даних.

Для створення й адміністрування сховищ даних компанія NCR розробила власну технологію Scalable Data Warehouse, основу якої становить реляційна СУБД NCR Teradata, яка пристосована спеціально для архітектур із масовим паралелізмом і функціонує під керівництвом ОС UNIX SVR4. Передбачено також використання СУБД Teradata в середовищі ОС Windows NT корпорації Microsoft і Solaris фірми Sun Microsystems. Ця технологія дає змогу будувати сховища даних на базі СУБД Oracle, Informix i MS SQL Server.

Під час створення корпоративних інформаційних сховищ на базі сховищ NCR пропонується підхід, ґрунтований на класичній моделі Б. Інмона. Дані з різноманітних джерел (реляційних і нереляційних СУБД, послідовних і плоских файлів) піддаються очищенню, витягуванню, фільтрації, узгодженню, реорганізації за допомогою процедур, розроблюваних для кожного замовника індивідуально. Очищені дані завантажуються у сховище з допомогою утиліт завантаження Fast Load i Multi Load. Як засоби адміністрування інформаційних ресурсів передбачено використовувати Unicenter TNG та програмне забезпечення фірми SAS, базове ядро якого реалізує функції доступу до даних, їх аналізу, управління й подання у потужному середовищі розроблення додатків.

Зауважимо, що процеси створення, підтримки й використання сховищ даних традиційно вимагали значних витрат, передусім було через високу вартість доступних на ринку спеціалізованих програмних інструментів. Ці інструменти практично не інтегрувалися між собою, бо ґрунтувалися не на відкритих технологіях і стандартах, а на приватних і закритих протоколах, інтерфейсах тощо. Складність і дорожнеча практично внеможливлювати побудову сховищ даних у

невеликих і середніх фірмах, тоді як потребу в оперативному аналізі даних відчуває будь-яка фірма незалежно від масштабу.

Останнім часом провідні корпорації виробники програмного забезпечення усвідомили важливість напряму, пов’язаного зі сховищами даних, і необхідність вживання заходів зі створення інструментального й технологічного середовища, яке б мінімізувало витрати на створення сховищ даних і зробило цей процес доступним для масового користувача. Зважаючи на те, що таких інструментальних засобів створено багато, розглянемо лише деякі з них.

Так, корпорація Microsoft розробило специфікацію середовища створення і використання сховищ даних — Microsoft Data Warehousing Framework. Ця специфікація визначає розвиток не лише нової лінії продуктів Microsoft (наприклад, MS SQL Server 7.0 і вище), а й технологій, що забезпечують інтеграцію продуктів різноманітних виробників.

Мета продукту Microsoft Data Warehousing Framework — спростити розроблення, упровадження й адміністрування рішень на базі сховищ даних. Ця специфікація покликана забезпечити:

— відкриту архітектуру, що легко інтегрується і розширюється третіми фірмами;

— експорт та імпорт гетерогенних даних поряд з їх перевіркою, очищенням і можливим веденням історії нагромадження;

— доступ до метаданих, що розділяються з різних сторін: процесів розроблення сховищ, витягу даних із трансакційних та інших систем і їх трансформації, управління сервером і аналізу даних кінцевими користувачами;

— вмонтовані служби планування завдань, управління дисковою пам’яттю, моніторингу продуктивності, оповіщення й реакції на події.

Основні компоненти Data Warehousing Framework (DWF) такі: стандарт обміну даними — OLE DB, сховище метаданих — Microsoft Repository, засоби збереження даних — СУБД MS SQL Server 7.0 та MS SQL Server 2000, засоби OLАРаналізу, засоби перенесення і трансформації даних — Data Transformation Services (DTS), засоби відображення й аналізу даних, засоби адміністрування.

Стандарт обміну даними. Побудова сховищ даних потребує реалізації низки складних завдань, передусім організації взаємодії з різноманітними оперативними БД для витягування даних і обміну даними й метаданими між різними компонентами. За відсутності єдиного інтерфейсу для доступу до різнорідних даних ці завдання стають украй складними. У Microsoft таким інтерфейсом є сучасний стандарт OLE DB (Object Linking and Embedding Data Base).

На відміну від попереднього стандарту ODBС, OLE DB надає новий, об’єктно-орієнтований інтерфейс роботи з інформацією. Він цілком грунтований на відкритій моделі СОМ (Component Object Model) і являє собою набір інтерфейсів, які можна використати в різних додатках, наприклад у додатках на Visual C++. Для спрощення використання OLE DB створено набір ActiveX компонентів — Active Data Objects (ADO). Ці компоненти можуть викликатися з додатків на Visual Basic, Access, Excel, вбудовуватися в активні Web-сторінки тощо. Практично всі компоненти зі створення й адміністрування сховищ даних використовують OLE DB для доступу не лише до реляційних даних, а й до таких ресурсів, як поштові повідомлення, файлові каталоги, повнотекстові індекси та ін.

Microsoft Repository

— сховище метаданих. Центральним компонентом Data Warehousing Framework є сховище метаданих, що поставляється як один із компонентів Microsoft SQL Server 7.0 і вище. Microsoft Repository — це база даних, що зберігає описову інформацію про компоненти програмного забезпечення і про їхні взаємозв’язки. Microsoft Repository складається з набору відкритих інформаційних моделей (Open Information Model — OIM), а також набору СОМ-інтерфейсів. Відкриті інформаційні моделі — це об’єктні моделі певного типу інформації, при цьому вони достатньо гнучкі, щоб забезпечити підтримку нових типів інформації. Корпорація MS уже розробила моделі ОІМ для схеми баз даних (Database Schema), перетворення даних (Data Transformations) і OLAP. Наступні моделі підтримуватимуть реплікацію, планування завдань, семантичні моделі, а також інформаційний довідник, призначений для забезпечення метаданими кінцевого користувача.

Засоби збереження даних. Центральним компонентом сховища даних є СУБД, що забезпечує надійне й ефективне збереження та оброблення даних. У цьому разі таким компонентом є Microsoft SQL Server (версії 7.0, 2000), який має низку властивостей, котрі роблять його чудовою платформою для побудови сховищ даних.

Як відомо, дані з оперативних БД переміщуються в реляційне сховище, де вони стають доступними для аналізу. За використання OLAP-засобів вони можуть бути переміщені в багатовимірну СУБД або будуть вибиратися процесором багатовимірних запитів безпосередньо із реляційних таблиць. Microsoft SQL Server забезпечує як реляційний, так і багатовимірний види збереження даних.

Як платформа для побудови й використання сховищ даних Microsoft SQL Server має такі властивості:

— підтримка баз даних, розмір яких обчислюється терабайтами;

— масштабованість як убік наймогутніших сучасних апаратних платформ для підтримки дуже великих баз даних, так і вбік серверів невеликих робочих груп, настільних і мобільних комп’ютерів;

— поліпшене оброблення запитів, що забезпечує оптимізацію й ефективне виконання складних запитів, типових для сховищ даних, зокрема запитів за схемою типу «зірка»;

— ефективні засоби налаштування продуктивності завантаження даних і побудови індексів;

— розподілені запити, що дають змогу обирати пов’язані дані з різноманітних OLE DB-джерела;

— надійні й ефективні засоби тиражування даних із підтримкою кількох пов’язаних сховищ або вітрин даних. Далі розглянемо низку механізмів, що входять до складу SQL Server 7.0 і вище.

Засоби OLAP-аналізу. Для оперативного аналітичного оброблення даних використовується повнофункціональний OLAP-сервер MS SQL Server OLAP Services (кодова назва «Plato»), який поставляється в складі SQL Server 7.0 OLAP Services і містить власне сервер, доступний до протоколу OLE DB for OLAP, а також клієнтський компонент, що є постачальником протоколу OLE DB for OLAP і забезпечує ефективне кешування і можливість локального зберігання багатовимірних вибірок для їх подальшого аналізу без підключення до OLAP-сервера.

Традиційно OLAP характеризується дорогим інструментарієм і складним процесом реалізації. Тому включення OLAP-функціональності в MS SQL Server зробить багатовимірний аналіз значно прийнятнішим у плані витрат для невеликих і середніх організацій і надасть можливість повною мірою скористатися засобами OLAP-аналізу і DSS.

Засоби перенесення і трансформації даних. Для спрощення процедури витягування даних з оперативних БД, їх очищення, інтеграції та розміщення у сховищі даних у MS SQL Server передбачено спеціальну службу — Data Trans-formation Services (DTS). DTS здійснює доступ як до джерела, так і до приймача даних, використовуючи інтерфейс OLE DB. Завдяки цьому DTS може витягувати й перетворювати дані практично з будь-яких джерел і, відповідно, розміщувати їх у будь-які приймачі даних.

Для перенесення і трансформації даних використовується розширений набір Active X-об’єктів, яким легко управляти за допомогою мови сценаріїв, наприклад VB Script або Java Script. DTS здатен інтегруватися з Microsoft Repository для використання метаданих про джерела, приймачі та схеми перетворення даних.

Завдання з перенесення і перетворення даних, що можуть містити множину послідовних кроків, оформляють у вигляді пакетів (DTS Packag), що можуть бути збережені в сховищі метаданих (Repository), у базі SQL Server або в окремому файлі. Пакети потім можуть автоматично виконуватися за розкладом із використанням сервісу SQL Server Agent.

Засоби відображення й аналізу даних. До цих засобів належать компоненти нового покоління MS Office 2000 для кінцевого користувача. Це насамперед MS Excel з його відомим засобом аналізу даних Pivot Tables. Він може задіяти всю потужність OLAP-сервера, підключаючись до нього через клієнтський компонент Pivot Tables Services. Інший засіб — English Query — дає змогу будувати запити до SQL Server природною мовою (англійською).

Засоби адміністрування. Засоби адміністрування, зокрема засоби автоматизації виконання адміністративних завдань, передбачені Data Warehousing Frame-work і включені до складу MS SQL Server 7.0, значно полегшують і підвищують ефективність роботи адміністратора. Єдиним середовищем адміністрування різноманітних компонентів є Microsoft Management Console. Засоби управління кожним конкретним компонентом (наприклад, SQL Server або OLAP Services) являють собою так званий snap-in, тобто модуль адміністрування, що використовує єдині засоби користувацького інтерфейсу.

Засіб управління SQL Server

— SQL Enterprise Manager — містить понад 25 програм-майстрів (Wizards), що допомагають не надто вимогливому адміністратору впоратися з найважливішими завданнями, зокрема створювати й копіювати бази даних, робити настроювання до тиражування даних, виконувати імпорт/експорт даних, управляти парольним доступом та ідентифікацією користувачів тощо.

Крім того, до складу SQL Enterprise Manager входять засоби створення і редагування графічних діаграм баз даних, що значно полегшують створення і модифікацію структури сховища.

Засоби автоматизації адміністрування дають змогу створювати багатоступінчасті завдання, що складаються як із команд мови Transact-SQL, так і зі сценаріїв мовами VB Script або Java Script. При цьому виконання наступних кроків може бути поставлене в залежність від результатів виконання попередніх. Ці завдання можуть охоплювати множину серверів і виконуватися за заданим розкладом.

Рішення компанії Oracle в галузі сховищ даних ґрунтується на двох чинниках — різноманітний асортимент продуктів самої компанії та діяльність партнерів у рамках програми Warehouse Technology Initiative. Можливості Oracle в галузі сховищ даних базуються на таких складових:

— наявність реляційних СУБД Oracle (7, 8 і вище), що постійно вдосконалюються для якомога кращого задоволення потреб сховищ даних;

— існування набору готових додатків, що забезпечують можливості розроблення й адміністрування сховищ даних;

— високий технологічний потенціал компанії у галузі OLAP-технологій. Це сімейство продуктів Oracle Express, що охоплюють об’єктний сервер (Oracle Express Server), який забезпечує обчислювальні можливості всіх програмних продуктів технології Express; об’єктно-орієнтовану універсальну систему аналізу бази даних (Oracle Express Analyzer), яка разом з Oracle Express Objects забезпечує багатофункціональний інтерфейс кінцевого користувача; об’єктноорієнтоване середовище розроблення повнофункціональних OLAP-додатків (Oracle Express Objects); систему, що підтримує розподілений бюджетинг, фінансовий аналіз та економічне моделювання (Oracle Financial Analyzer); систему для маркетингового аналізу, а також для загального аналізу великих обсягів даних, зокрема у сховищах даних на базі Express Server i RDBMS (Oracle Sales Analyzer); систему для створення динамічного зв’язку між багатовимірною «машиною обчислень» Express і реляційним сховищем Oracle Express (Oracle Express Relational Access Manager);

— доступність низки продуктів, вироблених іншими компаніями.

Корпорація Oracle на допомогу адміністратору бази даних випускає три пакети — Tuning Pack, Diagnostics Pack i Change Management Pack, призначені для розв’язання найскладніших проблем управління даними. Oracle Tuning Pack — засіб оптимізації системи подано ідентифікацією і налаштуванням бази даних і таких критичних параметрів додатків, як продуктивність SQL, структурованість бази й використання обчислювальних ресурсів. Oracle Diagnostics Pack — засіб контролю, діагностики й підтримки стану бази даних, операційної системи та додатків. Oracle Change Management Pack

— засіб ліквідації помилок і втрат даних у період модернізації баз даних для підтримки нових додатків.


< Попередня  Змiст  Наступна >
Iншi роздiли:
КОРПОРАТИВНІ ІНФОРМАЦІЙНІ СИСТЕМИ В СИСТЕМІ ОРГАНІЗАЦІЙНОГО УПРАВЛІННЯ РОЗДІЛ 6 РЕАЛІЗАЦІЯ ПРОМИСЛОВОЇ ЛОГІСТИКИ В КОРПОРАТИВНИХ ІНФОРМАЦІЙНИХ СИСТЕМАХ
6.2. КОМПОНЕНТИ ЛОГІСТИКИ ТА ЗАГАЛЬНА ХАРАКТЕРИСТИКА ЇХ
6.3. ПОКАЗНИКИ ОРГАНІЗАЦІЙНО-ЕКОНОМІЧНОЇ СТІЙКОСТІ ПІДПРИЄМСТВА
6.4. КЛАСИФІКАЦІЯ ЛОГІСТИЧНИХ ПРОЦЕСІВ ТА ХАРАКТЕРИСТИКА ЇХ
6.5. МЕТОДИ Й МОДЕЛІ УПРАВЛІННЯ ЛОГІСТИЧНИМИ ПРОЦЕСАМИ
Дисциплiни

Медичний довідник новиниКулінарний довідникАнглійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki (2022)