Перейти до вмісту

Аналіз даних

Очікує на перевірку
Матеріал з Вікіпедії — вільної енциклопедії.

Аналіз даних — розділ математики, що займається розробкою методів обробки даних незалежно від їхньої природи.

Аналіз даних включає виконання послідовних, логічних дій з інтерпретації зібраних даних (наприклад, відповідей респондентів) та їхнє перетворення на статистичні форми, потрібні для ухвалення маркетингових та керівницьких рішень.

Можна виділити такі етапи аналізу даних: отримання даних, обробка, аналіз та інтерпретація результатів обробки.

Аналіз даних можна вважати прикладним розділом математичної статистики, проте потрібно наголосити, що аналіз даних охоплює обробку як кількісних, так і якісних даних. Причому, не обов'язково використання імовірністних моделей в описі досліджуваних об'єктів, явищ та процесів.

Розділи аналізу даних

[ред. | ред. код]
  1. Попередня обробка даних
    1. Розвідувальний аналіз
  2. Кореляційний аналіз
  3. Дисперсійний аналіз
  4. Регресійний аналіз
  5. Коваріаційний аналіз
  6. Дискримінантний аналіз
  7. Кластерний аналіз
  8. Аналіз часових рядів

Процес аналізу даних

[ред. | ред. код]

Аналіз означає поділ цілого на окремі компоненти для індивідуального дослідження.  Аналіз даних — це процес отримання необроблених даних і подальшого перетворення їх на інформацію, корисну для прийняття рішень користувачами.  Дані збираються й аналізуються, щоб відповісти на запитання, перевірити гіпотези чи спростувати теорії.

Статистик Джон Тьюкі визначив аналіз даних у 1961 році як:

«Процедури аналізу даних, методи інтерпретації результатів таких процедур, способи планування збору даних, щоб зробити їх аналіз простішим, більш точним або точнішим, а також усі механізми та результати (математичної) статистики, які застосовуються до аналізу даних."

Можна виділити кілька фаз, описаних нижче. Фази є ітераційними, тому зворотний зв’язок із пізніших фаз може призвести до додаткової роботи на попередніх фазах. Фреймворк CRISP , який використовується для інтелектуального аналізу даних , має подібні кроки.

Вимоги до даних

[ред. | ред. код]

Дані необхідні як вхідні дані для аналізу, який визначається на основі вимог тих, хто керує аналітикою (або клієнтів, які використовуватимуть готовий продукт аналізу). Загальний тип об'єкта, щодо якого збиратимуться дані, називається експериментальною одиницею (наприклад, особа або сукупність людей). Можуть бути визначені та отримані конкретні змінні щодо населення (наприклад, вік і дохід). Дані можуть бути числовими або категоріальними (тобто текстова мітка для чисел).

Збір даних

[ред. | ред. код]

Дані збираються з різних джерел. Вимоги можуть бути передані аналітиками зберігачам даних; наприклад, персонал інформаційних технологій в організації.  Дані також можуть бути зібрані з датчиків у навколишньому середовищі, включаючи камери дорожнього руху, супутники, пристрої запису тощо. Їх також можна отримати за допомогою інтерв’ю, завантаження з онлайн-джерел або читання документації.

Обробка даних

[ред. | ред. код]

Фази циклу розвідки, які використовуються для перетворення необробленої інформації в оперативну інформацію або знання, концептуально подібні до фаз аналізу даних. Дані, отримані спочатку, повинні бути оброблені або організовані для аналізу. Наприклад, це може передбачати розміщення даних у рядках і стовпцях у форматі таблиці ( відомих як структуровані дані ) для подальшого аналізу, часто за допомогою електронних таблиць або статистичного програмного забезпечення.

Очищення даних

[ред. | ред. код]

Після обробки та впорядкування дані можуть бути неповними, містити дублікати або містити помилки. Потреба в очищенні даних виникне через проблеми в способі введення та збереження даних. Очищення даних — це процес запобігання та виправлення цих помилок. Загальні завдання включають зіставлення записів, виявлення неточності даних, загальну якість наявних даних, дедуплікацію та сегментацію стовпців.  Такі проблеми з даними також можна виявити за допомогою різних аналітичних методів. Наприклад; з фінансовою інформацією загальні показники для окремих змінних можна порівняти з окремо опублікованими числами, які вважаються достовірними. Також можуть бути переглянуті незвичайні суми, що перевищують або нижчі заздалегідь визначених порогів. Існує кілька типів очищення даних, які залежать від типу даних у наборі; це можуть бути номери телефонів, адреси електронної пошти, роботодавці чи інші значення. Методи кількісних даних для виявлення викидів можна використовувати, щоб позбутися даних, які, здається, мають більшу ймовірність неправильного введення. Щоб зменшити кількість неправильно набраних слів, можна використовувати засоби перевірки орфографії текстових даних. Однак важче визначити, чи правильні самі слова.

Дослідницький аналіз даних

[ред. | ред. код]

Після очищення наборів даних їх можна проаналізувати. Аналітики можуть застосовувати різноманітні методи, які називають дослідницьким аналізом даних, щоб почати розуміти повідомлення, що містяться в отриманих даних. Процес дослідження даних може призвести до додаткового очищення даних або додаткових запитів на дані; таким чином, ініціалізація ітераційних фаз, згаданих у першому параграфі цього розділу. Щоб допомогти зрозуміти дані, можна створити описову статистику, таку як середнє значення чи медіана.  Візуалізація данихтакож використовується техніка, за якої аналітик може досліджувати дані в графічному форматі, щоб отримати додаткову інформацію щодо повідомлень у даних.

Моделювання та алгоритми

[ред. | ред. код]

Математичні формули або моделі (відомі як алгоритми) можуть бути застосовані до даних, щоб визначити зв’язки між змінними; наприклад, використовуючи кореляцію або причинно -наслідковий зв’язок. Загалом, моделі можуть бути розроблені для оцінки конкретної змінної на основі іншої(их) змінної(змінних), що міститься в наборі даних, з деякою залишковою помилкою залежно від точності реалізованої моделі (наприклад , Дані = Модель + Помилка) .

Інференційна статистика включає використання методів, які вимірюють зв’язки між певними змінними. Наприклад, регресійний аналіз може бути використаний для моделювання того, чи пояснює зміна в рекламі (незалежна змінна X) зміну продажів ( залежна змінна Y). У математичних термінах Y (продажі) є функцією X (реклама). Її можна описати як (Y = aX + b + помилка), де модель розроблена так, що (a) і (b) мінімізують помилку, коли модель передбачає Y для заданого діапазону значень X. Аналітики також можуть спробувати побудувати моделі, які описують дані, з метою спрощення аналізу та передачі результатів.

Продукт даних

[ред. | ред. код]

Продукт даних — це комп’ютерна програма, яка приймає вхідні дані та генерує вихідні дані, повертаючи їх у середовище. Він може базуватися на моделі або алгоритмі. Наприклад, програма, яка аналізує дані про історію покупок клієнтів і використовує результати, щоб рекомендувати інші покупки, які можуть сподобатися клієнту.

Спілкування

[ред. | ред. код]

Візуалізація даних використовується, щоб допомогти зрозуміти результати після аналізу даних. Після аналізу даних вони можуть бути надіслані в багатьох форматах користувачам аналізу для підтримки їхніх вимог.  Користувачі можуть мати відгуки, що призводить до додаткового аналізу. Таким чином, більша частина аналітичного циклу є ітераційною.

Визначаючи, як повідомити результати, аналітик може розглянути можливість впровадження різноманітних методів візуалізації даних, щоб допомогти чіткіше та ефективніше донести повідомлення до аудиторії.  Візуалізація даних використовує інформаційні дисплеї (графіки, такі як таблиці та діаграми), щоб допомогти передати ключові повідомлення, що містяться в даних.  Таблиці є цінним інструментом, оскільки вони дають можливість користувачеві запитувати та зосереджуватися на конкретних числах; тоді як діаграми (наприклад, стовпчасті або лінійні діаграми) можуть допомогти пояснити кількісні повідомлення, що містяться в даних.

Тестові набори даних

[ред. | ред. код]

Значення аналізу даних у дослідженнях

[ред. | ред. код]

Величезна частина роботи дослідника полягає в аналізі даних. Це буквально визначення «дослідження».

Однак сьогоднішня інформаційна ера регулярно створює приливну хвилю даних, достатню для того, щоб переповнити навіть найвідданішого дослідника. Таким чином, аналіз даних відіграє ключову роль у перетворенні цієї інформації в більш точну та актуальну форму, що полегшує дослідникам виконання їхньої роботи. Аналіз даних також надає дослідникам широкий вибір різних інструментів, таких як описова статистика, інференційний аналіз і кількісний аналіз.Отже, підводячи підсумок, аналіз даних пропонує дослідникам кращі дані та кращі способи їх аналізу та вивчення.

Безкоштовне програмне забезпечення для аналізу даних

[ред. | ред. код]

Серед відомих безкоштовних програм для аналізу даних є наступні:

  • DevInfo[en] – система бази даних, схвалена Групою розвитку ООН[en] для моніторингу та аналізу людського розвитку.
  • ELKI[en] – структура інтелектуального аналізу даних у Java з функціями візуалізації, орієнтованими на інтелектуальний аналіз даних.
  • KNIME[en] – The Konstanz Information Miner, зручний і комплексний інструмент аналізу даних.
  • Orange[en] – інструмент візуального програмування, що включає інтерактивну візуалізацію даних і методи статистичного аналізу даних, аналізу даних і машинного навчання.
  • Pandas – бібліотека Python для аналізу даних.
  • PAW[en] – структура аналізу даних FORTRAN/C, розроблена в CERN.
  • R – Мова програмування та програмне середовище для статистичних обчислень і графіки.
  • ROOT – структура аналізу даних C++, розроблена в CERN.
  • SciPy – бібліотека Python для аналізу даних.
  • Julia – мова програмування, яка добре підходить для числового аналізу та обчислювальної техніки.