HU14 CISC 520 Data Analytics Final Project

The project analyzes 100,000 geotagged Wikipedia articles to explore the relationship between article density, contributor activity, and GDP. Using methods like K-Means clustering and Random Forest regression, the study finds that Wikipedia statistics can effectively predict economic indicators, achieving an R² of 0.82. The research highlights the potential of Wikipedia as an economic proxy while acknowledging limitations such as urban coverage bias and uncertainty in causality.

Uploaded by

Ramesh Vankara

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views6 pages

HU14 CISC 520 Data Analytics Final Project

Uploaded by

Ramesh Vankara

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 6

Forecasting Economic Growth from Geolocated

Wikipedia Articles

for: CISC 520-53-A-2025/Spring – Data Engineering and Mining

for: Ki Hyang Lee
Team(Group-2): Sagarkumar Harishkumar Davle, Raja Sekhar Budeiredhla, Mayur Dinsukh
Girnara

1. Introduction/Background
1.1 Context and Motivation
Geolocated Wikipedia articles are a new socioeconomic mirror with real-time pictures of trends
in the development of local areas. The project investigates 100,000 geotagged Wikipedia pages
(2018-2025) to:
 Test the hypothesis that article density and contributor activity are related to GDP
(deductive approach)
 Uncover underlying patterns in regional economic-Wikipedia relationships (inductive
approach)

1.2 Previous Work

Previous work has relied on:
 Satellite imagery (physical capital only)
 Social media signals (towards the platforms' bias)

Our contribution improves the state-of-the-art by:

 Examining 15 socioeconomic attributes
 Introducing a temporal analysis framework
2. Methods
2.1 Preprocessing
Dataset: 100,000 rows × 15 columns spanning:
 Article titles, geotags
 Contributor activity measures
 GDP proxies

Critical Steps
1. Missing Data Treatment: 3% missing values filled with median
2. Normalization: Min-Max scaling all numerical features
3. Train-Test Split: 70-30 by tertiles of GDP

2.2 Algorithmic Structure

K-Means Clustering:
kmeans = KMeans(n_clusters=3, random_state=42)
clusters = kmeans.fit_predict(X_scaled)

 Time complexity: O(n·k·d) per iteration

 Optimization: Elbow method (k=3)

Random Forest Regression:

 Wikipedia metrics to Predicted GDP
 R²: 0.82 (10-fold CV)

SVM Classification:
 Split regions into Low/Medium/High GDP
 Accuracy: 78%

3. Results
3.1 Key findings

Cluster Analysis:
Cluster Characteristics Examples
1 High GDP and High engagement NYC, Toyo
2 Medium GDP and Medium engagement Mumbai
3 Low GDP and low engagement Africa

Predictive performance:
Model Metric Score
Random Forest R2 0.82
SVM Accuracy 0.78

4. Discussion
4.1 Interpretation
 Confirmed hypothesis: Wikipedia statistics predict economic numbers
 Surprising finding: Contributing activity exhibits U-shaped relationship with
unemployment

4.2 Comparative Analysis

Our method improves:
 Twitter-based approaches (R² = +0.14)
 Traditional surveys (Cost = -85%)

4.3 Limitations
 Urban Wikipedia coverage bias
 Small temporal analysis sample size
 Uncertainty on causality due to correlations

5. Conclusion
5.1 Contributions
 Demonstrated that Wikipedia can be used as an economic proxy
 Presented reproducible pipeline for analysis
5.2 Future Work
 Short-term: Add Wikidata relationships
 Long-term: Real-time dashboard monitoring

Appendices
Appendix A: Full Results
pce pop psavert uempmed unemploy
pce 1.000000 -0.144964 -0.441787 0.072213 0.119294
pop -0.144964 1.000000 0.493400 0.619920 0.202564
psavert -0.441787 0.493400 1.000000 0.108721 -0.134804
uempmed 0.072213 0.619920 0.108721 1.000000 0.143291
unemploy 0.119294 0.202564 -0.134804 0.143291 1.000000
contributors 0.090419 -0.241508 -0.020580 -0.196259 0.210101
article_density 0.116026 0.805527 0.304827 0.643407 0.260295
gdp 0.202035 0.275095 0.225200 -0.037835 -0.482935
Table 1: Full correlation matrix

contributors article_density gdp

pce 0.090419 0.116026 0.202035
pop -0.241508 0.805527 0.275095
psavert -0.020580 0.304827 0.225200
uempmed -0.196259 0.643407 -0.037835
unemploy 0.210101 0.260295 -0.482935
contributors 1.000000 0.229272 0.238402
article_density 0.229272 1.000000 0.274837
gdp 0.238402 0.274837 1.000000
Table 2: Model hyperparameters
Appendix B: Visualization Portfolio
Graph 1: Cluster scatterplot (PCE vs Unemployment)

Graph 2: Feature importance plot

Graph 3: Correlation heatmap

Appendix C: Code Repository

1. https://github.com/selva86/datasets/blob/master/economics.csv

All Certik Skynet Answer (Up-To-date)
100% (2)
All Certik Skynet Answer (Up-To-date)
21 pages
Aphg Quick Reference Sheet
100% (1)
Aphg Quick Reference Sheet
6 pages
Session 2 Economic Development
No ratings yet
Session 2 Economic Development
60 pages
NSP NFM-P 19.3 Installation and Upgrade Guide PDF
No ratings yet
NSP NFM-P 19.3 Installation and Upgrade Guide PDF
488 pages
HU14 CISC 520 Deliverable 2 Data Exploration and Mining Methods Proposal KA1 80%3
No ratings yet
HU14 CISC 520 Deliverable 2 Data Exploration and Mining Methods Proposal KA1 80%3
6 pages
Introduction To Economic Geography
100% (1)
Introduction To Economic Geography
55 pages
Topic 1 - Introduction To Urban and Regional Economics
No ratings yet
Topic 1 - Introduction To Urban and Regional Economics
8 pages
NTC ESD Process Flow and Requirements For Type Approval and Acceptance Certificate Application
No ratings yet
NTC ESD Process Flow and Requirements For Type Approval and Acceptance Certificate Application
33 pages
L2 - Transportation and Economic Development
No ratings yet
L2 - Transportation and Economic Development
44 pages
Bachata Musicality
No ratings yet
Bachata Musicality
5 pages
Neil Coe, Philip Kelly, Henry W. C. Yeung - Economic Geography - A Contemporary Introduction
100% (2)
Neil Coe, Philip Kelly, Henry W. C. Yeung - Economic Geography - A Contemporary Introduction
453 pages
Economic Development - 0765617528
100% (6)
Economic Development - 0765617528
337 pages
BMC Remedy Error Message
100% (1)
BMC Remedy Error Message
270 pages
Economic Geography
No ratings yet
Economic Geography
20 pages
3 Regression Diagnostics
100% (1)
3 Regression Diagnostics
53 pages
Hitachi Dx235nlc 5
100% (1)
Hitachi Dx235nlc 5
1,320 pages
Slide Present Ee Full Heart Beat
100% (1)
Slide Present Ee Full Heart Beat
21 pages
DTC B1615/14 Front Airbag Sensor LH Circuit Malfunction: Description
No ratings yet
DTC B1615/14 Front Airbag Sensor LH Circuit Malfunction: Description
2 pages
Economic GEO 2024 V2
No ratings yet
Economic GEO 2024 V2
177 pages
Social Physics
No ratings yet
Social Physics
359 pages
Econ Midterm and Finals
No ratings yet
Econ Midterm and Finals
150 pages
Entrepreneurship, Knowledge, and The Industrial Revolution
No ratings yet
Entrepreneurship, Knowledge, and The Industrial Revolution
128 pages
Erp Glossary PDF
No ratings yet
Erp Glossary PDF
2 pages
2025 05 29 21 07 54 DESKTOP-MQFTRFG Log
No ratings yet
2025 05 29 21 07 54 DESKTOP-MQFTRFG Log
97 pages
Flashcards - Diverse Places - Edexcel Geography A-Level
No ratings yet
Flashcards - Diverse Places - Edexcel Geography A-Level
93 pages
PC Intro To Sequences
No ratings yet
PC Intro To Sequences
15 pages
Gao 2019
No ratings yet
Gao 2019
104 pages
07 DC Motor Direction Control PDF
No ratings yet
07 DC Motor Direction Control PDF
7 pages
DP 16501
No ratings yet
DP 16501
59 pages
Economic Geography Lecture Series
No ratings yet
Economic Geography Lecture Series
57 pages
Geo Vocab
No ratings yet
Geo Vocab
78 pages
Log
No ratings yet
Log
40 pages
GDP As A Measure of Growth
No ratings yet
GDP As A Measure of Growth
39 pages
Data Science Team 7 Report 1
No ratings yet
Data Science Team 7 Report 1
29 pages
The Supervised Learning Workshop - Second Edition: A New, Interactive Approach to Understanding Supervised Learning Algorithms, 2nd Edition
From Everand
The Supervised Learning Workshop - Second Edition: A New, Interactive Approach to Understanding Supervised Learning Algorithms, 2nd Edition
Blaine Bateman
No ratings yet
DT Aehe 2011 - 20240108094248
No ratings yet
DT Aehe 2011 - 20240108094248
37 pages
Economic Geography
No ratings yet
Economic Geography
44 pages
G9 Dietexpert Report
No ratings yet
G9 Dietexpert Report
56 pages
Whitepaper PDF
No ratings yet
Whitepaper PDF
57 pages
Ap Hugs Notes
No ratings yet
Ap Hugs Notes
77 pages
Basics of Economic Geography and Development
No ratings yet
Basics of Economic Geography and Development
59 pages
Socio-Economic and Human Health
No ratings yet
Socio-Economic and Human Health
55 pages
(Koen Frenken (Editor) ) Applied Evolutionary Econo
No ratings yet
(Koen Frenken (Editor) ) Applied Evolutionary Econo
344 pages
Estimating Economic Activity From Social Media
No ratings yet
Estimating Economic Activity From Social Media
55 pages
1 2nd Sem-WEG Syllabus-Present Topics
No ratings yet
1 2nd Sem-WEG Syllabus-Present Topics
41 pages
SMP07082023CW36932019 130738
No ratings yet
SMP07082023CW36932019 130738
20 pages
Unit IV - Esia - Sia (Socio Economic)
No ratings yet
Unit IV - Esia - Sia (Socio Economic)
29 pages
DDB-distribution Database Important.
No ratings yet
DDB-distribution Database Important.
15 pages
1 2nd Sem-WEG Syllabus-Present Topics
No ratings yet
1 2nd Sem-WEG Syllabus-Present Topics
41 pages
Spatial Econometrics - Common Models: J - M F Insee R L S Ensai
No ratings yet
Spatial Econometrics - Common Models: J - M F Insee R L S Ensai
29 pages
Automatic Visual To Tactile Translation, Part I - Human Factors, Access Methods and Image Manipulation
No ratings yet
Automatic Visual To Tactile Translation, Part I - Human Factors, Access Methods and Image Manipulation
16 pages
Draft Amrita Institute Prospectus
No ratings yet
Draft Amrita Institute Prospectus
28 pages
Configure SSL Mastertheboss
No ratings yet
Configure SSL Mastertheboss
12 pages
SLP SP 25 Session One - Socio-Economic Development
No ratings yet
SLP SP 25 Session One - Socio-Economic Development
23 pages
Treasure Beach Smart Community Initiative - ABR2020
No ratings yet
Treasure Beach Smart Community Initiative - ABR2020
18 pages
Urban Economic Fitness
No ratings yet
Urban Economic Fitness
13 pages
MGG 6 em 2025 1
No ratings yet
MGG 6 em 2025 1
19 pages
Final Presentation
No ratings yet
Final Presentation
10 pages
PCS902S 21L
No ratings yet
PCS902S 21L
5 pages
Definition, Nature and Scope-Lct-1&2
No ratings yet
Definition, Nature and Scope-Lct-1&2
15 pages
Intro Ecogeo (Revised) Topic-1
No ratings yet
Intro Ecogeo (Revised) Topic-1
25 pages
PLC Based Motor Control Using VFD: by VP-Engineering, Industrial Controls Corp. Chairman, MRSP
No ratings yet
PLC Based Motor Control Using VFD: by VP-Engineering, Industrial Controls Corp. Chairman, MRSP
28 pages
11.407 Syllabus Rules Readings Requirements 082317
No ratings yet
11.407 Syllabus Rules Readings Requirements 082317
12 pages
4.8 - 9 - 10 (Econ Ib)
No ratings yet
4.8 - 9 - 10 (Econ Ib)
9 pages
8H Unit 4 Development Study Guide
No ratings yet
8H Unit 4 Development Study Guide
14 pages
Students File - S4
No ratings yet
Students File - S4
6 pages
AS. Eco. Geog.
No ratings yet
AS. Eco. Geog.
8 pages
Chapter 14 Ap Human Geo Review
No ratings yet
Chapter 14 Ap Human Geo Review
11 pages
Models and Theories PDF
No ratings yet
Models and Theories PDF
11 pages
The Building Blocks of Economic Complexity
No ratings yet
The Building Blocks of Economic Complexity
6 pages
DSE Inequalitiesdsdsddwdddwdwdw
No ratings yet
DSE Inequalitiesdsdsddwdddwdwdw
4 pages
Geography Important
No ratings yet
Geography Important
6 pages
Nge 304 Topic 3
No ratings yet
Nge 304 Topic 3
4 pages
Chapter 1: Introduction To The Big Data Paradigm
No ratings yet
Chapter 1: Introduction To The Big Data Paradigm
3 pages
WEG Midterm
No ratings yet
WEG Midterm
7 pages
Geo Mid
No ratings yet
Geo Mid
5 pages
IITM Thesis Format
No ratings yet
IITM Thesis Format
12 pages
Chapter One
No ratings yet
Chapter One
19 pages
Editorial: The 22nd-Century City
No ratings yet
Editorial: The 22nd-Century City
3 pages
BG Z Distance Companion
No ratings yet
BG Z Distance Companion
7 pages
GRAYSON HANSON - Economic Geography WebQuest - 14223700
No ratings yet
GRAYSON HANSON - Economic Geography WebQuest - 14223700
3 pages
2013 Zenou - From Neighborhoods To Nations
No ratings yet
2013 Zenou - From Neighborhoods To Nations
5 pages
Dahua
No ratings yet
Dahua
2 pages
Data Mining Models: Techniques and Applications
From Everand
Data Mining Models: Techniques and Applications
Ravi Deshpande
No ratings yet
Quiz Application Using Java
No ratings yet
Quiz Application Using Java
2 pages
Indicators of Economic Growth
No ratings yet
Indicators of Economic Growth
20 pages
Explore Voronoi by Visual Capitalist Data-Driven Visual Stories From Top Creators
No ratings yet
Explore Voronoi by Visual Capitalist Data-Driven Visual Stories From Top Creators
1 page
X-Ray Warning Flash Lamp: Measurement & Control
No ratings yet
X-Ray Warning Flash Lamp: Measurement & Control
2 pages
Beginning Microsoft SQL Server 2012 Programming
From Everand
Beginning Microsoft SQL Server 2012 Programming
Paul Atkinson
1/5 (1)
Speech and Language Processing 3rd Edition Daniel Jurafsky James H Martin Download
100% (1)
Speech and Language Processing 3rd Edition Daniel Jurafsky James H Martin Download
29 pages