0% found this document useful (0 votes)

71 views4 pages

BTVN1 - Colaboratory

The document discusses the Boston housing dataset and provides alternatives. It loads the data, calculates summary statistics like mean, median, mode, variance and standard deviation. It then analyzes the relationship between attributes through correlation, histograms and boxplots. In particular, it finds the correlation between housing prices and crime rate is 0.288.

Uploaded by

Tam Nguyen Thi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

71 views4 pages

BTVN1 - Colaboratory

Uploaded by

Tam Nguyen Thi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

07/02/2023, 23:27 BTVN1 - Colaboratory

import numpy as np
import pandas as pd
import sklearn
import scipy
import matplotlib.pyplot as plt
import statistics

from sklearn.datasets import load_boston

boston = load_boston();

/usr/local/lib/python3.8/dist-packages/sklearn/utils/deprecation.py:87: FutureWarning: Function load_boston is deprecated; `l

The Boston housing prices dataset has an ethical problem. You can refer to
the documentation of this function for further details.

The scikit-learn maintainers therefore strongly discourage the use of this

dataset unless the purpose of the code is to study and educate about
ethical issues in data science and machine learning.

In this special case, you can fetch the dataset from the original
source::

import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

Alternative datasets include the California housing dataset (i.e.

:func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
dataset. You can load the datasets as follows::

from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing()

for the California housing dataset and::

from sklearn.datasets import fetch_openml

housing = fetch_openml(name="house_prices", as_frame=True)

for the Ames housing dataset.

warnings.warn(msg, category=FutureWarning)

x = boston.data

y = boston.target

print("min y: ", np.min(y))
print("max y: ", np.max(y))
print("trung binh cua y: ", np.mean(y))
print("trung vi cua y: ", np.median(y))
print("mode cua y: ", statistics.mode(y))
print("phuong sai cua y: ", np.var(y))
print("do lech chuan cua y: ", np.std(y))
print("he so tuong quan cua y: ", np.cov(y))

min y: 5.0
max y: 50.0
trung binh cua y: 22.532806324110673
trung vi cua y: 21.2
mode cua y: 50.0
phuong sai cua y: 84.41955615616554
do lech chuan cua y: 9.188011545278203
he so tuong quan cua y: 84.58672359409846

#min
min = 1e9
for i in y:
if (i < min):

https://colab.research.google.com/drive/1TunkxkXexb5FlH_g8lO4LhgPqtTAmvmV#scrollTo=xV6gjZIYqnrN&printMode=true 1/4
07/02/2023, 23:27 BTVN1 - Colaboratory
min = i
print(min)

5.0

#max
max = -1e9
for i in y:
if (i > max):
max = i
print(max)

50.0

#mean
print("trung binh cua y: ", sum(y)/len(y))

trung binh cua y: 22.532806324110673

#median
y.sort()
n = len(y)
if n % 2 == 0:
median = (y[n//2 - 1] + y[n//2]) / 2
else:
median = y[n//2]
print("trung vi cua y: ", median)

trung vi cua y: 21.2

from collections import Counter
n = len(y)
data = Counter(y)
get_mode = dict(data)
mode = [k for k, v in get_mode.items() if v == np.max(list(data.values()))]

if len(mode) == n:
    get_mode = "no mode found"
else:
    get_mode = "mode is / are: " + ', '.join(map(str, mode))
print(get_mode)

mode is / are: 50.0

#variance
print("phuong sai cua y: ", sum((np.mean(y) - i)**2 for i in y)/len(y))

phuong sai cua y: 84.41955615616554

#standard deviation
import math
print("do lech chuan cua y: ", math.sqrt(sum((np.mean(y) - i)**2 for i in y)/len(y)))

do lech chuan cua y: 9.188011545278203

data = pd.DataFrame(boston.data)
data.columns = boston.feature_names
data.head

<bound method NDFrame.head of CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX \
0 0.00632 18.0 2.31 0.0 0.538 6.575 65.2 4.0900 1.0 296.0
1 0.02731 0.0 7.07 0.0 0.469 6.421 78.9 4.9671 2.0 242.0
2 0.02729 0.0 7.07 0.0 0.469 7.185 61.1 4.9671 2.0 242.0
3 0.03237 0.0 2.18 0.0 0.458 6.998 45.8 6.0622 3.0 222.0
4 0.06905 0.0 2.18 0.0 0.458 7.147 54.2 6.0622 3.0 222.0
.. ... ... ... ... ... ... ... ... ... ...
501 0.06263 0.0 11.93 0.0 0.573 6.593 69.1 2.4786 1.0 273.0
502 0.04527 0.0 11.93 0.0 0.573 6.120 76.7 2.2875 1.0 273.0
503 0.06076 0.0 11.93 0.0 0.573 6.976 91.0 2.1675 1.0 273.0
504 0.10959 0.0 11.93 0.0 0.573 6.794 89.3 2.3889 1.0 273.0
505 0.04741 0.0 11.93 0.0 0.573 6.030 80.8 2.5050 1.0 273.0

PTRATIO B LSTAT
0 15.3 396.90 4.98

https://colab.research.google.com/drive/1TunkxkXexb5FlH_g8lO4LhgPqtTAmvmV#scrollTo=xV6gjZIYqnrN&printMode=true 2/4
07/02/2023, 23:27 BTVN1 - Colaboratory
1 17.8 396.90 9.14
2 17.8 392.83 4.03
3 18.7 394.63 2.94
4 18.7 396.90 5.33
.. ... ... ...
501 21.0 391.99 9.67
502 21.0 396.90 9.08
503 21.0 396.90 5.64
504 21.0 393.45 6.48
505 21.0 396.90 7.88

[506 rows x 13 columns]>

z = data.CRIM

#correlation coefficient
def correlation(x, y):
    mean_x = sum(x)/float(len(x))
    mean_y = sum(y)/float(len(y))
    sub_x = [i-mean_x for i in x]
    sub_y = [i-mean_y for i in y]
    numerator = sum([sub_x[i]*sub_y[i] for i in range(len(sub_x))])
    std_deviation_x = sum([sub_x[i]**2.0 for i in range(len(sub_x))])
    std_deviation_y = sum([sub_y[i]**2.0 for i in range(len(sub_y))])
    denominator = (std_deviation_x*std_deviation_y)**0.5
    cor = numerator/denominator
    return cor
print("he so tuong quan (y,z): ", correlation(y,z))

he so tuong quan (y,z): 0.2883473338560153

#Histogram
fig = plt.figure(figsize =(10,7))
plt.hist(z, bins=25, color='grey')
plt.title("crime rate")
plt.xlabel("cRIM")
plt.ylabel("frequency")
plt.show()

#Boxplot
plt.boxplot(z)
plt.title("crime rate")
plt.ylabel("crime")
plt.show()

https://colab.research.google.com/drive/1TunkxkXexb5FlH_g8lO4LhgPqtTAmvmV#scrollTo=xV6gjZIYqnrN&printMode=true 3/4
07/02/2023, 23:27 BTVN1 - Colaboratory

Các sản phẩm có tính phí của Colab - Huỷ hợp đồng tại đây
check 0 giây hoàn thành lúc 23:27

https://colab.research.google.com/drive/1TunkxkXexb5FlH_g8lO4LhgPqtTAmvmV#scrollTo=xV6gjZIYqnrN&printMode=true 4/4

Introductory Statistics For The Behavioral Sciences, 7th Edition 7th Edition Full MOBI Ebook
100% (20)
Introductory Statistics For The Behavioral Sciences, 7th Edition 7th Edition Full MOBI Ebook
14 pages
Outlier Management Process FY20P12W4
No ratings yet
Outlier Management Process FY20P12W4
155 pages
Stats Chapter 2 & 3 Exam Questions
No ratings yet
Stats Chapter 2 & 3 Exam Questions
5 pages
Chapter 03 Test Bank
No ratings yet
Chapter 03 Test Bank
128 pages
Math 5.11
No ratings yet
Math 5.11
2 pages
PERT Time Estimates
No ratings yet
PERT Time Estimates
1 page
Mutally
No ratings yet
Mutally
6 pages
CFA1 - TRIAL - QUANT - 2024 - 2503 - No Note
No ratings yet
CFA1 - TRIAL - QUANT - 2024 - 2503 - No Note
17 pages
Basic Business Statistics Concepts and Applications 12th Edition Berenson Solutions Manualpdf Download
100% (6)
Basic Business Statistics Concepts and Applications 12th Edition Berenson Solutions Manualpdf Download
51 pages
Assignment 2 - Applied Statistics and Probability
No ratings yet
Assignment 2 - Applied Statistics and Probability
2 pages
MAT 243 Project One Summary Report Template
No ratings yet
MAT 243 Project One Summary Report Template
6 pages
AIRs-LM - Math 10 QUARTER 4-Weeks 6-7 - Module 5
100% (5)
AIRs-LM - Math 10 QUARTER 4-Weeks 6-7 - Module 5
20 pages
Multivariate Data Analysis Joseph F. Hair Jr. William C. Black Barry J. Babin Rolph E. Anderson Seventh Edition
0% (1)
Multivariate Data Analysis Joseph F. Hair Jr. William C. Black Barry J. Babin Rolph E. Anderson Seventh Edition
7 pages
ANALYSIS
No ratings yet
ANALYSIS
22 pages
Regression Analysis - Lasso and Ridge Regularization
No ratings yet
Regression Analysis - Lasso and Ridge Regularization
17 pages
DSBDA Prac4 2
No ratings yet
DSBDA Prac4 2
1 page
EE4 Ch10 Solutions Manual
No ratings yet
EE4 Ch10 Solutions Manual
7 pages
Spring 2023 Signature Assignment ADA MAT 152 With Rubric Excel Bonanno 2
No ratings yet
Spring 2023 Signature Assignment ADA MAT 152 With Rubric Excel Bonanno 2
4 pages
Correlation Ratio
No ratings yet
Correlation Ratio
3 pages
Xtasy
No ratings yet
Xtasy
14 pages
A926534728 - 28953 - 8 - 2025 - Spark Mllib
No ratings yet
A926534728 - 28953 - 8 - 2025 - Spark Mllib
8 pages
Assignment 4
No ratings yet
Assignment 4
7 pages
Lab 1. The Nature of Data
No ratings yet
Lab 1. The Nature of Data
15 pages
Exp 1 A
No ratings yet
Exp 1 A
5 pages
Ds Pract 5 Data Analytics1 Vedanti
No ratings yet
Ds Pract 5 Data Analytics1 Vedanti
7 pages
L-2 (Data Frame Part 1) .Ipynb - Colab
No ratings yet
L-2 (Data Frame Part 1) .Ipynb - Colab
5 pages
Keeratsi HW8
No ratings yet
Keeratsi HW8
17 pages
ML Expt 2
No ratings yet
ML Expt 2
5 pages
Data Analytucs 1
No ratings yet
Data Analytucs 1
5 pages
Exp - 2-EDA - CaliforniaData Set - HeatMap - PairPlot-checkpoint - Jupyter Notebook
No ratings yet
Exp - 2-EDA - CaliforniaData Set - HeatMap - PairPlot-checkpoint - Jupyter Notebook
12 pages
Project 4 - House Price Prediction - Ipynb - Colab
No ratings yet
Project 4 - House Price Prediction - Ipynb - Colab
5 pages
Merged
No ratings yet
Merged
35 pages
Prg7a - Jupyter Notebook
No ratings yet
Prg7a - Jupyter Notebook
12 pages
Bugallon-IS-MAPEH 6-Mean-Median-SD
No ratings yet
Bugallon-IS-MAPEH 6-Mean-Median-SD
2 pages
Exp 3 ML
No ratings yet
Exp 3 ML
3 pages
Data Analytics Lab Manual
No ratings yet
Data Analytics Lab Manual
26 pages
Data Science Summary Notes
No ratings yet
Data Science Summary Notes
9 pages
Lesson 6 - Sampling Distribution
No ratings yet
Lesson 6 - Sampling Distribution
5 pages
Machine Learning Laboratory
No ratings yet
Machine Learning Laboratory
23 pages
Grade11 Statistics and Probabilty - Module 3
100% (1)
Grade11 Statistics and Probabilty - Module 3
5 pages
Boston Dataset
No ratings yet
Boston Dataset
6 pages
A4 Dsbda Sana
No ratings yet
A4 Dsbda Sana
16 pages
Assignment - Jupyter Notebook
No ratings yet
Assignment - Jupyter Notebook
10 pages
ML Observation
No ratings yet
ML Observation
29 pages
HW 3
No ratings yet
HW 3
20 pages
Ch.1 All & Ch.2 Introduction
No ratings yet
Ch.1 All & Ch.2 Introduction
44 pages
Python ML Projects
No ratings yet
Python ML Projects
18 pages
ML Merged
No ratings yet
ML Merged
28 pages
Assignment 03
No ratings yet
Assignment 03
6 pages
DL 1
No ratings yet
DL 1
4 pages
Xgboost
No ratings yet
Xgboost
12 pages
Machinelearning
No ratings yet
Machinelearning
26 pages
A Medical Researcher Is Studying The Relationship Between Age (X Years) and Volume
No ratings yet
A Medical Researcher Is Studying The Relationship Between Age (X Years) and Volume
17 pages
DA Manual - Part B
No ratings yet
DA Manual - Part B
13 pages
NCERT Solutions For Class 11 Maths Chapter - 15 Statistics
No ratings yet
NCERT Solutions For Class 11 Maths Chapter - 15 Statistics
6 pages
Bigdata - Ipynb - Colab
No ratings yet
Bigdata - Ipynb - Colab
28 pages
Heart Disease Prediction! ?
No ratings yet
Heart Disease Prediction! ?
52 pages
Data Science Algorithmen Master - 02 Data Handling
No ratings yet
Data Science Algorithmen Master - 02 Data Handling
76 pages
Normialization Dataset
No ratings yet
Normialization Dataset
7 pages
Diamond Dataset Output
No ratings yet
Diamond Dataset Output
19 pages
Implementing OLS Regression On Boston Housing Secondary Dataset. Also Check The Data For Missing Values and Outliers.
No ratings yet
Implementing OLS Regression On Boston Housing Secondary Dataset. Also Check The Data For Missing Values and Outliers.
26 pages
Boston House Prediction - Colab1
No ratings yet
Boston House Prediction - Colab1
10 pages
Emllab
No ratings yet
Emllab
6 pages
Chapter 07 MCQs
No ratings yet
Chapter 07 MCQs
3 pages
LP Prcatical 2 Jupyter Notebook
No ratings yet
LP Prcatical 2 Jupyter Notebook
5 pages
No Ph.D. Game Design With Three.js
From Everand
No Ph.D. Game Design With Three.js
Nikiforos Kontopoulos
No ratings yet
Statistical Data Analysis - Ipynb - Colaboratory
No ratings yet
Statistical Data Analysis - Ipynb - Colaboratory
6 pages
Localweighted - Jupyter Notebook
No ratings yet
Localweighted - Jupyter Notebook
4 pages
Measures of Shape: Skewness and Kurtosis
No ratings yet
Measures of Shape: Skewness and Kurtosis
13 pages
DALab Part-B BCU&BU
No ratings yet
DALab Part-B BCU&BU
12 pages
HW7 Code
No ratings yet
HW7 Code
3 pages
Week 6 LAB
No ratings yet
Week 6 LAB
13 pages
Ex7 HTML
No ratings yet
Ex7 HTML
3 pages
Dal Programs With Output
No ratings yet
Dal Programs With Output
11 pages
Import As Import As From Import: "Mean Squared Errors: "
No ratings yet
Import As Import As From Import: "Mean Squared Errors: "
1 page
Data Science Manual
No ratings yet
Data Science Manual
16 pages
Pandas
No ratings yet
Pandas
4 pages
20MIS1025 - Regression - Ipynb - Colaboratory
No ratings yet
20MIS1025 - Regression - Ipynb - Colaboratory
5 pages
02 End To End Machine Learning Project
No ratings yet
02 End To End Machine Learning Project
26 pages
UDTK
No ratings yet
UDTK
42 pages
Linear Reg
No ratings yet
Linear Reg
25 pages
A5 A.ipynb - Colaboratory
No ratings yet
A5 A.ipynb - Colaboratory
8 pages
Data Science Practical Book - Ipynb
No ratings yet
Data Science Practical Book - Ipynb
21 pages
07 Box Plots, Variance and Standard Deviation
No ratings yet
07 Box Plots, Variance and Standard Deviation
5 pages
Linear Regression Analysis - Polynomial Regression
No ratings yet
Linear Regression Analysis - Polynomial Regression
25 pages
Functions of Statistics
No ratings yet
Functions of Statistics
13 pages
Sklearn Tutorial: DNN On Boston Data
No ratings yet
Sklearn Tutorial: DNN On Boston Data
9 pages
Test Data
No ratings yet
Test Data
14 pages
Terro's REA
No ratings yet
Terro's REA
43 pages
Microsoft Visual Basic Interview Questions: Microsoft VB Certification Review
From Everand
Microsoft Visual Basic Interview Questions: Microsoft VB Certification Review
Equity Press
No ratings yet