0% found this document useful (0 votes)
9 views54 pages

Business Analysis

Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
9 views54 pages

Business Analysis

Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 54

BÀI TẬP

TIẾNG ANH
A. TRẮC NGHIỆM:
Câu 1. Anova is a statistical method used to compare the ..... Of several groups of objects in
the population
A. Median
B. Standard deviation (Độ lệch chuẩn)
C. Variance
D. Mean
Câu 2. Market research company Y wants to compare the satisfaction level when using
toothpaste product B of 2 gender groups (Male/Female). Which of the following tests can be
used?
A. R-squared
B. Paired Sample T-Test
C. One-Sample 1-lest
D. Independent Sample T-Test
Câu 3. When performing regression analysis, when constructing independent variables, how
many dummy variables should be created from a categorical variable with 4 values?
A. 4
B. 2
C. 1
D. 3
Câu 4. Multiple linear regression was used to analyse:
A. Relationship between more than one independent variable
B. Relationship between one or more dependent variables and only one independent
variable
C. Relationship between more than one dependent variable and only one independent
variable
D. The relationship between a dependent variable and many independent variables
Câu 5. A study on student's cell phone use behaviour in HCMC shows that the Pearson
correlation coefficient between the variable "Time using cell phones" and "Academic
Performance" is -0.42 (statistically significant). Thus, it can be concluded:
A. All of the above statements are incorrect
B. Time using cell phones and academic performance are positively correlated
C. Time using cell phones and academic performance were not correlated
D. Time using cell phones and academic performance are negatively correlated.
Câu 6. Descriptive analytics can help businesses solve which of the following questions?
A. How to deal with customer complaints?
B. What is the best way to ship goods from factories to agents to minimise costs?
Câu 7. Student's academic ranking (1) Average (2) Fair, (3) Excellent, (4) Excellent is the
type of scale:
A. Tỷ lệ (Ratio)
B. Thứ bậc (Ordinal)
C. Nhị phân (Binary)
D. Liên tục (Continuous)
Câu 8. What is the statistical indicator of dispersion?
A. Phương sai (variance)
B. Trung binh (mean)
C. Trung vị (mean)
D. Yếu vị (mode)
Câu 9. What is an example of a continuous variable?
A. Gender of employees in the enterprise
B. Working departments (Marketing, Human Resources, Sales, Accounting,...) of employees.
C. Hotel rating (by stars from 1 to 5)
D. Weight of steel plate
Câu 10. Which of the following is true for multiple linear regression?
A. The regression coefficients are called fractional regression coefficients
B. Multiple linear regression uses the least squares method to estimate the intercept
coefficient and slope coefficient
C. This is a linear regression model with more than one dependent variable
D. Multiple linear regression using ANOVA tests the significant of each variable separately
Câu 11. Which of the following is true for the median?
A. Median is the number that occurs most often in a data set
B. The median is only meaningful for ordinal data
C. The median can be calculated regardless of how the data is sorted
D. For an even number of observations, the median is the average of the two middle numbers
Câu 12. Which of the following is true for the R-squared (R^2) values in multiple linear
regression?
A. If the value R^2 is greater than 1, the regression line will fit the data perfectly
B. The higher the value of the R-squared, the better fit the regression line will be to the data
C. The value of R-squared (R^2) will always be between - 1 and 1
D. The R-squared value = 1 indicates the maximum deviation of the data from the regression
line
B. TỰ LUẬN:

Câu 13. Bamboo Airways conducted a study on the impact of different marketing channels
on customers' intention to use its services. Computational model includes dependent
variable is Customer intention (Consumer_intention). The independent variables are
Content Marketing (Content), Social Network Marketing (Social Media), Email Marketing
(Email).
All variables are on the Likert scale 1-5. The results of the model run are extracted from
SPSS as follows.
1. Analyse the impact of variables Marketing Content (Content), Social Network
Marketing (SocialMedia), Marketing by email (Email) on the variable Customer Intention
(Consumer_Intention) (1.5 points)
2. Based on the regression results, which marketing channels should Bamboo Airways
invest in? (0.5 points)

1.
Table 1. Model overview

Model Summary

Model R R Square Adjusted R Std. Error of the


Square Estimate

1 0.685* 0.469 0.414 0.36657

a. Predictors (Constant), Email, SocialMedia, Content

Adjusted R Square: 0,414


“Fit”: R Square: 0,469
“Variation Explained”: 46,9% sự biến đổi của Consumer_Intention (dependent) được giải
thích bởi (Content, SocialMedia, Email) (independent)

Table 2. Results of regression model

Coefficients^a

Model Unstandardized Standardiz


Coefficients ed
Coefficien
ts

B Std. Error Beta t Sig

1 (Constant) 4.380 1.055 4.152 .000

Content 0.199 0.130 0.210 1.533 .136

SocialMed 0.538 0.129 - 0.564 - 4.159 .000


ia

Email 0.340 0.129 0.361 2.634 .013

a. Dependent Variable: Consumer_Intention

*Constant:
t = 4.152
p < 0,001
=> Hệ số có ý nghĩa thống kê
*SF:
Content
t = 1.533
p > 0,05
=> Hệ số không có ý nghĩa thống kê
=> Content Marketing không có tác động đáng kể đến ý định khách hàng.
SocialMedia
t = - 4.159
p < 0,001
=> Hệ số có ý nghĩa thống kê
=> Social Network Marketing ảnh hưởng tiêu cực (ngược chiều) và đáng kể đến ý định khách
hàng. Điều này có thể cho thấy cách tiếp cận trên mạng xã hội hiện tại không hiệu quả.
Email
t = 2.634
p < 0,05
=> Hệ số có ý nghĩa thống kê
=> Email Marketing có tác động tích cực (cùng chiều) và đáng kể đến ý định khách hàng.

2.
● Social Media has a p-value of 0.000 (< 0.05), meaning it has a significant effect on
Consumer Intention. However, its Beta coefficient is negative (-0.564), indicating a
negative relationship. This suggests that increased use of Social Media may decrease
Consumer Intention in this context.
● Email has a p-value of 0.013 (< 0.05), showing a significant and positive impact on
Consumer Intention, with a Beta coefficient of 0.361.

Beta of 0.361 means that a one-standard-deviation increase in "Email" marketing will


result in a 0.361 standard-deviation increase in Consumer Intention.

● Content has a p-value of 0.136 (> 0.05), which means it does not have a statistically
significant impact on Consumer Intention in this model.

Dựa trên các kết quả phân tích trên, kênh marketing Email có tác động tích cực và đáng kể
lên ý định của khách hàng. Bamboo Airways có thể cân nhắc đầu tư vào kênh này.

1. Analyse the impact of variables Marketing Content (Content), Social Network Marketing
(SocialMedia), Marketing by email (Email) on the variable Customer Intention
(Consumer_Intention) (1.5 points)
2. Based on the regression results, which marketing channels should Bamboo Airways invest
in? (0.5 points)
Câu 14. Scientists from the US FLOM research institute studied the impact on the Health
Cost (costs) (measured by the annual medical costs in USD of a person) of the variables
Gender (sex) (Males are coded as 1 and Females are coded as 0). Age (Age in year),
Cigarette smoking (Cigar smoking is measured by the number of cigarettes smoked per
day), and Volume exercise (exer) (Exercise is measured in hours of exercise per week). The
results of the model run are extracted from SPSS as follows:
1. Does gender (sex) have any impact on Medical Cost (costs)? If yes, please describe in
detail about this impact. (1 point)
2. Analyse the impact of the variable Exercise (exer) on Medical Costs (costs)? If a person'
exercise hours were increased by 1 hour per week, what would be the effect on Medical
Costs, other things constant? (1 points)

Table 1: Result of regression model

Coefficients

Model Unstandardized Coefficients Standardized t Sig.


Coefficients

B Std. Error Beta

(Constant) -2118.828 1069.638 -1.981 .048

sex 498.039 143.562 .124 3.469 .001

age 108.300 12.835 .305 8.438 .000

cigs 168.154 16.900 .378 9.950 .000

exer -311.745 35.793 .328 -8.710 .000

a. Dependent Variable: costs

1.
*Constant:
t = -1.981
p < 0,05
=> Hệ số có ý nghĩa thống kê
*SF:
Sex
t = 3.469
p < 0,05
=> Hệ số có ý nghĩa thống kê
=> Sex ảnh hưởng tích cực và có tác động đáng kể đến chi phí sức khỏe.
(B) = 498.039:
For males (coded as 1), medical costs are higher by 498.039 USD annually compared to
females (coded as 0), holding other factors constant.
(Beta) = 0.124
Hệ số Beta chuẩn hoá là 0.124, nghĩa là Sex có tác động tích cực (cùng chiều) đến Media
Cost
2.
*Constant:
t = -1.981
p < 0,05
=> Hệ số có ý nghĩa thống kê
*SF:
Exer
t = -8.710
p < 0,001
=> Hệ số có ý nghĩa thống kê
=> Exer có tác động tích cực và đáng kể đến chi phí sức.

Coefficient (B) = -311.745:


Each additional hour of exercise per week reduces annual medical costs by 311.745 USD,
holding other factors constant.
Standardized Coefficient (Beta) = -0.328:
Exercise has a moderately strong negative effect on medical costs compared to other
variables.

Conclusion:
If a person’s exercise hours were increased by 1 hour per week:
Medical costs would decrease by 311.745 USD annually, assuming other factors remain
unchanged.

Regular exercise significantly reduces medical costs. Promoting exercise can lead to
substantial savings in healthcare expenditures.

Câu 15. Moore Meatpacking Company produces a hot dog mixture in 1,000 pound batches.
The mixture contains two ingredients - chicken and beef. The cost per pound of each of these
ingredients is as follows:
Chicken $3/pound
Beef $5/pound
Each batch has the following recipe requirements:
1. At least 500 pounds of chicken
2. At least 200 pounds of beef
3. The ratio of chicken to beef must be at least 2 to 1
The company wants to know the optimal mixture of ingredients that will minimise cost
Formulate a linear programming model for this problem
TIẾNG VIỆT
A. TRẮC NGHIỆM:
Câu 1. Anova là một phương pháp thống kê được sử dụng để so sánh ..... của nhiều nhóm đối
tượng trong tổng thể:
A. Median (Trung vị)
B. Standard deviation (Độ lệch chuẩn)
C. Variance (Phương sai)
D. Mean (Giá trị trung bình)
Câu 2. Một công ty nghiên cứu thị trường Y muốn so sánh mức độ hài lòng khi sử dụng sản
phẩm kem đánh răng B giữa 2 nhóm giới tính (Nam/Nữ). Bài kiểm tra nào sau đây có thể
được sử dụng?
A. R-squared
B. Paired Sample T-Test (T-Test Mẫu Ghép Đôi)
C. One-Sample T-Test (T-Test Mẫu Đơn)
D. Independent Sample T-Test (T-Test Mẫu Độc Lập)
Câu 3. Khi thực hiện phân tích hồi quy (Regression analysis), khi xây dựng các biến độc lập,
cần tạo bao nhiêu biến giả (dummy variables) từ một biến phân loại có 4 giá trị?
A. 4
B. 2
C. 1
D. 3
Câu 4. Hồi quy tuyến tính bội (Multiple linear regression) được sử dụng để phân tích:
A. Mối quan hệ giữa nhiều biến độc lập
B. Mối quan hệ giữa một hoặc nhiều biến phụ thuộc và chỉ một biến độc lập
C. Mối quan hệ giữa nhiều biến phụ thuộc và chỉ một biến độc lập
D. Mối quan hệ giữa một biến phụ thuộc và nhiều biến độc lập
Câu 5. Một nghiên cứu về hành vi sử dụng điện thoại di động của sinh viên tại TP.HCM cho
thấy hệ số tương quan Pearson (Pearson correlation coefficient) giữa biến "Thời gian sử dụng
điện thoại" và "Kết quả học tập" là -0.42 (có ý nghĩa thống kê - statistically significant). Do
đó, có thể kết luận:
A. Tất cả các tuyên bố trên đều không đúng
B. Thời gian sử dụng điện thoại và kết quả học tập có tương quan dương
C. Thời gian sử dụng điện thoại và kết quả học tập không có tương quan
D. Thời gian sử dụng điện thoại và kết quả học tập có tương quan âm
Câu 6. Phân tích mô tả có thể giúp doanh nghiệp giải quyết câu hỏi nào sau đây?
A. Làm thế nào để xử lý các khiếu nại của khách hàng?
B. Phương pháp tối ưu để vận chuyển hàng hóa từ nhà máy đến đại lý để giảm thiểu chi
phí?
Câu 7. Xếp loại học tập của sinh viên (1) Trung bình, (2) Khá, (3) Giỏi, (4) Xuất sắc thuộc
loại thang đo:
A. Tỷ lệ (Ratio)
B. Thứ bậc (Ordinal)
C. Nhị phân (Binary)
D. Liên tục (Continuous)
Câu 8. Chỉ số thống kê nào sau đây đo độ phân tán (Indicator of dispersion)?
A. Phương sai (Variance)
B. Trung bình (Mean)
C. Trung vị (Median)
D. Yếu vị (Mode)
Câu 9. Đâu là một ví dụ về biến liên tục (Continuous variable)?
A. Giới tính của nhân viên trong doanh nghiệp
B. Phòng ban làm việc (Marketing, Nhân sự, Bán hàng, Kế toán,...) của nhân viên
C. Đánh giá khách sạn (sao từ 1 đến 5)
D. Trọng lượng của tấm thép
Câu 10. Điều nào sau đây đúng với hồi quy tuyến tính bội (Multiple linear regression)?
A. Các hệ số hồi quy được gọi là hệ số hồi quy phân đoạn (Fractional regression
coefficients)
B. Hồi quy tuyến tính bội sử dụng phương pháp bình phương tối thiểu (least squares
method) để ước tính hệ số chặn (intercept coefficient) và hệ số dốc (slope coefficient)
C. Đây là một mô hình hồi quy tuyến tính có nhiều hơn một biến phụ thuộc (dependent
variable)
D. Hồi quy tuyến tính bội sử dụng kiểm định ANOVA để kiểm tra ý nghĩa của từng biến
riêng lẻ.
Câu 11. Điều nào sau đây đúng với trung vị?
A. Trung vị là số xuất hiện thường xuyên nhất trong một tập dữ liệu
B. Trung vị chỉ có ý nghĩa với dữ liệu thứ bậc (ordinal data)
C. Trung vị có thể được tính bất kể cách sắp xếp dữ liệu
D. Với số lượng quan sát chẵn, trung vị là trung bình của hai số ở giữa
Câu 12. Điều nào sau đây đúng với giá trị R-squared (R^2) trong hồi quy tuyến tính bội?
A. Nếu giá trị R^2 lớn hơn 1, đường hồi quy sẽ khớp hoàn hảo với dữ liệu
B. Giá trị R^2 càng cao, đường hồi quy càng phù hợp với dữ liệu
C. Giá trị R-squared (R^2) luôn nằm trong khoảng từ -1 đến 1
D. Giá trị R-squared = 1 cho thấy dữ liệu lệch tối đa so với đường hồi quy
LÝ THUYẾT
I. Measure of centre:
1. Mode: Refers to the data value that is most frequently observed
2. Median: Refers to the data value that is positioned in the middle of an ordered data set.
- Phải sắp xếp theo thứ tự từ thấp đến cao.
(n+1)/2 - Vị trí của Median
+ Số lẻ thì median ở giữa
+ Số chẵn thì median là trung bình 2 số ở giữa
3. Mean: Arithmetic Average
x = Sum(n)/n

II. Measure of spread:


1. Range = Max - Min
Khoảng biến thiên (Range) trong thống kê là đại lượng đo mức độ trải dài của một tập dữ liệu
nhất định từ nhỏ nhất đền lớn nhất. Dễ hiểu hơn, trong một tập dữ liệu, khoảng biến thiên là
hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất.
- Khoảng biến thiên sẽ là thang đo tương đối tốt đối với các bộ dữ liệu nhỏ, nhưng độ tin cậy
sẽ ít đi khi áp dụng với các bộ dữ liệu lớn hơn.
- Giá trị của khoảng biến thiên sẽ bị ảnh hưởng với các giá trị ngoại lệ (Outliers)
2. Khoảng trải giữa (InterQuartile Range)

Khoảng trải giữa (InterQuartile Range - IQR) hay còn gọi là khoảng tứ phân vị của tập dữ
liệu.
Khoảng trải giữa là một con số cho biết mức độ lan truyền của nửa giữa hoặc 50% phân giữa
của tập dữ liệu. IQR thường được sử dụng thay cho khoảng biến thiên (Range) vì nó loại trừ
hầu hết giá trị bất thường hay giá trị ngoại lệ (Outliers) của dữ liệu.
3. Standard deviation (Độ lệch chuẩn):
Độ lệch chuẩn là một đại lượng thống kê mô ta dùng để do mức độ phân tán của một tập dữ
liệu đã được lập thành bảng tần số. Cho biến trung bình mỗi giá trị nằm bao xa so với giá trị
trung bình.
Độ lệch chuẩn càng lớn, sự biến thiên xung quanh giá trị trung bình càng lớn. Nói cách khác,
khi hai tập dữ liệu có cùng giá trị trung bình cộng, tập nào có độ lệch chuẩn lớn hơn là tập có
dữ liệu biến thiên nhiều hơn. Nếu một điểm dữ liệu nằm xa giá trị trung bình, điểm đó có độ
lệch cao trong tập dữ liệu, dữ liệu càng có độ dàn trải rộng thì độ lệch chuẩn càng cao.
Trong trường hợp hai tập dữ liệu có giá trị trung bình cộng không bằng nhau, thì việc so sánh
độ lệch chuẩn của chúng không có ý nghĩa vì không có sự biến thiên
VD: Đối với cổ phiếu, cổ phiếu của doanh nghiệp nào có độ lệch chuẩn lớn thì rủi ro cao hơn.

Bài tập minh hoạ:


Mean = 15.4
4. Variance (Phương sai):
Phương sai là “trung bình” của bình phương độ lệch so với giá trị trung bình. Phương sai sẽ
cho biết mức độ chênh lệch trong tập dữ liệu.

4. Định lý Chevbyshev:
Tỉ lệ của bất kỳ tập số nào nằm trong khoảng độ lệch chuẩn k (k>1) của các số trong tập với
trung bình của các số trong tập, có giá trị nhỏ nhất là 1 - 1/k^2
VD:
Với k = 2: ít nhất ¾ hoặc 75% dữ liệu nằm trong 2 độ lệch chuẩn của giá trị trung bình
Với k = 3: ít nhất 8/9 hoặc 89% dữ liệu nằm trong 3 độ lệch chuẩn của giá trị trung bình
5. The Normal Distribution and the 68 - 95 - 99,7 Rule (Empirical Rules):
*Notice:

5.1. Normal Distribution:

a) Population Mean:
b). Population Standard Deviation:

5.2. The 68-95-99.7 Rule:


*PRACTICE QUESTION:

6. Chỉ số về khả năng xử lý (Cp) - Process Capability


Chỉ số năng lực quy trình (Cp) là thước đo mức độ hiệu quả của một quy trình sản xuất có thể
đạt được các thông số kỹ thuật.
Sử dụng một mẫu đầu ra, đo lường thứ nguyên quan tâm và tính tổng biến thể bằng quy tắc
đã kiểm chứng thứ ba (empirical rule).
So sánh kết quả (results) với thông số kỹ thuật (specification) bằng cách sử dụng:

7. Z - Scores, Standardization, and the Standard Normal Distribution:


7.1. Standard Normal Distribution:
*Left Area
7.2. Standardization:
EXAMPLE:
8. Hệ số biến thiên - Coefficient of Variation:
Cung cấp thước đo tương đối về độ phân tán trong dữ liệu so với giá trị trung bình. Là một
thống kê hữu ích trong việc so sánh mức độ biến thiên của chuỗi dữ liệu này với chuỗi dữ
liệu khác, cho dù giá trị trung bình của chúng rất khác nhau. Hệ số càng lớn thì rủi ro càng
cao.
Đôi khi được biểu thị dưới dạng phần trăm.
Cung cấp một thước đo tương đối về tỷ suất sinh lợi trên rủi ro.
Tỷ suất sinh lợi trên rủi ro = 1/CV, thường dễ diễn giải hơn, đặc biệt là trong phân tích rủi ro
tài chính.
9. Skewness - Đo lường hình dáng của dữ liệu (Độ lệch)
Skewness mô tả sự thiếu đối xứng của dữ liệu.
Các phân phối lệch về bên phải được gọi là lệch dương; những cái đuôi lệch về bên trái được
cho là bị lệch âm.

9.1. CS - Coefficient of Skewness:

● CS âm đối với dữ liệu lệch trái.


● CS dương đối với dữ liệu lệch phải.
● |CS| > 1 cho thấy mức độ sai lệch cao.
● 0,5 ≤ |CS| ≤ 1 cho thầy độ lệch vừa phải.
● |CS| <0,5 cho thấy tính đối xứng tương đối.
9.2. Độ nhọn - CK - Coefficient of Kurtosis:
Đề cập đến độ nhọn (nghĩa là cao, hẹp) hoặc độ phẳng (tức là ngắn, đỉnh phẳng) của biểu đồ.
Hệ số nhọn (CK) đo mức độ nhọn của quần thể

● CK < 3 cho biết dữ liệu hơi phăng với mức độ phân tán rộng.
● CK > 3 cho biết dữ liệu có phần đạt cực đại với độ phân tán ít hơn.
10. Đo lường sự liên kết của các mẫu:
Hai biển có mối quan hệ thống kê chặt chẽ với nhau nếu chúng dường như di chuyển cùng
nhau.
Khi hai biến dường như có liên quan với nhau, bạn có thể nghi ngờ về mối quan hệ nhân quả.
Tuy nhiên, đôi khi, các mối quan hệ thống kê vẫn tồn tại mặc dù sự thay đổi của một biến
không phải do sự thay đổi của biến kia gây ra.

III. Measures of Association: Covariance


1. Covariance - Hiệp phương sai:
1.1. Khái niệm: Đo lường mối quan hệ tuyến tính giữa hai biến ngẫu nhiên.
Population:

Sample

1.2. Ý nghĩa:
Cho biết direction of relationship giữa hai biến: Đồng biến hay nghịch

+ Covariance > 0: đồng biến


+ Covariance < 0: nghịch biến
+ Covariance ~ 0: không có liên hệ tuyến tính

Không chỉ ra độ mạnh của relationship giữa hai biến. Covariance có độ lớn càng lớn không
có nghĩa là relationship càng mạnh.

2. Correlation (Tương quan): (-1<= r <=1) Tells you about the direction and strength of a
linear relationship shared between two quantitative variables.
Thể hiện mối quan hệ giữa 2 biến là “Mạnh” hay “Yếu”.
Mối tương quan được đo lường bằng hệ số tương quan. Mục đích nhằm kiểm tra mối tương
quan tuyến tính chặt chẽ giữa biến phụ thuộc với các biến độc lập và sớm nhận diện vấn đề
đa cộng tuyến khi các biến độc lập cũng có tương quan mạnh với nhau.

The strength of the linear relationship increased as r got close to 1 or -1


How to calculate correlation:

Hệ số tương quan có giá trị giao động từ -1 đến 1:


● Nếu r càng tiến về 1, -1: tương quan tuyến tính càng mạnh, càng chặt chẽ. Tiến về 1 là
tương quan dương, tiến về -1 là tương quan âm.
● Nếu r càng tiến về 0: tương quan tuyến tính càng yếu.
● Nếu r = 1: tương quan tuyến tính tuyệt đối, khi biểu diễn trên đồ thị phân tán Scatter
như hình vẽ ở trên, các điểm biểu diễn sẽ nhập lại thành 1 đường thẳng.
● Nếu r = 0: không có mối tương quan tuyển tính. Lúc này sẽ có 2 tình huống xảy ra.
Một, không có một mối liên hệ nào giữa 2 biến. Hai, giữa chúng có mối liên hệ phi
tuyến.
Mặc dù có thể đánh giá mối liên hệ tuyến tính giữa hai biến qua hệ số tương quan Pearson,
nhưng chúng ta cần thực hiện kiểm định giả thuyết hệ số tương quan này có ý nghĩa thống kê
hay không. Kết quả kiểm định nếu sig kiểm định nhỏ hơn 0.05, cặp biến có tương quan tuyến
tính với nhau; nếu sig lớn hơn 0.05, cặp biến không có tương quan tuyến tính (giả định lấy
mức ý nghĩa 5% = 0.05).
Khi đã xác định hai biến có mối tương quan tuyến tính (sig nhỏ hơn 0.05), chúng ta sẽ xét
đến độ mạnh/yếu của mối tương quan này thông qua giá trị tuyệt đối của r. Theo Andy Field
(2009):
● |r| < 0.1: mối tương quan rất yếu
● |r| < 0.3: mối tương quan yếu
● r| < 0.5: mối tương quan trung bình
● |r| ≥ 0.5: mối tương quan mạnh
*Ý nghĩa 2 dòng cuối trong kết quả Pearson:
Khi sig nhỏ hơn 0.05 thì chỗ hệ số tương quan Pearson chúng ta sẽ thấy ký hiệu * hoặc **.
● Ký hiệu ** cho biết rằng cặp biến này có sự tương quan tuyến tính ở mức tin cậy đến
99% (tương ứng mức ý nghĩa 1% = 0.01).
● Ký hiệu * cho biết rằng cặp biến này có sự tương quan tuyến tính ở mức tin cậy đến
95% (tương ứng mức ý nghĩa 5% = 0.05).
3. So sánh giữa Covariance và Correlation:
● Cả Covariance và Correlation đều thể hiện mối quan hệ giữa hai biến.
● Covariance có range từ (âm vô cùng) đến (dương vô cùng). Correlation có range từ -1
đến 1.
● Covariance thể hiện mối quan hệ giữa hai biến và không thể hiện độ “mạnh”, “yếu”.
Correlation thể hiện được mối quan hệ giữa 2 hoặc nhiều biến và có thể hiện độ
“mạnh”, “yếu”.

IV. Regression and R - Squared:


1. Regression (line): Predicts the change (increase or decrease) in “y” when “x” increases by
one unit.
EXAMPLE
=> As study time increases by one unit, we predict a student’s GPA to increase by 0.311
=> If a student studies for 6.5 hours a week, we can predict the GPA of the student is 3.47
1.1. Đặc điểm của biến độc lập, biến phụ thuộc.
Biến độc lập (Independent Variable):
Là biến được điều chỉnh hoặc lựa chọn để kiểm tra ảnh hưởng của nó lên một yếu tố khác.
Trong các mô hình phân tích, nó được coi là nguyên nhân, yếu tố tác động.
Ví dụ: Thu nhập, chi phí quảng cáo, thời gian làm việc, nhiệt độ.
Biến phụ thuộc (Dependent Variable):
Là biến bị ảnh hưởng bởi biến độc lập.
Thường là biến cần được dự đoán hoặc giải thích trong nghiên cứu.
Ví dụ: Doanh thu, điểm số, năng suất lao động, lượng bán hàng.
1.2. Sự khác biệt giữa hồi quy đơn giản và hồi quy bội:
Regression analysis is a tool for building mathematical and statistical models that
characterize relationships between a dependent (ratio) variable and one or more
independent, or explanatory variables (ratio or categorical), all of which are numerical.
Simple linear regression involves a single independent variable.
Multiple regression involves two or more independent variables.

Tiêu chí Hồi quy đơn giản Hồi quy bội

Số lượng biến độc lập Chỉ có một biến độc lập Có hai hay nhiều biến độc
lập

Mục tiêu Nghiên cứu mối quan hệ Nghiên cứu mối quan hệ
giữa một biến độc lập và giữa nhiều biến độc lập và
biến phụ thuộc. biến phụ thuộc.
Công thức tổng quát y=β0​+β1​x+ϵ y=β0​+β1​x1​+β2​x2​+⋯+βn​xn​+
ϵ

Phức tạp Đơn giản, dễ hiểu, dễ phân Phức tạp hơn, đòi hỏi nhiều
tích. dữ liệu và phân tích.

Ứng dụng Khi chỉ cần đánh giá tác Khi muốn đánh giá tác động
động của một yếu tố. tổng hợp của nhiều yếu tố.

1.3. Bình luận. Viết phương trình hồi quy chuẩn hóa và chưa chuẩn hóa. Dự báo sử
dụng hồi quy.

Multiple R - | r |, where r is the sample correlation coefficient. The value of r varies from
-1 to +1 (r is negative if slope is negative)
R Square - coefficient of determination, R2, which varies from 0 (no fit) to 1 (perfect fit)
Adjusted R Square - adjusted R2 for sample size and number of X variables
Standard Error - variability between observed and predicted Y values. This is formally
called the standard error of the estimate, SYX.

1. B (Unstandardized Coefficient)

Definition: It represents the actual change in the dependent variable for a one-unit change
in the independent variable, keeping all other variables constant.

Interpretation:

● The values are in the original units of the variables.


● For example, if B=0.199 for Content, it means that for each one-unit increase in
"Content" (e.g., a rating scale or frequency), the dependent variable (Consumer
Intention) will increase by 0.199 units, assuming other variables remain constant.

Use: Useful when you want to interpret the effects in real-world terms.

2. Beta (Standardized Coefficient)

Definition: It represents the strength and direction of the relationship between an


independent variable and the dependent variable, expressed in standardized units
(z-scores).
Interpretation:

● The Beta coefficient indicates how many standard deviations the dependent
variable will change for a one-standard-deviation change in the independent
variable.
● For example, a Beta of 0.361 for Email means that a one-standard-deviation
increase in "Email" marketing will result in a 0.361 standard-deviation increase in
Consumer Intention.

Use:

It allows for a comparison of the relative importance of variables in the model, even if the
variables have different units or scales.

For example, in the table:

■ Social Media has a Beta of −0.564 (negative, stronger effect).


■ Email has a Beta of 0.361 (positive, moderate effect).
■ Therefore, Social Media has a larger absolute effect compared to
Email.

Step 0: Đánh giá Correlations


Không có tương quan giữa các biến động lập > 0,7 => Chưa có dấu hiệu của đa cộng tuyến
l r l > 0,7
Các biến độc lập (independent)
=> Không có đa cộng tuyến (Nhớ về coi lại định nghĩa) => Chạy đa mô hình để đánh giá
từng trường hợp.
(VD Beta A và B có đa cộng tuyến thì sẽ không nằm chung với nhau trong 1 phương trình)
VIF:

Step 1 + 2 + 3: Chạy dữ liệu đa mô hình

Dependent = Overall
Independent Model 1 Model 2 Model 3 Model 4
Price 0,303*** 0,323*** ----
Numitems 0,060 0,267*** ----
Org 0,273*** ---- 0,293***
Quality 0,147*** 0,153*** ----
R2 0,411 0,409 0,053
F (p value) 102,3 134,8 33,3
(p < 0,001) (p < 0,001) (p < 0,001)
VIF Range 1,113 - 1,463 1,000
2,145 -2,102

Step 4: Viết phương trình hồi quy


*Hệ số chuẩn hoá
Overall = 0,323*Price + 0,267*Numitems + 0,153*Quality
Step 1:

Model Summary
Model R R Square Adjusted R Std. Error of the
Square Estimate
1 ,644a ,415 ,411 ,952
a Predictors: (Constant), Organization satisfaction, Variety satisfaction, Item quality
satisfaction, Price satisfaction

Adjusted R Square: 0,411


“Fit”: R Square: 0,415
“Variation Explained”: 41,1% sự biến đổi của MV (dependent) được giải thích bởi SF
(independent)

Step 2:
H0: quality = numsitems = organizational = price
H1: Có ít nhất 1 Beta khác 0

ANOVAa
Model Sum of df Mean F Sig.
Squares Square
1 Regression 370,735 4 92,684 102,328 ,000b
Residual 522,619 577 ,906
Total 893,354 581
a Dependent Variable: Overall satisfaction
b Predictors: (Constant), Organization satisfaction, Variety satisfaction, Item quality
satisfaction, Price satisfaction

*F= 102,328
*p < 0,001 => Có tồn tại phương trình hồi quy

Step 3: Đánh giá hệ số


Coefficientsa
Model Unstandardized Standardized t Sig.
Coefficients Coefficients
1 B Std. Beta
Error
(Constant) ,770 ,133 5,776 ,000
Item quality ,132 ,035 ,147 3,811 ,000
satisfaction
Variety ,266 ,045 ,273 5,897 ,000
satisfaction
Price ,298 ,046 ,303 6,507 ,000
satisfaction
Organizatio ,053 ,030 ,060 1,772 ,077
n
satisfaction
a Dependent Variable: Overall satisfaction

*Constant:
t = 5,776
p < 0,001
=> Hệ số có ý nghĩa thống kê
*SF:
Item quality satisfaction
t = 3,811
p < 0,001
=> Hệ số có ý nghĩa thống kê
Variety satisfaction
t = 5,897
p < 0,001
=> Hệ số có ý nghĩa thống kê
Price satisfaction
t = 6,507
p < 0,001
=> Hệ số có ý nghĩa thống kê
Organization satisfaction
t = 1,772
p > 0,05
=> Hệ số không có có ý nghĩa thống kê => Exclude => Chạy lại dữ liệu với các biến còn lại

Step 4: Chạy dữ liệu (0 có Beta nào 0 có ý nghĩa thống kê)


ANOVAa
Model Sum of df Mean F Sig.
Squares Square
1 Regression 367,892 3 122,631 134,892 ,000b
Residual 525,462 578 ,909
Total 893,354 581
a Dependent Variable: Overall satisfaction
b Predictors: (Constant), Price satisfaction, Item quality satisfaction, Variety satisfaction

*F= 134,892
*p < 0,001 => Có tồn tại phương trình hồi quy

Coefficientsa
Model Unstandardi Standardiz t Sig. Collinea
zed ed rity
Coefficients Coefficien Statistic
ts s
B Std. Beta Toleranc VIF
Error e
1 (Constan ,880 ,118 7,465 ,000
t)
Item ,137 ,035 ,153 3,966 ,000 ,683 1,463
quality
satisfacti
on
Variety ,260 ,045 ,267 5,781 ,000 ,476 2,102
satisfacti
on
Price ,317 ,045 ,323 7,097 ,000 ,493 2,030
satisfacti
on
a Dependent Variable: Overall satisfaction

*Constant:
t = 7,465
p < 0,001
=> Hệ số có ý nghĩa thống kê
*SF:
Item quality satisfaction
t = 3,966
p < 0,001
=> Hệ số có ý nghĩa thống kê
Variety satisfaction
t = 5,781
p < 0,001
=> Hệ số có ý nghĩa thống kê
Price satisfaction
t = 7,097
p < 0,001
=> Hệ số có ý nghĩa thống kê
Bước 5: Viết phương trình hồi quy

*PTHQ sử dụng hệ số chưa chuẩn hoá (unstandadized)


Overall Satisfaction = 0,770 + 0.132 (Item Quality Satisfaction) + 0.266 * (Variety
Satisfaction) + 0.298 * (Price Satisfaction)

*PTHQ sử dụng hệ số chưa chuẩn hoá (unstandadized)


Overall Satisfaction = 0.147 * (Item Quality Satisfaction) + 0.273 * (Variety Satisfaction) +
0.303 * (Price Satisfaction)

2. R squared:

r r^2

Has values between -1 and 1 Has values between 0 and 1

Measures the linear relationship between Is a measure of how close each data point
two quantitative variables with respect to fits to the regression line
direction and strength. Tells us how well the regression line
predicts actual values.
V. t - test and ANOVA:
p - Value Giá trị p (mức ý nghĩa quan sát được) là xác suất thu được giá trị thống kê thử
nghiệm bằng hoặc cao hơn giá trị thu được từ dữ liệu mẫu khi giả thuyết không là đúng.
Có thể được hiểu là xác suất phạm sai lầm khi bác bỏ giả thuyết không. P Value càng cao thì
việc loại bỏ giả thuyết không càng phạm sai lầm nghiêm trọng, kết quả thống kê mang giá trị
càng thấp. Trong SPSS, P - Value chính là giá trị Sig.
Giá trị P là con số dao động từ 0 đến 1 và mang ý nghĩa như sau:
● Giá trị P nhỏ (≤ 0.05) chi ra bằng chứng mạnh mẽ cho thấy giả thuyết không không
hợp lệ → Bác bỏ giả thuyết không.
● Giá trị P lớn (> 0.05) chỉ ra bằng chứng cho thấy giả thuyết thay thế yếu - Không thể
bác bỏ giả thuyết không.
Kiểm định giả thuyết: Liên quan đến việc rút ra các suy luận về hai mệnh đề tương phản
(mỗi mệnh đề được gọi là giả thuyết) liên quan đến giá trị của một hoặc nhiều tham số tổng
thể.
H0: Giả thuyết không - Mô tả một lý thuyết hiện có
H1: Giả thuyết thay thế - Phần bù của H0
Sử dụng dữ liệu mẫu, ta có thể:
- Bác bỏ H0 và kết luận dữ liệu mẫu cung cấp đủ bằng chứng để hỗ trợ H1.
- Hoặc, không bác bỏ H0 và kết luận dữ liệu mẫu không hỗ trợ H1.
1. t - test:
1.1. Phân loại:3 loại
1.2. Trường hợp sử dụng t - test:
1.2.1. One - sample t - test:
Phép kiểm định xem xét giá trị trung bình của một biến có khác một cách có ý nghĩa thống kê
với một giá trị đã cho hay không.
Giả thiết H0: Giá trị trung bình bằng với giá trị test value.
Kết quả kiểm định:
- Sig < 0.05: Bác bỏ giả thiết H0, nghĩa là trung bình khác một cách có ý nghĩa thông
kê với giá trị test value.
- Sig > 0.05: Chấp nhận giả thiết H0, nghĩa là trung bình của biến bằng một cách có ý
nghĩa thống kê với giá trị test value.
*Bình luận:
H0: Không có sự khác biệt giữa tuổi trung bình của mẫu và 35.
H1: Có sự khác biệt giữa tuổi trung bình của mẫu và 35.
Step 2: Phương pháp - One Sample t-test
Step 3: Mô tả dữ liệu mẫu
One-Sample Statistics
N Mean Std. Deviation Std. Error Mean
Age 34 38,68 7,858 1,348

Step 4: Kết quả t-test

One-Sample Test
Test Value = 35
t df Sig. Mean 95% Confidence
(2-tailed) Difference Interval of the
Difference
Lower Upper
Age 2,728 33 ,010 3,676 ,93 6,42

● t = 2,728
● p < 0,05
Kết luận:
Có sự khác biệt giữa tuổi trung bình của mẫu và 35 tuổi.
Trong đó, có tuổi trung bình lớn hơn tuổi kiểm định là 3,676 tuổi.
Sự khác biệt này có ý nghĩa thống kê với mức ý nghĩa là 0,05 (Tối đa 5% khả năng).

(1) x lớn hơn/ bé hơn

(2) Mean difference

(3) Sig. level

1.2.2. Independent - sample t - test:


Phép kiểm định xem xét giá trị trung bình của 2 nhóm giá trị của 1 biến định tính có khác
nhau một cách có ý nghĩa thống kê hay không>
Giả thiết H0: Không có sự khác biệt trung bình giữa 2 nhóm giá trị.
Kết quả kiểm định:
- Sig < 0.05: Bác bỏ giả thiết H0, nghĩa là có khác biệt trung bình một cách có ý nghĩa
thống kê giữa 2 nhóm giá trị.
- Sig >= 0.05: Chấp nhận giả thiết H0, nghĩa là không có khác biệt trung bình một cách
có ý nghĩa thống kê giữa 2 nhóm giá trị

*Bình luận:
Step 1:
H0: Không có sự khác biệt về thu nhập hộ gia đình giữa nam và nữ
H1: Có tồn tại sự khác biệt về thu nhập hộ gia đình giữa nam và nữ
Step 2: Phương pháp Independent samples t-test
Step 3: Mô tả dữ liệu (N, mean x, std)
Group Statistics
Std. Std. Error
Gender N Mean Deviation Mean
Household income in Female 3179 68.7798 75.73510 1.34323
thousands Male 3221 70.1608 81.56216 1.43712

- Có 3179 nữ tham gia khảo sát, thu nhập hộ gia đình trung bình là $68780, độ lệch
chuẩn $75735

- Có 3221 nam tham gia khảo sát, thu nhập hộ gia đình trung bình là $70161, độ lệch
chuẩn $81562

Step 4: Kiểm tra giả định về sự đồng nhất của phương sai

Independent Samples Test

Levene's Test
for Equality of t-test for Equality of Means
Variances
95% Confidence Interval of the
Difference

Mean Lower
Sig. Differen Std. Error
F Sig. t df (2-tailed) ce Difference Upper
Hous Equal 1.86 .172 -.702 639 .483 -1.38101 1.96808 -5.23912 2.47709
ehold variances 5 8
incom assumed
e in Equal -.702 637 .483 -1.38101 1.96713 -5.23725 2.47522
thous variances 4.36
ands not 2
assumed

Levene’s test
FLevene’sTest = 1.865
PLevene’sTest= 0.172
Step 5: t-test result
t = -0.702
p ≥ 0.05 => Bác bỏ H1, không có sự khác biệt về thu nhập hộ gia đình giữa nam và nữ
Chú ý:
*PLevene’sTest > 0.05 => Equal Variance Assumed
=> Lấy dòng trên -> t = ?, p ≤ 0.05 => Chấp nhận H1
*PLevene’sTest ≤ 0.05 => Equal Variance NOT Assumed
=> Lấy dòng dưới

1.2.3. Paired - Sample t - test:


Phép kiểm định xem xét giá trị trung bình của 2 biến trên cùng 1 đối tượng khảo sát xem có
sự khác nhau một cách có ý nghĩa thống kê hay không.
Giả thiết H0: Không có sự khác biệt trung bình giữa 2 nhóm giá trị.
Kết quả kiểm định:
● Sig < 0.05: Bác bỏ giả thiết H0, nghĩa là có khác biệt trung bình một cách có ý nghĩa
thống kê giữa 2 nhóm giá trị.
● Sig >= 0.05: Chấp nhận giả thiết H0, nghĩa là không có khác biệt trung bình một cách
có ý nghĩa thống kê giữa 2 nhóm giá trị.
*Bình luận:
Step 1:
H0: There is no difference between estimated data and actual data.
H1: There is a significant difference between estimated data and actual data.

Step 2: Methodology: Paired Samples t-test

Step 3: Descriptives Statistics (N, 2 means, 2 std)


Paired Samples Statistics
Mean N Std. Deviation Std. Error Mean
Pair 1 Estimated 28.1775562700 311 15.9940626022 .906940084460
96460 61161 270
Actual 34.5562379421 311 16.3404805964 .926583646746
22250 77146 213

Step 4: Correlation test:


- r=?

- Big/Small=

- Sig.level

Paired Samples Correlations


N Correlation Sig.
Pair 1 Estimated & Actual 311 .797 .000

r=0.797, p<0.001 è Estimated data is highly correlated with actual data

Step 5:
t = -10.912
p < 0.001
=> Accept H1: There is a significant difference between estimated data and actual data.
=> The actual data is bigger than estimated data, the mean difference is 6.3786 and it is
significant at 0.001 level.

2. ANOVA:
2.1. Khi nào thì sử dụng ANOVA:
Phép kiểm định xem xét giá trị trung bình của 2 nhóm giá trị trở lên của 1 biến định tính có
khác nhau một cách có ý nghĩa thống kê hay không.
Giả thiết H0: Không có sự khác biệt trung bình giữa các nhóm gia trị.
Kết quả kiểm định:
● Sig < 0.05: Bác bỏ giả thiết H0, nghĩa là có khác biệt trung bình một cách có ý nghĩa
thống kê giữa các nhóm giá trị
● Sig >= 0.05: Chấp nhận giả thiết H0, nghĩa là không có khác biệt trung bình một cách
có ý nghĩa thống kê giữa các nhóm giá trị
2.2. Sự khác biệt với t -test:

2.3. Bình luận:

Step 1:
H0: Không có sự khác biệt về thu nhập hộ gia đình giữa các nhóm đi các loại xe khác nhau
H1: Có ít nhất một sự khác biệt về thu nhập hộ gia đình giữa các nhóm đi các loại xe khác
nhau

Step 2: Phương pháp:


Do so sánh ba nhóm => Sử dụng ANOVA
Step 3: Descriptive Statistics
Descriptives
Household income in thousands
N Mean Std. Std. 95% Confidence Minimum Maximum
Deviation Error Interval for Mean
Lower Upper
Bound Bound
Economy 1841 21,8876 5,24123 ,12215 21,6480 22,1271 9,00 31,00
Standard 2275 42,5600 8,56966 ,17967 42,2077 42,9123 29,00 61,00
Luxury 2284 134,6410 102,35556 2,14172 130,4411 138,8409 58,00 1116,00
Total 6400 69,4748 78,71856 ,98398 67,5459 71,4038 9,00 1116,00
Thường không mô tả dữ liệu từng nhóm một mà mô tả xu hướng hoặc mô tả những điểm đặc
biệt của mẫu.
Step 4: Homogeneity of Variances Test - Kiểm định giả định về sự đồng nhất của phương sai:

FLevene’s= ?
PLevene’s<= 0,05?
F=?
P <= 0,05 => Chấp nhận H1, có ít nhất một sự khác biệt.

Equal Variances Assumed (p ANOVA S6/ LSD/ Tukay


> 0,05)
Equal Variances NOT Robust Test T2/ T3/ Games - Howell
Assumed (p <= 0,05)

Test of Homogeneity of Variances


Levene Statistic df1 df2 Sig.

Household Based on Mean 1129,720 2 6397 ,000


income in
thousands
Based on 663,120 2 6397 ,000
Median
Based on 663,120 2 2298,031 ,000
Median and
with adjusted df

Based on 857,445 2 6397 ,000


trimmed mean

Flevene’s = 1129,720
Plevene’s <= 0,001

=> Equal Varianves NOT Assumed

Step 5: Kết quả phân tích

Plevene’s Test > 0,05 Plevene’s Test <= 0,05


Equal Variances Assumed Equal Variances NOT Assumed

=> Dùng kết quả bảng ANOVA => Kết quả bảng ANOVA có thể không
chính xác , cần thêm kết quả của bảng
Robust Test of Equality of Means

ANOVA
Household income in thousands
Sum of Squares df Mean Square F Sig.
Between 15516358,060 2 7758179,030 2056,246 ,000
Groups
Within 24135763,889 6397 3772,982
Groups
Total 39652121,950 6399

Robust Tests of Equality of Means


Household income in thousands
Statistica df1 df2 Sig.
Welch 5752,869 2 3825,901 ,000
a Asymptotically F distributed.

Fwelch = 5752,869
p < 0,001

=> Chấp nhận giả thiết H1: Có ít nhất 1 sự khác biệt về thu nhập hộ gia đình giữa các nhóm
đi các loại xe khác nhau.

Step 6: Post Hoc Test

Multiple Comparisons
Dependent Variable: Household income in thousands
Tamhane
(I) Primary (J) Mean Std. Sig. 95%
vehicle Primary Difference Error Confidence
price vehicle (I-J) Interval
category price
category
Lower Upper
Bound Bound
Economy Standard -20,67244* ,21726 ,000 -21,1914 -20,1534
Luxury -112,75342* 2,14520 ,000 -117,8793 -107,6275
Standard Economy 20,67244* ,21726 ,000 20,1534 21,1914
Luxury -92,08098* 2,14925 ,000 -97,2165 -86,9454
Luxury Economy 112,75342* 2,14520 ,000 107,6275 117,8793
Standard 92,08098* 2,14925 ,000 86,9454 97,2165
* The mean difference is significant at the 0.05 level.

Người đi xe Economy sẽ có thu nhập hộ gia đình thấp hơn người đi xe Standard và xe Luxury
với sự chênh lệch là 20,67244 và 112,75342. Sự khác biệt này có ý nghĩa thống kê với mức ý
nghĩa 0,001.
NHẬN XÉT
CORRELATION - TƯƠNG QUAN
24. In the Excel file Weddings, determine the correlation between the wedding costs
and attendance.
CORRELATIONS
Wedding cost Attendance
Wedding Pearson Correlation 1 ,733**
cost Sig. (2-tailed) 0
Sum of Squares and 4206762400 17384200
Cross-products
Covariance 175281766,7 724341,667
N 25 25
Attendance Pearson Correlation ,733** 1
Sig. (2-tailed) 0
Sum of Squares and 17384200 133600
Cross-products
Covariance 724341,667 5566,667
N 25 25
** Correlation is significant at the 0.01 level (2-tailed).

Nhận xét:
Giữa Wedding cost và Attendance có tương quan dương, cao với r = 0,733 và mức độ
ý nghĩa p < 0,001
=> Wedding cost tăng thì Attendance cũng tăng và ngược lại.

25. For the data in the Excel file Rin's Gym, find the co-variances and correlations
among height, weight, and BMI calculation.
CORRELATIONS
Height Weight BMI
(inches) Calculatio
n
Height (inches) Pearson Correlation 1 ,766** ,488*
Sig. (2-tailed) 0 0,018
Sum of Squares and 301,652 2507,304 178,128
Cross-products
Covariance 13,711 113,968 8,097
N 23 23 23
Weight Pearson Correlation ,766** 1 ,933**
Sig. (2-tailed) 0 0
Sum of Squares and 2507,304 35560,60 3698,593
Cross-products 9
Covariance 113,968 1616,391 168,118
N 23 23 23
BMI Calculation Pearson Correlation ,488* ,933** 1
Sig. (2-tailed) 0,018 0
Sum of Squares and 178,128 3698,593 442,047
Cross-products
Covariance 8,097 168,118 20,093
N 23 23 23
** Correlation is significant at the 0.01 level (2-tailed).
* Correlation is significant at the 0.05 level (2-tailed).

Nhận xét:
(1)
- Giữa Height và Weight có tương quan dương, mạnh với r = 0,766 và mức độ ý
nghĩa p < 0,001
=> Điều này cho thấy mối tương quan mạnh giữa Height và Weight. Đồng thời, với p
< 0,001 thì 2 biến này có sự tương quan tuyến tính nên kết quả có ý nghĩa thống kê.
- Giá trị hiệp phương sai là 113,968, cho thấy sự biến thiên cùng chiều giữa chiều cao
và cân nặng.

(2)
- Giữa Height và BMI Calculation có tương quan dương, trung bình với r = 0,488 và
mức độ ý nghĩa p < 0,05
=> Điều này cho thấy mối tương quan mạnh giữa Height và BMI Calculation. Đồng
thời, với p < 0,05 thì 2 biến này có sự tương quan tuyến tính nên kết quả có ý nghĩa
thống kê.
- Giá trị hiệp phương sai là 8,097, cho thấy mối quan hệ cùng chiều giữa chiều cao và
BMI.

(3)
- Giữa Weight và BMI Calculation có tương quan dương, mạnh với r = 0,933 và
mức độ ý nghĩa p < 0,001
=> Điều này cho thấy mối tương quan mạnh giữa Weight và BMI Calculation. Đồng
thời, với p < 0,001 thì 2 biến này có sự tương quan tuyến tính nên kết quả có ý nghĩa
thống kê.
- Giá trị hiệp phương sai là 168,118, cho thấy mối quan hệ cùng chiều giữa cân nặng
và BMI.

28. For the Excel file Credit Risk Data, compute the correlation between age and
months employed, age and combined checking and savings account balance, and the
number of months as a customer and amount of money in the bank. Interpret your
results.
a) Age and months employed:
Correlations
Age Months Employed
Age Pearson Correlation 1 ,307**
Sig. (2-tailed) ,000
N 425 425
Months Employed Pearson Correlation ,307** 1
Sig. (2-tailed) ,000
N 425 425
** Correlation is significant at the 0.01 level (2-tailed).

Nhận xét: Giữa Age và Month Employed có tương quan dương, thấp với r = 0,307 và
mức độ ý nghĩa p < 0,001
=> Vậy Age tăng thì Month Employed cũng tăng và ngược lại.

b) Age and combined checking and savings account balance:

Correlations
Age Checking Savings
Age Pearson 1 -,002 -,028
Correlation
Sig. (2-tailed) ,961 ,561
N 425 425 425
Checking Pearson -,002 1 ,020
Correlation
Sig. (2-tailed) ,961 ,680
N 425 425 425
Savings Pearson -,028 ,020 1
Correlation
Sig. (2-tailed) ,561 ,680
N 425 425 425

Nhận xét:
(1) Giữa Age và Checking có tương quan âm, thấp với r = - 0,002 và mức độ ý nghĩa
p > 0,05
=> Điều này cho thấy mối tương quan yếu và gần như không đáng kể giữa Age và
Checking. Đồng thời, với p > 0,05 thì 2 biến này không có sự tương quan tuyến tính
nên kết quả này không có ý nghĩa thống kê.

(2) Giữa Age và Savings có tương quan âm, thấp với r = - 0,028 và mức độ ý nghĩa p
> 0,05
=> Điều này cho thấy mối tương quan yếu và gần như không đáng kể giữa Age và
Savings. Đồng thời, với p > 0,05 thì 2 biến này không có sự tương quan tuyến tính nên
kết quả này không có ý nghĩa thống kê.
c) The number of months as a customer and amount of money in the bank:
Correlations
Months Savings Checking
Customer
Months Pearson 1 -,050 -,036
Customer Correlation
Sig. (2-tailed) ,300 ,456
N 425 425 425
Savings Pearson -,050 1 ,020
Correlation
Sig. (2-tailed) ,300 ,680
N 425 425 425
Checking Pearson -,036 ,020 1
Correlation
Sig. (2-tailed) ,456 ,680
N 425 425 425

Nhận xét:
- Giữa Months Customer và Savings có tương quan âm, thấp với r = - 0,05 và mức độ
ý nghĩa p > 0,05
=> Điều này cho thấy mối tương quan yếu và gần như không đáng kể giữa Age và
Checking. Đồng thời, với p > 0,05 thì 2 biến này không có sự tương quan tuyến tính
nên kết quả này không có ý nghĩa thống kê.
- Giữa Months Customer và Checking có tương quan âm, thấp với r = - 0,36 và mức
độ ý nghĩa p > 0,05
=> Điều này cho thấy mối tương quan yếu và gần như không đáng kể giữa Age và
Saving. Đồng thời, với p > 0,05 thì 2 biến này không có sự tương quan tuyến tính nên
kết quả này không có ý nghĩa thống kê.

29. In the Excel file Call Center Data, how strongly is length of service correlated
with starting age?

Correlations
Length of Service Starting Age
(years)
Length of Service Pearson Correlation 1 -,608**
(years) Sig. (2-tailed) ,000
N 70 70
Starting Age Pearson Correlation -,608** 1
Sig. (2-tailed) ,000
N 70 70
** Correlation is significant at the 0.01 level (2-tailed).

Nhận xét:
Giữa Length of Service và Starting Age có tương quan âm, thấp với r = -0,608 và mức
độ ý nghĩa p < 0,001
=> Cặp biến này có sự tương quan tuyến tính ở mức độ tin cậy đến 99% (tương ứng
với mức ý nghĩa 1%, p<0.01)
=> Mức độ tương quan - 0.4 < -0,608 < 0.7 => mức tương quan vừa phải (moderate)
CV - R2R
Statistics

IBM INTC CSCO GE

N Valid 20 20 20 20

Missing 0 0 0 0

Mean 130.9315 18.81 21.4958 16.1951

Std.
3.22352 0.49956 0.52201 0.3509
Deviation

Variance 10,391 ,250 ,272 ,123

Range $9.69 $1.61 $1.53 $1.27

Minimum $125.95 $17.90 $20.58 $15.39

Maximum $135.64 $19.50 $22.11 $16.66

CV 0.02461989 0.02655821 0.02428427 0.02166704 Độ rủi ro


=std/mean 7 4 9 7 cao

Đem lại
R2R 40.6175547 37.6531347 41.1789046 46.1530350
sinh lợi lớn
= mean/std 2 6 2 5
nhất

You might also like