Business Analysis
Business Analysis
TIẾNG ANH
A. TRẮC NGHIỆM:
Câu 1. Anova is a statistical method used to compare the ..... Of several groups of objects in
the population
A. Median
B. Standard deviation (Độ lệch chuẩn)
C. Variance
D. Mean
Câu 2. Market research company Y wants to compare the satisfaction level when using
toothpaste product B of 2 gender groups (Male/Female). Which of the following tests can be
used?
A. R-squared
B. Paired Sample T-Test
C. One-Sample 1-lest
D. Independent Sample T-Test
Câu 3. When performing regression analysis, when constructing independent variables, how
many dummy variables should be created from a categorical variable with 4 values?
A. 4
B. 2
C. 1
D. 3
Câu 4. Multiple linear regression was used to analyse:
A. Relationship between more than one independent variable
B. Relationship between one or more dependent variables and only one independent
variable
C. Relationship between more than one dependent variable and only one independent
variable
D. The relationship between a dependent variable and many independent variables
Câu 5. A study on student's cell phone use behaviour in HCMC shows that the Pearson
correlation coefficient between the variable "Time using cell phones" and "Academic
Performance" is -0.42 (statistically significant). Thus, it can be concluded:
A. All of the above statements are incorrect
B. Time using cell phones and academic performance are positively correlated
C. Time using cell phones and academic performance were not correlated
D. Time using cell phones and academic performance are negatively correlated.
Câu 6. Descriptive analytics can help businesses solve which of the following questions?
A. How to deal with customer complaints?
B. What is the best way to ship goods from factories to agents to minimise costs?
Câu 7. Student's academic ranking (1) Average (2) Fair, (3) Excellent, (4) Excellent is the
type of scale:
A. Tỷ lệ (Ratio)
B. Thứ bậc (Ordinal)
C. Nhị phân (Binary)
D. Liên tục (Continuous)
Câu 8. What is the statistical indicator of dispersion?
A. Phương sai (variance)
B. Trung binh (mean)
C. Trung vị (mean)
D. Yếu vị (mode)
Câu 9. What is an example of a continuous variable?
A. Gender of employees in the enterprise
B. Working departments (Marketing, Human Resources, Sales, Accounting,...) of employees.
C. Hotel rating (by stars from 1 to 5)
D. Weight of steel plate
Câu 10. Which of the following is true for multiple linear regression?
A. The regression coefficients are called fractional regression coefficients
B. Multiple linear regression uses the least squares method to estimate the intercept
coefficient and slope coefficient
C. This is a linear regression model with more than one dependent variable
D. Multiple linear regression using ANOVA tests the significant of each variable separately
Câu 11. Which of the following is true for the median?
A. Median is the number that occurs most often in a data set
B. The median is only meaningful for ordinal data
C. The median can be calculated regardless of how the data is sorted
D. For an even number of observations, the median is the average of the two middle numbers
Câu 12. Which of the following is true for the R-squared (R^2) values in multiple linear
regression?
A. If the value R^2 is greater than 1, the regression line will fit the data perfectly
B. The higher the value of the R-squared, the better fit the regression line will be to the data
C. The value of R-squared (R^2) will always be between - 1 and 1
D. The R-squared value = 1 indicates the maximum deviation of the data from the regression
line
B. TỰ LUẬN:
Câu 13. Bamboo Airways conducted a study on the impact of different marketing channels
on customers' intention to use its services. Computational model includes dependent
variable is Customer intention (Consumer_intention). The independent variables are
Content Marketing (Content), Social Network Marketing (Social Media), Email Marketing
(Email).
All variables are on the Likert scale 1-5. The results of the model run are extracted from
SPSS as follows.
1. Analyse the impact of variables Marketing Content (Content), Social Network
Marketing (SocialMedia), Marketing by email (Email) on the variable Customer Intention
(Consumer_Intention) (1.5 points)
2. Based on the regression results, which marketing channels should Bamboo Airways
invest in? (0.5 points)
1.
Table 1. Model overview
Model Summary
Coefficients^a
*Constant:
t = 4.152
p < 0,001
=> Hệ số có ý nghĩa thống kê
*SF:
Content
t = 1.533
p > 0,05
=> Hệ số không có ý nghĩa thống kê
=> Content Marketing không có tác động đáng kể đến ý định khách hàng.
SocialMedia
t = - 4.159
p < 0,001
=> Hệ số có ý nghĩa thống kê
=> Social Network Marketing ảnh hưởng tiêu cực (ngược chiều) và đáng kể đến ý định khách
hàng. Điều này có thể cho thấy cách tiếp cận trên mạng xã hội hiện tại không hiệu quả.
Email
t = 2.634
p < 0,05
=> Hệ số có ý nghĩa thống kê
=> Email Marketing có tác động tích cực (cùng chiều) và đáng kể đến ý định khách hàng.
2.
● Social Media has a p-value of 0.000 (< 0.05), meaning it has a significant effect on
Consumer Intention. However, its Beta coefficient is negative (-0.564), indicating a
negative relationship. This suggests that increased use of Social Media may decrease
Consumer Intention in this context.
● Email has a p-value of 0.013 (< 0.05), showing a significant and positive impact on
Consumer Intention, with a Beta coefficient of 0.361.
● Content has a p-value of 0.136 (> 0.05), which means it does not have a statistically
significant impact on Consumer Intention in this model.
Dựa trên các kết quả phân tích trên, kênh marketing Email có tác động tích cực và đáng kể
lên ý định của khách hàng. Bamboo Airways có thể cân nhắc đầu tư vào kênh này.
1. Analyse the impact of variables Marketing Content (Content), Social Network Marketing
(SocialMedia), Marketing by email (Email) on the variable Customer Intention
(Consumer_Intention) (1.5 points)
2. Based on the regression results, which marketing channels should Bamboo Airways invest
in? (0.5 points)
Câu 14. Scientists from the US FLOM research institute studied the impact on the Health
Cost (costs) (measured by the annual medical costs in USD of a person) of the variables
Gender (sex) (Males are coded as 1 and Females are coded as 0). Age (Age in year),
Cigarette smoking (Cigar smoking is measured by the number of cigarettes smoked per
day), and Volume exercise (exer) (Exercise is measured in hours of exercise per week). The
results of the model run are extracted from SPSS as follows:
1. Does gender (sex) have any impact on Medical Cost (costs)? If yes, please describe in
detail about this impact. (1 point)
2. Analyse the impact of the variable Exercise (exer) on Medical Costs (costs)? If a person'
exercise hours were increased by 1 hour per week, what would be the effect on Medical
Costs, other things constant? (1 points)
Coefficients
1.
*Constant:
t = -1.981
p < 0,05
=> Hệ số có ý nghĩa thống kê
*SF:
Sex
t = 3.469
p < 0,05
=> Hệ số có ý nghĩa thống kê
=> Sex ảnh hưởng tích cực và có tác động đáng kể đến chi phí sức khỏe.
(B) = 498.039:
For males (coded as 1), medical costs are higher by 498.039 USD annually compared to
females (coded as 0), holding other factors constant.
(Beta) = 0.124
Hệ số Beta chuẩn hoá là 0.124, nghĩa là Sex có tác động tích cực (cùng chiều) đến Media
Cost
2.
*Constant:
t = -1.981
p < 0,05
=> Hệ số có ý nghĩa thống kê
*SF:
Exer
t = -8.710
p < 0,001
=> Hệ số có ý nghĩa thống kê
=> Exer có tác động tích cực và đáng kể đến chi phí sức.
Conclusion:
If a person’s exercise hours were increased by 1 hour per week:
Medical costs would decrease by 311.745 USD annually, assuming other factors remain
unchanged.
Regular exercise significantly reduces medical costs. Promoting exercise can lead to
substantial savings in healthcare expenditures.
Câu 15. Moore Meatpacking Company produces a hot dog mixture in 1,000 pound batches.
The mixture contains two ingredients - chicken and beef. The cost per pound of each of these
ingredients is as follows:
Chicken $3/pound
Beef $5/pound
Each batch has the following recipe requirements:
1. At least 500 pounds of chicken
2. At least 200 pounds of beef
3. The ratio of chicken to beef must be at least 2 to 1
The company wants to know the optimal mixture of ingredients that will minimise cost
Formulate a linear programming model for this problem
TIẾNG VIỆT
A. TRẮC NGHIỆM:
Câu 1. Anova là một phương pháp thống kê được sử dụng để so sánh ..... của nhiều nhóm đối
tượng trong tổng thể:
A. Median (Trung vị)
B. Standard deviation (Độ lệch chuẩn)
C. Variance (Phương sai)
D. Mean (Giá trị trung bình)
Câu 2. Một công ty nghiên cứu thị trường Y muốn so sánh mức độ hài lòng khi sử dụng sản
phẩm kem đánh răng B giữa 2 nhóm giới tính (Nam/Nữ). Bài kiểm tra nào sau đây có thể
được sử dụng?
A. R-squared
B. Paired Sample T-Test (T-Test Mẫu Ghép Đôi)
C. One-Sample T-Test (T-Test Mẫu Đơn)
D. Independent Sample T-Test (T-Test Mẫu Độc Lập)
Câu 3. Khi thực hiện phân tích hồi quy (Regression analysis), khi xây dựng các biến độc lập,
cần tạo bao nhiêu biến giả (dummy variables) từ một biến phân loại có 4 giá trị?
A. 4
B. 2
C. 1
D. 3
Câu 4. Hồi quy tuyến tính bội (Multiple linear regression) được sử dụng để phân tích:
A. Mối quan hệ giữa nhiều biến độc lập
B. Mối quan hệ giữa một hoặc nhiều biến phụ thuộc và chỉ một biến độc lập
C. Mối quan hệ giữa nhiều biến phụ thuộc và chỉ một biến độc lập
D. Mối quan hệ giữa một biến phụ thuộc và nhiều biến độc lập
Câu 5. Một nghiên cứu về hành vi sử dụng điện thoại di động của sinh viên tại TP.HCM cho
thấy hệ số tương quan Pearson (Pearson correlation coefficient) giữa biến "Thời gian sử dụng
điện thoại" và "Kết quả học tập" là -0.42 (có ý nghĩa thống kê - statistically significant). Do
đó, có thể kết luận:
A. Tất cả các tuyên bố trên đều không đúng
B. Thời gian sử dụng điện thoại và kết quả học tập có tương quan dương
C. Thời gian sử dụng điện thoại và kết quả học tập không có tương quan
D. Thời gian sử dụng điện thoại và kết quả học tập có tương quan âm
Câu 6. Phân tích mô tả có thể giúp doanh nghiệp giải quyết câu hỏi nào sau đây?
A. Làm thế nào để xử lý các khiếu nại của khách hàng?
B. Phương pháp tối ưu để vận chuyển hàng hóa từ nhà máy đến đại lý để giảm thiểu chi
phí?
Câu 7. Xếp loại học tập của sinh viên (1) Trung bình, (2) Khá, (3) Giỏi, (4) Xuất sắc thuộc
loại thang đo:
A. Tỷ lệ (Ratio)
B. Thứ bậc (Ordinal)
C. Nhị phân (Binary)
D. Liên tục (Continuous)
Câu 8. Chỉ số thống kê nào sau đây đo độ phân tán (Indicator of dispersion)?
A. Phương sai (Variance)
B. Trung bình (Mean)
C. Trung vị (Median)
D. Yếu vị (Mode)
Câu 9. Đâu là một ví dụ về biến liên tục (Continuous variable)?
A. Giới tính của nhân viên trong doanh nghiệp
B. Phòng ban làm việc (Marketing, Nhân sự, Bán hàng, Kế toán,...) của nhân viên
C. Đánh giá khách sạn (sao từ 1 đến 5)
D. Trọng lượng của tấm thép
Câu 10. Điều nào sau đây đúng với hồi quy tuyến tính bội (Multiple linear regression)?
A. Các hệ số hồi quy được gọi là hệ số hồi quy phân đoạn (Fractional regression
coefficients)
B. Hồi quy tuyến tính bội sử dụng phương pháp bình phương tối thiểu (least squares
method) để ước tính hệ số chặn (intercept coefficient) và hệ số dốc (slope coefficient)
C. Đây là một mô hình hồi quy tuyến tính có nhiều hơn một biến phụ thuộc (dependent
variable)
D. Hồi quy tuyến tính bội sử dụng kiểm định ANOVA để kiểm tra ý nghĩa của từng biến
riêng lẻ.
Câu 11. Điều nào sau đây đúng với trung vị?
A. Trung vị là số xuất hiện thường xuyên nhất trong một tập dữ liệu
B. Trung vị chỉ có ý nghĩa với dữ liệu thứ bậc (ordinal data)
C. Trung vị có thể được tính bất kể cách sắp xếp dữ liệu
D. Với số lượng quan sát chẵn, trung vị là trung bình của hai số ở giữa
Câu 12. Điều nào sau đây đúng với giá trị R-squared (R^2) trong hồi quy tuyến tính bội?
A. Nếu giá trị R^2 lớn hơn 1, đường hồi quy sẽ khớp hoàn hảo với dữ liệu
B. Giá trị R^2 càng cao, đường hồi quy càng phù hợp với dữ liệu
C. Giá trị R-squared (R^2) luôn nằm trong khoảng từ -1 đến 1
D. Giá trị R-squared = 1 cho thấy dữ liệu lệch tối đa so với đường hồi quy
LÝ THUYẾT
I. Measure of centre:
1. Mode: Refers to the data value that is most frequently observed
2. Median: Refers to the data value that is positioned in the middle of an ordered data set.
- Phải sắp xếp theo thứ tự từ thấp đến cao.
(n+1)/2 - Vị trí của Median
+ Số lẻ thì median ở giữa
+ Số chẵn thì median là trung bình 2 số ở giữa
3. Mean: Arithmetic Average
x = Sum(n)/n
Khoảng trải giữa (InterQuartile Range - IQR) hay còn gọi là khoảng tứ phân vị của tập dữ
liệu.
Khoảng trải giữa là một con số cho biết mức độ lan truyền của nửa giữa hoặc 50% phân giữa
của tập dữ liệu. IQR thường được sử dụng thay cho khoảng biến thiên (Range) vì nó loại trừ
hầu hết giá trị bất thường hay giá trị ngoại lệ (Outliers) của dữ liệu.
3. Standard deviation (Độ lệch chuẩn):
Độ lệch chuẩn là một đại lượng thống kê mô ta dùng để do mức độ phân tán của một tập dữ
liệu đã được lập thành bảng tần số. Cho biến trung bình mỗi giá trị nằm bao xa so với giá trị
trung bình.
Độ lệch chuẩn càng lớn, sự biến thiên xung quanh giá trị trung bình càng lớn. Nói cách khác,
khi hai tập dữ liệu có cùng giá trị trung bình cộng, tập nào có độ lệch chuẩn lớn hơn là tập có
dữ liệu biến thiên nhiều hơn. Nếu một điểm dữ liệu nằm xa giá trị trung bình, điểm đó có độ
lệch cao trong tập dữ liệu, dữ liệu càng có độ dàn trải rộng thì độ lệch chuẩn càng cao.
Trong trường hợp hai tập dữ liệu có giá trị trung bình cộng không bằng nhau, thì việc so sánh
độ lệch chuẩn của chúng không có ý nghĩa vì không có sự biến thiên
VD: Đối với cổ phiếu, cổ phiếu của doanh nghiệp nào có độ lệch chuẩn lớn thì rủi ro cao hơn.
4. Định lý Chevbyshev:
Tỉ lệ của bất kỳ tập số nào nằm trong khoảng độ lệch chuẩn k (k>1) của các số trong tập với
trung bình của các số trong tập, có giá trị nhỏ nhất là 1 - 1/k^2
VD:
Với k = 2: ít nhất ¾ hoặc 75% dữ liệu nằm trong 2 độ lệch chuẩn của giá trị trung bình
Với k = 3: ít nhất 8/9 hoặc 89% dữ liệu nằm trong 3 độ lệch chuẩn của giá trị trung bình
5. The Normal Distribution and the 68 - 95 - 99,7 Rule (Empirical Rules):
*Notice:
a) Population Mean:
b). Population Standard Deviation:
● CK < 3 cho biết dữ liệu hơi phăng với mức độ phân tán rộng.
● CK > 3 cho biết dữ liệu có phần đạt cực đại với độ phân tán ít hơn.
10. Đo lường sự liên kết của các mẫu:
Hai biển có mối quan hệ thống kê chặt chẽ với nhau nếu chúng dường như di chuyển cùng
nhau.
Khi hai biến dường như có liên quan với nhau, bạn có thể nghi ngờ về mối quan hệ nhân quả.
Tuy nhiên, đôi khi, các mối quan hệ thống kê vẫn tồn tại mặc dù sự thay đổi của một biến
không phải do sự thay đổi của biến kia gây ra.
Sample
1.2. Ý nghĩa:
Cho biết direction of relationship giữa hai biến: Đồng biến hay nghịch
Không chỉ ra độ mạnh của relationship giữa hai biến. Covariance có độ lớn càng lớn không
có nghĩa là relationship càng mạnh.
2. Correlation (Tương quan): (-1<= r <=1) Tells you about the direction and strength of a
linear relationship shared between two quantitative variables.
Thể hiện mối quan hệ giữa 2 biến là “Mạnh” hay “Yếu”.
Mối tương quan được đo lường bằng hệ số tương quan. Mục đích nhằm kiểm tra mối tương
quan tuyến tính chặt chẽ giữa biến phụ thuộc với các biến độc lập và sớm nhận diện vấn đề
đa cộng tuyến khi các biến độc lập cũng có tương quan mạnh với nhau.
Số lượng biến độc lập Chỉ có một biến độc lập Có hai hay nhiều biến độc
lập
Mục tiêu Nghiên cứu mối quan hệ Nghiên cứu mối quan hệ
giữa một biến độc lập và giữa nhiều biến độc lập và
biến phụ thuộc. biến phụ thuộc.
Công thức tổng quát y=β0+β1x+ϵ y=β0+β1x1+β2x2+⋯+βnxn+
ϵ
Phức tạp Đơn giản, dễ hiểu, dễ phân Phức tạp hơn, đòi hỏi nhiều
tích. dữ liệu và phân tích.
Ứng dụng Khi chỉ cần đánh giá tác Khi muốn đánh giá tác động
động của một yếu tố. tổng hợp của nhiều yếu tố.
1.3. Bình luận. Viết phương trình hồi quy chuẩn hóa và chưa chuẩn hóa. Dự báo sử
dụng hồi quy.
Multiple R - | r |, where r is the sample correlation coefficient. The value of r varies from
-1 to +1 (r is negative if slope is negative)
R Square - coefficient of determination, R2, which varies from 0 (no fit) to 1 (perfect fit)
Adjusted R Square - adjusted R2 for sample size and number of X variables
Standard Error - variability between observed and predicted Y values. This is formally
called the standard error of the estimate, SYX.
1. B (Unstandardized Coefficient)
Definition: It represents the actual change in the dependent variable for a one-unit change
in the independent variable, keeping all other variables constant.
Interpretation:
Use: Useful when you want to interpret the effects in real-world terms.
● The Beta coefficient indicates how many standard deviations the dependent
variable will change for a one-standard-deviation change in the independent
variable.
● For example, a Beta of 0.361 for Email means that a one-standard-deviation
increase in "Email" marketing will result in a 0.361 standard-deviation increase in
Consumer Intention.
Use:
It allows for a comparison of the relative importance of variables in the model, even if the
variables have different units or scales.
Dependent = Overall
Independent Model 1 Model 2 Model 3 Model 4
Price 0,303*** 0,323*** ----
Numitems 0,060 0,267*** ----
Org 0,273*** ---- 0,293***
Quality 0,147*** 0,153*** ----
R2 0,411 0,409 0,053
F (p value) 102,3 134,8 33,3
(p < 0,001) (p < 0,001) (p < 0,001)
VIF Range 1,113 - 1,463 1,000
2,145 -2,102
Model Summary
Model R R Square Adjusted R Std. Error of the
Square Estimate
1 ,644a ,415 ,411 ,952
a Predictors: (Constant), Organization satisfaction, Variety satisfaction, Item quality
satisfaction, Price satisfaction
Step 2:
H0: quality = numsitems = organizational = price
H1: Có ít nhất 1 Beta khác 0
ANOVAa
Model Sum of df Mean F Sig.
Squares Square
1 Regression 370,735 4 92,684 102,328 ,000b
Residual 522,619 577 ,906
Total 893,354 581
a Dependent Variable: Overall satisfaction
b Predictors: (Constant), Organization satisfaction, Variety satisfaction, Item quality
satisfaction, Price satisfaction
*F= 102,328
*p < 0,001 => Có tồn tại phương trình hồi quy
*Constant:
t = 5,776
p < 0,001
=> Hệ số có ý nghĩa thống kê
*SF:
Item quality satisfaction
t = 3,811
p < 0,001
=> Hệ số có ý nghĩa thống kê
Variety satisfaction
t = 5,897
p < 0,001
=> Hệ số có ý nghĩa thống kê
Price satisfaction
t = 6,507
p < 0,001
=> Hệ số có ý nghĩa thống kê
Organization satisfaction
t = 1,772
p > 0,05
=> Hệ số không có có ý nghĩa thống kê => Exclude => Chạy lại dữ liệu với các biến còn lại
*F= 134,892
*p < 0,001 => Có tồn tại phương trình hồi quy
Coefficientsa
Model Unstandardi Standardiz t Sig. Collinea
zed ed rity
Coefficients Coefficien Statistic
ts s
B Std. Beta Toleranc VIF
Error e
1 (Constan ,880 ,118 7,465 ,000
t)
Item ,137 ,035 ,153 3,966 ,000 ,683 1,463
quality
satisfacti
on
Variety ,260 ,045 ,267 5,781 ,000 ,476 2,102
satisfacti
on
Price ,317 ,045 ,323 7,097 ,000 ,493 2,030
satisfacti
on
a Dependent Variable: Overall satisfaction
*Constant:
t = 7,465
p < 0,001
=> Hệ số có ý nghĩa thống kê
*SF:
Item quality satisfaction
t = 3,966
p < 0,001
=> Hệ số có ý nghĩa thống kê
Variety satisfaction
t = 5,781
p < 0,001
=> Hệ số có ý nghĩa thống kê
Price satisfaction
t = 7,097
p < 0,001
=> Hệ số có ý nghĩa thống kê
Bước 5: Viết phương trình hồi quy
2. R squared:
r r^2
Measures the linear relationship between Is a measure of how close each data point
two quantitative variables with respect to fits to the regression line
direction and strength. Tells us how well the regression line
predicts actual values.
V. t - test and ANOVA:
p - Value Giá trị p (mức ý nghĩa quan sát được) là xác suất thu được giá trị thống kê thử
nghiệm bằng hoặc cao hơn giá trị thu được từ dữ liệu mẫu khi giả thuyết không là đúng.
Có thể được hiểu là xác suất phạm sai lầm khi bác bỏ giả thuyết không. P Value càng cao thì
việc loại bỏ giả thuyết không càng phạm sai lầm nghiêm trọng, kết quả thống kê mang giá trị
càng thấp. Trong SPSS, P - Value chính là giá trị Sig.
Giá trị P là con số dao động từ 0 đến 1 và mang ý nghĩa như sau:
● Giá trị P nhỏ (≤ 0.05) chi ra bằng chứng mạnh mẽ cho thấy giả thuyết không không
hợp lệ → Bác bỏ giả thuyết không.
● Giá trị P lớn (> 0.05) chỉ ra bằng chứng cho thấy giả thuyết thay thế yếu - Không thể
bác bỏ giả thuyết không.
Kiểm định giả thuyết: Liên quan đến việc rút ra các suy luận về hai mệnh đề tương phản
(mỗi mệnh đề được gọi là giả thuyết) liên quan đến giá trị của một hoặc nhiều tham số tổng
thể.
H0: Giả thuyết không - Mô tả một lý thuyết hiện có
H1: Giả thuyết thay thế - Phần bù của H0
Sử dụng dữ liệu mẫu, ta có thể:
- Bác bỏ H0 và kết luận dữ liệu mẫu cung cấp đủ bằng chứng để hỗ trợ H1.
- Hoặc, không bác bỏ H0 và kết luận dữ liệu mẫu không hỗ trợ H1.
1. t - test:
1.1. Phân loại:3 loại
1.2. Trường hợp sử dụng t - test:
1.2.1. One - sample t - test:
Phép kiểm định xem xét giá trị trung bình của một biến có khác một cách có ý nghĩa thống kê
với một giá trị đã cho hay không.
Giả thiết H0: Giá trị trung bình bằng với giá trị test value.
Kết quả kiểm định:
- Sig < 0.05: Bác bỏ giả thiết H0, nghĩa là trung bình khác một cách có ý nghĩa thông
kê với giá trị test value.
- Sig > 0.05: Chấp nhận giả thiết H0, nghĩa là trung bình của biến bằng một cách có ý
nghĩa thống kê với giá trị test value.
*Bình luận:
H0: Không có sự khác biệt giữa tuổi trung bình của mẫu và 35.
H1: Có sự khác biệt giữa tuổi trung bình của mẫu và 35.
Step 2: Phương pháp - One Sample t-test
Step 3: Mô tả dữ liệu mẫu
One-Sample Statistics
N Mean Std. Deviation Std. Error Mean
Age 34 38,68 7,858 1,348
One-Sample Test
Test Value = 35
t df Sig. Mean 95% Confidence
(2-tailed) Difference Interval of the
Difference
Lower Upper
Age 2,728 33 ,010 3,676 ,93 6,42
● t = 2,728
● p < 0,05
Kết luận:
Có sự khác biệt giữa tuổi trung bình của mẫu và 35 tuổi.
Trong đó, có tuổi trung bình lớn hơn tuổi kiểm định là 3,676 tuổi.
Sự khác biệt này có ý nghĩa thống kê với mức ý nghĩa là 0,05 (Tối đa 5% khả năng).
*Bình luận:
Step 1:
H0: Không có sự khác biệt về thu nhập hộ gia đình giữa nam và nữ
H1: Có tồn tại sự khác biệt về thu nhập hộ gia đình giữa nam và nữ
Step 2: Phương pháp Independent samples t-test
Step 3: Mô tả dữ liệu (N, mean x, std)
Group Statistics
Std. Std. Error
Gender N Mean Deviation Mean
Household income in Female 3179 68.7798 75.73510 1.34323
thousands Male 3221 70.1608 81.56216 1.43712
- Có 3179 nữ tham gia khảo sát, thu nhập hộ gia đình trung bình là $68780, độ lệch
chuẩn $75735
- Có 3221 nam tham gia khảo sát, thu nhập hộ gia đình trung bình là $70161, độ lệch
chuẩn $81562
Step 4: Kiểm tra giả định về sự đồng nhất của phương sai
Levene's Test
for Equality of t-test for Equality of Means
Variances
95% Confidence Interval of the
Difference
Mean Lower
Sig. Differen Std. Error
F Sig. t df (2-tailed) ce Difference Upper
Hous Equal 1.86 .172 -.702 639 .483 -1.38101 1.96808 -5.23912 2.47709
ehold variances 5 8
incom assumed
e in Equal -.702 637 .483 -1.38101 1.96713 -5.23725 2.47522
thous variances 4.36
ands not 2
assumed
Levene’s test
FLevene’sTest = 1.865
PLevene’sTest= 0.172
Step 5: t-test result
t = -0.702
p ≥ 0.05 => Bác bỏ H1, không có sự khác biệt về thu nhập hộ gia đình giữa nam và nữ
Chú ý:
*PLevene’sTest > 0.05 => Equal Variance Assumed
=> Lấy dòng trên -> t = ?, p ≤ 0.05 => Chấp nhận H1
*PLevene’sTest ≤ 0.05 => Equal Variance NOT Assumed
=> Lấy dòng dưới
- Big/Small=
- Sig.level
Step 5:
t = -10.912
p < 0.001
=> Accept H1: There is a significant difference between estimated data and actual data.
=> The actual data is bigger than estimated data, the mean difference is 6.3786 and it is
significant at 0.001 level.
2. ANOVA:
2.1. Khi nào thì sử dụng ANOVA:
Phép kiểm định xem xét giá trị trung bình của 2 nhóm giá trị trở lên của 1 biến định tính có
khác nhau một cách có ý nghĩa thống kê hay không.
Giả thiết H0: Không có sự khác biệt trung bình giữa các nhóm gia trị.
Kết quả kiểm định:
● Sig < 0.05: Bác bỏ giả thiết H0, nghĩa là có khác biệt trung bình một cách có ý nghĩa
thống kê giữa các nhóm giá trị
● Sig >= 0.05: Chấp nhận giả thiết H0, nghĩa là không có khác biệt trung bình một cách
có ý nghĩa thống kê giữa các nhóm giá trị
2.2. Sự khác biệt với t -test:
Step 1:
H0: Không có sự khác biệt về thu nhập hộ gia đình giữa các nhóm đi các loại xe khác nhau
H1: Có ít nhất một sự khác biệt về thu nhập hộ gia đình giữa các nhóm đi các loại xe khác
nhau
FLevene’s= ?
PLevene’s<= 0,05?
F=?
P <= 0,05 => Chấp nhận H1, có ít nhất một sự khác biệt.
Flevene’s = 1129,720
Plevene’s <= 0,001
=> Dùng kết quả bảng ANOVA => Kết quả bảng ANOVA có thể không
chính xác , cần thêm kết quả của bảng
Robust Test of Equality of Means
ANOVA
Household income in thousands
Sum of Squares df Mean Square F Sig.
Between 15516358,060 2 7758179,030 2056,246 ,000
Groups
Within 24135763,889 6397 3772,982
Groups
Total 39652121,950 6399
Fwelch = 5752,869
p < 0,001
=> Chấp nhận giả thiết H1: Có ít nhất 1 sự khác biệt về thu nhập hộ gia đình giữa các nhóm
đi các loại xe khác nhau.
Multiple Comparisons
Dependent Variable: Household income in thousands
Tamhane
(I) Primary (J) Mean Std. Sig. 95%
vehicle Primary Difference Error Confidence
price vehicle (I-J) Interval
category price
category
Lower Upper
Bound Bound
Economy Standard -20,67244* ,21726 ,000 -21,1914 -20,1534
Luxury -112,75342* 2,14520 ,000 -117,8793 -107,6275
Standard Economy 20,67244* ,21726 ,000 20,1534 21,1914
Luxury -92,08098* 2,14925 ,000 -97,2165 -86,9454
Luxury Economy 112,75342* 2,14520 ,000 107,6275 117,8793
Standard 92,08098* 2,14925 ,000 86,9454 97,2165
* The mean difference is significant at the 0.05 level.
Người đi xe Economy sẽ có thu nhập hộ gia đình thấp hơn người đi xe Standard và xe Luxury
với sự chênh lệch là 20,67244 và 112,75342. Sự khác biệt này có ý nghĩa thống kê với mức ý
nghĩa 0,001.
NHẬN XÉT
CORRELATION - TƯƠNG QUAN
24. In the Excel file Weddings, determine the correlation between the wedding costs
and attendance.
CORRELATIONS
Wedding cost Attendance
Wedding Pearson Correlation 1 ,733**
cost Sig. (2-tailed) 0
Sum of Squares and 4206762400 17384200
Cross-products
Covariance 175281766,7 724341,667
N 25 25
Attendance Pearson Correlation ,733** 1
Sig. (2-tailed) 0
Sum of Squares and 17384200 133600
Cross-products
Covariance 724341,667 5566,667
N 25 25
** Correlation is significant at the 0.01 level (2-tailed).
Nhận xét:
Giữa Wedding cost và Attendance có tương quan dương, cao với r = 0,733 và mức độ
ý nghĩa p < 0,001
=> Wedding cost tăng thì Attendance cũng tăng và ngược lại.
25. For the data in the Excel file Rin's Gym, find the co-variances and correlations
among height, weight, and BMI calculation.
CORRELATIONS
Height Weight BMI
(inches) Calculatio
n
Height (inches) Pearson Correlation 1 ,766** ,488*
Sig. (2-tailed) 0 0,018
Sum of Squares and 301,652 2507,304 178,128
Cross-products
Covariance 13,711 113,968 8,097
N 23 23 23
Weight Pearson Correlation ,766** 1 ,933**
Sig. (2-tailed) 0 0
Sum of Squares and 2507,304 35560,60 3698,593
Cross-products 9
Covariance 113,968 1616,391 168,118
N 23 23 23
BMI Calculation Pearson Correlation ,488* ,933** 1
Sig. (2-tailed) 0,018 0
Sum of Squares and 178,128 3698,593 442,047
Cross-products
Covariance 8,097 168,118 20,093
N 23 23 23
** Correlation is significant at the 0.01 level (2-tailed).
* Correlation is significant at the 0.05 level (2-tailed).
Nhận xét:
(1)
- Giữa Height và Weight có tương quan dương, mạnh với r = 0,766 và mức độ ý
nghĩa p < 0,001
=> Điều này cho thấy mối tương quan mạnh giữa Height và Weight. Đồng thời, với p
< 0,001 thì 2 biến này có sự tương quan tuyến tính nên kết quả có ý nghĩa thống kê.
- Giá trị hiệp phương sai là 113,968, cho thấy sự biến thiên cùng chiều giữa chiều cao
và cân nặng.
(2)
- Giữa Height và BMI Calculation có tương quan dương, trung bình với r = 0,488 và
mức độ ý nghĩa p < 0,05
=> Điều này cho thấy mối tương quan mạnh giữa Height và BMI Calculation. Đồng
thời, với p < 0,05 thì 2 biến này có sự tương quan tuyến tính nên kết quả có ý nghĩa
thống kê.
- Giá trị hiệp phương sai là 8,097, cho thấy mối quan hệ cùng chiều giữa chiều cao và
BMI.
(3)
- Giữa Weight và BMI Calculation có tương quan dương, mạnh với r = 0,933 và
mức độ ý nghĩa p < 0,001
=> Điều này cho thấy mối tương quan mạnh giữa Weight và BMI Calculation. Đồng
thời, với p < 0,001 thì 2 biến này có sự tương quan tuyến tính nên kết quả có ý nghĩa
thống kê.
- Giá trị hiệp phương sai là 168,118, cho thấy mối quan hệ cùng chiều giữa cân nặng
và BMI.
28. For the Excel file Credit Risk Data, compute the correlation between age and
months employed, age and combined checking and savings account balance, and the
number of months as a customer and amount of money in the bank. Interpret your
results.
a) Age and months employed:
Correlations
Age Months Employed
Age Pearson Correlation 1 ,307**
Sig. (2-tailed) ,000
N 425 425
Months Employed Pearson Correlation ,307** 1
Sig. (2-tailed) ,000
N 425 425
** Correlation is significant at the 0.01 level (2-tailed).
Nhận xét: Giữa Age và Month Employed có tương quan dương, thấp với r = 0,307 và
mức độ ý nghĩa p < 0,001
=> Vậy Age tăng thì Month Employed cũng tăng và ngược lại.
Correlations
Age Checking Savings
Age Pearson 1 -,002 -,028
Correlation
Sig. (2-tailed) ,961 ,561
N 425 425 425
Checking Pearson -,002 1 ,020
Correlation
Sig. (2-tailed) ,961 ,680
N 425 425 425
Savings Pearson -,028 ,020 1
Correlation
Sig. (2-tailed) ,561 ,680
N 425 425 425
Nhận xét:
(1) Giữa Age và Checking có tương quan âm, thấp với r = - 0,002 và mức độ ý nghĩa
p > 0,05
=> Điều này cho thấy mối tương quan yếu và gần như không đáng kể giữa Age và
Checking. Đồng thời, với p > 0,05 thì 2 biến này không có sự tương quan tuyến tính
nên kết quả này không có ý nghĩa thống kê.
(2) Giữa Age và Savings có tương quan âm, thấp với r = - 0,028 và mức độ ý nghĩa p
> 0,05
=> Điều này cho thấy mối tương quan yếu và gần như không đáng kể giữa Age và
Savings. Đồng thời, với p > 0,05 thì 2 biến này không có sự tương quan tuyến tính nên
kết quả này không có ý nghĩa thống kê.
c) The number of months as a customer and amount of money in the bank:
Correlations
Months Savings Checking
Customer
Months Pearson 1 -,050 -,036
Customer Correlation
Sig. (2-tailed) ,300 ,456
N 425 425 425
Savings Pearson -,050 1 ,020
Correlation
Sig. (2-tailed) ,300 ,680
N 425 425 425
Checking Pearson -,036 ,020 1
Correlation
Sig. (2-tailed) ,456 ,680
N 425 425 425
Nhận xét:
- Giữa Months Customer và Savings có tương quan âm, thấp với r = - 0,05 và mức độ
ý nghĩa p > 0,05
=> Điều này cho thấy mối tương quan yếu và gần như không đáng kể giữa Age và
Checking. Đồng thời, với p > 0,05 thì 2 biến này không có sự tương quan tuyến tính
nên kết quả này không có ý nghĩa thống kê.
- Giữa Months Customer và Checking có tương quan âm, thấp với r = - 0,36 và mức
độ ý nghĩa p > 0,05
=> Điều này cho thấy mối tương quan yếu và gần như không đáng kể giữa Age và
Saving. Đồng thời, với p > 0,05 thì 2 biến này không có sự tương quan tuyến tính nên
kết quả này không có ý nghĩa thống kê.
29. In the Excel file Call Center Data, how strongly is length of service correlated
with starting age?
Correlations
Length of Service Starting Age
(years)
Length of Service Pearson Correlation 1 -,608**
(years) Sig. (2-tailed) ,000
N 70 70
Starting Age Pearson Correlation -,608** 1
Sig. (2-tailed) ,000
N 70 70
** Correlation is significant at the 0.01 level (2-tailed).
Nhận xét:
Giữa Length of Service và Starting Age có tương quan âm, thấp với r = -0,608 và mức
độ ý nghĩa p < 0,001
=> Cặp biến này có sự tương quan tuyến tính ở mức độ tin cậy đến 99% (tương ứng
với mức ý nghĩa 1%, p<0.01)
=> Mức độ tương quan - 0.4 < -0,608 < 0.7 => mức tương quan vừa phải (moderate)
CV - R2R
Statistics
N Valid 20 20 20 20
Missing 0 0 0 0
Std.
3.22352 0.49956 0.52201 0.3509
Deviation
Đem lại
R2R 40.6175547 37.6531347 41.1789046 46.1530350
sinh lợi lớn
= mean/std 2 6 2 5
nhất