BD笔记
BD笔记
BD笔记
Oil has been one of the most valuable commodities and has ruled the world’s
industrial growth and economy until perhaps the 20th century.
• In the 21st century; oil has been replaced by data; the ubiquitous, and the most
valued asset of today, given the rapid rise of technology and the beginning of the
digital era.
• What oil is to the industrial economy, data is to the information economy!
Why does Big Data Analytic matter?
1. Digitalization
Big Data Strategy:
strategy&vision people&culture
governance&change technology&capabilities
It isn’t so much the volume of data that matters, it is more what is being done with
that data, what analysis is applied and how is it used to generate insights that can lead
to more informed decision making and better business outcomes.
重要的不是数据的数量,更重要的是如何处理这些数据,应用了什么分析,以
及如何使用它来产生见解,从而导致更明智的决策和更好的业务结果。
Managers’ challenge:
1.Business environment is becoming more and more complex and rapidly changing,
making decision is more difficult then ever 商业环境变得越来越复杂和瞬息万变,
决策比以往任何时候都更加困难
2.Managers must respond and adapt by making faster and better decision.
管理者必须通过做出更快更好的决策来做出响应和适应
3.Intuition may not be enough, hence computerized systems are required.
直觉可能还不够,因此需要计算机化系统。
What to do with data?
Data Management:foundation
Business Intelligence:basic reporting,performance management
Analytic:predictive,prescriptive
Business Intelligence
BI is an umbrella term that includes the applications, infrastructure and tools, and best
practices that enable access to and analysis of information to improve and optimize
decisions and performance 一个涵盖性术语,包括应用程序、基础架构和工具,以
及支持访问和分析信息以改进和优化决策和性能的最佳实践
BI helps to
understand past
BD goes into
the future
BI tools just
make lives of business much easier by simplifying the complexity and
giving the power of visualization to be able to predict future of the business and the
consequences of business decisions.
Data Mining
Process to find correlations and patterns between different data.
查找不同数据之间的相关性和模式的过程。
Are based on complex and sophisticated algorithms that help to segment data and
evaluate probabilities 基于有助于分割数据和评估概率的复杂算法
BI Market
Challenge of BI
Building the connections:human part,no cognitive part
BI only helps with structured data
Big Data in Digital World
Definition:
Data set that are so large and complicated such that they cannot be stored,managed
and analyzed by typical software tools.
Veracity 真实性(uncertainty of data) importance of quality data and the level of trust
in various data sources
Other Vs:
Visualization is becoming important→lack of read time
Why BD important?
Big Data is set to transform the work of enterprises, by improving information,
efficiency and responsiveness to environmental change.
大数据旨在通过提高信息、效率和对环境变化的响应能力,来改变企业的工作。
The ability to analyse and draw knowledge from the vast amounts of data provides us
with insight, market intelligence, and predictions.
从大量数据中进行分析和获取知识的能力为我们提供了洞察力、市场情报和预测
Data Warehousing Uses Top-Down Approach/ Data Lake Uses Bottoms-Up Approach
Data Lake + Data Warehouse Better Together
Hadoop
一个开源的分布式计算和存储框架,为庞大的计算机集群提供可靠的、可伸缩的应用层
计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,
并且支持在单台计算机到几千台计算机之间进行扩展。
Distributed, scalable system on commodity HW 商品硬件的分布式可扩展系统
Composed of a few parts:
HDFS – Distributed file system MapReduce – Programming model
Other tools: Hive, Pig, SQOOP, HCatalog, HBase, Flume, Mahout, YARN, Tez, Spark,
Stinger, Oozie, ZooKeeper, Flume, Storm
Main players are Hortonworks, Cloudera, MapR
Input →ETL→Output
Not a data lake,but a transformation tool
Also can use Amazon Redshift,Google Bigquery,Snowflake
BD Issue
•Technology and techniques 技术
•Access to data 数据来源
•Organizational change and talent 组织与人才
•Industry structure 行业结构
•Data policies 政策
Relevant BD Skills
Tech skills, Statistical and Communication skills
Speak business and helping leaders reformulate their challenges in BD way
Data scientists(algorithm) Statistician(KPI)
Database Administrator(storage) Data Analyst(process data)
的技术
Foundation of Learn from the existing data Pulls from existing information to
Learning and provide the foundation look for emerging patterns that can
required for a machine to help shape our decision-making
teach itself 从 现 有 数 据 中 学 processes 从现有信息中提取信息,以
习,并为机器自学提供所需的 寻找有助于塑造决策过程的新兴模式
基础。
据中学习
Data Volume Small datasets where over- Large-scale datasets where the
fitting is the problem problem is dealing with the large
存在过度拟合问题的小型数据 volume of data 处理大量数据的大规模
集 数据集
Purpose Learn from trained data and Store large volume of data and find
predicts or estimates future out pattern in data 存储大量数据并找
results. 从经过训练的数据中学 出数据中的规律
习并预测或估计未来的结果。
3. Tableau 产品有哪些不同?
Tableau 与其他 BI 工具一样具有一系列产品:
Tableau Desktop:桌面产品用于从数据图片中创建优化查询。一旦查询准备就绪
你就可以执行这些查询而无需编码。Tableau Desktop 将来自各种来源的数据纳入
其数据引擎并创建交互式仪表板。
Tableau Server:当你使用 Tableau Desktop 发布仪表板时,Tableau Server 有助于
在整个组织中共享它们。它是安装在 Windows 或 Linux 服务器上的企业级功能。
Tableau Reader: Tableau Reader 是桌面上提供的一项免费功能,可让你打开和
查看数据可视化。你可以过滤或向下钻取数据,但限制编辑任何公式或对其执行
任何类型的操作。它还用于提取连接文件。
Tableau Online: Tableau Online 也是一项付费功能,但不需要独家安装。它随软
件一起提供,用于随时随地共享已发布的仪表板。
Tableau Public: Tableau public 是另一项免费功能,可通过将数据可视化保存为
Tableau Server 上的工作表或工作簿来查看数据可视化。
4. Tableau 中的参数是什么?
参数是一个变量(数字、字符串或日期),用于替换计算、过滤器或参考线中的
常量值。例如,你创建一个字段,如果销售额大于 30,000,则返回 true,否则返
回 false。参数用于替换这些数字(在本例中为 30000)以在计算期间动态设置它
参数允许你在计算中动态修改值。参数可以接受以下选项中的值:
全部:简单的文本字段
列表:可供选择的可能值列表
范围:从指定范围中选择值
5. 请告诉我一些有关度量和维度的信息?
在 Tableau 中,当我们连接到新数据源时,数据源中的每个字段都映射为度量
或维度。这些字段是数据源中定义的列。每个字段都分配有一个数据类型(整数
字符串等)和一个角色(离散维度或连续度量)。
度量包含由维度表分析的数值。度量存储在一个表中,该表允许存储多条记录并
包含唯一引用关联维度表的外键。
而维度包含定性值(名称、日期、地理数据)以定义综合属性以对数据详细信息
进行分类、细分和显示。
6. 什么是连续和离散字段类型?
Tableau 的专长在于以连续格式或离散格式以不同方式显示数据。它们都是用于
定义数据的数学术语,其中连续均值没有中断,离散均值是单独分开和不同的。
蓝色表示离散行为,而绿色表示连续行为。一方面,离散视图定义标题并且可以
轻松排序,而连续视图定义图形视图中的轴并且无法排序。
图像 - tableau.com
7. 什么是数据的聚合和分解?
数据聚合意味着以聚合形式显示度量和维度。Tableau 工具中可用的聚合函数有:
SUM(表达式):将表达式中使用的所有值相加。仅用于数值。
AVG(表达式):计算表达式中使用的所有值的平均值。仅用于数值。
Median(表达式):计算表达式中使用的所有记录的所有值的中值。仅用于数
值。
Count(表达式):返回表达式集中值的数量。排除空值。
Count (distinct):返回表达式集中唯一值的数量。
实际上,Tableau 允许你更改视图的聚合类型。
数据的分解意味着分别显示每个数据字段。
8. Tableau 中有哪些不同类型的联接?
Tableau 与 SQL 非常相似。因此,Tableau 中的联接类型是相似的:
左外连接:从左表中提取所有记录,从右表中提取匹配的行。
右外连接:从右表中提取所有记录,从左表中提取匹配的行。
全外连接:从左表和右表中提取记录。所有不匹配的行都带有 NULL 值。
内连接:从两个表中提取记录。
了解更多
9. 告诉我与数据集建立的不同联系?
Tableau 中有两种类型的数据连接:
LIVE:实时连接是一种通过直接连接到数据源来提取实时数据的动态方式 。
Tableau 直接针对数据库条目创建查询并在工作簿中检索查询结果。
数据类型 可能的值
布尔值 真假
日期 日期值(2016 年 12 月 28 日)
日期时间 日期和时间戳值(2016 年 12 月 28 日
下午 06:00:00)
地理值 地理测绘(北京、孟买)
文本/字符串 文本/字符串
数字 十进制 (8.00)
数字 整数 (5)
12. 什么是集?
集是作为 Tableau Desktop 中数据子集创建的自定义字段。集合可以根据条件计
算,也可以根据数据源的维度手动创建。
例如,获得收入超过某个价值的一组客户。现在,设置数据可以根据应用的条件
动态更新。了解更多
14.什么是架子?
Tableau 工作表包含各种命名元素,如列、行、标记、过滤器、页面等,称为架子。
你可以将字段放在架子上以创建可视化、增加详细程度或为其添加上下文。
自动化用户指定的负载过程
消除对脚本开发或脚本维护的依赖
通过向集群添加更多节点,随着负载的增加线性扩展
17. 为什么有人不使用 Tableau?
使用 Tableau 的限制是:
提取过滤器:此过滤器从数据源中检索数据子集。
维度过滤器:此过滤器用于非聚合数据(离散)。
数据源过滤器:此过滤器阻止用户查看敏感信息,从而减少数据馈送。
上下文过滤器:此过滤器通过在 Tableau 中应用预设来创建数据集。
测量过滤器:此过滤器应用各种操作,如总和、中值、平均值等。
表计算过滤器:在创建视图后应用此过滤器。
20.什么是双轴?
双轴用于分析同一图形中两个不同尺度的两个不同度量。这使你可以将一个图形
上的多个属性与两个独立的轴一个一层在另一个之上进行比较。
要将度量添加为双轴,请将该字段拖到视图的右侧,并在你看到出现黑色虚线
时将其放下。你还可以右键单击(在 Mac 上按住 Control 单击)“列”或“行”功能
区上的度量,然后选择“双轴”。
21.树和热图有什么区别?
这两张地图都有助于分析数据。热图可视化和比较不同类别的数据,而树状图以
矩形显示数据的层次结构。热图通过以不同颜色描绘维度来可视化度量。类似于
用不同颜色定义值的文本表。
树形图将嵌套矩形中的数据层次结构可视化。从较大的矩形到较小的矩形显示层
次结构级别。
示例 - 下面的树状图显示了一系列产品类别的总销售额:
水平:水平视图允许用户从左到右组合工作表和仪表板元素并编辑元素的高度。
垂直:垂直视图允许用户从上到下组合工作表和仪表板元素并编辑元素的宽度。
文本:所有文本字段。
图像提取:为了提取图像,Tableau 会应用一些代码,提取图像,然后以 XML
格式将其保存在工作簿中。
Web URL:指向网页、文件或 Tableau 之外的其他 Web 资源的超链接
24. 什么是 TDE 文件?
TDE 是带有扩展名 .tde 的 Tableau Desktop 扩展。TDE 文件指向包含来自外部源
(如 MS Excel、MS Access 或 CSV 文件)的数据的文件。TDE 使分析和发现数
据变得更加容易。
单击仪表板上的新故事。
从左下角选择合适的故事尺寸或选择自定义尺寸。
通过双击工作表开始构建故事并将其添加到故事点。
通过单击添加标题为故事添加标题。
你可以通过单击工具栏中的更新来更新突出显示。你还可以添加布局选项、设置
故事格式或使故事适合你的仪表板。
26. Tableau 文件有哪些不同?
工作簿:工作簿包含一个或多个工作表和仪表板元素。
书签:包含一个更易于共享的工作表。
打包工作簿:包含工作簿以及支持的本地文件数据和背景图像。
数据提取文件:提取包含数据子集的文件。
数据连接文件:带有各种连接信息的小型 XML 文件。
高级 Tableau 常见面试题和答案合集
27. 如何将视图嵌入到网页中?
你可以轻松地将来自 Tableau Server 或 Tableau Online 的交互式视图集成到网页、
博客、Web 应用程序或 Internet 门户中。但是要查看视图,权限要求查看者在
Tableau Server 上创建一个帐户。要嵌入视图,请单击视图顶部的共享按钮并复
制嵌入代码以将其粘贴到网页上。
已发布数据源:它包含独立于任何工作簿的连接信息。
嵌入式数据源:它包含连接到工作簿的连接信息
30. 什么是 DRIVE 计划方法论?
DRIVE 计划方法围绕源自企业部署的数据分析创建了一个结构。驱动方法本质
上是迭代的,包括更快、更有效的敏捷方法。
31.如何在计算字段中使用组?
将“GroupBy”子句添加到 SQL 查询或在数据窗口中创建计算字段以对字段进行
分组。
在计算中使用组。你不能在计算中引用临时组。
使用在辅助数据源中创建的组混合数据:如果组是在辅助数据源中创建的,则
只有计算组可以用于数据混合。
使用另一个工作簿中的组。你可以通过复制和粘贴计算轻松地在另一个工作簿中
复制组。
32. 解释在 Tableau 中你何时会使用连接与混合?
虽然这两个术语听起来很相似,但它们在 Tableau 中的含义和用法有所不同:
而 Join 用于合并同一数据源中的两个或多个表。
33. 什么是假设参照完整性?
在某些情况下,你可以通过从“数据”菜单中选择“假设参照完整性”选项来提高
查询性能。当你使用此选项时,只有当视图中的字段明确引用联接表时 ,
Tableau 才会将联接表包括在查询中。
34. 什么是计算字段,你将如何创建?
计算字段是使用基于其他字段的公式创建的。这些字段不存在,而是由你创建的
你可以创建这些字段以:
细分数据
转换字段的数据类型,例如将字符串转换为日期。
汇总数据
过滤结果
计算比率
你可以创建三种主要类型的计算:
基本计算:在源级别转换数据字段的值
详细级别 (LOD) 表达式:像基本计算一样在源级别转换数据字段的值,但具有
更精细的访问权限
表计算:仅在可视化级别转换数据字段的值
创建计算字段:
在 Tableau 中,导航到“分析”>“创建计算字段”。在计算编辑器中输入详细信息。
并做了!
35. 如何在同一视图中显示前五名和后五名销售额?
借助这些功能,你可以查看前五名和后五名的销售额:
将“客户名称”拖到行,将销售额拖到列。
按降序对 Sum(sales) 进行排序。
创建一个计算字段“销售排名”。
36、Tableau 常见面试题有哪些:Tableau 中的 Rank 函数是什么?
rank 函数用于为数据集中的任何度量提供位置(rank)。Tableau 可以通过以下
方式对度量进行排名:
Dimensions(维度)或者 Measures(度量)
字段的背景颜色如果是蓝色,说明它是离散的,如果是绿色,说明它是连续的。
1. What is Tableau?
Answer: B
A. A tableau worksheet can have multiple data sources. B. A tableau worksheet can have only one data
source. C. A tableau worksheet cannot have any filters or calculations. D. A tableau worksheet can only
Answer: A
1. Which of the following is not a type of chart in Tableau?
Answer: D
A. A dimension that can be aggregated B. A calculation that returns a numerical value C. A categorical
Answer: B
A. To exclude specific data from a visualization B. To include specific data in a visualization C. To sort
Answer: A
A. A measure that can be aggregated B. A calculation that returns a numerical value C. A categorical
Answer: C
A. A way of organizing data by category B. A type of chart C. A filter that excludes specific data D. A
Answer: D
A. A measure that can be aggregated B. A calculation that returns a numerical value C. A categorical
Answer: B
A. A filter that excludes specific data B. A way of organizing data by category C. A calculation that returns
a numerical value D. A user-defined value that can be used in calculations and filters
Answer: D