读数据湖仓07描述性数据

2024-10-05 07:28 由躺柒发表于 #数据库

1. 描述性数据

1.1. 基础数据中包含不同类型的数据，而不同类型数据的描述性数据也存在显著的差异

1.2. 尽管这些描述性数据存在根本性的差异，但通过描述性数据，我们可以全面了解基础数据中的数据

1.3. 通过分析基础设施中提供的描述性数据可以获得更详细的数据

1.3.1. 分析基础设施是通往详细数据的路线图
1.3.2. 描述性数据会告诉分析人员如何定位所需数据，数据的含义，并指导其组合数据

1.4. 分析人员需要从分析基础设施入手

1.4.1. 描述性数据能为各种分析人员提供帮助，包括数据科学家、业务分析人员、文员，甚至是管理人员
1.4.2. 对任何希望使用基础数据的人来说，描述性数据都是非常有用的

1.5. 数据湖仓的基础数据是非常有价值的

1.5.1. 数据湖仓中最基本的数据是集成到基础数据中的详细数据
1.5.2. 仅有详细数据是不够的，还需要描述性数据，只有将详细数据和描述性数据结合起来，才能使数据湖仓发挥最大的作用
1.5.3. 由于描述性数据描述了基础数据中的详细数据，因此分析人员可以轻松找到所需的详细数据

2. 结构化数据

2.1. 数据模型

2.1.1. 数据模型是对基础数据中结构化数据的抽象表示
2.1.2. 在实体关系图层级上，我们会定义组织的主要实体及其之间的关系
2.1.3. 实体关系图的下一层级是数据项集，用于进一步描述实体
- 2.1.3.1. 每个实体在实体关系图中都有一个对应的数据项集，其中包括键、属性以及实体之间的关系等
- 2.1.3.2. 对于每一组数据项集，我们都可以找到其物理定义，包括实际定义、键标识、属性的名称、属性的结构以及索引
2.1.4. 数据模型可以被视为对组织内结构化数据的一种抽象
- 2.1.4.1. 因为数据可能很快变得非常复杂，抽象可以使得设计师和分析人员更好地访问和分析基础数据中的数据

2.2. 元数据

2.2.1. 在对基础数据中的结构化数据进行基础设施分析时，元数据定义也是很重要的一个部分
2.2.2. 元数据类似于数据模型的物理属性
2.2.3. 元数据确实包含一些数据库管理系统(Database Management System，DBMS)特有的物理特征，这些特征并不包含在数据模型的较低层次中
2.2.4. 在物理层面上，元数据包括数据库管理系统所描述数据的实际定义，例如键、属性和索引等要素

2.3. 结构化数据转换

2.3.1. 名称转换
2.3.2. 编码转换
2.3.3. 度量单位转换
2.3.4. 货币类型转换
2.3.5. 计算转换
2.3.6. 数据选择转换

2.4. 结构化数据源

2.4.1. 在对结构化数据进行基础设施分析时，识别出结构化数据的数据源是其中非常重要的一个步骤
2.4.2. 结构化数据的起始来源是事务数据，我们可以从不同的来源收集与事务相关的数据
2.4.3. 事务数据可以来自不同的数据源
- 2.4.3.1. 银行柜员活动
- 2.4.3.2. 自动取款机活动
- 2.4.3.3. 活期存款交易
- 2.4.3.4. 航空公司订票

2.5. 数据选择标准

2.5.1. 在对结构化数据进行基础设施分析时，确定数据筛选条件是其中最重要的部分之一
2.5.2. 仅仅识别出需要使用的算法是不够的，还必须明确计算中包括和排除了哪些数据
2.5.3. 使用基础数据进行分析的分析人员需要清楚了解参与计算的数据具体有哪些

2.6. 数据定义语言

2.6.1. 数据定义语言(Data Definition Language，DDL)也是一个非常重要的部分
2.6.2. 数据定义语言用于定义与数据库管理系统相关的数据库结构
2.6.3. 数据定义语言始终包含对定义数据库有用的其他信息

2.7. 数据编码

2.7.1. 编码是指保存在数据库中的有意义的值

2.8. 数据关系

2.8.1. 应用程序支撑的关系
2.8.2. 数据库管理系统支持的关系
2.8.3. 隐含关系
2.8.4. 显式关系
2.8.5. 推理关系

2.9. 在结构化环境中，数据的上下文情境非常明确，主要体现在系统的结构中

2.9.1. 对结构化环境来说，数据的上下文情境明确且显式存在于结构化数据的元数据中
2.9.2. 在结构化环境中，数据的上下文情境由描述性数据本身的元数据提供

3. 文本数据

3.1. 支持文本数据和文本数据分析的描述性数据是一类重要的描述性数据

3.2. 文本环境并没有体现出明确的上下文情境

3.2.1. 人们不会根据上下文情境说话，也不会根据明确的上下文情境写作
3.2.2. 下文情境会隐式地嵌入语言

3.3. 文本数据中也存在上下文情境，但是文本环境中上下文情境的定义方式与结构化环境中的不同

3.3.1. 要理解文本环境中的上下文情境，有必要先消除文本的歧义
3.3.2. 在文本数据分析中，上下文情境与结构化环境中的上下文情境一样重要

3.4. 上下文情境在分析基础设施中扮演着非常重要的角色，可以帮助我们理解数据湖仓中的基础数据

3.5. 本体

3.5.1. 文本数据的描述性数据的主要组成部分是本体
3.5.2. 本体是由两个或多个相关分类标准的集合构成
3.5.3. 一般来说，本体提供对业务或学科的完整描
3.5.4. 通用本体主要包括通常使用的单词和术语，对通用术语而言，通用本体的主题并不重要
3.5.5. 行业本体则包含特定行业的术语，例如，医疗行业有医疗术语，法律行业有法律术语，会计行业有会计术语等
3.5.6. 定制本体包含企业特定的名称

3.6. 分类标准

3.6.1. 文本数据还需要熟悉分类标准
3.6.2. 分类标准仅仅是一个分类词组
3.6.3. 在分类标准中，每个单词都与其他元素具有相同的类别关
3.6.4. 分类标准是本体的一部分
3.6.5. 本体的内容是异构的，而分类标准的内容是同质的
3.6.6. 一个分类标准仅包含与该分类关系相同的分类数据
3.6.7. 与本体不同，分类标准的内容是同质的
3.6.8. 仅仅依靠本体和分类标准进行文本分析是不够的，文本分析还有很多其他要求

3.7. 关联

3.7.1. 文本消歧需要一个元素，那就是寻找隐含在文本中的业务规则
- 3.7.1.1. 这种形式的业务规则被称为关联

3.8. 上下文情境

3.8.1. 与业务规则相关的是上下文情境的处理过程，而上下文情境则是文本消歧的本体和分类标准解决方案的必要组成部分
3.8.2. 通过将本体和分类标准作为指南，可以消除许多文本的歧义，但是很多其他形式的文本并没有采用本体和分类标准
3.8.3. 法律合同和实验室报告就是典型的非自由格式文本
- 3.8.3.1. 单词的含义通常需要通过文本数据的上下文情境进行推导

3.9. 文本数据源

3.9.1. 语音对话
- 3.9.1.1. 语音对话需要进行转录，并且在此过程中往往会损失一定程度的准确性
3.9.2. 电子邮件
- 3.9.2.1. 电子邮件则依赖对垃圾邮件的过滤能力，以及清理和删除系统开销数据的能力
- 3.9.2.2. 如果不对垃圾邮件进行过滤，电子邮件流的大小将不断增长，最终难以处理
3.9.3. 印刷资料
- 3.9.3.1. 印刷资料需要通过光学字符识别进行转录，而其准确性与油墨打印的清晰度、字体以及纸张的稳定性等多种因素有关
3.9.4. 电子文本
3.9.5. 互联网
- 3.9.5.1. 互联网取决于互联网数据所在的站点，每个互联网站点都是不同的，并且会经常发生变化
3.9.6. 每一种文本数据来源都有自己的特点

4. 模拟/物联网数据

4.1. 尽管大多数机器的监测数据都不重要，但偶尔也会出现引起人们极大兴趣的模拟/物联网数据

4.2. 需要进行数据蒸馏，将乏味的数据与有趣的数据分离开

4.3. 算法

4.3.1. 蒸馏算法是一种特别有趣的算法，这种算法具有智能，可以用于判断模拟/物联网数据是否有用

4.4. 阈值

4.4.1. 除了用于分离模拟/物联网数据的算法以外，将定义的数据阈值作为参数进行进一步分析也很有意义
4.4.2. 算法的阈值决定了将记录写入访问文件的边界
4.4.3. 偶尔会出现超出正常范围的测量值，测量值可能过高或过低
- 4.4.3.1. 异常的记录将被写入访问概率较高的文件
- 4.4.3.2. 记录是否被写入则取决于所设置的算法阈值

4.5. 时间排序

4.5.1. 时间排序方法可能会采集到分析人员感兴趣的模拟/物联网数据
4.5.2. 分析人员可以为预期的、感兴趣的活动选择一个时间段，在这个时间段内发生的所有记录都会被采集
4.5.3. 与依靠预先设定阈值不同，分析人员也可以通过使用时间排序方法来监控活动

4.6. 数据源

4.6.1. 某些机器以一种速度收集数据
4.6.2. 其他机器则可能以另一种速度收集数据
4.6.3. 某些机器具有很高的精度
4.6.4. 有些机器的精度则很低
4.6.5. 采用一种测量方法来收集数据
4.6.6. 使用不同的测量方法

5. 数据血缘

5.1. 所有不同类型的数据都包含能够反映数据血缘的数据

5.2. 在组织中，数据从一个数据库流向另一个数据库是很常见的现象

5.3. 对使用数据湖仓基础数据进行工作的分析人员来说，数据血缘是非常有用的

读数据湖仓06数据集成

1. 数据湖仓中的数据集成 1.1. 数据湖仓的总体目标是为每一个人提供支持，包括从普通职员到CEO 1.2. 有了作为基础设施的基础数据，企业等组织才能实现真正的数据驱动 1.3. 提供组织所需的数据，最关键的一环在于提供集成的数据基础 1.3.1. 只将数据扔进数据湖仓就指望它能满足人们的需求是 ...阅读全文

SpringBoot项目使用yml文件链接数据库异常

SpringBoot使用properties连接数据库时没有出现问题 SpringBoot使用yml连接数据库时出现：Unable to connect to Redis 并在报错信息中出现：发现是用户或者密码出现问题通过查询知道yml是区分数据类型的，所以如果用户名或者密码是数字的话，就要注意 ...阅读全文

Redis 发布订阅模式

概述 Redis 的发布/订阅是一种消息通信模式：发送者（Pub）向频道（Channel）发送消息，订阅者（Sub）接收频道上的消息。Redis 客户端可以订阅任意数量的频道，发送者也可以向任意频道发送数据。在发送者向频道发送一条消息后，这条消息就会被发送到订阅该频道的客户端（Sub） Redis ...阅读全文

读数据湖仓05数据需要的层次

1. 业务价值 1.1. 技术和商业在这个世界上是相互交织的 1.1.1. 基础数据在商业和技术应用中是不可或缺的 1.2. 技术的存在是为了推动商业的目标和进步，并由企业出资支持 1.2.1. 当技术推动商业发展时，商业会蓬勃发展，技术也会随之繁荣 1.2.2. 当技术发展偏离这个基本模式时，它就 ...阅读全文

读数据湖仓04数据架构与数据工程

1. 大容量存储器 1.1. 几乎是到最后时刻，大容量存储器才被引入基础数据的基础设施中 1.1.1. 分析人员通常不会直接在大容量存储器中进行数据分析 1.1.2. 大容量存储器在基础数据中扮演的角色也特别重要，它能够在许多方面支持数据分析人员自由灵活地完成工作，也为数据湖仓的高效使用奠定了基础 ...阅读全文

[20240930]关于共享池-表对象在库缓存探究2.txt

[20240930]关于共享池-表对象在库缓存探究2.txt--//以前探究过sql语句在共享池存在父子游标，父游标存在堆0，子游标堆0，堆6，通过各种指针链接起来，--//父游标的堆0上保存了所有子游标的列表和各个子游标的句柄指针，子游标的堆6中保存了解析过的执行计划等解析信息。--//前几天测试 ...阅读全文

掌握Docker：简化KES单机安装与管理的最佳实践

今天我们将继续深入探讨KES的单机安装，依然围绕Docker的使用展开。这一部分的内容将涵盖一些常见的陷阱以及在遇到问题时如何进行有效的反馈和解决。首先，我们需要找到官方的安装教程，确保以官方指南为主，同时结合我们自己的使用习惯。为什么我们如此青睐Docker，而不是选择传统的命令行安装呢？在当今 ...阅读全文

YashanDB Docker镜像制作

本文作者：YashanDB中级服务工程师鲍健昕为什么需要Docker部署数据库常规使用 yasboot 部署数据库的方法，操作流程复杂，需要配置许多配置文件以及环境变量，不同用户使用的环境不同，那么环境配置也会存在差异，每当更换机器或者有新系统开发时都要就要重复不熟⼀次。使用 Docker 后 ...阅读全文

崖山数据库的共享集群机制初探

YashanDB共享集群是崖⼭数据库系统（YashanDB）的⼀个关键特性，它是⼀个单库多实例的多活数据库系统。⽤⼾可以连接到任意实例访问同⼀个数据库，多个数据库实例能够并发读写同⼀份数据，同时保证实例之间读写的强⼀致性。这种设计赋予了系统⾼可⽤性、⾼扩展性和⾼性能的特点。共享集群基于Yashan ...阅读全文

OpenGauss 安装

参考官网链接：https://docs-opengauss.osinfra.cn/zh/docs/5.0.0/docs/InstallationGuide/%E5%8D%95%E8%8A%82%E7%82%B9%E5%AE%89%E8%A3%85.html 其中安装版本为 5.0，操作系统为 ope ...阅读全文