Skip to content

Commit 547fd96

Browse files
AI Translate 04-transform to Simplified-Chinese (#2659)
* [INIT] Start translation to Simplified-Chinese * 🌐 Translate 00-querying-parquet.md to Simplified-Chinese * 🌐 Translate 00-querying-parquet.md to Simplified-Chinese * 🌐 Translate 00-querying-parquet.md to Simplified-Chinese * 🌐 Translate 00-querying-parquet.md to Simplified-Chinese * 🌐 Translate 00-querying-parquet.md to Simplified-Chinese * 🌐 Translate 00-querying-parquet.md to Simplified-Chinese * 🌐 Translate 00-querying-parquet.md to Simplified-Chinese * 🌐 Translate 00-querying-parquet.md to Simplified-Chinese --------- Co-authored-by: github-actions[bot] <github-actions[bot]@users.noreply.github.com> Co-authored-by: z <[email protected]>
1 parent c321822 commit 547fd96

File tree

9 files changed

+102
-104
lines changed

9 files changed

+102
-104
lines changed

.translation-init

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1 +1 @@
1-
Translation initialization: 2025-08-07T10:11:49.993149
1+
Translation initialization: 2025-08-07T11:49:53.390350

docs/cn/guides/40-load-data/04-transform/00-querying-parquet.md

Lines changed: 7 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -1,5 +1,5 @@
11
---
2-
title: 查询暂存区中的 Parquet 文件
2+
title: 查询暂存区(Stage)中的 Parquet 文件
33
sidebar_label: Parquet
44
---
55

@@ -12,9 +12,9 @@ sidebar_label: Parquet
1212

1313
## 教程
1414

15-
### 步骤 1:创建外部暂存区(Stage)
15+
### 第 1 步:创建外部暂存区(Stage)
1616

17-
使用您自己的 S3 存储桶和凭据创建一个外部暂存区(Stage),用于存放 Parquet 文件
17+
使用你自己的 S3 存储桶和凭据创建一个外部暂存区(Stage),你的 Parquet 文件就存储在该存储桶中
1818
```sql
1919
CREATE STAGE parquet_query_stage
2020
URL = 's3://load/parquet/'
@@ -24,14 +24,14 @@ CONNECTION = (
2424
);
2525
```
2626

27-
### 步骤 2:创建自定义 Parquet 文件格式
27+
### 第 2 步:创建自定义 Parquet 文件格式
2828

2929
```sql
3030
CREATE FILE FORMAT parquet_query_format TYPE = PARQUET;
3131
```
3232
- 更多 Parquet 文件格式选项,请参阅 [Parquet 文件格式选项](/sql/sql-reference/file-format-options#parquet-options)
3333

34-
### 步骤 3:查询 Parquet 文件
34+
### 第 3 步:查询 Parquet 文件
3535

3636
按列名查询:
3737

@@ -57,9 +57,9 @@ FROM @parquet_query_stage
5757
```
5858

5959

60-
### 查询元数据(Metadata)
60+
### 查询元数据
6161

62-
直接从暂存区(Stage)查询 Parquet 文件,并包含 `METADATA$FILENAME``METADATA$FILE_ROW_NUMBER` 等元数据(Metadata)列
62+
直接从暂存区(Stage)查询 Parquet 文件,包括 `METADATA$FILENAME``METADATA$FILE_ROW_NUMBER` 等元数据列
6363

6464
```sql
6565
SELECT

docs/cn/guides/40-load-data/04-transform/01-querying-csv.md

Lines changed: 9 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -1,5 +1,5 @@
11
---
2-
title: 查询暂存区中的 CSV 文件
2+
title: 查询暂存区(Stage)中的 CSV 文件
33
sidebar_label: CSV
44
---
55

@@ -10,9 +10,9 @@ sidebar_label: CSV
1010

1111
## 教程
1212

13-
### 步骤 1:创建外部暂存区
13+
### 步骤一:创建外部暂存区(Stage)
1414

15-
创建一个外部暂存区(Stage),并配置你的 S3 存储桶和凭证,CSV 文件存储在该位置
15+
创建一个外部暂存区(Stage),并配置您自己的 S3 存储桶和凭证,CSV 文件就存储在该存储桶中
1616
```sql
1717
CREATE STAGE csv_query_stage
1818
URL = 's3://load/csv/'
@@ -22,7 +22,7 @@ CONNECTION = (
2222
);
2323
```
2424

25-
### 步骤 2:创建自定义 CSV 文件格式
25+
### 步骤二:创建自定义 CSV 文件格式
2626

2727
```sql
2828
CREATE FILE FORMAT csv_query_format
@@ -33,9 +33,9 @@ CREATE FILE FORMAT csv_query_format
3333
SKIP_HEADER = 1; -- 如果 CSV 文件包含表头,查询时跳过第一行
3434
```
3535

36-
- 更多 CSV 文件格式选项,请参考 [CSV 文件格式选项](/sql/sql-reference/file-format-options#csv-options)
36+
- 更多 CSV 文件格式选项,请参阅 [CSV 文件格式选项](/sql/sql-reference/file-format-options#csv-options)
3737

38-
### 步骤 3:查询 CSV 文件
38+
### 步骤三:查询 CSV 文件
3939

4040
```sql
4141
SELECT $1, $2, $3
@@ -46,7 +46,7 @@ FROM @csv_query_stage
4646
);
4747
```
4848

49-
如果 CSV 文件使用 gzip 压缩,我们可以使用以下查询
49+
如果 CSV 文件使用 gzip 压缩,可使用以下查询
5050

5151
```sql
5252
SELECT $1, $2, $3
@@ -56,9 +56,9 @@ FROM @csv_query_stage
5656
PATTERN => '.*[.]csv[.]gz'
5757
);
5858
```
59-
### 查询元数据
59+
### 查询并包含元数据
6060

61-
直接从暂存区(Stage)查询 CSV 文件,包括 `METADATA$FILENAME``METADATA$FILE_ROW_NUMBER` 等元数据列:
61+
直接从暂存区(Stage)查询 CSV 文件,并包含 `METADATA$FILENAME``METADATA$FILE_ROW_NUMBER` 等元数据列:
6262

6363
```sql
6464
SELECT

docs/cn/guides/40-load-data/04-transform/02-querying-tsv.md

Lines changed: 6 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -11,9 +11,9 @@ sidebar_label: TSV
1111

1212
## 教程
1313

14-
### 步骤 1:创建外部暂存区
14+
### 第 1 步:创建外部暂存区
1515

16-
使用您自己的 S3 存储桶和凭据创建一个外部暂存区(Stage),其中存放了您的 TSV 文件
16+
创建一个外部暂存区(Stage),并配置你的 S3 存储桶和凭据,你的 TSV 文件存储在该位置
1717
```sql
1818
CREATE STAGE tsv_query_stage
1919
URL = 's3://load/tsv/'
@@ -23,7 +23,7 @@ CONNECTION = (
2323
);
2424
```
2525

26-
### 步骤 2:创建自定义 TSV 文件格式
26+
### 第 2 步:创建自定义 TSV 文件格式
2727

2828
```sql
2929
CREATE FILE FORMAT tsv_query_format
@@ -35,7 +35,7 @@ CREATE FILE FORMAT tsv_query_format
3535

3636
- 更多 TSV 文件格式选项,请参阅 [TSV 文件格式选项](/sql/sql-reference/file-format-options#tsv-options)
3737

38-
### 步骤 3:查询 TSV 文件
38+
### 第 3 步:查询 TSV 文件
3939

4040
```sql
4141
SELECT $1, $2, $3
@@ -46,7 +46,7 @@ FROM @tsv_query_stage
4646
);
4747
```
4848

49-
如果 TSV 文件使用 gzip 压缩,可以使用以下查询
49+
如果 TSV 文件使用 gzip 压缩,我们可以使用以下查询
5050

5151
```sql
5252
SELECT $1, $2, $3
@@ -58,7 +58,7 @@ FROM @tsv_query_stage
5858
```
5959
### 查询元数据
6060

61-
直接从暂存区(Stage)查询 TSV 文件,并包含 `METADATA$FILENAME``METADATA$FILE_ROW_NUMBER` 等元数据列:
61+
直接从暂存区(Stage)查询 TSV 文件,包括 `METADATA$FILENAME``METADATA$FILE_ROW_NUMBER` 等元数据列:
6262

6363
```sql
6464
SELECT

docs/cn/guides/40-load-data/04-transform/03-querying-ndjson.md

Lines changed: 18 additions & 18 deletions
Original file line numberDiff line numberDiff line change
@@ -1,13 +1,13 @@
11
---
2-
title: 查询暂存区(Stage)中的 NDJSON 文件
2+
title: 查询暂存区中的 NDJSON 文件
33
sidebar_label: NDJSON
44
---
55

6-
在 Databend 中,你可以直接查询存储在暂存区(Stage)中的 NDJSON 文件,而无需先将数据加载到表中。这种方法对于数据探索、ETL 处理和即席分析场景特别有用
6+
在 Databend 中,你可以直接查询存储在暂存区(Stage)中的 NDJSON 文件,而无需先将数据加载到表中。这种方法在数据探索、ETL 处理及即席分析等场景尤为实用
77

88
## 什么是 NDJSON?
99

10-
NDJSON(Newline Delimited JSON,换行符分隔的 JSON)是一种基于 JSON 的文件格式,其中每一行都包含一个完整且有效的 JSON 对象。这种格式特别适合流式数据处理和大数据分析
10+
NDJSON(Newline Delimited JSON,换行分隔 JSON)是一种基于 JSON 的文件格式,其中每一行都是一个完整且有效的 JSON 对象。该格式特别适合流式数据处理与大数据分析
1111

1212
**NDJSON 文件内容示例:**
1313
```json
@@ -17,9 +17,9 @@ NDJSON(Newline Delimited JSON,换行符分隔的 JSON)是一种基于 JSON
1717
```
1818

1919
**NDJSON 的优势:**
20-
- **流式友好**可以逐行解析,无需将整个文件加载到内存中
21-
- **兼容大数据**:广泛用于日志文件、数据导出和 ETL Pipeline
22-
- **易于处理**每一行都是一个独立的 JSON 对象,支持并行处理。
20+
- **流式友好**可逐行解析,无需将整个文件加载到内存
21+
- **兼容大数据**:广泛用于日志文件、数据导出及 ETL 流水线
22+
- **易于处理**每行均为独立 JSON 对象,支持并行处理。
2323

2424
## 语法
2525

@@ -28,9 +28,9 @@ NDJSON(Newline Delimited JSON,换行符分隔的 JSON)是一种基于 JSON
2828

2929
## 教程
3030

31-
### 步骤 1. 创建外部暂存区(Stage)
31+
### 步骤 1. 创建外部暂存区
3232

33-
使用你自己的 S3 存储桶和凭据创建一个外部暂存区(Stage),你的 NDJSON 文件存储在该位置
33+
使用你自己的 S3 存储桶和凭据创建外部暂存区,用于存放 NDJSON 文件
3434
```sql
3535
CREATE STAGE ndjson_query_stage
3636
URL = 's3://load/ndjson/'
@@ -48,11 +48,11 @@ CREATE FILE FORMAT ndjson_query_format
4848
COMPRESSION = AUTO;
4949
```
5050

51-
- 更多 NDJSON 文件格式选项,请参考 [NDJSON 文件格式选项](/sql/sql-reference/file-format-options#ndjson-options)
51+
- 更多 NDJSON 文件格式选项请参考 [NDJSON 文件格式选项](/sql/sql-reference/file-format-options#ndjson-options)
5252

5353
### 步骤 3. 查询 NDJSON 文件
5454

55-
现在,你可以直接从暂存区(Stage)查询 NDJSON 文件。此示例从每个 JSON 对象中提取 `title``author` 字段:
55+
现在可直接从暂存区查询 NDJSON 文件。以下示例从每个 JSON 对象中提取 `title``author` 字段:
5656

5757
```sql
5858
SELECT $1:title, $1:author
@@ -63,15 +63,15 @@ FROM @ndjson_query_stage
6363
);
6464
```
6565

66-
**说明**
67-
- `$1:title` `$1:author`:从 JSON 对象中提取特定字段。`$1` 代表整个 JSON 对象(作为 Variant 类型),`:field_name` 用于访问单个字段。
68-
- `@ndjson_query_stage`引用在步骤 1 中创建的外部暂存区(Stage)
69-
- `FILE_FORMAT => 'ndjson_query_format'`使用在步骤 2 中定义的自定义文件格式。
70-
- `PATTERN => '.*[.]ndjson'`:匹配所有以 `.ndjson` 结尾的文件的正则表达式(Regex)模式
66+
**解释**
67+
- `$1:title` `$1:author`:从 JSON 对象中提取特定字段。`$1` 表示整个 JSON 对象(Variant 类型),`:field_name` 用于访问单个字段。
68+
- `@ndjson_query_stage`引用步骤 1 中创建的外部暂存区。
69+
- `FILE_FORMAT => 'ndjson_query_format'`使用步骤 2 中定义的自定义文件格式。
70+
- `PATTERN => '.*[.]ndjson'`正则表达式,匹配所有以 `.ndjson` 结尾的文件
7171

7272
### 查询压缩文件
7373

74-
如果 NDJSON 文件使用 gzip 进行了压缩,请修改模式以匹配压缩文件
74+
NDJSON 文件使用 gzip 压缩,请将模式修改为匹配压缩文件
7575

7676
```sql
7777
SELECT $1:title, $1:author
@@ -82,10 +82,10 @@ FROM @ndjson_query_stage
8282
);
8383
```
8484

85-
**主要区别** 模式 `.*[.]ndjson[.]gz` 匹配以 `.ndjson.gz` 结尾的文件。由于文件格式中设置了 `COMPRESSION = AUTO`,Databend 会在查询执行期间自动解压 gzip 文件。
85+
**关键区别** 模式 `.*[.]ndjson[.]gz` 匹配以 `.ndjson.gz` 结尾的文件。由于文件格式中设置了 `COMPRESSION = AUTO`,Databend 会在查询执行期间自动解压 gzip 文件。
8686

8787
## 相关文档
8888

8989
- [加载 NDJSON 文件](../03-load-semistructured/03-load-ndjson.md) - 如何将 NDJSON 数据加载到表中
9090
- [NDJSON 文件格式选项](/sql/sql-reference/file-format-options#ndjson-options) - 完整的 NDJSON 格式配置
91-
- [CREATE STAGE](/sql/sql-commands/ddl/stage/ddl-create-stage) - 管理外部和内部暂存区(Stage)
91+
- [CREATE STAGE](/sql/sql-commands/ddl/stage/ddl-create-stage) - 管理外部和内部暂存区

docs/cn/guides/40-load-data/04-transform/04-querying-avro.md

Lines changed: 14 additions & 14 deletions
Original file line numberDiff line numberDiff line change
@@ -1,5 +1,5 @@
11
---
2-
title: 查询暂存区中的 Avro 文件
2+
title: 在 Stage 中查询 Avro 文件
33
sidebar_label: Avro
44
---
55

@@ -10,19 +10,19 @@ sidebar_label: Avro
1010

1111
## Avro 查询功能概述
1212

13-
Databend 全面支持直接从暂存区(Stage查询 Avro 文件,无需先将数据加载到表中,即可灵活地进行数据探索与转换
13+
Databend 全面支持直接从 Stage 查询 Avro 文件,无需先将数据加载到表中即可灵活地进行数据探索与转换
1414

15-
* **Variant 表示**:Avro 文件中的每一行都被视为一个 Variant(Variant),通过 `$1` 引用,可灵活访问 Avro 数据中的嵌套结构。
15+
* **Variant 表示**:Avro 文件中的每一行都被视为一个 Variant(变体类型),通过 `$1` 引用,从而灵活访问 Avro 数据中的嵌套结构。
1616
* **类型映射**:每个 Avro 类型都会映射到 Databend 中对应的 Variant 类型。
1717
* **元数据访问**:可访问 `METADATA$FILENAME``METADATA$FILE_ROW_NUMBER` 等元数据列,获取源文件及行的额外上下文信息。
1818

1919
## 教程
2020

21-
本教程演示如何查询存储在暂存区中的 Avro 文件。
21+
本教程演示如何查询存储在 Stage 中的 Avro 文件。
2222

23-
### 第 1 步:准备 Avro 文件
23+
### 步骤 1. 准备 Avro 文件
2424

25-
假设有一个名为 `user` 的 Avro 文件,其模式如下
25+
假设有一个名为 `user` 的 Avro 文件,其 Schema 如下
2626

2727
```json
2828
{
@@ -41,9 +41,9 @@ Databend 全面支持直接从暂存区(Stage)查询 Avro 文件,无需先
4141
}
4242
```
4343

44-
### 第 2 步:创建外部暂存区
44+
### 步骤 2. 创建外部 Stage
4545

46-
使用你自己的 S3 存储桶和凭据创建外部暂存区(External Stage,用于存放 Avro 文件。
46+
使用您自己的 S3 存储桶和凭证创建外部 Stage,用于存放 Avro 文件。
4747

4848
```sql
4949
CREATE STAGE avro_query_stage
@@ -54,11 +54,11 @@ CONNECTION = (
5454
);
5555
```
5656

57-
### 第 3 步:查询 Avro 文件
57+
### 步骤 3. 查询 Avro 文件
5858

5959
#### 基础查询
6060

61-
直接从暂存区查询 Avro 文件:
61+
直接从 Stage 查询 Avro 文件:
6262

6363
```sql
6464
SELECT
@@ -73,7 +73,7 @@ FROM @avro_query_stage
7373

7474
### 带元数据的查询
7575

76-
直接从暂存区查询 Avro 文件,并包含 `METADATA$FILENAME``METADATA$FILE_ROW_NUMBER` 等元数据列:
76+
直接从 Stage 查询 Avro 文件,并包含 `METADATA$FILENAME``METADATA$FILE_ROW_NUMBER` 等元数据列:
7777

7878
```sql
7979
SELECT
@@ -90,8 +90,8 @@ FROM @avro_query_stage
9090

9191
## 类型映射到 Variant
9292

93-
Databend 中的 Variant 以 JSONB 形式存储。大多数 Avro 类型可直接映射,但需注意以下特殊情况:
93+
Databend 中的 Variant 以 JSONB 存储。大多数 Avro 类型可直接映射,但需注意以下特殊情况:
9494

95-
* **时间类型**`TimeMillis``TimeMicros` 映射为 `INT64`,因为 JSONB 没有原生时间类型;处理这些值时请注意其原始类型
95+
* **时间类型**`TimeMillis``TimeMicros` 映射为 `INT64`,因为 JSONB 没有原生时间类型,处理时需留意原始类型
9696
* **Decimal 类型**:Decimal 加载为 `DECIMAL128``DECIMAL256`;若精度超出支持范围,将报错。
97-
* **Enum 类型**:Avro `ENUM` 类型在 Databend 中映射为 `STRING` 值。
97+
* **枚举类型**:Avro `ENUM` 类型在 Databend 中映射为 `STRING` 值。

docs/cn/guides/40-load-data/04-transform/05-querying-orc.md

Lines changed: 5 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -2,7 +2,6 @@
22
title: 查询暂存区(Stage)中的 ORC 文件
33
sidebar_label: ORC
44
---
5-
65
import StepsWrap from '@site/src/components/StepsWrap';
76
import StepContent from '@site/src/components/Steps/step-content';
87

@@ -14,7 +13,7 @@ import StepContent from '@site/src/components/Steps/step-content';
1413

1514
## 教程
1615

17-
在本教程中,我们将带你完成以下步骤:下载 ORC 格式的 Iris 数据集、将其上传到 Amazon S3 存储桶创建外部暂存区(Stage),并直接从 ORC 文件查询数据。
16+
在本教程中,我们将带你完成以下步骤:下载 ORC 格式的 Iris 数据集,上传到 Amazon S3 存储桶创建外部暂存区(Stage),并直接从 ORC 文件查询数据。
1817

1918
<StepsWrap>
2019
<StepContent number="1">
@@ -23,14 +22,14 @@ import StepContent from '@site/src/components/Steps/step-content';
2322

2423
https://github.com/tensorflow/io/raw/master/tests/test_orc/iris.orc 下载 iris 数据集,然后上传到你的 Amazon S3 存储桶。
2524

26-
iris 数据集包含 3 个类别,每个类别 50 条记录,每个类别对应一种鸢尾花。数据集共有 4 个属性:(1)花萼长度,(2)花萼宽度,(3)花瓣长度,(4)花瓣宽度最后一列为类别标签。
25+
iris 数据集包含 3 个类别,每类 50 条记录,分别对应一种鸢尾花。共有 4 个属性:(1)花萼长度,(2)花萼宽度,(3)花瓣长度,(4)花瓣宽度最后一列为类别标签。
2726

2827
</StepContent>
2928
<StepContent number="2">
3029

3130
### 创建外部暂存区(Stage)
3231

33-
使用存放 iris 数据集文件的 Amazon S3 存储桶创建外部暂存区(Stage)。
32+
使用存储 iris 数据集的 Amazon S3 存储桶创建外部暂存区(Stage)。
3433

3534
```sql
3635
CREATE STAGE orc_query_stage
@@ -57,7 +56,7 @@ FROM @orc_query_stage
5756
);
5857

5958
┌──────────────────────────────────────────────────────────────────────────────────────────────────┐
60-
sepal_lengthsepal_widthpetal_lengthpetal_widthspecies
59+
花萼长度 花萼宽度 花瓣长度 花瓣宽度 种类
6160
├───────────────────┼───────────────────┼───────────────────┼───────────────────┼──────────────────┤
6261
5.13.51.40.2 │ setosa │
6362
│ · │ · │ · │ · │ · │
@@ -73,11 +72,10 @@ FROM @orc_query_stage
7372
(
7473
FILE_FORMAT => 'orc',
7574
PATTERN => '.*[.]orc'
76-
7775
);
7876
```
7977

80-
你也可以直接查询远程 ORC 文件:
78+
也可以直接查询远程 ORC 文件:
8179

8280
```sql
8381
SELECT

0 commit comments

Comments
 (0)