Memo/AmazonWebServices/Athena

Athena

Athena †

Amazon Athena – サーバーレスのインタラクティブなクエリサービス – AWS
- S3のログをSQLで検索できるようになる。
- スキャンしたデータ量よって課金されるため、圧縮、パーティショニング等を行わないと、クラウド破産する恐れあり

記事
- AWS入門ブログリレー2024〜 Amazon Athena 編〜 | DevelopersIO

↑

Google Sheetsとの連携 †

例:

Athenaの分析結果をスプレッドシートに変換しメール配信する仕組みを作った話
- EventBridge -> Step FunctionsからAthenaを実行し、結果をGoogle Sheetsへ

AthenaからGoogle スプレッドシートへの連携 #AWS - Qiita
- どこかのホスト上でpython実行(Athenaを実行, 結果をGoogle Sheetsへ)

↑

クエリ実行結果の保存先にAWSマネージドストレージを指定する †

クエリ結果と最近のクエリを操作する - Amazon Athena

記事:

[アップデート] Amazon Athenaのクエリ実行結果の保存先にAWSマネージドストレージを指定できるようになりました | DevelopersIO
200MB以上の大きいサイズのクエリ実行結果がダウンロードできない、クエリ結果は24時間後に削除されるなど、制約や制限もあります。

↑

IPからGeo location(経度、緯度)情報の変換 †

AWS Athena: GEO IP Lookups | outcoldman
- Lambdaで該当サイトから、csvダウンロードしてs3に配置
- s3上のcsvをathena datasourceにしてathenaで検索

↑

Federated query(横串検索): Lambda経由でRDS等をデータソースとして登録してAthenaで検索 †

Athena query -> Athena DataSource (Lambda + JDBC) -> RDS -> S3へ出力

Amazon Athena 横串検索の使用 - Amazon Athena
- Amazon Athena MySQL コネクタ - Amazon Athena
- Amazon Athena PostgreSQL コネクタ - Amazon Athena

AWS Serverless Application Repositoryに登録されたLambda Applications (CloudFormation)を実行してリソースが作られる
- 例えば、直接Lambdaのenvironmentを変更しても、Lambda Applications (CloudFormation)を再実行すると消える。

2024-08: PostgreSQLで1台のRDSに複数のDBがある場合
- デフォルトの"arn:aws:serverlessrepo:us-east-1:292517598671:applications/AthenaPostgreSQLConnector"では、1つのDBにしか接続できない。
- これは今のTemplateが複数のDB接続に対応していないだけ。[QUESTION] aws_serverlessapplicationrepository_cloudformation_stack · Issue #418 · awslabs/aws-athena-query-federation · GitHub

athena datasourceの名前と、Lambdaのenvironmentに追加する変数名に規則性がある

# athena datasource name:
rds1_db1
rds1_db2

# Lambda environment:
rds1_db1_connection_string: postgres://jdbc:postgresql://.../db1
rds1_db2_connection_string: postgres://jdbc:postgresql://.../db2

Lambda Applications Templateをコピーして、新しいTemplateをserverlessrepoに登録。DBの数分変数を追加する必要がある。公開しなければprivateのまま

Parameters:
...
  ConnectionString1:
    Description: 'ConnectionString1'
    Type: String
  ConnectionString2:
    Description: 'ConnectionString2'
    Type: String
...
Resources:
  JdbcConnectorConfig:
    Type: AWS::Serverless::Function
    Properties:
      Environment:
        Variables:
...
          rds1_db1_connection_string:
            Ref: ConnectionString1
          rds1_db2_connection_string:
            Ref: ConnectionString2

↑

DBカラム名にハイフン等が入っている場合、値が表示されない †

問題:

例: DBカラム名が "col-name" のようにDBカラムで使えない文字("-",":")が入ってると、SQLで値が表示されない。DBカラム名と、実際のS3上のデータカラム名が異なってもエラーにはならない。

解決:

SERDEPROPERTIES で「"mapping.col_name" = "col-name"」のように定義する
Create Tables in Amazon Athena from Nested JSON and Mappings Using JSONSerDe | AWS Big Data Blog

WITH SERDEPROPERTIES (
  "mapping.ses_configurationset"="ses:configuration-set",
  "mapping.ses_source_ip"="ses:source-ip", 
  "mapping.ses_from_domain"="ses:from-domain", 
  "mapping.ses_caller_identity"="ses:caller-identity"
  )

↑

UNNEST(): ネストされた配列のフラット化 †

ネストされた配列のフラット化 - Amazon Athena

aws_accounts.json

{
  "aws_accounts": [
    {
      "id": "123456789012",
      "name": "myaccount1",
      "profile": "account1"
    }
  ]
}

athena table

CREATE EXTERNAL TABLE IF NOT EXISTS aws_account (
  aws_accounts array<
    struct<
       id: string,
       name: string,
       profile: string
     >
    >
  )
COMMENT 'aws_account table for s3://example bucket'
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
LOCATION 's3://athena-bucket/id=aws_accounts/json';

athena query. id, profileのみを抽出

SELECT
 cols.id,
 cols.profile
FROM aws_account,
UNNEST(aws_accounts) t(cols)

↑

縦横変換(pivot/unpivot) †

map_agg(key, value) as kvを作成後、select kv['colmun'] のように取り出す。
- デメリット: 列名が固定。列が可変の場合、SQLだけで動的に列を増減させるのが難しい

記事:

SQL で縦横変換まとめ（pivot と unpivot） - Qiita

例: AWS billing (CUR)から、月別/サービス別のコストを抽出。サービスを行、月を列に変換。

WITH t1 AS (
SELECT 
  bill_billing_period_start_date AS TIME,
  'Total' AS product,
  SUM(line_item_blended_cost) AS cost
FROM cost.monthly
WHERE
  bill_billing_period_start_date BETWEEN TIMESTAMP '2023-07-01 00:00:00' AND TIMESTAMP '2023-09-30 23:59:59'
GROUP BY 1
UNION ALL
SELECT 
  bill_billing_period_start_date AS TIME,
  line_item_product_code AS product,
  SUM(line_item_blended_cost) AS cost
FROM cost.monthly
WHERE
  bill_billing_period_start_date BETWEEN TIMESTAMP '2023-07-01 00:00:00' AND TIMESTAMP '2023-09-30 23:59:59'
GROUP BY 1, 2
),
t2 AS (
SELECT
  TIME,
  map_agg(product, cost) AS kv_product
FROM t1
GROUP BY TIME
)
SELECT
  t2.time,
  t2.kv_product['Total'] AS Total,
  t2.kv_product['AmazonEC2'] AS AmazonEC2,
  t2.kv_product['AmazonRDS'] AS AmazonRDS,
  t2.kv_product['AmazonS3'] AS AmazonS3

FROM t2
ORDER BY t2.time

↑

トラブルシューティング †

Amazon Athena の JSON エラーを解決する | AWS re:Post
- jsonが壊れてる場合、以下のオプションを追加して無視する
```
WITH SERDEPROPERTIES ( 'ignore.malformed.json' = 'true')
```

空白行を返す場合:

Amazon Athena パースができず空白行になった原因のデータファイルを特定する | DevelopersIO
ログにカラムが増えていないか？ALBは増えた
- Querying Application Load Balancer logs - Amazon Athena
正規表現が間違っていないか？
- https://rubular.com/ で検証

記事:

Athenaで Row is not a valid JSON Object - JSONException: Duplicate key - Qiita

↑

terraformで管理する †

terraformのnamed_queryは保存するだけで、実行はされない。terraform applyでquery実行も行いたい場合

resource "aws_athena_named_query" "create_table1" {
  name      = "[example] select from table1"
  description = "terraform managed:"
  workgroup = aws_athena_workgroup.main.id
  database  = aws_athena_database.main.id
  query     = <<EOT
CREATE EXTERNAL TABLE IF NOT EXISTS table1 ( ... );
EOT
}

locals {
  create_table_query = [
    aws_athena_named_query.create_table1.query,
  ]
}

resource "null_resource" "exec_create_table_query" {
  for_each = toset(local.create_table_query)
  provisioner "local-exec" {
    command = <<-EOF
      aws athena start-query-execution \
        --work-group "${aws_athena_workgroup.main.id}" \
        --query-execution-context Database="${aws_athena_database.main.id}" \
        --query-string "${replace(replace(replace(replace(each.value, "`", "\\`"), "\"", "\\\""), "$", "\\$"), "\\\\\"", "\\\"")}" \
        --profile ${var.aws_profile} \
        --region ${var.aws_region}
    EOF
  }
}

不具合: query「\"([^ ]*)」の場合、「\\\\"([^ ]*)」でエラーになるのでreplace()を追加。
```
replace(..., "\\\\\"", "\\\"")
```
同じqueryは変更しても再実行されないので、create table等を再実行したい場合
```
terraform state rm null_resource.<name>
terraform apply
```

記事:

Terraform＋Amazon Athenaで快適なログ集計の準備をする - Qiita

↑

INSERT INTO: 結果を別s3 bucketに出力 †

INSERT INTO - Amazon Athena
- SQLを使って、出力先s3 bucketに対して、json, csv, tsv他フォーマットで出力できる。

記事:

Amazon Athena がついにINSERT INTOをサポートしたので実際に試してみました！｜ DevelopersIO

↑

パフォーマンスチューニング †

Athena でのパフォーマンスのチューニング - Amazon Athena

記事:

Amazon Athena のパフォーマンスチューニング Tips トップ 10 | Amazon Web Services ブログ

↑

クエリサンプル †

正規表現で文字列を抽出。例：urlの「/id/abc123」から「abc123」を抽出
```
regexp_extract(url, '/id/([\w]+)/', 1)
```

ARRAY[] 配列型

テーブル内のデータが「{key=val,...」と表示される場合(CREATE TABLE STRUCT name: STRING,...)。既にAthenaのデータ型として認識しているので、「column.key」で参照できる
```
SELECT dataset.name, ...
```

テーブル内のデータが「{key:val,...」と表示される場合。jsonが文字列として認識しているので、json_extract(blob, key)で参照する
```
SELECT json_extract(BLOB, '$.name') AS name
```

rank()
- 順位を付ける
- ただし、パフォーマンスチューニングには使用は最小限にすると記載がある。

with

長いselectを分割して書ける

WITH t1 AS (
  SELECT * FROM a
)

SELECT t1.* FROM t1

記事:

↑

$path: 検索対象のs3 objectを表示する †

"$path" : s3 objectを返す

SELECT "$path" FROM db WHERE DATE='2022/08/01'

記事:

Athena テーブルの行のソースファイルを見つける

↑

S3上にパーティション無しで配置したobjectにパーティションを付ける †

検索対象のs3 objectを並べた「symlink.txt」を用意する
symlink.txtをs3 bucketにアップロード。データがあるs3 bucketとは別で良い

create tableで、symlinkを読むオプションを指定

STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.SymlinkTextInputFormat'

tableにロードする
```
msck repair TABLE <db>.<table>;
```
queryを実行

記事
- S3にフラットに配置してしまったログも大丈夫！シンボリックリンクを利用してスキャン範囲を絞ってAthenaからクエリする | DevelopersIO

↑

Athena engine v2 †

記事
- [Update] Amazon Athena engine version 2がリリース、Federated queriesやGeospatial functions等の新機能、パフォーマンスが改善されました | Developers.IO

↑

Apache Parquet型式: 列指向、バイナリフォーマット †

parquet-cli でファイルの中身も読めた。

例: AWS CURのsqlスキーマは自動生成されている

aws --profile <example> s3 cp s3://<example>/athena/monthly/20231001-20231101/monthly-create-table.sql - | grep resource_tags

記事
- Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | Developers.IO

↑

SendGridのActivityを検索 †

記事
- SendGridのEmail ActivityをS3に保存してAthenaでクエリする | Developers.IO

↑

データ型とクエリ †

Amazon Athena でサポートされているデータ型 - Amazon Athena
Amazon Athena の Presto 関数 - Amazon Athena
- クエリエンジンは Presto 0.172 準拠

記事
- Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita
- Athenaでデータ抽出するときによく使う関数まとめ - Qiita

↑

UNDO: 任意のs3 bucketと形式で出力 †

workgroupで設定した出力s3 bucketの形式はCSV固定。
任意のs3 bucketや指定形式で出力したい場合。

UNLOAD - Amazon Athena
- デフォルトの圧縮: gz形式

TSV形式

UNLOAD (SELECT * FROM "example"."user") 
TO 's3://example/user/tsv/' 
WITH (format = 'TEXTFILE', field_delimiter = '\t')

パーティション指定。select で指定したカラム名=valueがs3 object pathに追加される。

s3://example/user/tsv/year=?/month=?/day=?/

UNLOAD (SELECT id, name, YEAR, MONTH, DAY FROM "example"."user") 
TO 's3://example/user/tsv/' 
WITH (format = 'TEXTFILE', field_delimiter = '\t', partitioned_by = ARRAY['year','month','day'])

記事
- [新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました！ | DevelopersIO
- AthenaのUNLOADとPREPAREでパラメータ化したクエリを組み合わせCSVをParquetに変換してみる - YOMON8.NET

↑

VALUES: インラインテーブル †

10.52. VALUES — Presto 0.240 Documentation

簡単なサンプルデータとして便利そう

SELECT * FROM (
    VALUES
        (1, 'a'),
        (2, 'b'),
        (3, 'c')
) AS t (id, name)

↑

パーティション指定 †

以下のようなパーティションはSQL内では文字列として扱われる

s3:/bucket/prefix/id=<id>/dt=<YYYY>-<MM>-<DD>/file.csv.gz
s3:/bucket/prefix/id=<id>/dt=<YYYY>-<MM>-<DD>-<HH>/file.csv.gz
s3:/bucket/prefix/id=<id>/year=<YYYY>/month=<MM>/day=<DD>/file.csv.gz

「year=<YYYY>/month=<MM>/day=<DD>/hour=<HH>/」形式のパーティションで、日付の範囲指定。string型で動作した
```
SELECT *
FROM t
WHERE
  t.year || t.month || t.day || t.hour
  BETWEEN '2022080100' AND '2022080200'
```

「year=<YYYY>/month=<MM>/day=<DD>/」形式のパーティションで、日付の範囲指定。1日前～7日前まで。

SELECT *
FROM t
WHERE concat(t.year, t.month, t.day)
  BETWEEN date_format(CURRENT_TIMESTAMP AT TIME ZONE 'Asia/Tokyo' - INTERVAL '7' DAY, '%Y%m%d')
  AND date_format(CURRENT_TIMESTAMP AT TIME ZONE 'Asia/Tokyo' - INTERVAL '1' DAY, '%Y%m%d')

↑

ALB/ELBログの分析 †

見たいメトリクスが、CloudWatchメトリクスにある場合は、そちらを見た方が良い
条件を指定したり、ログにしか無いメトリクスを見たい場合に有効
ログのカラムは増える事があるのでAWS docを確認
- Querying Application Load Balancer logs - Amazon Athena

記事
- Athena を使用してロードバランサーのログを分析する
- 今さらだけど、AWS ELBのログをAthenaで解析(2) 毎時/毎分/5分ごとの集計 - Qiita

ALB/ELBのログの日付フォーマット: iso8601
- ALBの日付列: time
- ELBの日付列: timestamp
```
2018-12-24T02:34:48.895006Z
```

文字列のままで扱う場合: substr()

毎時

SELECT
  substr(TIME,1,13) || ':00:00Z' AS time_hour,
  COUNT(elb) AS request_count
FROM example.alb_logs
WHERE DATE = format_datetime(now() - INTERVAL '1' DAY,'YYYY/MM/dd')
GROUP BY substr(TIME,1,13)
ORDER BY time_hour ASC;

毎分

SELECT
  substr(TIME,1,16) || ':00Z' AS time_min,
  COUNT(elb) AS request_count
FROM example.alb_logs
WHERE DATE = format_datetime(now() - INTERVAL '1' DAY,'YYYY/MM/dd')
GROUP BY substr(TIME,1,16)
ORDER BY time_min ASC;

日付へ変換する場合: date_trunc() + from_iso8601_timestamp()

毎時

SELECT
  date_trunc('hour', from_iso8601_timestamp(TIME)) AS time_hour,
  COUNT(elb) AS request_count
FROM example.alb_logs
WHERE DATE = format_datetime(now() - INTERVAL '1' DAY,'YYYY/MM/dd')
GROUP BY date_trunc('hour', from_iso8601_timestamp(TIME))
ORDER BY time_hour ASC;

毎分

SELECT
  date_trunc('minute', from_iso8601_timestamp(TIME)) AS time_min,
  COUNT(elb) AS request_count
FROM example.alb_logs
WHERE DATE = format_datetime(now() - INTERVAL '1' DAY,'YYYY/MM/dd')
GROUP BY date_trunc('minute', from_iso8601_timestamp(TIME))
ORDER BY time_min ASC;

↑

日付と時刻 †

6.10. Date and Time Functions and Operators — Presto 0.172 Documentation

記事

/var/log/secure の日部分がスペースが1～2入る。"%b %e %T"のみでは、「Invalid format」で失敗したため工夫した
```
SELECT date_parse(REPLACE('May  1 07:12:47', '  ', ' '), '%b %e %T')
```

date/timestamp -> bigint

SELECT
  now() AS _now,
  YEAR(TIMESTAMP '2018-12-24 02:34:48 UTC') AS _year,
  MONTH(TIMESTAMP '2018-12-24 02:34:48 UTC') AS _month,
  DAY(TIMESTAMP '2018-12-24 02:34:48 UTC') AS _day,
  week(TIMESTAMP '2018-12-24 02:34:48 UTC') AS _week,
  HOUR(TIMESTAMP '2018-12-24 02:34:48 UTC') AS _hour,
  MINUTE(TIMESTAMP '2018-12-24 02:34:48 UTC') AS _minute,
  SECOND(TIMESTAMP '2018-12-24 02:34:48 UTC') AS _second;


-- _now: 2020-08-01 02:03:04.953 UTC
-- _year: 2018
-- _month: 12
-- _day: 24
-- _week: 52
-- _hour: 2
-- _minute: 34
-- _second: 48

current_timezone(): タイムゾーン取得

SELECT current_timezone();
-- 結果: UTC

SELECT now() AT TIME ZONE 'Asia/Tokyo';
-- 結果: 2020-07-31 12:56:13.373 Asia/Tokyo

SELECT TIMESTAMP '2018-12-24 02:34:48 UTC' AT TIME ZONE 'Asia/Tokyo';
-- 結果: 2018-12-24 11:34:48.000 Asia/Tokyo

date_parse(): 文字列 -> date/timestamp型へ

SELECT DATE '2018-12-24' AS DATE;
-- 結果: 2018-12-24

SELECT DATE '2018/12/24' AS DATE;
-- 結果: INVALID_CAST_ARGUMENT: Value cannot be cast to date: 2018-12-24

SELECT date_parse('2018-12-24','%Y/%m/%d') AS TIMESTAMP;
-- 結果: 2018-12-24 00:00:00.000

-- iso8601は専用の関数がある。from_iso8601_date()もある
SELECT from_iso8601_timestamp('2018-12-24T02:34:48Z') AS TIMESTAMP;
-- 結果: 2018-12-24 02:34:48.000 UTC

format_datetime(): 日付文字列へ変換

現在時刻を任意文字列へ

-- 月だけ取得
SELECT format_datetime(now(), 'MM')
-- 結果: 07

-- 今日
SELECT format_datetime(now(),'YYYY/MM/dd') AS DATE;
-- 結果: 2020/07/31

-- 1ヶ月前
SELECT format_datetime(now() - INTERVAL '1' MONTH, 'YYYY/MM/dd') AS DATE;
-- 結果: 2020/06/30

例: Amazon S3 サーバーアクセスログの形式

SELECT format_datetime(date_parse('06/Feb/2019:00:00:38 +0000', '%d/%b/%Y:%H:%i:%s +0000'),'YYYY-MM-dd HH:mm:ss')
-- 結果: 2019-02-06 00:00:38

date_trunc(): 日時から指定フィールまで切り捨て

-- 月初を取得
SELECT date_trunc('month', now());
-- 結果: 2020-07-01 00:00:00.000 UTC

SELECT date_trunc('minute', now());
-- 結果: 2020-09-07 04:17:00.000 UTC

SELECT date_trunc('hour', now());
-- 結果: 2020-09-07 04:00:00.000 UTC

↑

Partition Projection: パーティション管理の自動化 †

Amazon Athena を使用したパーティション射影 - Amazon Athena
- パーティションが設定されていない、AWSサービスのログ(CloudTrail, ELB他)で使うと便利
- HIVE形式以外は、「ALTER TABLE」で検索対象のパーティションを都度追加する必要があった。パーティションが整数、日付、列挙値であれば、「CREATE TABLE」時に設定して、自動化できる。
- HIVE形式はクエリー実行前に有効なパーティションを認識させるため、「MSCK REPAIR TABLE <table>;」を実行する必要がある。これの自動化には「where date = 'year=yyyy/month=MM/day=dd'」とSQLを入力せねばならず、Partition Projectionは向いて無さそう。
- Partition Projectionでは実際のデータではなく、「CREATE TABLE」時の設定からパーティションが設定される。
- HIVE形式(s3//bucket/key1=value1/object.gz)のパーティション設定は無視される。
- 過去～現在までを指定する場合
```
# 3ヶ月前～
"projection.date.range" = "NOW-3MONTH,NOW",
# 3年前～
"projection.date.range" = "NOW-3YEARS,NOW",
```
- rangeにtimezoneを指定する場合: JST
```
"projection.date.range" = "NOW-3MONTH,NOW+9HOURS",
"projection.date.format" = "yyyy/MM/dd/HH",
```

AWS サービスログをクエリする - Amazon Athena
- ALB, NLB, CLB(ELB), CloudFront, CloudTrail, EMR, Global Accelerator, GuardDuty, VPC flow, WAF等のTABLEサンプルがある。これを元にPartition Projectionを設定すれば良さそう。

CloudTrail
- Memo/AmazonWebServices/Athena/CloudTrail#md20632d 参照

ALB
- サンプル: Amazon AthenaのPartition Projectionを使ったALBのアクセスログ解析環境をTerraformで構築する – PSYENCE:MEDIA

記事

↑

injected型 †

UUIDがkeyのような場合、enum型では列挙しきれない。
injected型は、select時にパーティション指定が必須になる

記事:

↑

HIVE形式のパスに projection type dateを設定するとエラー †

HIVE形式で「s3://bucket/year=${year}/month=${month}/day=${day}」とパーティションを分けているとする。
2019～YYYYまでをパーティションとして認識させたい。

2022-09現在、athena v2 「yyyy」と年まででも成功した。パーティションが多すぎると実行時間が大幅に増える。
- "projection.year.range" = '2022,NOW' の場合、2.7秒。スキャンデータ64KB。長期運用の場合 "NOW-1YEARS,NOW" のように指定した方が、速度低下が少ないと思う
- "projection.year.range" = '2022,2030' の場合、25.9秒。スキャンデータ45KB
2020-08現在、athena v1「"projection.year.type" = 'date'」と指定すると、クエリ時にエラーが発生する。最低「yyyy/MM」のように月まで指定が必要

パーティション射影のサポートされている型 - Amazon Athena

SQL抜粋

TBLPROPERTIES (
...
  'projection.enabled'='true', 
  "projection.year.type" = 'date',
  "projection.year.range" = '2019,NOW',
  "projection.year.format" = 'yyyy',
  "projection.year.interval" = '1' ,
  "projection.year.interval.unit" = 'YEARS',
  'projection.month.type'='integer', 
  'projection.month.range'='1,12', 
  'projection.month.interval'='1', 
  'projection.month.digits'='2', 
  'projection.day.type'='integer', 
  'projection.day.range'='1,31', 
  'projection.day.interval'='1', 
  'projection.day.digits'='2', 
  'storage.location.template'='s3://bucket/year=${year}/month=${month}/day=${day}'
);

クエリ時のエラー

GENERIC_INTERNAL_ERROR: Text '2019' could not be parsed: Unable to obtain YearMonth from TemporalAccessor: {Year=2020},ISO of type java.time.format.Parsed

代案: AWSサポートの回答「エラーは再現した。代わりに type = 'integer'を使って」。SQLの変更点だけ抜粋。AWS docに「空のパーティションが多すぎるとパフォーマンス低下の可能性」とあるので、無闇に遠い未来は指定しないほうが良さそう
```
TBLPROPERTIES (
...
  'projection.year.type'='integer',
  'projection.year.range'='2019,2030',
  'projection.year.interval'='1',
  'projection.year.digits'='4',
...
```

例: 前日のパーティションを指定してクエリ:

SELECT *
FROM <table>
WHERE YEAR=YEAR(now() - INTERVAL '1' DAY)
  AND MONTH=MONTH(now() - INTERVAL '1' DAY)
  AND DAY=DAY(now() - INTERVAL '1' DAY)

↑

Unknown pattern letter †

以下の設定で発生。

TBLPROPERTIES (
...
  "projection.date.type" = "date",
  "projection.date.range" = "2020/07/01,NOW",
  "projection.date.format" = "year=yyyy/month=MM/day=dd",
  "projection.date.interval" = "1" ,
  "projection.date.interval.unit" = "DAYS",

↑

Column repeated in partitioning columns †

原因
- パーティションのカラム名と、create tableのカラム名が重複している

解決
- どちらかのカラム名を変えればOK

↑

Workgroup: クエリのスキャン量上限設定、コスト管理、ユーザ権限管理 †

クエリを実行するためのワークグループの使用 - Amazon Athena

workgroup毎に
- 1クエリ1TBスキャンあたり、$5かかるので、上限を設定したい
- 出力s3 bucketや暗号化方法を指定できる
- 複数のタグを設定し、識別できる。このタグでBilling画面で識別できる。
- workgroupに割り当てたクエリの設定を上書きできる。

記事
- Amazon Athena ワークロード分離やクエリの閲覧、コスト管理が可能になるWorkgroups がリリースされました | Developers.IO
- Amazon Athena ワークグループを使用したクエリの分離とコストの管理 | Amazon Web Services ブログ

↑

athenacli: athenaの利用に特化したCLI †

awscliの欠点
- 手動で試す場合、非同期なので使いにくい。
- 結果はS3のファイルに出るため、ダウンロードする手間がかかる。

GitHub - dbcli/athenacli: AthenaCLI is a CLI tool for AWS Athena service that can do auto-completion and syntax highlighting.
- SQLの補完と色付け
- SQL同期実行。結果が出るまで待機してくれる。

記事
- Very cool らしい AthenaCLI を試してみたら、やっぱりクールだった件 | Developers.IO

↑

awscliからの利用 †

athena — AWS CLI 1.18.39 Command Reference

実行順序:

start-query-execution: クエリの実行。DDL(CREATE/ALTER TABLE)もSQLもこれ。非同期なのですぐ完了する。idが出る
get-query-execution: 指定idのステータス確認。定期的に実行して完了/エラーまで待つ
get-query-results: 指定idが完了していれば、S3に結果のファイルが出ている
aws s3 cp 等でlocalに結果のcsv等をダウンロード

SQL実行順序:

CREATE TABLE table_name
MSCK REPAIR TABLE table_name
- これを実行しないと、selectしても結果は空になる。
SELECT ... from table_name

注意点
- SQL,DDLは1回に一つだけ。";"で区切ってもエラーになる。
- 「no viable alternative at input」がよく発生するが、詳細がわからないため解決に苦労する。
- "\"は"\\\\"と書く必要がある。
- 項目の順序も重要

CSV
- csv.gz ファイルに対応しているので圧縮しておく。
- 元のCSVにダブルクオート付きの場合、「ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'」を指定しないと、ダブルクオートが二重に出力される。

例: csv.gz のファイルで、ダブルクオート付き、ヘッダ行は1行

  local sql=$(cat << EOD
CREATE EXTERNAL TABLE IF NOT EXISTS
dns (
  Date string,
  QueryType string,
  Client string,
  SendReceive string,
  Protocol string,
  RecordType string,
  Query string,
  Results string
  )
 PARTITIONED BY (
  year int,
  month int,
  day int
  )
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
  'separatorChar' = ',',
  'quoteChar' = '\"',
  'escapeChar' = '\\\\'
  )
STORED AS TEXTFILE
LOCATION 's3://${S3_BUCKET}/${prefix}id=DNS/'
TBLPROPERTIES (
'skip.header.line.count'='1',
'has_encrypted_data'='false'
)
;
EOD
)

記事
- S3 にあるダブルクォーテーション引用符の CSV データを Glue のクローラで検出し、Athena でクエリ実行する | Developers.IO

↑

ベストプラクティス †

GLACIER対応
- ~~lifecycle ruleでGLACIERに送ってしまうと、復元してもStorageClass=GLACIERのままなので検索できない。~~ 出来るようになった
- 復元された Amazon S3 Glacier オブジェクトへのクエリ - Amazon Athena
  - glacierからrestoreは必要。s3 object数が数万以上の場合は、s3 inventory + s3 batch operationが良い。
  - restoreしても、storage classはglacierのまま。
  - restore中/済みのs3 objectは .Restore属性がつく。expire等の情報が入っている
  - glacierをathenaで検索するときは table に「read_restored_glacier_objects='true'」属性が必要

Athenaと検索対象のS3は同じリージョンにする。
- 異なるリージョンの場合、大きいデータを検索すると、リージョン間の転送が遅く、Athenaの料金よりS3の転送量の料金のほうが高くなる場合もある。
- 小さいデータを検索する場合は、あまり問題にはならなそう。

マルチアカウント:
- s3 objectのownerによって、他アカウントからのs3:GetObjectが失敗する。CloudTrail/ELB/ALB等のログはs3 object のownerが各サービスに変わっている。この場合、AssumeRoleして、各アカウント内のAthenaからは検索ができる。
- 例: CloudTrail

HIVE形式(<PARTITION_COLUMN_NAME>=<VALUE>)でパーティション分割する。それ以外(例：YYYY/MM/DD)では、~~検索したい数だけパーティションを手動で追加する必要がある。~~ Partition Projection で自動化できるようになった。
- Athena での MSCK REPAIR TABLE コマンドの問題を解決する
- s3 pathは小文字のみ。CamelCaseは非対応。MSCK REPAIR TABLEで自動でパーティションを認識しなくなる。 Amazon S3 パスを小文字に変更する
- パーティションサンプル: SQLで日付指定等、よく使う表現が実行できるか？
```
s3:/bucket/prefix/id=<id>/dt=<YYYY>-<MM>-<DD>/file.csv.gz
s3:/bucket/prefix/id=<id>/dt=<YYYY>-<MM>-<DD>-<HH>/file.csv.gz
s3:/bucket/prefix/id=<id>/year=<YYYY>/month=<MM>/day=<DD>/file.csv.gz
```

ファイルを圧縮する
- 対応: gzip
- 非対応: zip
- 圧縮形式 - Amazon Athena 小文字必須等、細かい決まりがある

ファイルフォーマット
- JSON, CSV, TSV, Parquet, ORC, Text files, Avro,
- LTSV
  - Amazon Athena LTSV形式のログファイルを探索する | Developers.IO
  - Recommendations for labeling
- Amazon Kinesis Data Firehose 例

SQL
- 「LIMIT 10000」のように制限する
- JOINする場合、大きいTABLEを左側に、小さいTABLEを右側に指定する。「FROM big_table, little_table」
- GROUP BYは、カーディナリティ(カラムに含まれている種類)が高い順に指定する。文字列ではなく、数値を指定する。
- LIKEは「regexp_like(l_comment, 'wake|regular|express|sleep|hello')」で一つに纏める。否定は「NOT(regexp_like(...))」
- ユニークな個数を調べる場合「count(distinct l_comment)」の代わりに、「approx_distinct(l_comment)」を使う。ただし、誤差が2.3%出る
- 「SELECT * 」の代わりに「SELECT customer.c_name」のように明示的にカラム名を指定する

output s3 bucket
- workgroupの「クエリの結果の場所」にqueryの結果が貯まり続ける。コスト的には消したり、古いオブジェクトはGlacier移動した方が良さそう
- S3 バケットのライフサイクルポリシーを作成する方法 - Amazon Simple Storage Service
- s3 bucket lifecycleの設定を一つにしたい場合、「prefix = output/」として、「クエリの結果の場所」は「output/primary/」「output/<workgroup name>/」とすると良さそう

記事

↑

パーティション分割 †

Athenaは1TBのスキャンあたり、1回$5かかる。スキャンデータを減らす工夫をしないと、コストが非常に増えるまた遅い。

検索時によく指定する、日付、ホスト名、アプリケーション名等で分割すると良さそう

データのパーティション分割 - Amazon Athena
- Amazon S3 パスを小文字に変更する ''「/<key>=<value>/」は小文字。CamelCaseは非対応 ''

HIVE形式のパーティショニングなら自動で対応してくれる。
```
s3:/bucket/prefix/id=<id>/year=<YYYY>/month=<MM>/day=<DD>/file.csv.gz
```
MM/DDの部分は、04/01の形式でも、パーティションはint型指定で検索できた。

CREATE TABLEした直後にselectしても何も出ない。以下を実行する必要がある。
- MSCK REPAIR TABLE - Amazon Athena
```
MSCK REPAIR TABLE TABLE_NAME;
```

記事
- Athenaのパーティションを事前に一括作成する方法 | Developers.IO

連絡先

TreeView

Memo (701)
- 2FA-MFA
- ACDSee
- ASP
- ASP.NET
- Adobe
- Affiliate
- Aipo
- Akelos (3)
  - sample (2)
    - ajax
    - pref
- Algorithm (1)
  - image
- Aliyun (1)
  - cli
- AmazonWebServices (85)
  - ACM
  - APIGateway
  - Alexa
  - Athena (2)
    - CloudTrail
    - Example
  - Backup
  - Batch
  - Bedrock
  - Billing
  - CDK
  - Chatbot
  - CloudFormation
  - CloudFront
  - CloudSearch
  - CloudTrail
  - CloudWatch
  - CodeBuild
  - CodeCommit
  - CodeDeploy
  - CodePipeline
  - Configservice
  - Connect
  - DataPipeline
  - Detective
  - DirectConnect
  - DirectoryService
  - DocumentDB
  - DynamoDB
  - EC2 (5)
    - AMI
    - DLM
    - EBS
    - ec2-metadata-mock
    - mock-ec2-metadata
  - EC2-classic
  - ECR
  - EKS
  - ELB
  - EMR
  - ElastiCache
  - ElasticBeanstalk
  - Fargate
  - FireLens
  - Glacier
  - Glue
  - GuardDuty
  - Health
  - IAM
  - IPv6
  - IoT
  - KinesisDataFirehose
  - Lambda
  - OpenSearch(Elasticsearch)
  - Organizations
  - QuickSight
  - R53
  - RDS (1)
    - Aurora
  - Route53
  - S3
  - SDB
  - SDK (1)
    - Python
  - SES
  - SNS
  - SSO
  - SecretsManager
  - SystemsManager
  - VPC
  - VPN
  - WAF
  - awscli (12)
    - CloudWatch
    - DynamoDB
    - EC2
    - RDS
    - S3
    - backup
    - ce
    - elb
    - error
    - parallel
    - route53
    - v2
- Amazon_Dash_Button
- Amazon_Fire_TV_Stick
- Amazon_Fire_Tablet
- Android (15)
  - AIR
  - ASUS_EeePad_Transformer
  - ASUS_Nexus7
  - ASUS_ZenFone_Max_Pro_M1
  - GALAXY_Tab
  - HTC_Butterfly_s
  - HTC_Desire
  - HTC_Desire_HD
  - HTC_Desire_Z
  - HTC_HT-03A
  - Lenovo_Legion_Y700_2023
  - SHARP_AQUOS_sense4_lite
  - adk
  - app
  - sdk
- Ansible (20)
  - AWS
  - AWX
  - Error
  - Facts
  - Filters
  - Galaxy
  - Install
  - Jinja2
  - Lookups
  - Loops
  - Tower
  - Troubleshooting
  - Validation
  - Variables
  - Vault
  - Windows
  - ldap
  - local_action
  - module_development
  - set_fact
- AppleTV
- Arduino
- ArtificialIntelligence (1)
  - MachineLearning
- Atlassian
- AugmentedReality
- BBS
- Backlog
- Bazaar
- Becky
- Blog
- Blynk
- Browser
- C
- C++
- CDN
- CSS
- ChaosEngineering
- CircleCI
- CloudComputing
- Cloudflare
- ComputerSecurity
- Consul
- Creative
- DNS
- DTM
- Database (1)
  - ツリー(階層)構造の設計
- Datadog
- Docker (4)
  - Dockerfile
  - Kubernetes
  - k3s
  - nomad
- Doxygen
- Dropbox
- DuckDB
- E-book (4)
  - BOOKSCAN
  - Calibre
  - NOOK
  - edit
- EC-CUBE
- EOL
- Electron
- English
- EstimateTechnique
- Evernote
- Excel
- F-PLUG
- F-Secure_PSB
- FFmpeg
- Fabric
- Filer
- Flash (1)
  - Lite
- Flex
- Fonts
- FreeWLAN
- GIS
- Gainer
- Game
- GameDev
- Geolocation
- GlusterFS
- Google (10)
  - AdSense
  - Apps_Script
  - Docs
  - Drive
  - Gemini
  - Gmail
  - NotebookLM
  - SpreadSheet
  - Workspace
  - reCAPTCHA
- GoogleCloudPlatform
- Google_Chromecast
- Gradle
- Grafana (9)
  - API
  - Athena
  - CloudWatch
  - GoogleBigQuery
  - Loki
  - Troubleshooting
  - Zabbix
  - docker
  - plugins
- GraphQL
- Graphics
- Graphviz
- HTML (1)
  - 5
- Heroku (2)
  - Papertrail
  - herokucli
- IPTV
- IPv6
- ImageProcessing
- InfoPath (1)
  - JScript
- IntelliJ_IDEA
- IoT
- JAWBONE_UP
- Java (8)
  - Eclipse (1)
    - Cray
  - Eclipse3.1でiアプリ開発
  - Maven
  - Tomcat
  - log4j
  - 携帯 (1)
    - サンプル
- JavaScript (1)
  - jq
- Jenkins
- JupyterNotebook
- LVGL
- LXC
- LibreOffice
- LifeHacks
- Linux (139)
  - AlmaLinux (2)
    - 10
    - 9
  - AntiVirus
  - Apache
  - Archiver
  - Bash
  - BitTorrent
  - CVS
  - CentOS (5)
    - 5
    - 6
    - 7
    - 8
    - Stream
  - CentOS4
  - Chrony
  - ClamAV
  - Disk
  - Dragonfly
  - Duplicity
  - Fedora core 1
  - Fedora core 5 (2)
    - VMware server
    - samba3.0
  - Firecracker
  - Fluent-Bit
  - Fluentd(td-agent) (1)
    - Errors
  - Heartbeat
  - HyperEstraier
  - InitScript
  - LVM
  - LVS
  - Linuxbrew
  - LiteSpeed
  - Mailman
  - Makefile
  - Memcached
  - Monit
  - Monitoring
  - Munin
  - Namazu
  - OSS-license
  - OpenLDAP (1)
    - WebUI
  - OpenResty
  - Pacemaker
  - Redhat Enterprise Linux ES3
  - Redhat Enterprise Linux ES4
  - SC420 (6)
    - MySQL5.0
    - PostgreSQL8.0
    - Subversion
    - eAccelerator0.9.3
    - php5.0
    - 外部公開(DMZ)
  - SELinux
  - SSL
  - ShellScript
  - Vyatta
  - WebCamera
  - Zabbix (14)
    - 1.8jp
    - 2.0
    - 2.2
    - 2.4
    - 3.0
    - 4.0
    - 5.0
    - 6.0
    - 7.0
    - API
    - AWS
    - Error
    - Template
    - docker
  - ag
  - anyenv
  - audit
  - cloud-init
  - comm
  - command
  - curl
  - datetime
  - denyhosts
  - diff
  - dnf
  - dnsmasq
  - fail2ban
  - find
  - firewalld
  - fzf
  - grep
  - haproxy
  - iptables
  - jailkit
  - jc
  - less
  - lftp
  - logrotate
  - lsof
  - mail
  - mdadm
  - nftables
  - nginx
  - ntp
  - parallel
  - pdsh
  - peco
  - postfix
  - pure-ftpd
  - rclone
  - rdiff-backup
  - redis
  - resolv.conf
  - rootsh
  - rpm
  - rsync
  - samba
  - servicelist
  - socat
  - source-highlight
  - ss
  - ssh
  - sudo
  - symlink
  - syslog
  - systemd
  - taRgrey
  - tcpflow
  - tmux
  - vim
  - vsftpd
  - webdruid
  - wget
  - xargs
  - yum
  - zphoto
- Lua
- MSOffice
- MacOS X (2)
  - Homebrew
  - app
- MariaDB
- Markdown
- MessagePack
- MicrosoftVisualStudio
- MongoDB
- Movie
- Mp3tag
- MySQL (5)
  - 5.5
  - 5.7
  - 8.0
  - Error
  - docker
- NETGEAR_ReadyNAS
- NLP
- NetworkNotepad
- NoSQL
- Node.js
- Notion
- OCR
- ODROID
- OSRM
- OSSEC
- OpenOfficeOrg
- OpenTofu
- OpenVPN
- OpenWrt (7)
  - Buffalo_WSR-2533DHP
  - ELECOM_WRC-X3200GST3
  - Package (4)
    - adblock
    - ddns
    - luci
    - openvpn
- Opera
- Oracle
- PC
- PC98
- PDF
- PHP (35)
  - Bug
  - CakePHP
  - Composer
  - Excelファイル生成
  - Google
  - PEAR (11)
    - Auth
    - Cache_Lite
    - DB
    - DB_DataObject
    - File_Archive
    - HTML_QuickForm
    - MDB2
    - QuickForm
    - SQLite
    - Services_Amazon
    - session_pgsql
  - PECL (1)
    - oauth
  - PHP Accelerator
  - SOAP
  - Smarty
  - XML_RPC
  - Xdebug
  - eAccelerator (1)
    - CentOS5.2
  - log4php
  - phpでSSL通信
  - qdmail
  - rss
  - simpletest
  - wkhtmltox
  - xhprof
  - フレームワーク
  - ベンチマーク
- PSP
- PT2 (2)
  - CentOS
  - Ubuntu
- Packer
- Parquet
- PayPal
- Perl (1)
  - OneLiner
- PhantomJS
- Photoshop
- PlantUML
- Poderosa
- Podman
- PostgreSQL (3)
  - constraint
  - pgpool
  - pgpool-II
- PowerPoint
- Programming
- Prometheus
- Puppet (5)
  - Geppetto
  - hiera
  - v3.x
  - v5.x
  - v8
- Python (7)
  - AWS
  - Error
  - Poetry
  - install
  - luigi
  - pip
  - test
- QRCode
- RADIUS
- REST_API
- RFID
- RabbitMQ
- Rackspace
- Raspberry_Pi (3)
  - ANAVI_Infrared_pHAT
  - DNSB-35137
  - co2
- RecordingServer
- Redash
- Redmine
- RegularExpression
- Rlogin
- Ruby (1)
  - Rails
- Rundeck
- Rust
- SQL
- SQLite
- SSO
- SakuraEditor
- SendGrid
- Server
- Skype
- Slack
- SoftEther (1)
  - Raspberry_Pi
- Solaris
- Stashboard
- Subversion (6)
  - Install
  - trac (4)
- SwitchBot
- Taskfile
- Tauri
- Terraform (12)
  - Error
  - G_Suite
  - GoogleCloud
  - aliyun
  - aws (1)
    - Errors
  - dynamic-block
  - for_each
  - heroku
  - legacy
  - provider
  - random
- ThinkPad
- Trac
- Traefik
- TrendMicroDeepSecurity
- Twitter
- TypeScript
- USB-IO
- Ubuntu (1)
  - Error
- Unity
- VMware
- VOCALOID
- Vagrant (4)
  - Errors
  - Windows
  - box
  - macOS
- VictoriaMetrics
- VirtualBox
- Visio
- VisualStudioCode (1)
  - AWS
- VxWorks
- WebBrowser (5)
  - Chrome
  - Chromium
  - Firefox (1)
    - PreBar
  - Vivaldi
- Wiki (4)
  - BlockingSpam
  - dev
  - docker
  - 広告
- Windows (28)
  - .NET_Framework
  - 10 (12)
    - WSL (11)
      - 2
      - CentOS
      - Docker
      - Install
      - Ubuntu
      - ssh-agent-wsl
      - wsl-ssh-agent
      - wsl-terminal
      - wsl2-ssh-agent
      - wslgit
      - wsltty
  - 11
  - 7
  - 8
  - ATOK
  - BatchFile
  - EventLog
  - Firewall
  - PackageManagement
  - PowerShell
  - VirtualPC
  - WSA
  - WindowsTerminal
  - winget
  - エラー
- WindowsMobile (3)
  - Link
  - Software
  - ssh
- Wireshark
- Word
- WordPress
- XBMC (2)
  - CentOS
  - Ubuntu
- Xamarin
- YAMAHA-RTX
- antivirus
- backup (1)
  - AcronisTrueImage
- company
- containerd
- csvtsv
- dd-wrt (7)
  - Buffalo_WHR-G301N
  - Buffalo_WXR-1900DHP
  - Buffalo_WZR-1166DHP
  - Buffalo_WZR-1750DHP
  - Buffalo_WZR-D1800H
  - Buffalo_WZR-HP-AG300H
  - Buffalo_WZR-HP-G300NH
- draw.io
- facebook
- favorite
- git (5)
  - Bitbucket
  - GitHub (3)
    - Actions (2)
      - AWS
      - act
- golang
- iPhone (2)
  - app
  - sdk
- iPod
- jQuery
- keepass
- localstack
- mbed
- mise
- mobile
- pandoc
- printer
- programmer
- serverspec
- soracom
- spam
- telework
- twilio
- web
- wkhtmltopdf
- yaml (1)
  - yq
- ユーザビリティ
- 個人情報保護法
- 航空機用語
- 就職
- 設計開発
- 素材集
- 相続
- 用語
- FrontPage
  - - instag.inc.php