はじめに
ハドリー・ウィッカム (Hadley Wickham) 氏が効果的なデータ分析に関して“tidy data”という概念を提唱している。ウィッカム氏は、“Tidy Data”という論文でこの概念について議論している [1] 。私はこの論文を日本語に翻訳する際に、“tidy data”を「整然データ」と訳すことにした [2] 。
ここで、なぜ「整然データ」と訳したのか簡単に記しておきたい。
「整然」を選んだ理由
“tidy”という英単語に「整然」という日本語の単語を選んだ理由としては以下のものがある。
- 漢語である「整然」を使った方が、正式な文章で用いやすく、あやふやでないことが示唆される。
- 例えば、和語を使って「きちんとしたデータ」として訳した場合、やや日常語的な感があり、論文などでは用いにくいと思われる。また、日本語で「きちんとしたデータ」と書くと、「きちんとした」という言葉の日常語的な感触から、定義がなく人によって想定するものが違うもののように捉えられるおそれがある。また、「きちんとした」は、主観性が強い感があり、“tidy data”の概念には合わないところがある。
- 「整然化する」という形ですっきりした動詞にすることできる。
- “tidy” を動詞として使い、「“tidy”という状態にする」といった意味にすることがあるため、和訳も動詞として表現できるようにする必要があった。
- “tidy data”の対義語である“messy data”を「雑然データ」と訳せば、「整然」と「雑然」と似たような漢語になり、両者に関係があることが分かりやすい。
他の単語を選ばなかった理由
- 「きちんとしたデータ」は先に触れたような理由で選ばなかった。
- 「きれいなデータ」という表現は、「きれいな」の主観性が強いために選ばなかった。
- 「整理データ」という表現は悪くないが、「データ整理」と紛らわしいために選ばなかった。
- 「整頓データ」という表現も悪くないが、「整頓」は「整然」ほど名詞修飾に用いられない語感があるため、選ばなかった。また、「整頓データ」を採用すれば、“tidy”を動詞として使う場合は、「整頓する」と訳すことになるだろうが、これは“tidy”にすることよりも広くデータクリーニング全体を指すと誤解されそうであるために避けた。
- “tidy”に「こざっぱりとした」といったニュアンスがあることを踏まえると、「整飾データ」を使うという手もあったが、「整飾」は現代日本語ではあまり用いられない感があったので、選ばなかった。
- 和語を使うならば、「整ったデータ」という表現を選ぶという手もあった。この場合、動詞として用いる“tidy”は「整える」という表現を使うことになる。これは「整然」ほどかたすぎず、「きちんとした」ほどやわらかすぎないというメリットがある。正直言って、「整然」と「整った」の2つで悩んだのだが、結局は最初に思いついた「整然」で通すことにした。
脚注
- Wickham, H. (2014). Tidy data. Journal of Statistical Software, 59 (10). doi:10.18637/jss.v059.i10 [↩]
- 日本語訳は本サイトの「整然データ」という文章を参照のこと。 [↩]