統計に関する記事
2025年

【翻訳】コンピュータを用いた再現可能な研究のための10個の簡潔なルール
コンピュータを用いた研究の再現可能性を高めるための実践的指針をまとめた2013年の論文の全訳。研究過程でのデータやプログラムの保存・管理・共有の重要性を説き、再現性を科学の信頼性と効率の基盤として位置づける。記録の徹底、手動操作の排除、バージョン管理、中間結果の保存、乱数シードの記録、データ共有など、研究者が直ちに実践できる10の具体的ルールを提示している。

『統計学二十六景』の翻訳出版
『統計学二十六景―視点・難問・矛盾―』という本の日本語版が翻訳され、出版されることになった。この翻訳書について、どういった内容であるか、どういった人におすすめであるかを紹介する。

3×3のラテン方格の全パターン
3×3のラテン方格の全12パターンに具体的にどんなものがあるかを紹介。
2024年
2023年

ggplot2 パッケージでの地図出力でポイントとラベルの重なりを防ぐ方法
ggplot2 パッケージで sf オブジェクトを地図として出力するとき、ポイントとそのラベルが重ならないよう出力したければ、ggrepel パッケージを使えばよい。

R言語のことを「統計のリンガフランカ」と表現する例
R言語のことを「統計のリンガフランカ」と表現することがある。統計やデータサイエンスに関わる人にとって、R言語が共通言語であることを示している。最初にこう呼んだのは、UCLAの統計学部の教授の Jan de Leeuw 氏であると思われる。

R で1つのセルに複数の値が入っている場合に、複数の列にわたるダミー変数にする
1つのセルにコンマ区切りなどで複数の値が入っている場合、splitstackshape パッケージの cSplit_e 関数で、複数の列にわたるダミー変数の形に改めることができる。
2022年
2020年

Rによるツイート分析(1):指定したTwitterアカウントのツイートをリツイート数が多い順に並べる
rtweet パッケージを用いてTwitter のツイートを取得した上で、リツイート数が多い順にツイートを並べ替える方法についての説明。いいねが多い順に並べ替える方法についても。

統計検定の受験体験記へのリンク集——どんな参考書で統計を勉強しているか
統計検定1級・準1級・2級のウェブ上の受験体験記へのリンク集。合わせて、1級・準1級・2級の対策にどのような参考書等がよく使われているかを紹介。
2019年

テスト理論における正答率と通過率
正答率と通過率は同義語として用いられるのが普通である。ただし、通過率に正答率とは別の意味を持たせる場合もある。

Rのバージョン3.6.0がリリース
統計処理言語の R のバージョン3.6.0が、2019年4月26日に公開された。この新リリースでは、離散一様分布に従う乱数の生成手法が変更されたり、文字列を表現式 (expression) に変換する新しい関数が導入されたりした。
2018年

高校学習指導要領解説の数学編の箱ひげ図付きの散布図
2018年7月に出された『高等学校学習指導要領解説 数学編 理数編』には、散布図の脇に箱ひげ図が組み合わされた図が載っている。この図は、おそらくアヤメのデータセットをもとに作ったものであり、R言語で簡単に再現できる。

とりあえずビール、とりあえず分散分析
調べたい内容に適した分析手法について深く考えず、「とりあえず分散分析」のように分析手法をあらかじめしぼりこむことはよろしくない。もっと適した分析手法がある可能性があるためである。

Rの geosphere パッケージ(3):ある地点から一定の方位・距離にある地点を求める
Rの geosphere パッケージを用いてある地点から一定の方位・距離にある地点を求める方法の説明、および等距離線の図示など。

Rの geosphere パッケージ(2):大圏航路を描く
Rの geosphere パッケージを用いて大圏航路を求める方法の説明、および大圏航路の図示。
Rの geosphere パッケージ(1):2点間の距離と方位角を計算する
Rの geosphere パッケージの導入方法、地球上の2点間の距離・方位角の求め方の説明。

Rで複数のオブジェクトからリストを作るときに、オブジェクト名をリストの要素の名前にする
Hmisc パッケージの llist() 函数を使うことで、リストを作るときに使ったオブジェクト名からリストの要素の名前をつけることができる。

Rで重複している箇所を取り出す方法
R言語において、1つのIDに対して2つ以上のレコードが存在している場合、その重複している箇所をすべて取り出す方法を2つ説明する。

Rによるデータクリーニング実践――政府統計からのグラフ作成を例として
データクリーニングが繁雑な作業であることを示すために、政府の統計データから日本の男のみの高校と女のみの高校の数の推移をグラフ化する事例を紹介する。クリーニングの作業にはR言語を用い、複数のファイルを統合し、整然データに変え、グラフを作成する。

