naniarパッケージの紹介記事を書いたことと、プラスのまとめ

qiita.com

上の記事をこの前Qiitaに投稿した。この後、もう少し書いて置くべきことを見つけたので、こっちの記事にまとめておく。

  • 準備編
  • 欠損値確認編
    • miss_var_run(): 欠損値が出現する頻度の確認
    • miss_var_span(): 指定したデータスパン内での欠損値確認
  • 可視化編
    • gg_miss_span(): 指定したスパン内での欠損値の割合を可視化
  • まとめ
続きを読む

Apply() ファミリーまとめ

Rを使い始めて1年くらい。並列処理ではpythonを使っている名残でforを使ってきたが、今後apply系関数を活用していけるように、今回applyファミリーの知識を体系的にまとめてみようと思いたったのがきっかけ。

  • applyファミリーとは
  • apply(X, MARGIN, FUN, ...)
    • MARGIN = 1
    • MARGIN = 2
    • MARGIN = c(1,2)
  • lapply(X, FUN, ...)
    • 基本形
    • リスト内の各要素の一列目へのアクセス
    • リスト内の各要素の一行目へのアクセス
    • リスト内の各要素の一列目、二行目へのアクセス
  • sapply(X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE)
  • 参考文献

f:id:kokiando:20190503154238p:plain
Apply() Yourself!

applyファミリーとは

そもそもapplyファミリーとは、Rのベースパッケージに入っている関数群のことで、行列やリストに対して一括して演算を行いたいときに用いることができるもの。 forやwhile文と違うのはapplyを使うと、簡潔なコードで高速な処理をすることができる。

続きを読む

世界のRユーザー事情 Stack Overflowサーベイデータより

www.kaggle.com

Kaggleで公開されていたStack Overflowのサーベイデータより、Rユーザーの属性などをみてみたいと思います。

「世界の」とタイトルについていますが、Stack Overflowが集計したので、比較的「英語を話せる人が多い国のRユーザー」のデータになっていると感じました。

続きを読む

京都の学生向けアパート家賃の推定とお得な物件探し 再帰分割線形モデルを用いて Part2

Part2です。

Part1はこちらをご覧ください。

kokiando.hatenablog.com

予告通り、今回は実際に再帰分割線形モデルを用いて家賃の推定と、実際にお得な物件を探しいきたいと思います。

続きを読む

京都の学生向けアパート家賃の推定とお得な物件探し 再帰分割線形モデルを用いて Part1

今回は身近な京都の家賃データを用いた分析事例を紹介します。

データ収集から分析のコードはすでにGitHub上がっているので詳しいスクリプトに興味のある方は下記のリンクを参照してください。

github.com

分析準備

パッケージ・データ読み込み

library(tidyverse)
library(corrplot)
library(treemap)
library(GGally)
library(rpart)
library(rpart.plot)
rent = read.csv("data/cleaned_rent.csv")
続きを読む

パッケージのダウンロード数を可視化する "cranlogs" Package の紹介

元ネタ記事

www.r-bloggers.com

久しぶりにR-Bloggersの最新記事を見ていたらキャッチーなタイトル記事が挙がっていたので記載されていたコードを眺めてみました。

github.com

機能としては、目立ったものはないですが、ダウンロード数の期間の設定とかが容易にできるし、コードが直感的に触れる感じが良さそう。

続きを読む