タグ

dplyrに関するp_tanのブックマーク (4)

  • データ系列が多すぎるとき、いい感じに一部をハイライトするためのパッケージgghighlightをつくりました - Technically, technophobic.

    ggplot2で可視化しようとして、データ系列が多すぎてこんなもじゃもじゃになってしまう、みたいなことないでしょうか。 これを、一部だけを色付けしてこんな感じのプロットにしてくれるパッケージをつくりました。 インストール GitHub上からインストールできます。 devtools::install_github("yutannihilation/gghighlight") gghiglightがやっていること gghiglightの説明をする前に、まずは上のグラフが何をしているのか、まずはふつうのtidyverseでやってみます。 データはこんな感じのやつです。 library(dplyr, warn.conflicts = FALSE) set.seed(1) d <- tibble( idx = 1:10000, value = runif(idx, -1, 1), type = sa

    データ系列が多すぎるとき、いい感じに一部をハイライトするためのパッケージgghighlightをつくりました - Technically, technophobic.
  • dplyr 0.7.0を使ってみる - Technically, technophobic.

    注:これは2017/04/15に公開した「dplyr 0.6.0-rcを使ってみる」という記事を加筆修正したものです。 dplyr 0.6.0は5/11ごろにリリース予定でしたがなかなかリリースされず… dplyr 0.6.0 is scheduled for release in 4 weeks: https://t.co/zlLoZy5pLv. Lots of 👍🎉 stuff inside. Please try it out and report 🐛🐞! #rstats— Hadley Wickham (@hadleywickham) 2017年4月13日 約1カ月遅れで0.7.0として6/9についにリリースされました! CRAN updates: dplyr https://t.co/y5W2NTKSXT #rstats— CRAN Package Updates (@C

    dplyr 0.7.0を使ってみる - Technically, technophobic.
    p_tan
    p_tan 2017/04/16
  • MCMCサンプルを{dplyr}で操る - StatModeling Memorandum

    RからStanやJAGSを実行して得られるMCMCサンプルは、一般的に iterationの数×chainの数×パラメータの次元 のようなオブジェクトとなっており、凝った操作をしようとするとかなりややこしいです。 『StanとRでベイズ統計モデリング (Wonderful R)』のなかでは、複雑なデータ加工部分は場合によりけりなので深入りしないで、GitHub上でソースコードを提供しています。そこでは、ユーザが新しく覚えることをなるべく少なくするため、Rの標準的な関数であるapply関数群を使っていろいろ算出しています。しかし、apply関数群は慣れていない人には習得しづらい欠点があります。 一方で、Rのデータ加工パッケージとして、%>%によるパイプ処理・{dplyr}パッケージ・{tidyr}パッケージがここ最近よく使われており、僕も重い腰を上げてやっと使い始めたのですが、これが凄く使い

    MCMCサンプルを{dplyr}で操る - StatModeling Memorandum
  • dplyrを使いこなす!基礎編 - Qiita

    はじめに 4月ということで、新卒が入ってきたりRを使ったことないメンバーがJOINしたりしたので、 超便利なdplyrの使い方を何回かに分けてまとめて行きます。 Rは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 dplyrを使いこなす!シリーズ 基礎編以外も書きましたので、↓からどうぞ。 dplyrを使いこなす!Window関数編 dplyrを使いこなす!JOIN編 dplyrとは データフレームの操作に特化したパッケージです。 Rは基的に処理速度はあまり早くないですが、dplyrはC++で書かれているのでかなり高速に動作します。 ソースの可読性もよくなるので、宗教上の理由で禁止されている人以外は使うメリットは大きいです。 処理可能なデータサイズの目安 あくまでも個人の環境に強く依存した感覚値ですが、1000万行、100MBぐらいのデータサイ

    dplyrを使いこなす!基礎編 - Qiita
    p_tan
    p_tan 2015/04/10
  • 1