chezouのブックマーク - はてなブックマーク

https://jp.techcrunch.com/2018/06/27/2018-06-23-open-source-sustainability/

chezou 2018/06/28

Patreonで投げ銭は良いだろうなぁ。小規模の個人OSSだと「動かないんだけど！」ばかり来て精神的には消耗する（向いてない

リンク

一休のETL処理をAirflowで再構築しました - 一休.com Developers Blog

一休のデータサイエンス部に所属しています小島です。以前データ分析基盤の構築で記事を上げていましたが、今回はETL*1周りの話をしようと思います。 user-first.ikyu.co.jp 今回ETLのツールとして導入したのはAirflowというツールです。 2017年のアドベントカレンダーでも紹介させていただきました。一休のデータフローをAirflowを使って実行してみる一休のETLの現状について一休のETL周りは以下の画像のようになっていました。課題 ETLの処理時間が伸びた（出社後も処理が続いていた）エラーのリカバリ作業に時間がかかる（ログが確認しにくい, サーバーに入って作業しなければいけない）複雑な依存関係の定義がしにくい（どれとどれが依存しているかわからない）リソース負荷（全て並列で実行していた）処理毎のボトルネックが把握できないツールの問題というよりは正し

chezou 2018/06/26

リンク

[本日の一品]Hue互換（？）で、安価なIKEAのスマートLED電球

chezou 2018/06/24

リンク

KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」のPython実装 - u++の備忘録

今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。 Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。 github.com アルゴリズムの概要 Pythonでの例可視化のためのパッケージ読み込みサンプルデータの生成可視化 K近傍を用いた特徴量抽出可視化 iris での例追記20180624 実装の修正はてなホットエントリ入りアルゴリズムの概要近傍数を、分類するクラス数をとした場合に、アルゴリズムは個の特徴量を生成します。生成される特徴量は下記のように、観測値と各クラス内の最近傍点との間の距離から計算されます。とあるクラスに属する訓練データの中の第1近傍までの距離を1つ目の特徴量とするとあるクラスに属する訓練データの中の第2近傍までの距離の和を2つ目の

chezou 2018/06/24

リンク

DataFrameで特徴量作るのめんどくさ過ぎる。。featuretoolsを使って自動生成したろ - Qiita

前にSQLで言う所のcase when x then y else z end的な処理をpandasでやる時にすぐやり方を忘れるから記事にした。あれはあれでいいのだけれど、まだまだ前処理にすごく時間がかかる！！めっちゃめんどいなんとかしたい... 今までpandas.DataFrameで色々特徴量生成（feature creationとかfeature engineering）する時に、ごちゃごちゃpandasのネイティブな機能を使って生成してたけど、kagglerのエレガントなデータの前処理を見ていると下記モジュールを使っている人が多い印象。 scikit-learn.preprocessing category_encoders featuretools 特に大量に特徴量を生成したい場合、**featuretools**がすごく便利そうな予感！！！よっしゃ!! 使ってみよ！！！ F

chezou 2018/06/23

リンク

DNN推論用ライブラリ「Menoh」リリースについて - Preferred Networks Research & Development

Python以外も使いたくないですか？特にDeepLearning界隈で． Menoh開発者の岡田です．この記事ではMenohの紹介と開発に至った動機について説明します． Menohのレポジトリ： https://github.com/pfnet-research/menoh Menoh（メノウ）は学習済みのDNNモデルをONNX形式から読み込んで動作させる推論専用のライブラリです．実装はC++で書きましたが，C言語のインターフェースを持たせて，他の言語用からもその機能を呼び出しやすくしてあります．リリース時点でC++版ラッパーとC#版ラッパー，Haskell版ラッパーがあり，Ruby版ラッパーとNodeJS版ラッパー，Java（JVM）版ラッパーが開発中です．バックエンドにはIntelの開発しているMKL-DNNを採用し，GPUが無くてもIntel CPUが使える環境で高速にモデルの

chezou 2018/06/21

nginx+mrubyで異常検知とかできそうだ

リンク

A summary on “On choosing and bounding probability metrics”

確率分布間の距離とその間の関係をまとめたサーベイ論文 “On choosing and bounding probability metrics” の紹介と, なぜ Wasserstein distance を使うのかの理由付け (の一部).

chezou 2018/06/20

リンク

【問題提起】篠原嘉一氏に情報教育の講演を依頼する前に考えていただきたいこと～ITエンジニアから見た、情報教育のあり方について～ - give IT a try

要約（僕の主張）篠原嘉一氏の講演内容には、IT関連の知識がない人にはわかりづらいウソや間違い、極論が多く含まれているため、適切な情報教育だとは言いがたい。よって改善を強く希望する。学校側は「生徒をネットのトラブルから守りたい」という思いが優先されるため、IT エンジニアよりも「情報の正しさ」がないがしろにされてしまうのかもしれない。だが、IT エンジニアとして、そして保護者として、学校は子どもたちに正しい情報を伝える努力をしてほしい。我々IT エンジニアも情報教育を学校に丸投げするのではなく、正しい知識を伝えるために、主体的に情報教育に協力していく必要がある。はじめに Image: http://www.mrf-ip.com/blog/0067/ 先日、息子が通っている中学校で開催された情報教育講演会に参加してきました。これは中学校の全生徒と、任意参加の保護者で、情報教育（主にSNSや

chezou 2018/06/19

この話から発展してこの本を教えてもらったけど、子供自身が読めて良かったです https://amzn.to/2MEStnJ

リンク

The fake news machine: Inside a town gearing up for 2020

chezou 2018/06/18

リンク

転職について - 兼雑記

6月14日がグーグル最終日でした。8月からPFNに混ぜてもらう予定です。退職や入社も重要イベントなんでしょうけど、転職活動それ自体が大変に楽しい体験だったので、入社したからって突然次の会社についての知見にあふれているわけでもなし、このタイミングでなんか書こうと思いました。どうせ暇だし。前回との差分 http://shinh.hatena blog.com/entry/2016/03/11/142748 が前回までのあらすじ。このちょっと後で、「ニューラルトランスレートすげー」とか思って Google Translate のチームに入れてもらって、自然言語/機械学習研究入門+プロダクショナイズ+TensorFlowまわりのあれこれおもしれーとか、その他いろいろをやってた、というのが現在との差分です。機械翻訳というのは、他の機械学習応用分野と同じく、ニューラルさんによってすさまじく簡略化され

chezou 2018/06/17

リンク

Detecting image similarity using Spark, LSH and TensorFlow

Andrey Gusev, Pinterest engineer, Content Quality As a visual platform, the ability to learn from images to understand our content is important. In order to detect near-duplicate images we use the NearDup system, a Spark- and TensorFlow-based pipeline. At the core of the pipeline is a Spark implementation of batch LSH (locality-sensitive hashing) search and a TensorFlow-based classifier. Every day

chezou 2018/06/17

リンク

[レポート] ML Ops on AWS #AWSSummit | DevelopersIO

本日 5/30 から 6/1 まで、東京・品川で開催されています AWS Summit Tokyo 2018。こちらで講演されたセッション「ML Ops on AWS」を聴講しましたのでレポートします。今回のAWS Summitでは全セッションで撮影が禁止されているため、文字だけでお届けします。概要機械学習を実システム上で運用してビジネス上の成果を出すためには、単に精度の良い機械学習モデルを学習させるよりもはるかに多くの点を考慮する必要があります。例えば、プロダクション環境にいれたモデルの精度評価を行い、継続的にモデル自体を改善していくことが求められたり、また複数のチームが協調して作業をする必要もあります。このセッションでは、AWS 上で機械学習システムを構築・運用する際のベストプラクティスについてご説明します。スピーカーアマゾンウェブサービスジャパン株式会社技術統括

chezou 2018/06/17

リンク

Twitter ML Platform

Machine learning enables Twitter to drive engagement, surface content most relevant to our users, and promote healthier conversations. As part of its purpose of advancing AI for Twitter in an ethical way, Twitter Cortex is the core team responsible for facilitating machine learning endeavors within the company. With first-hand experience running machine learning models in production, Cortex seeks

chezou 2018/06/16

リンク

SUSHI Preference Data Sets - Toshihiro Kamishima

The SUSHI Preference Data Set includes responses of a questionnaire survey of preference in SUSHI. These preference are collected by a scoring method using a five-point-scale, and additionally by a ranking method. A ranking method is a one of method for performing a sensory test. In this method, the respondents sort given objects according to their preference order. This data set also includes dem

chezou 2018/06/14

リンク

GitHub - oxford-cs-deepnlp-2017/lectures: Oxford Deep NLP 2017 course

This repository contains the lecture slides and course description for the Deep Natural Language Processing course offered in Hilary Term 2017 at the University of Oxford. This is an advanced course on natural language processing. Automatically processing natural language inputs and producing language outputs is a key component of Artificial General Intelligence. The ambiguities and noise inherent

chezou 2018/06/14

リンク

Moogsoft Blog, AIOps Thought Leadership & More | Moogsoft Blog

chezou 2018/06/14

リンク

Consistent Hashing with Bounded Loads

Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

chezou 2018/06/14

リンク

ConfigArgParse

Unverified details These details have not been verified by PyPI Project links Homepage Meta License: MIT License (MIT) Tags options, argparse, ConfigArgParse, config, environment variables, envvars, ENV, environment, optparse, YAML, INI Requires: Python >=3.5 Overview Applications with more than a handful of user-settable options are best configured through a combination of command line args, conf