2017-01-01から1年間の記事一覧
Cloud DataFlowをKotlinで書く 以前投稿した基本時な項目に加えて、特にバッチ処理における SQLでは難しいデータの集計の角度 入出力にJSONを使うことでデータのユーザの独自のデータ型の定義 複数のGCSのバケットを入力にする DataFlowのリソース管理 とい…
世間ではAWS Lambdaばかり着目されますが、GoogleもCloud Functionと呼ばれるLambdaに相当する機能を提供しています LambdaがPython,JS,Javaなどをサポートしているのに比べて、Cloud FunctionはJSのみのサポートとなっていています Python3(PyPy3)をGoogle …
目次とお断り この資料をまとめるに当たって、実際に開発したり運用したりという経験のスニペットから、できるだけ編集して、自分なりに体系化したものです 様々な角度のデータが乱雑なっててわかりにくいかもしれませんが、ご了承いただけると幸いです "1. …
(誤字脱字が目立ったので、修正しました。。) 3つのレコメンド系アルゴリズム 協調フィルタリング fasttextでの購買時系列を考慮したアイテムベースのproduct2vec(skipgram) アイテムベースのtfidfなどの類似度計算を利用したレコメンド 1. 協調フィルタリン…
勾配ブースティングを利用した、KPIに効く特徴量のレコメンド 近況:おばあちゃんが亡くなった関係で、しばらく更新できませんでした。人間の一生とは改めて有限で、限られた時間で何をどうやるかを意識しないといけないなと思いました 意思決定をサポートす…
Gradient Boosting Machineで特徴量を非線形化 Practical Lessons from Predicting Clicks on Ads at Facebook Facebook社のGradient Boosting Machineで特徴量を非線形化して、CTRを予想するという問題の論文からだいぶ時間が立っていますが、その論文のユ…
Kerasを使ったGoogle VisionサービスのDistillation(蒸留) Vision APIをVGGで蒸留する Vision APIの出力は実はタグの値を予想する問題でしかない 出力するベクトルが任意の次元に収まっており、値の範囲を持つ場合には、特定の活性化関数で近似できる 例えば…
勾配ブースティングを利用した教師あり形態素分析 辞書ファイルを必要とせず、C++用のモデル(データを入力すると、結果が返ってくるもの)が構築できるので、任意の言語、例えばRuby等でも分かち書きや品詞推定 を利用できる様になります 理論 ある文章の特…
Alternative Implementation Of Illustration2Vec Ver2. Alternative Illustration2Vec Ver2の概要 画像をタグ等の特定の特徴量に従ってベクトル化できる このベクトルとは通常画像分類で用いられるsoftmaxなどのマルチクラスではなく、softprobの(*1)問題と…
Pine64を10台でクラスタ組んで、Celeryで分散基盤を使って効率的に機械学習する Pine64とRock64 Rasphberry Piを個人で5台ほど所有しているのですが、如何せん、機械学習や計算リソースが必要なプログラミングには向いていないしパワーが足りません。何より…
機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 背景 広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年…
SQL, Pandas, 関数型言語におけるそれぞれの集計・分析方法の比較と類似 乱立するデータ集計技術 ビッグデータだの、人工知能だのバズワードが様々に叫ばれていますが、今でも主流はエクセルで分析しているということを聞いたりします。 エクセルを超えた量…
多コアCPU, GPUなどの発展により、一台のマシンで効率的なmap reduceができるようになりました Map Reduceはそのアルゴルズムから分散性能が十分な際、複数のマシンで分割してタスクを実行できるので、ビッグデータを処理する際には非常に便利なのですが、こ…
Google Cloud DataFlowをKotlinで書く Kotlinで書くモチベーション 以前も書きましたが、Kotlinが標準で採用しているラムダ式を用いたメソッドチェーンと、GCP Cloud DataFlow(OSSの名前はApache Beam)の作りが類似しており、ローカルでのKotlinで書いた集計…
AWS EMR Hadoop Streaming Examples GCPのDataFlowの方が、AWS EMRより個人的にはモダンな印象があるのですが、業務でAWSで非構造化データの大規模な分析が必要になる可能性があり、Hadoop Streamingの仕組みを軽くおさらいして、いくつかの言語で動かしまし…
XGBoost fizzbuzz XGBoostのFizzBuzzです 勾配ブースティングでもFizzBuzzできるという例を示します やろうと思った動機 DeepLearningならばFizzBuzzの3の倍数と5の倍数と15の倍数の時に、特定の動作をするというルールを獲得することは容易なのですが、他の…
Multi Agent Deep Q Network for Keras Kerasでマルチエージェント DQN マルチエージェントラーニングは、相互に影響を与え合うモデルが強調ないし、敵対して、目的となる報酬を最大化するシチュエーションのディープラーニングです[1][2] 強化学習の特殊系…
KerasのRNNでFizzBuzzを行う(+ Epochスケジューラの提案) ディープラーニングをやるようになって半年程度経ちました ある程度ならば、文章や画像判別モデルならば、過去の自分の資産をうまく活用することと、外部からState of the Artな手法を導入することで…
教師なし画像のベクトル化と、ベクトルからタグを予想したり類似度を計算したりする はじめに ISAI2017でPCAnetと呼ばれる、教師なし画像の特徴量の抽出方法が紹介されていました 味深い実装になっており、CNNをバックプロパゲーションで結合の太さを学習し…
ドメインにより意味が変化する単語の抽出 立命館の学生さんが発表して、炎上した論文を、わたしもJSAI2017に参加していた関係で、公開が停止する前に入手することができました 論文中では、幾つかのPixivに公開されているBL小説に対して定性的な分類をして、…
Deep Furiganaを機械学習で自動でふる 注:今回、JSAI2017において、立命館大学の学生が発表した論文が、一部の小説家の方々の批判を浴びたそうですが、この内容はgithubにて炎上前から管理されていたプロジェクトであり、無関係です。 Deep Furiganaは、日…
前処理にディープラーニングを使う 目的 スクレイパーなどで集めた画像には、ターゲットとする画像以外必要ないケースが度々ある データセットづくりと呼ばれる画像からノイズ画像を取り除くスクリーニングの作業の簡略化の必要性 画像のスクリーニングを機…
評価極性辞書の構築 極性辞書は別に感情を取り扱うだけのものじゃない(と思う) 極性のPolarityという意味で軸を対象にネガティブとポジティブが存在するものをさすそうです よく感情をガロア理論のように何かしらの対象構造を取れるとする主張も多いのです…
Kotlinによるスクレイピング 図1. 艦これの画像をKotlinでスクレイピングした画像で作った阿武隈のモザイクアート PythonからKotlinへ部分的な移行@機械学習エンジニアの視点 Pythonは便利な言語です。しかし、スクリプト言語で型を厳密に評価しないというこ…
word2vec, fasttextの差と実践的な使い方 目次 Fasttextとword2vecの差を調査する 実際にあそんでみよう Fasttext, word2vecで行っているディープラーニングでの応用例 具体的な応用例として、単語のバズ検知を設計して、正しく動くことを確認したので、紹介…
emotion2vec テキスト感情ベクタライザの提案 〜 doc2vec, fasttext, skipthoughtに続く第四のテキストベクタライザ 〜 (ジョーク投稿です。正確なリプレゼンテーションかどうか、十分な検証をする必要があります) 感情は難しい コミュ症の人が何らか相手…
RNNで「てにをは」を校正する 余談 2017/3/19に、どの深層学習フレームワークがこれから深層学習を始める人におすすめなのかというアンケートをtwitterで取らせていただきました。五位 Theano(個別カウント) はじめに RNNによる文章校正がリクルートによって…
新しく買ったWindows 10でneologd等の自然言語処理環境を構築する (+ XGBoost) はじめに 自然言語処理と機械学習とSE的なことを仕事としているのですが、現在務めている会社ではWindowsの利用を強く推奨されることがあります。これは、コンプラインスの関係…
alternative illustration2vec(高次元タグ予想器)について 図1. 予想結果のサンプル はじめに 今回はillustration2vecを去年10月に知り、実装法を模索していたが、Kerasでの転移学習と、目的関数を調整することで同様の結果が得られるのではないかという仮…
教師なしRNNによる連続した不完全情報(主にテキスト)の補完 背景 Google(や、過去の私のブログの投稿)などで低解像度の映像を高解像度化する方法は、GANを使うことでわりとうまくいきました。 テキストにも同じような問題が適応できるのかって思うことが…