にほんごのれんしゅう

日本語として伝えるための訓練を兼ねたテクログ

Gradient Boosting Machineで特徴量を非線形化

Gradient Boosting Machineで特徴量を非線形化 Practical Lessons from Predicting Clicks on Ads at Facebook Facebook社のGradient Boosting Machineで特徴量を非線形化して、CTRを予想するという問題の論文からだいぶ時間が立っていますが、その論文のユ…

Kerasを使ったGoogle VisionサービスのDistillation(蒸留)

Kerasを使ったGoogle VisionサービスのDistillation(蒸留) Vision APIをVGGで蒸留する Vision APIの出力は実はタグの値を予想する問題でしかない 出力するベクトルが任意の次元に収まっており、値の範囲を持つ場合には、特定の活性化関数で近似できる 例えば…

勾配ブースティングを利用した教師あり形態素分析

勾配ブースティングを利用した教師あり形態素分析 辞書ファイルを必要とせず、C++用のモデル(データを入力すると、結果が返ってくるもの)が構築できるので、任意の言語、例えばRuby等でも分かち書きや品詞推定 を利用できる様になります 理論 ある文章の特…

Alternative Implementation Of Illustration2Vec Ver2.

Alternative Implementation Of Illustration2Vec Ver2. Alternative Illustration2Vec Ver2の概要 画像をタグ等の特定の特徴量に従ってベクトル化できる このベクトルとは通常画像分類で用いられるsoftmaxなどのマルチクラスではなく、softprobの(*1)問題と…

Pine64を10台でクラスタ組んで、Celeryで分散基盤を使って効率的に機械学習する

Pine64を10台でクラスタ組んで、Celeryで分散基盤を使って効率的に機械学習する Pine64とRock64 Rasphberry Piを個人で5台ほど所有しているのですが、如何せん、機械学習や計算リソースが必要なプログラミングには向いていないしパワーが足りません。何より…

機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話

機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 背景 広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年…

SQL, Pandas, 関数型言語におけるそれぞれの集計・分析方法の比較と類似

SQL, Pandas, 関数型言語におけるそれぞれの集計・分析方法の比較と類似 乱立するデータ集計技術 ビッグデータだの、人工知能だのバズワードが様々に叫ばれていますが、今でも主流はエクセルで分析しているということを聞いたりします。 エクセルを超えた量…

ビッグデータを扱った時のでファイルシステムでのパフォーマンスの差

多コアCPU, GPUなどの発展により、一台のマシンで効率的なmap reduceができるようになりました Map Reduceはそのアルゴルズムから分散性能が十分な際、複数のマシンで分割してタスクを実行できるので、ビッグデータを処理する際には非常に便利なのですが、こ…

Google Cloud DataFlowをKotlinで書く

Google Cloud DataFlowをKotlinで書く Kotlinで書くモチベーション 以前も書きましたが、Kotlinが標準で採用しているラムダ式を用いたメソッドチェーンと、GCP Cloud DataFlow(OSSの名前はApache Beam)の作りが類似しており、ローカルでのKotlinで書いた集計…

AWS EMR Hadoop Streaming Examples

AWS EMR Hadoop Streaming Examples GCPのDataFlowの方が、AWS EMRより個人的にはモダンな印象があるのですが、業務でAWSで非構造化データの大規模な分析が必要になる可能性があり、Hadoop Streamingの仕組みを軽くおさらいして、いくつかの言語で動かしまし…

XGBoost fizzbuzz

XGBoost fizzbuzz XGBoostのFizzBuzzです 勾配ブースティングでもFizzBuzzできるという例を示します やろうと思った動機 DeepLearningならばFizzBuzzの3の倍数と5の倍数と15の倍数の時に、特定の動作をするというルールを獲得することは容易なのですが、他の…

Multi Agent Deep Q Network for Keras

Multi Agent Deep Q Network for Keras Kerasでマルチエージェント DQN マルチエージェントラーニングは、相互に影響を与え合うモデルが強調ないし、敵対して、目的となる報酬を最大化するシチュエーションのディープラーニングです[1][2] 強化学習の特殊系…

KerasのRNNでFizzBuzzを行う(+ Epochスケジューラの提案)

KerasのRNNでFizzBuzzを行う(+ Epochスケジューラの提案) ディープラーニングをやるようになって半年程度経ちました ある程度ならば、文章や画像判別モデルならば、過去の自分の資産をうまく活用することと、外部からState of the Artな手法を導入することで…

教師なし画像のベクトル化と、ベクトルからタグを予想したり類似度を計算したりする

教師なし画像のベクトル化と、ベクトルからタグを予想したり類似度を計算したりする はじめに ISAI2017でPCAnetと呼ばれる、教師なし画像の特徴量の抽出方法が紹介されていました 味深い実装になっており、CNNをバックプロパゲーションで結合の太さを学習し…

ドメインにより意味が変化する単語の抽出

ドメインにより意味が変化する単語の抽出 立命館の学生さんが発表して、炎上した論文を、わたしもJSAI2017に参加していた関係で、公開が停止する前に入手することができました 論文中では、幾つかのPixivに公開されているBL小説に対して定性的な分類をして、…

Deep Furiganaを機械学習で自動でふる

Deep Furiganaを機械学習で自動でふる 注:今回、JSAI2017において、立命館大学の学生が発表した論文が、一部の小説家の方々の批判を浴びたそうですが、この内容はgithubにて炎上前から管理されていたプロジェクトであり、無関係です。 Deep Furiganaは、日…

前処理にディープラーニングを使う

前処理にディープラーニングを使う 目的 スクレイパーなどで集めた画像には、ターゲットとする画像以外必要ないケースが度々ある データセットづくりと呼ばれる画像からノイズ画像を取り除くスクリーニングの作業の簡略化の必要性 画像のスクリーニングを機…

評価極性辞書の構築

評価極性辞書の構築 極性辞書は別に感情を取り扱うだけのものじゃない(と思う) 極性のPolarityという意味で軸を対象にネガティブとポジティブが存在するものをさすそうです よく感情をガロア理論のように何かしらの対象構造を取れるとする主張も多いのです…

Kotlinによるスクレイピング

Kotlinによるスクレイピング 図1. 艦これの画像をKotlinでスクレイピングした画像で作った阿武隈のモザイクアート PythonからKotlinへ部分的な移行@機械学習エンジニアの視点 Pythonは便利な言語です。しかし、スクリプト言語で型を厳密に評価しないというこ…

word2vec, fasttextの差と実践的な使い方

word2vec, fasttextの差と実践的な使い方 目次 Fasttextとword2vecの差を調査する 実際にあそんでみよう Fasttext, word2vecで行っているディープラーニングでの応用例 具体的な応用例として、単語のバズ検知を設計して、正しく動くことを確認したので、紹介…

emotion2vec

emotion2vec テキスト感情ベクタライザの提案 〜 doc2vec, fasttext, skipthoughtに続く第四のテキストベクタライザ 〜 (ジョーク投稿です。正確なリプレゼンテーションかどうか、十分な検証をする必要があります) 感情は難しい コミュ症の人が何らか相手…

RNNで「てにをは」を校正する

RNNで「てにをは」を校正する 余談 2017/3/19に、どの深層学習フレームワークがこれから深層学習を始める人におすすめなのかというアンケートをtwitterで取らせていただきました。五位 Theano(個別カウント) はじめに RNNによる文章校正がリクルートによって…

新しく買ったWindows 10でneologd等の自然言語処理環境を構築する (+ XGBoost)

新しく買ったWindows 10でneologd等の自然言語処理環境を構築する (+ XGBoost) はじめに 自然言語処理と機械学習とSE的なことを仕事としているのですが、現在務めている会社ではWindowsの利用を強く推奨されることがあります。これは、コンプラインスの関係…

alternative illustration2vec(高次元タグ予想器)について

alternative illustration2vec(高次元タグ予想器)について 図1. 予想結果のサンプル はじめに 今回はillustration2vecを去年10月に知り、実装法を模索していたが、Kerasでの転移学習と、目的関数を調整することで同様の結果が得られるのではないかという仮…

教師なしRNNによる連続した不完全情報(主にテキスト)の補完

教師なしRNNによる連続した不完全情報(主にテキスト)の補完 背景 Google(や、過去の私のブログの投稿)などで低解像度の映像を高解像度化する方法は、GANを使うことでわりとうまくいきました。 テキストにも同じような問題が適応できるのかって思うことが…

艦これのセリフ分類をCNNでやる

(2017/2/24追記. いろいろ試したんですが、objective functionをcategorial cross entropyからpoissonに変更し, softmaxの出力をlogを取ることで、急峻なスパイクを抑えることができある程度改善しました ) 艦これのセリフ分類をCNNでやる 幾つかの基礎と…

YoRHa No.2 Type Bを作りたかった

はじめに ドーモ。国家深層学習術師デス。(多数のミームが重なり合い、汚染が観測できるはずです) この前、Domain Transfer Network(DTN)というものがFacebookの機械学習関連の研究所から発表され、直接的な対応関係がなくても、対応したドメインに変化さ…

ウィキペディア日本語版 tf-idfのidf辞書の公開

nora(野良)-idf-dic モチベーション LevelDB(kvs)を利用した省メモリ設計で、すべてのWikipediaのコンテンツコンテンツを取得して処理したい XGBoostやElasticNetなど他のアルゴリズムでの前処理にを楽にしたい JSONスキーマなので、Python以外の他のスクリ…

StackGANによるフォントの錬金術

StackGANによるフォントの錬金術 図1. 中央が錬金したフォント 近況 図2. 真理の一撃を放とうとするカリオストロさん(公式絵より) グランブルーファンタジーというスマホのゲームでカリオストロというキャラクターがいます。もとは天才錬金術師で、自己の…

RNNのアンサンブルによる音楽の新規創出

近況 Qiitaに投稿しない理由なのですが、自分はQiitaを技術ナレッジのレポジトリのような使い方を想定してしていて、実際、多くの方が素晴らしい技術的なプラクティスを提供なさっています。 古い言葉でチラシの裏という表現がありますが、今回の私のは、ブ…