にほんごのれんしゅう

日本語として伝えるための訓練を兼ねたテクログ

Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと

Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと わたしの経験した、最初のKaggleの一歩と、実際にKaggleに対するモチベーションがそれなりに加熱するまでにやったことと、息切れしない心の持ち方です。 KaggleがDataS…

AWS SagemakerでJupyterを使ったり、独自機能を使う

AWS SagemakerでJupyterを使ったり、独自機能を使う AWS SagemakerでのJupyterの使用例と、工夫すべき点を示します また、JupyterのPythonに内蔵されているsagemakerで他のコンテナサービスと連携して、SageMakerにユニークな機能であるRandom Cut Forestに…

dask.distributedで分散処理

dask.distributedで分散処理 dask.distributedの使い方と、具体例集です dask.distributedの簡単な理解 一種の分散処理フレームワークになっており、便利です。 ドキュメントやgithubはdaskからdask.distributedは分割されており、DataFrameの取扱以外のより…

DeepLearningでアップサンプリングする

DeepLearningでアップサンプリングする オーディオ界隈はオカルトっぽく見えていたので、今までどうしようと思っていたのですが、簡単な感じで結果がでました 世の中、音のアップサンプリングや音質がよくなるような細工に本当に余念がないのですが、ディー…

文章をBlockChainで管理する

文章をBlockChainで管理する 今更感がありますが、BlockChainについて、技術的な点について結構曖昧であったので、調べなおしたりしました。 P2Pの多数決の理屈ばかり強調されますが、実際のところどうなっているのか、自分で実際に実装を行いながら、ブロッ…

RocksDBをさまざまな言語(C++, Rust, Kotlin, Python)で利用する

RocksDBをさまざまな言語(C++, Rust, Kotlin, Python)で利用する InstagramのCassandraのバックエンドをJVMベースのものから、RocksDBに切り替えたというニュースが少し話題になりました。 CassandraのJVMは定期的にガーベジコレクタが走って、よろしくな…

Deep Learningによる分布推定

Deep Learningによる分布推定 例えばこのような連続する事象の確率分布がある 横軸を時系列、縦軸を例えば企業の株価上がり下がり幅などとした場合、何か大局的なトレンドど業界のトレンドと国などのトレンドが入り混じり、単純な正規分布やベータ分布などを…

pytorch-pix2pix

pytorch-pix2pix 一年ほどまえ、pix2pix系のネットワークを編集して色々おもしろいことができると言うことを示しました。当時はブログ等に何かポストする際に再現可能なコードを添付することを諸事情により十分にできなかったのですが、pytorchに元論文の実…

RNNで関数近似

RNNで関数近似 DeepLearningの一種であるRNNで、任意の関数を学習させて、十分にある関数の挙動が観測できたとき、未知の任意の点で予想できることを示したいと思います。 始める前に諸々調査したこと ディープラーニングで任意の連続する関数を再現可能です…

Microsoft Bingのランキングエンジンをxgboostでシミュレート

Microsoft Bingのランキングエンジンをシミュレートし、ランキングを学習します 目的 inspector(検査官、監査人、検閲官、視学、警視正、警部補) ランキングアルゴリズムは日々進化しています。Googleのサーチエンジンは200以上の特徴量を用いたり色々してい…

brand-transition(ブランドの変遷)

brand-transition(ブランドの変遷) SVMで極性評価した単語をもちいて、声優のポジティブネスをniconicoニュースコーパスを利用して、時系列的に表現します 時系列的な変遷を分析することで、バズの検知や、話題、炎上などをシステム的にキャッチアップしやす…

ポアンカレエンベッディング

ポアンカレエンベッディング Euclid空間にエンベッディングするようなword2vecは意味の上下関係が明示的に記されません。(情報としたあったとしても僅かでしょう) ポアンカレボールという双曲幾何学空間に埋め込むことで、効率的に意味(や木構造)の上位関係…

RNNで暗号であるEnigmaを解く

RNNで暗号であるEnigmaを解く Enigma暗号とは 1918年に発明されたEnigmaは第二次世界大戦時に発明された暗号化機であり、電線の配線のパターンと、ロータといわれる入力するたびに回転する円盤のパターンで、様々な文字の置き換えを行います。 ドイツ軍で用…

CNNによる文字コード不明なドキュメントの推定

CNNによる文字コード不明なドキュメントの推定 Advent Calender遅刻いい訳 年末忙しすぎた ネタと期待していたいくつかがまともに結果が出ずに苦しい思いをしていた 元URLの喪失 バイト列から文字コーディングを推定する Twitterで時々バズるネタとして、機…

Cloud DataFlowをKotlinで書く

Cloud DataFlowをKotlinで書く 以前投稿した基本時な項目に加えて、特にバッチ処理における SQLでは難しいデータの集計の角度 入出力にJSONを使うことでデータのユーザの独自のデータ型の定義 複数のGCSのバケットを入力にする DataFlowのリソース管理 とい…

Google Cloud FunctionをPythonで使う

世間ではAWS Lambdaばかり着目されますが、GoogleもCloud Functionと呼ばれるLambdaに相当する機能を提供しています LambdaがPython,JS,Javaなどをサポートしているのに比べて、Cloud FunctionはJSのみのサポートとなっていています Python3(PyPy3)をGoogle …

機械学習ではじめるDocker

目次とお断り この資料をまとめるに当たって、実際に開発したり運用したりという経験のスニペットから、できるだけ編集して、自分なりに体系化したものです 様々な角度のデータが乱雑なっててわかりにくいかもしれませんが、ご了承いただけると幸いです "1. …

3つのレコメンド系アルゴリズム

(誤字脱字が目立ったので、修正しました。。) 3つのレコメンド系アルゴリズム 協調フィルタリング fasttextでの購買時系列を考慮したアイテムベースのproduct2vec(skipgram) アイテムベースのtfidfなどの類似度計算を利用したレコメンド 1. 協調フィルタリン…

勾配ブースティングを利用した、KPIに効く特徴量のレコメンド

勾配ブースティングを利用した、KPIに効く特徴量のレコメンド 近況:おばあちゃんが亡くなった関係で、しばらく更新できませんでした。人間の一生とは改めて有限で、限られた時間で何をどうやるかを意識しないといけないなと思いました 意思決定をサポートす…

Gradient Boosting Machineで特徴量を非線形化

Gradient Boosting Machineで特徴量を非線形化 Practical Lessons from Predicting Clicks on Ads at Facebook Facebook社のGradient Boosting Machineで特徴量を非線形化して、CTRを予想するという問題の論文からだいぶ時間が立っていますが、その論文のユ…

Kerasを使ったGoogle VisionサービスのDistillation(蒸留)

Kerasを使ったGoogle VisionサービスのDistillation(蒸留) Vision APIをVGGで蒸留する Vision APIの出力は実はタグの値を予想する問題でしかない 出力するベクトルが任意の次元に収まっており、値の範囲を持つ場合には、特定の活性化関数で近似できる 例えば…

勾配ブースティングを利用した教師あり形態素分析

勾配ブースティングを利用した教師あり形態素分析 辞書ファイルを必要とせず、C++用のモデル(データを入力すると、結果が返ってくるもの)が構築できるので、任意の言語、例えばRuby等でも分かち書きや品詞推定 を利用できる様になります 理論 ある文章の特…

Alternative Implementation Of Illustration2Vec Ver2.

Alternative Implementation Of Illustration2Vec Ver2. Alternative Illustration2Vec Ver2の概要 画像をタグ等の特定の特徴量に従ってベクトル化できる このベクトルとは通常画像分類で用いられるsoftmaxなどのマルチクラスではなく、softprobの(*1)問題と…

Pine64を10台でクラスタ組んで、Celeryで分散基盤を使って効率的に機械学習する

Pine64を10台でクラスタ組んで、Celeryで分散基盤を使って効率的に機械学習する Pine64とRock64 Rasphberry Piを個人で5台ほど所有しているのですが、如何せん、機械学習や計算リソースが必要なプログラミングには向いていないしパワーが足りません。何より…

機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話

機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 背景 広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年…

SQL, Pandas, 関数型言語におけるそれぞれの集計・分析方法の比較と類似

SQL, Pandas, 関数型言語におけるそれぞれの集計・分析方法の比較と類似 乱立するデータ集計技術 ビッグデータだの、人工知能だのバズワードが様々に叫ばれていますが、今でも主流はエクセルで分析しているということを聞いたりします。 エクセルを超えた量…

ビッグデータを扱った時のでファイルシステムでのパフォーマンスの差

多コアCPU, GPUなどの発展により、一台のマシンで効率的なmap reduceができるようになりました Map Reduceはそのアルゴルズムから分散性能が十分な際、複数のマシンで分割してタスクを実行できるので、ビッグデータを処理する際には非常に便利なのですが、こ…

Google Cloud DataFlowをKotlinで書く

Google Cloud DataFlowをKotlinで書く Kotlinで書くモチベーション 以前も書きましたが、Kotlinが標準で採用しているラムダ式を用いたメソッドチェーンと、GCP Cloud DataFlow(OSSの名前はApache Beam)の作りが類似しており、ローカルでのKotlinで書いた集計…

AWS EMR Hadoop Streaming Examples

AWS EMR Hadoop Streaming Examples GCPのDataFlowの方が、AWS EMRより個人的にはモダンな印象があるのですが、業務でAWSで非構造化データの大規模な分析が必要になる可能性があり、Hadoop Streamingの仕組みを軽くおさらいして、いくつかの言語で動かしまし…

XGBoost fizzbuzz

XGBoost fizzbuzz XGBoostのFizzBuzzです 勾配ブースティングでもFizzBuzzできるという例を示します やろうと思った動機 DeepLearningならばFizzBuzzの3の倍数と5の倍数と15の倍数の時に、特定の動作をするというルールを獲得することは容易なのですが、他の…