にほんごのれんしゅう

日本語として伝えるための訓練を兼ねたテクログ

2018-01-01から1年間の記事一覧

5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る

5ch(旧2ch)ではここ数年はTwitterを使用するようになってしまいましたが、ネットのミームの発信地点であって、様々なスラングを生み、様々な文化を作ってきたと思います。 学生時代、2chまとめとか見ていたので、影響を受けてきたネット文化で、感覚値からす…

テーブルデータに対して、DenosingAutoEncoderで精度向上

データセットの問題 Kaggle Porto Seguroでは問題となっている点があって、テストデータとトレインデータのサイズの方が大きく、トレインだけに着目してしまうと、LeaderBoardにoverfitしてしまう問題があります。 これはトレインだけで学習するために起こる…

BigQueryでUDFとwindow関数を使う 

bigqueryでUDFとwindow関数を使う 転職してからMapReduceそのもののサービスや改良したサービスであるCloud DataFlowなどのサービスより、初手BigQueryが用いられることが増えてきました。分析環境でのプラットフォームを何にするかの文化の違いでしょう。 B…

K8Sで機械学習の予想システムを作成 

K8Sで機械学習の予想システムを作成 目次 - 機械学習の最小粒度としてのDocker, Dockerのデプロイ先としてのk8s - テキストを評価するAPIのDockerコンテナの作り方 - DockerコンテナのGoogle Cloud Container Registryへの登録 - K8Sへのデプロイ - 実際にア…

実践的な分散処理を利用して処理を高速化

実践的な分散処理を利用して処理を高速化 GCPやAWSで膨大な計算を行う際に、オーバーヘッドを見極めて、大量のインスタンスを利用し、半自動化して、より効率的に運用するテクニックです。 Kaggle Google Landmark Recognition + Retrievalで必要となったテ…

Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと

Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと わたしの経験した、最初のKaggleの一歩と、実際にKaggleに対するモチベーションがそれなりに加熱するまでにやったことと、息切れしない心の持ち方です。 KaggleがDataS…

AWS SagemakerでJupyterを使ったり、独自機能を使う

AWS SagemakerでJupyterを使ったり、独自機能を使う AWS SagemakerでのJupyterの使用例と、工夫すべき点を示します また、JupyterのPythonに内蔵されているsagemakerで他のコンテナサービスと連携して、SageMakerにユニークな機能であるRandom Cut Forestに…

dask.distributedで分散処理

dask.distributedで分散処理 dask.distributedの使い方と、具体例集です dask.distributedの簡単な理解 一種の分散処理フレームワークになっており、便利です。 ドキュメントやgithubはdaskからdask.distributedは分割されており、DataFrameの取扱以外のより…

DeepLearningでアップサンプリングする

DeepLearningでアップサンプリングする オーディオ界隈はオカルトっぽく見えていたので、今までどうしようと思っていたのですが、簡単な感じで結果がでました 世の中、音のアップサンプリングや音質がよくなるような細工に本当に余念がないのですが、ディー…

文章をBlockChainで管理する

文章をBlockChainで管理する 今更感がありますが、BlockChainについて、技術的な点について結構曖昧であったので、調べなおしたりしました。 P2Pの多数決の理屈ばかり強調されますが、実際のところどうなっているのか、自分で実際に実装を行いながら、ブロッ…

RocksDBをさまざまな言語(C++, Rust, Kotlin, Python)で利用する

RocksDBをさまざまな言語(C++, Rust, Kotlin, Python)で利用する InstagramのCassandraのバックエンドをJVMベースのものから、RocksDBに切り替えたというニュースが少し話題になりました。 CassandraのJVMは定期的にガーベジコレクタが走って、よろしくな…

Deep Learningによる分布推定

Deep Learningによる分布推定 例えばこのような連続する事象の確率分布がある 横軸を時系列、縦軸を例えば企業の株価上がり下がり幅などとした場合、何か大局的なトレンドど業界のトレンドと国などのトレンドが入り混じり、単純な正規分布やベータ分布などを…

pytorch-pix2pix

pytorch-pix2pix 一年ほどまえ、pix2pix系のネットワークを編集して色々おもしろいことができると言うことを示しました。当時はブログ等に何かポストする際に再現可能なコードを添付することを諸事情により十分にできなかったのですが、pytorchに元論文の実…

RNNで関数近似

RNNで関数近似 DeepLearningの一種であるRNNで、任意の関数を学習させて、十分にある関数の挙動が観測できたとき、未知の任意の点で予想できることを示したいと思います。 始める前に諸々調査したこと ディープラーニングで任意の連続する関数を再現可能です…

Microsoft Bingのランキングエンジンをxgboostでシミュレート

Microsoft Bingのランキングエンジンをシミュレートし、ランキングを学習します 目的 inspector(検査官、監査人、検閲官、視学、警視正、警部補) ランキングアルゴリズムは日々進化しています。Googleのサーチエンジンは200以上の特徴量を用いたり色々してい…

brand-transition(ブランドの変遷)

brand-transition(ブランドの変遷) SVMで極性評価した単語をもちいて、声優のポジティブネスをniconicoニュースコーパスを利用して、時系列的に表現します 時系列的な変遷を分析することで、バズの検知や、話題、炎上などをシステム的にキャッチアップしやす…

ポアンカレエンベッディング

ポアンカレエンベッディング Euclid空間にエンベッディングするようなword2vecは意味の上下関係が明示的に記されません。(情報としたあったとしても僅かでしょう) ポアンカレボールという双曲幾何学空間に埋め込むことで、効率的に意味(や木構造)の上位関係…

RNNで暗号であるEnigmaを解く

RNNで暗号であるEnigmaを解く Enigma暗号とは 1918年に発明されたEnigmaは第二次世界大戦時に発明された暗号化機であり、電線の配線のパターンと、ロータといわれる入力するたびに回転する円盤のパターンで、様々な文字の置き換えを行います。 ドイツ軍で用…

CNNによる文字コード不明なドキュメントの推定

CNNによる文字コード不明なドキュメントの推定 Advent Calender遅刻いい訳 年末忙しすぎた ネタと期待していたいくつかがまともに結果が出ずに苦しい思いをしていた 元URLの喪失 バイト列から文字コーディングを推定する Twitterで時々バズるネタとして、機…