にほんごのれんしゅう

日本語として伝えるための訓練を兼ねたテクログ

bertで知る炎上とブランドイメージの関係

bertで知る炎上とブランドイメージの関係 イントロダクション 近年のSNSでの炎上は企業にとって大きなリスクとして認識されています。炎上してしまうと、企業はその対応に追われ、多大な労力を払うことになります。また、企業のブランドイメージの既存がある…

botはツイートを圧縮するとサイズが小さくなることを利用して、botの検出

今やっていること 真面目に相性を考慮した企業推薦アプリやマッチングアプリを作りたい 企業への就職や出会いを求める場など、現在はITが進んでいますが、まだ最適な状態に至っていいないだろうと思われます。そんな課題を解決するために、人の行動ログ(こ…

技術書典8の製作物を無料公開します

お久しぶりです。 私生活で反省することが多く、心身ともに疲弊し、しばらくTwitterやブログなど対外的なアウトプットをお休みしていました。 技術書典8で復活を遂げようと思っていたのですが、コロナのために開催がなくなってしまいました。 いろいろな人を…

自作レコメンドで最適な読書体験をしたい

最適な読書体験をしたい アマゾンなどでレコメンドされる本を上から見ていても読書体験がそんなに良くありません。 本の売り上げランキングなどは、大衆に受ける本がほとんどであり、少々独特なセンスを持つ人たちにはそんなに受けが良くないです。 結果とし…

Pythonで100万ドキュメントオーダーのサーチエンジンを作る(PageRank, tfidf, 転置インデックスとか)

検索エンジンを何故作ってみたかったか もともとこのブログのコンセプトのNLP的なことで、情報を整理してなにか便利にしたかった(Googleと同じモチベーションの世界の情報を整理する) 4年前にほぼ同じシステムを作ろうとしたとき、500万を超える大量のインデ…

アメブロでの流行語大賞のその後、各デモグラで使用する単語の違いなど

序 国内最大級の自然言語のデータ・セットが一般ユーザがアクセスできる範囲であるものは2chとアメブロなどがあります。 アメブロは広大で数千万の投稿があると思われますが、全てをパースし切ることはできませんでした。(またしなくてもサンプルサイズ的に…

不動産価格分析とモデルの作成とクローム拡張

序 機械学習で不動産を予想する意味 特徴量から重要度を知ることができる EndUserにとって嬉しいことは? 線形モデルならばChrome ExtentionなどJavaScriptなどにモデルを埋め込むこともでき、意思決定の補助材料などとして、不動産の情報の正当性を推し量る…

Excelの光と影 ~Excelデータ分析を超えていけ~

Excelは便利なソフトで、あらゆる企業で使われている表計算ソフトウェアですが、国内ではその役割が拡張されドキュメント作成的な意味もあります。 まともな使い方としてのExcelもあり、分析してと渡されることが多いフォーマットでもあります。 私自身のい…

5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る

5ch(旧2ch)ではここ数年はTwitterを使用するようになってしまいましたが、ネットのミームの発信地点であって、様々なスラングを生み、様々な文化を作ってきたと思います。 学生時代、2chまとめとか見ていたので、影響を受けてきたネット文化で、感覚値からす…

テーブルデータに対して、DenosingAutoEncoderで精度向上

データセットの問題 Kaggle Porto Seguroでは問題となっている点があって、テストデータとトレインデータのサイズの方が大きく、トレインだけに着目してしまうと、LeaderBoardにoverfitしてしまう問題があります。 これはトレインだけで学習するために起こる…

BigQueryでUDFとwindow関数を使う 

bigqueryでUDFとwindow関数を使う 転職してからMapReduceそのもののサービスや改良したサービスであるCloud DataFlowなどのサービスより、初手BigQueryが用いられることが増えてきました。分析環境でのプラットフォームを何にするかの文化の違いでしょう。 B…

K8Sで機械学習の予想システムを作成 

K8Sで機械学習の予想システムを作成 目次 - 機械学習の最小粒度としてのDocker, Dockerのデプロイ先としてのk8s - テキストを評価するAPIのDockerコンテナの作り方 - DockerコンテナのGoogle Cloud Container Registryへの登録 - K8Sへのデプロイ - 実際にア…

実践的な分散処理を利用して処理を高速化

実践的な分散処理を利用して処理を高速化 GCPやAWSで膨大な計算を行う際に、オーバーヘッドを見極めて、大量のインスタンスを利用し、半自動化して、より効率的に運用するテクニックです。 Kaggle Google Landmark Recognition + Retrievalで必要となったテ…

Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと

Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと わたしの経験した、最初のKaggleの一歩と、実際にKaggleに対するモチベーションがそれなりに加熱するまでにやったことと、息切れしない心の持ち方です。 KaggleがDataS…

AWS SagemakerでJupyterを使ったり、独自機能を使う

AWS SagemakerでJupyterを使ったり、独自機能を使う AWS SagemakerでのJupyterの使用例と、工夫すべき点を示します また、JupyterのPythonに内蔵されているsagemakerで他のコンテナサービスと連携して、SageMakerにユニークな機能であるRandom Cut Forestに…

dask.distributedで分散処理

dask.distributedで分散処理 dask.distributedの使い方と、具体例集です dask.distributedの簡単な理解 一種の分散処理フレームワークになっており、便利です。 ドキュメントやgithubはdaskからdask.distributedは分割されており、DataFrameの取扱以外のより…

DeepLearningでアップサンプリングする

DeepLearningでアップサンプリングする オーディオ界隈はオカルトっぽく見えていたので、今までどうしようと思っていたのですが、簡単な感じで結果がでました 世の中、音のアップサンプリングや音質がよくなるような細工に本当に余念がないのですが、ディー…

文章をBlockChainで管理する

文章をBlockChainで管理する 今更感がありますが、BlockChainについて、技術的な点について結構曖昧であったので、調べなおしたりしました。 P2Pの多数決の理屈ばかり強調されますが、実際のところどうなっているのか、自分で実際に実装を行いながら、ブロッ…

RocksDBをさまざまな言語(C++, Rust, Kotlin, Python)で利用する

RocksDBをさまざまな言語(C++, Rust, Kotlin, Python)で利用する InstagramのCassandraのバックエンドをJVMベースのものから、RocksDBに切り替えたというニュースが少し話題になりました。 CassandraのJVMは定期的にガーベジコレクタが走って、よろしくな…

Deep Learningによる分布推定

Deep Learningによる分布推定 例えばこのような連続する事象の確率分布がある 横軸を時系列、縦軸を例えば企業の株価上がり下がり幅などとした場合、何か大局的なトレンドど業界のトレンドと国などのトレンドが入り混じり、単純な正規分布やベータ分布などを…

pytorch-pix2pix

pytorch-pix2pix 一年ほどまえ、pix2pix系のネットワークを編集して色々おもしろいことができると言うことを示しました。当時はブログ等に何かポストする際に再現可能なコードを添付することを諸事情により十分にできなかったのですが、pytorchに元論文の実…

RNNで関数近似

RNNで関数近似 DeepLearningの一種であるRNNで、任意の関数を学習させて、十分にある関数の挙動が観測できたとき、未知の任意の点で予想できることを示したいと思います。 始める前に諸々調査したこと ディープラーニングで任意の連続する関数を再現可能です…

Microsoft Bingのランキングエンジンをxgboostでシミュレート

Microsoft Bingのランキングエンジンをシミュレートし、ランキングを学習します 目的 inspector(検査官、監査人、検閲官、視学、警視正、警部補) ランキングアルゴリズムは日々進化しています。Googleのサーチエンジンは200以上の特徴量を用いたり色々してい…

brand-transition(ブランドの変遷)

brand-transition(ブランドの変遷) SVMで極性評価した単語をもちいて、声優のポジティブネスをniconicoニュースコーパスを利用して、時系列的に表現します 時系列的な変遷を分析することで、バズの検知や、話題、炎上などをシステム的にキャッチアップしやす…

ポアンカレエンベッディング

ポアンカレエンベッディング Euclid空間にエンベッディングするようなword2vecは意味の上下関係が明示的に記されません。(情報としたあったとしても僅かでしょう) ポアンカレボールという双曲幾何学空間に埋め込むことで、効率的に意味(や木構造)の上位関係…

RNNで暗号であるEnigmaを解く

RNNで暗号であるEnigmaを解く Enigma暗号とは 1918年に発明されたEnigmaは第二次世界大戦時に発明された暗号化機であり、電線の配線のパターンと、ロータといわれる入力するたびに回転する円盤のパターンで、様々な文字の置き換えを行います。 ドイツ軍で用…

CNNによる文字コード不明なドキュメントの推定

CNNによる文字コード不明なドキュメントの推定 Advent Calender遅刻いい訳 年末忙しすぎた ネタと期待していたいくつかがまともに結果が出ずに苦しい思いをしていた 元URLの喪失 バイト列から文字コーディングを推定する Twitterで時々バズるネタとして、機…

Cloud DataFlowをKotlinで書く

Cloud DataFlowをKotlinで書く 以前投稿した基本時な項目に加えて、特にバッチ処理における SQLでは難しいデータの集計の角度 入出力にJSONを使うことでデータのユーザの独自のデータ型の定義 複数のGCSのバケットを入力にする DataFlowのリソース管理 とい…

Google Cloud FunctionをPythonで使う

世間ではAWS Lambdaばかり着目されますが、GoogleもCloud Functionと呼ばれるLambdaに相当する機能を提供しています LambdaがPython,JS,Javaなどをサポートしているのに比べて、Cloud FunctionはJSのみのサポートとなっていています Python3(PyPy3)をGoogle …

機械学習ではじめるDocker

目次とお断り この資料をまとめるに当たって、実際に開発したり運用したりという経験のスニペットから、できるだけ編集して、自分なりに体系化したものです 様々な角度のデータが乱雑なっててわかりにくいかもしれませんが、ご了承いただけると幸いです "1. …