にほんごのれんしゅう

日本語として伝えるための訓練を兼ねたテクログ

教師なし画像のベクトル化と、ベクトルからタグを予想したり類似度を計算したりする

教師なし画像のベクトル化と、ベクトルからタグを予想したり類似度を計算したりする はじめに ISAI2017でPCAnetと呼ばれる、教師なし画像の特徴量の抽出方法が紹介されていました 味深い実装になっており、CNNをバックプロパゲーションで結合の太さを学習し…

ドメインにより意味が変化する単語の抽出

ドメインにより意味が変化する単語の抽出 立命館の学生さんが発表して、炎上した論文を、わたしもJSAI2017に参加していた関係で、公開が停止する前に入手することができました 論文中では、幾つかのPixivに公開されているBL小説に対して定性的な分類をして、…

Deep Furiganaを機械学習で自動でふる

Deep Furiganaを機械学習で自動でふる 注:今回、JSAI2017において、立命館大学の学生が発表した論文が、一部の小説家の方々の批判を浴びたそうですが、この内容はgithubにて炎上前から管理されていたプロジェクトであり、無関係です。 Deep Furiganaは、日…

前処理にディープラーニングを使う

前処理にディープラーニングを使う 目的 スクレイパーなどで集めた画像には、ターゲットとする画像以外必要ないケースが度々ある データセットづくりと呼ばれる画像からノイズ画像を取り除くスクリーニングの作業の簡略化の必要性 画像のスクリーニングを機…

評価極性辞書の構築

評価極性辞書の構築 極性辞書は別に感情を取り扱うだけのものじゃない(と思う) 極性のPolarityという意味で軸を対象にネガティブとポジティブが存在するものをさすそうです よく感情をガロア理論のように何かしらの対象構造を取れるとする主張も多いのです…

Kotlinによるスクレイピング

Kotlinによるスクレイピング 図1. 艦これの画像をKotlinでスクレイピングした画像で作った阿武隈のモザイクアート PythonからKotlinへ部分的な移行@機械学習エンジニアの視点 Pythonは便利な言語です。しかし、スクリプト言語で型を厳密に評価しないというこ…

word2vec, fasttextの差と実践的な使い方

word2vec, fasttextの差と実践的な使い方 目次 Fasttextとword2vecの差を調査する 実際にあそんでみよう Fasttext, word2vecで行っているディープラーニングでの応用例 具体的な応用例として、単語のバズ検知を設計して、正しく動くことを確認したので、紹介…

emotion2vec

emotion2vec テキスト感情ベクタライザの提案 〜 doc2vec, fasttext, skipthoughtに続く第四のテキストベクタライザ 〜 (ジョーク投稿です。正確なリプレゼンテーションかどうか、十分な検証をする必要があります) 感情は難しい コミュ症の人が何らか相手…

RNNで「てにをは」を校正する

RNNで「てにをは」を校正する 余談 2017/3/19に、どの深層学習フレームワークがこれから深層学習を始める人におすすめなのかというアンケートをtwitterで取らせていただきました。五位 Theano(個別カウント) はじめに RNNによる文章校正がリクルートによって…

新しく買ったWindows 10でneologd等の自然言語処理環境を構築する (+ XGBoost)

新しく買ったWindows 10でneologd等の自然言語処理環境を構築する (+ XGBoost) はじめに 自然言語処理と機械学習とSE的なことを仕事としているのですが、現在務めている会社ではWindowsの利用を強く推奨されることがあります。これは、コンプラインスの関係…

alternative illustration2vec(高次元タグ予想器)について

alternative illustration2vec(高次元タグ予想器)について 図1. 予想結果のサンプル はじめに 今回はillustration2vecを去年10月に知り、実装法を模索していたが、Kerasでの転移学習と、目的関数を調整することで同様の結果が得られるのではないかという仮…

教師なしRNNによる連続した不完全情報(主にテキスト)の補完

教師なしRNNによる連続した不完全情報(主にテキスト)の補完 背景 Google(や、過去の私のブログの投稿)などで低解像度の映像を高解像度化する方法は、GANを使うことでわりとうまくいきました。 テキストにも同じような問題が適応できるのかって思うことが…

艦これのセリフ分類をCNNでやる

(2017/2/24追記. いろいろ試したんですが、objective functionをcategorial cross entropyからpoissonに変更し, softmaxの出力をlogを取ることで、急峻なスパイクを抑えることができある程度改善しました ) 艦これのセリフ分類をCNNでやる 幾つかの基礎と…

YoRHa No.2 Type Bを作りたかった

はじめに ドーモ。国家深層学習術師デス。(多数のミームが重なり合い、汚染が観測できるはずです) この前、Domain Transfer Network(DTN)というものがFacebookの機械学習関連の研究所から発表され、直接的な対応関係がなくても、対応したドメインに変化さ…

ウィキペディア日本語版 tf-idfのidf辞書の公開

nora(野良)-idf-dic モチベーション LevelDB(kvs)を利用した省メモリ設計で、すべてのWikipediaのコンテンツコンテンツを取得して処理したい XGBoostやElasticNetなど他のアルゴリズムでの前処理にを楽にしたい JSONスキーマなので、Python以外の他のスクリ…

StackGANによるフォントの錬金術

StackGANによるフォントの錬金術 図1. 中央が錬金したフォント 近況 図2. 真理の一撃を放とうとするカリオストロさん(公式絵より) グランブルーファンタジーというスマホのゲームでカリオストロというキャラクターがいます。もとは天才錬金術師で、自己の…

RNNのアンサンブルによる音楽の新規創出

近況 Qiitaに投稿しない理由なのですが、自分はQiitaを技術ナレッジのレポジトリのような使い方を想定してしていて、実際、多くの方が素晴らしい技術的なプラクティスを提供なさっています。 古い言葉でチラシの裏という表現がありますが、今回の私のは、ブ…

GANによるノイズ・モザイク等の除去

GANによるノイズ・モザイク等の除去 近況 眠い。 実は今月、三回も停電が起きてそのたびに機械学習のモデルが飛んでいます。原因は電子レンジとケトルを両方利用したとか、そういった当たり前のことなのですが...(ブレーカを飛ばしているの私でないです)。 …

ベイズ最適化と、しりとり

モチベーション 機械学習ばかりやらずに、久々にプログラミングをしたくなったというか、下手の横好きというか、プログラムを書いてみたくなりました。自分で思った通りにロジックを組めるのは楽しいものです。 YouTubeを見ることを趣味の一つにしているので…

Pix2pix with Text

Pix2Pixとは 01/06/2017. この記事の生成物に関して、修正点があるのであとで修正します 自動生成系の深層学習の一つ 2つの画像の差を学習して、その差を補う形で画像などを出力する 図1. facadeとよばれるデータで学習した場合 図2. GANのモデルの様子。生…

チャットボットをディープラーニングで作成

チャットボットをディープラーニングで作成 アマゾンプライムビデオを見ていたら、涼宮ハルヒの憂鬱が公開されており、懐かしい気持ちで見ていました。私がアニメとSFにハマるきっかけとなった思い出の作品です。 この作品をみてSFを調べだし、汎用AIに興味…

複数の著者をテキスト情報を混ぜ合わせたRNNと長文の改善手法

問題背景 RNNによる単純な小説の学習と、学習結果の出力は過去、多くの事前研究で行われており、ある程度、人が書いたらしいと思われる文章が数多く出力されてきた。[1], [2] しかしながら、複数の著者の小説を混在させて評価した例は少ないか無いように思う…

レビューのスコア予想問題

背景 商品やサービスを論じるときに、その文脈から定量的にどの程度良かったのか、悪かったのか知ることは難しい 幸いなことにネットには膨大な商品とサービスのレビュー件数が存在し、サービスごとのドメインが異なってもある程度、定量的に文章から良し悪…

■ 機械学習で絵文字の意味を知る

■ 機械学習で絵文字の意味を知る 絵文字は近年になってiPhone, Androidに搭載されてSMSやTwitterなどで積極的にソーシャルメディアに現れるようになった文字です。 文字自体の成立が比較的新しいということもあり、広辞苑などに詳しい意味が定義されているわ…

ディーブラーニングのDCGANを用いたmangaキャラクタの作成

ディーブラーニングのDCGANを用いたmangaキャラクタの作成 生成したなんかアンニュイなキャラ 人間のみの権利と思われていた創造と創生の技術がついにマシーンが行えるようになりました。去年の今頃にDCGANという手法で画像を人間が、ぱっと見ただけではわか…

Doc2vecを利用したレコメンデーションシステム

Doc2vecを利用したレコメンデーションシステム(は、諦めて盗用チェックツールとかのほうがいいかも) Embeddingという文字、文字列をベクトル化する技術が機械学習、Deep Learning界隈で用いられているように見えます CNNよるセンチメント分析や、Word2Vec…

Seq2Seqで小説自動生成の学習を失敗した話

Seq2Seqで小説自動生成の学習を失敗した話 失敗した経験をネット上に上げることにいくつか意見があるでしょうが、機械学習を行って、学習が失敗すると、大きな時間的な損失になるよという見地を示す目的があります。 小説の自動生成では、ディープラーニング…

CNNを利用したセンチメント分析

■ CNNを利用したセンチメント分析 Deep Learningを利用したテキスト解析が去年の12月ごろから盛んです。ネットの日本語のQIITAやはてなブックマークを見ていると、流行したのが去年から今年の頭あたりでインパクトの強い文献は出尽くしているように見えま…

文章自動作成; char-rnnとその改良

■ 文章自動作成; char-rnnを試しました、とその改良 そろそろ就職しないと飢えて死にそうです 文章の自動錬成という物書きにとっては錬金術に等しい術があるらしいということを知ったので、試してみたいと思いました char-rnnをいじっていて気付いたのですが…

Deep Leaningを使った検索エンジン

■ Deep Leaningを使った検索エンジン - 無職になり数ヶ月が過ぎました。 - 働くということに関していろいろ疑問に思っています。 ■モチベーション: 時間に余裕ができたので、キンドル書籍のランキング・検索サイトをずっとコーディングしていました。検索機…

Raspberrypiのnginxのreverse proxyにhost名が継承されなかったので対応策

PHPのフレームワークなどを使っていると、$_SERVER['HTTP_HOST']でホスト名を決定したりしてnginxの配下のリバースプロキシではうまく動作しなかったりする。単純に指定のIPに飛ばすには以下のような設定をすればよい server { listen 80; server_name eisei…

【書評】天冥の標IX PART1──ヒトであるヒトとないヒトと

あれこれ3年ぐらいずっと読んできたシリーズの第9章。いよいよメニーメニーシープの世界がどんな状況に放り込まれているのかわかってきた。 倫理兵器の存在目的がロイズ保険会社の顧客を十分に獲得するための正しい恋愛感情の流布なのだということで、なん…

【書評】「犬と魔法のファンタジー」が胃が痛くなるほど就活事情をよく表している件

表題の通りの通りの書評です。 主人公は冒険部に所属する大学生。ただし時代背景は現自在ではなくて、剣と魔法が存在する世界のことである。そんな中、主人公はお祈りと呼ばれる企業面接の失敗を何度も何度も繰り返す。その中で40代のOBや、いわゆるオタサ…

焼きなまし法(Simulated Annealing)のJava8による再実装

課題 焼きなまし法(SA)と呼ばれるかなりレガシーなアルゴリズムにはだいぶ世話になったのでJavaでも使ってみたかった。(Pythonではよく使っていた) Javaでの実装を探していたが、見つからないので、PythonのコードをJava8で再実装した。(目的関数の設定にラ…

ビンゴゲームのプログラム作成

ビンゴゲームプログラムをPythonというプログラミング言語で作成しました。 このプログラムでは指定した範囲内部の数値をランダムに表示することが可能で、tmpファイルを作成して、その中に過去の表示した数値を保存することで出てくる値の重複を防ぎます。 …

東京タラレバ娘の破壊力の高さ

しろくま先生の本レビューを見て興味を持ったので読んだ。 p-shirokuma.hatenadiary.com 結論から言うと人によってはメンタルに支障をきたすほどの破壊力を秘めている。私もこれはHPを大幅に持って行かれた本になる。 しろくま先生ほど詳細な分析はできない…

ニルヤの島を読んで

ニルヤの島とは 2014年度の「ハヤカワSFプロジェクト」の大賞に輝いた作品である。なお、審査員は小島秀雄と神林、東とワタシ好みの審査員なのでどのような物語なのだろうとワクワクしながらキンドルでポチッと購入した。 # ミームに基づくあらゆる事象 …

Project Itohの「屍者の帝国」

表題の映画を見てきました。熱と認識の不整合が取れているうちに感想を書いてしまいます。ネタバレ注意です。 屍者 → 一度物理的に死んで、ネクロウェアというソフトウェアを脳に書き込んだ人間。ハーモニーのような哲学的ゾンビとは異なる、単純な「意思を…

シェアオフィスに関して

いいオフィスに行ってきました LIGさんが経営する上野のいいオフィスに行ってまいりました。 行こうと思ったきっかけ。 もともと家でプログラミングやハッキングをするのはどうしてもだらけてしまい、客観的な目がないとだめだなーと常に思っていました 一人…

Elastic-Netをロジスティック回帰の代わりに使いたい

次元圧縮という視点においてElasticNetは有用である。 それは、min[1/2NΣ(y_i - β_0 - x_iβ)^2 + λPα(β) ]というElasticNetの方程式において、Pαのパラメータを調整することで次元圧縮が可能なことに起因している Pα(β) = (1 - α)1/2||β||^2 + α||β||という…

Galaxy Note Edge Lolipopのroot化

はじめに root化等ハックについて、HTCが開発者登録をすれば簡単に行えることから、今までそんなにroot化の価値を感じていませんでした。 だがしかし、docomoのGalaxy Note Edgeを買ったところ、邪魔なアプリが多い、羊がうざい、フォントがtakaoじゃないな…

Chrome拡張機能を作るのが楽しい

最近、コードを書いていませんでしたが、Chrome拡張機能、作るの楽しいです。 何と言ってもJavaScriptオンリーで書ける手軽さと、普段使っているインターネットのコンテンツを自由自在にハックできるというのがいいです。 ブラウザに足らない機能があれば自…

みんなのRを読んだ

みんなのRを読んだ Rを身につけなければいけないね 流行りのRを身につけないと将来食っていけなくなるのではないのか、みたいな漫然とした不安感があった。 Rはデータを解析する上で非常に便利なソフトウェアである。Pythonのtheanoを用いたとしても、ワンラ…

日光地区の各歴史の特徴量抽出について

日光地区の各歴史の特徴量抽出について 日光地区の各歴史は、日光東照宮など世界遺産に登録された文化財などがあることより、可能な限り日光市町村の努力により発信しようと試みている。 日本における市町村として3番目に大きいということもあり、東照宮以外…

古くて使い道のないスマートフォンをGITサーバにする

# 古くて使い道のないスマートフォンをGITサーバにする 皆さん、古く型遅れでどうにもならないスマートフォンをどうしていますか? よく聞く意見では、音楽プレイヤーにする、お風呂での読書専用機にする、格安シムを入れて二台並列運用するとかね。 私の使…

アクチュアリー試験を受けることにした(モデリングから時系列解析解析まで)

アクチュアリー試験を受けることにした(モデリングから時系列解析解析まで) 前提:田舎では、おおよそ全ての知的創造産業が機能し無い 証明:IT産業の分布より把握 前提:知的ではないがなんらかの知的に近い有資格が有効 証明:東京と見劣りするわけでない…

Python Theanoでのロジスティック回帰が簡単

Python Theanoでのロジスティック回帰が簡単 モチベーション 今までC++でlbfgsbを実装するなど、速度重視、大容量処理を目指していた C++の実装コストは高い。 Rではない、スクリプト言語による実装を探していた Python Theanoというのがいい感じ ロジスティ…

OSSでPDF作成とOCR変換を行う

モチベーション WindowsやMacで高いAdobe CCを契約し続けるのはオープン化が求められている世の中でAdobe Acrobat DC proに頼り続けるのは、危険な気がしてきた。 プロプラエタリなコードは、中身がブラックボックスになっているから神秘性が増し、一部の熱…

ASUS X205TAにArchLinuxをインストールして使うまで

2015年現在最強のコスパを誇るサブノートとしてX205TAが叫ばれて久しいが、Linuxを入れるのがめんどくさい インテルの2015年度のモバイル向けアーキテクチャとして、Baytrailを発表し、各社タブレットやネットブック業界を沸かせている。 Baytrailアーキテク…

ビッグデータ・IoTを活用した地方創生の概要

ビッグデータ・IoTを活用した地方創生の概要 はじめに 自治体レベルでは統計情報から何が有意でデータがどのような関連構造になっているか、明確に表示されていない。そのため、なんらかの政策的な投機・投資を行った際の費用と効果が見えていないのが現状で…