「分かち書き」を含む日記

2019-10-19

■anond:20191019183452

自分が機械学習に詳しいかどうかはわかりませんが，わかる範囲で書きます．

質問のテキストを投げるとそれに一番見合ったFAQページのリンクとタイトルを表示してくれるチャットボット的なプログラム

入力 : 質問のテキスト
出力 : FAQ ページの集合から一番「見合った」 FAQ ページ

を実現する事が目的だと考えて話を進めましょう．

一般的にこのタスクは類似文書検索と呼ばれています．ブックマークコメントでは「ElasticSearchを使え」と言われています．ElasticSearch の More Like This Query 機能を使うことで類似文書検索が実現できるようです．あとはパラメータを調整することで思い通りの結果が得られるのではないでしょうか．

より高度なアプローチを取るのであれば，BERT と呼ばれるニューラルネットワークモデルを活用した類似文書検索も可能です．こちらのブログ (ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer) が参考になるでしょう．

しかしこれだけで終わると悲しいのでもう少し機械学習の話をすることにします．

機械学習的にこの問題に取り組むには順序学習 Learning to Rank という問題を解く必要があります．順序学習は google 検索にも使われている機能です．

これは，「入力 x に対して N 個の候補 y_1, y_2, ..., y_N を類似している順に並び替えるようなスコアを出力する関数 f(x, y_i) を学習する」というものです．

More Like This Query 機能よりもこちらのアプローチが優れているのは，前者はどうパラメータをチューニングしようと「類似している文書」しか得られないのに対して，後者は(先程引用したような)「見合った」を明示的にデータとして与えてランキングを学習できる，という点です．

学習データとして「この質問のに対してこの FAQ ページがもっとも見合っている」「この質問に対して A と B ふたつの FAQ ページがあるが，B より A の方が見合っている」「この質問に対して見合った順に全ての FAQ ページを並び替えたもの」といったデータを大量に準備することで，「見合った」を学習することが可能です．

しかしこちらも ElasticSearch の機能に搭載されているようです．ありがとう ElasticSearch．お疲れ様でした．

もしあなたが ElasticSearch を使うのではなく， Python を使って再実装したいと考えているのであれば，目印として必要なライブラリや概念を書いておきます．

類似文書検索について
- 入力および出力候補であるテキストは何らかの形で特徴量に変換する必要があります．これは MeCab を使った分かち書きによる単語集合 bag-of-words でも良いですし，単語集合に対して word2vec などの潜在表現を組み合わせて文章を潜在表現の集合として表現し， pooling 処理を行うのも良いでしょう．先程言及したよう BERT も利用可能です．
- 類似文書検索を行うには，特徴量同士の類似度を計算する必要があります．コサイン類似度を自ら実装するもよし，Numpy や Scipy や scikit-learn などのライブラリを用いるのも良いでしょう．
- そもそも類似度を愚直に計算せずとも，scikit-learn には近傍検索を行う NearestNeighbors が実装されています．これを使いましょう．
- 検索対象である FAQ ページの量が膨大である場合，近似近傍検索 Appropriate Nearest Neighbors (ANN) を検討するのも良いでしょう．ANN を行うライブラリは複数あり，ベンチマークも行われている(erikbern/ann-benchmarks: Benchmarks of approximate nearest neighbor libraries in Python)ので好きなものを選んでください．私の好みは FLANN です．
順序学習については詳しくないので IR の専門家にお願いします．検索した感じ LightGBM で実装するのが一番楽そうです．

Permalink | 記事への反応(0) | 23:07

2019-08-25

■

マウンティングシニアという言葉に分かち書きトラバの人を思い出した

Permalink | 記事への反応(0) | 12:28

2019-07-29

■anond:20190729213603

分かち書きのほう確かにｗ　字下げはまだいるぞ

Permalink | 記事への反応(0) | 21:37

2019-07-24

■anond:20190724002351

分かち書きじじい気持ち悪い。とても気持ち悪い。すごく気持ち悪い

Permalink | 記事への反応(0) | 14:11

2019-06-29

■anond:20190629172847

あれはスペースというよりは、分かち書きという記法なんだよ。ワープロという機械を使って文章入力していた時代の人で分かち書き記法をする人が多い。つまり、ぶっちゃけ老人のしぐさ。

価格コムあたりでもおじいさんアイコンで分かち書きでつらつらと怪文書を投下しているレビュワーがたくさんいるよ。

Permalink | 記事への反応(0) | 21:20

2019-05-07

■anond:20190507150418

分かち書き増田はＧＷ中いたっけｗ

Permalink | 記事への反応(0) | 16:06

2018-12-30

■私はこのままでいて欲しいと思っているのですが、そして

パパが家出しました　の日から、日記を書き続けてきたが、

いったん筆を置くときが来たようだ。

母から連絡がきた。

父が戻ってきたという。

そして、こう続く、

「私はこのままでいて欲しいと思っているのですが、

　そして元に戻ってほしいと思っているのですが。」

おそらく根本の問題は解決することはないのだろう。また誰かが犠牲になり続けるのだろう。

それでも、

所詮かりそめであっても、

これが表面的なものに過ぎなくても、

いくら理性で批判してみても、

やはり、わたしは嬉しいのだ。

父と、母が、今一緒に、そこにいることが。

ようやく、分かち書きすることなく、両親と書くことができるようになったことが。

そう遠くない将来、また、この日記を再開する日が来るかもしれない。

けれど今は、とりあえず、何も考えず、わたしは少し休もうと思う。今年はいささか、色々ありすぎた。

たくさんのコメント、本当に本当にありがとう。

どうか皆さま、

良いお年を。

Permalink | 記事への反応(0) | 00:21

2018-12-24

■anond:20181224114633

知ってた。

さらに似て非なるアカウントもハイクで現況活動しててそっちは分かち書きしない別人なので混同しないでね

Permalink | 記事への反応(0) | 12:30

2018-11-28

■anond:20181128143427

そのうちＡＩの集合体にすりかわってるかもしれないから注意だ。

ゴミ音楽増田、ＫＫＯ増田、すいすいすい増田、分かち書き増田、パンティ、うんこ、

のうち１つくらいはＡＩでもおかしくねえよなー

Permalink | 記事への反応(0) | 14:37

2018-10-27

■anond:20181027100533

まったくだよな。

人の文章に落書きするスペース増田ってろくでもないやつだよ。

他人に説教してばかりのくせに、自分が説教されると焦って分かち書き忘れてやがんの。

Permalink | 記事への反応(0) | 10:36

2018-10-20

■anond:20181020111709

スペース増田は多分増田でしか活動してないからidとか分からん

読点使わずに分かち書きをする増田のこと

トラバ専、タイトルを入れる、すぐ消す、などの特徴がある

Permalink | 記事への反応(1) | 11:23

2018-06-29

■趣味の一環としての固有名詞の翻訳

趣味の一環として映画字幕を翻訳する、と言っても、そんなに難しいものではない。

DVDによっては耳の不自由な人向けの全セリフ入り字幕が入っているのでヒアリング能力は要らないのだ。字幕はテキストファイルではなく画像ファイルで入っているのでOCRが必要だが、試行錯誤していくうちに認識率の高いフリーソフトも見つかった。似た文字が多いから時々手動認識すら間違えることもあるし、稀に字幕そのものが間違っていることもあるのだけど、google検索すれば一般的な単語は「〇〇では？」とサジェストされるので、知識が少なくても誤字修正可能になる。IT技術とバリアフリー万歳である。まあ全ての海外 DVDがバリアフリー対応ではない、というかそこまで字幕が入っているのは自分の興味のある国では1ブランドしかないのだけれど、その1ブランドが最大手なので全然困っていなくもある。

さて、そうしてIT技術に頼ったところで、翻訳に一番困るのは「固有名詞」である。大体の場合、辞書にはそれらは載っていないのだ。とは言え登場人物の名前はそのままカタカナにしてしまえばいいから、เมย์ไหนはそのまま「メイナイ」にしてしまえばいいし、ป๋องはポンでいい(本当はポングなんだが日本人には最後のグはたいてい聞こえない)。เฟมはフェームで済ましてしまっていい、とかやっていると登場人物にเฉดとฉัตร、カタカナにするとチェットとチャット、1文字違いかよ！みたいなことも出てきてさてどうしようか一瞬迷うがフィクションの固有名詞はなるたけ変えないのが自分のポリシーだからそこは趣味に走ってそのままにして問題ないことにしている。

問題なのは例えば実在の芸能人とか、店の名前とか、車種とかそういうやつだ。字幕にするのはだいたい現代が舞台の恋愛映画、早い話がトレンディドラマだ。そういうところでは現地の観覧者なら確実にわかる固有名詞が山ほど、"ストーリーに絡まない、どうでもいい話題"として出てくるのだ。

おそらくここで「バード・トンチャイ」とカタカナ表記したところでその国で1,2を争うスーパー芸能人の名前を把握できている人は少ないだろう、ましてTik Kanyaratと言われてそれが男か女か分かる人すら何人いるというのだ。Liab duanという場所は自分も知らない、知らないがカラオケが楽しめる場所として有名らしい。Club FridayというTV番組がどの層にウケているのか、ホンダから日本のブランド名を変えて「JAZZ」という名の車が出ていることはどのくらいわかるのか、もうさっぱりわからない。

わからないので、今やっている字幕翻訳に関してちょっと聞いてみた。具体的には先週から1週間ほど、首都にあるデパートの名前をカタカナ表記したものが何のブランドかわかるかTwitter上でアンケートしたのだが、7割以上の人が「何のことだかさっぱりわからない」との回答だった。これら高級デパート、ガイドブックには必ず書かれている有名デパートにも関わらずなのだ。まあ、現地駐在で働いているか年数回も同地に旅行に行くようなマニアでなければそんなものかもしれない。

固有名詞は現地のローカルブランドに限らない。アニメ「Ben 10」は日本ではカトゥーンネットワークで放送されているアニメの主人公の名前でありアニメの名前でもあるが、そう言われただけで日本人のどのくらいの人がそのアニメを思い出せるだろうか。そう考えてみるとあの映画会社の映画には「スーパーサイヤ人」とか「ドラえもん」とかいう言葉が何のエクスキューズもなく入り込んでいて、それだけでどれだけ現地の人にそれらが受け入れられているかがわかる。レベルの差はあれ現地では「Ben 10」もその枠に入っているわけだ。

ちなみにその辺が野良英語字幕だとどうなっているかというと、だいたい無視されている。デパートの名前は服飾店のブランド(クリスチャン・ディオールとかな)に完全意訳されてたりした。日本で売られている数少ないDVDに付いてくる正規の日本語字幕もそういうのはやっぱりきついらしくて、現地アルファベットの勉強法をなんとか英語風に訳したら「現地のことをわかってない、ひどい」とAmazon レビューで酷評されたりもしている。自業自得とはいえあれは可哀想だ。こちらは、別に売ったり配ったりするものじゃないし、調べてなんとなく理解もしたから基本的にはあまり気にせずにそのまま残すのだが、流石に「JAZZ」は「フィット」に書き換えたし、Club Fridayは「週末のメロドラマ」にしたり、「Tik Kanyarat」は「ワイドショーの旅番組(そういう番組のMC なのだ)」にしたりした。なんだよこんなのもわからないのかよと粋がってみても、自分が知らないものもいっぱいあってそれらは適当に書き換えてしまうのだ。

映画オリジナルの固有名詞は固有名詞で困ったことがある。そう名付けた理由があったりするのだ。เมย์ไหนは実はเมย์ ไหนと分かち書き可能で、固有名詞としてだけでなく「どのメイだよ?」という質問文にも読める。しかもストーリーでは、犯人探しをしている主人公が「犯人はメイだ」と言われた時にそう質問しかえして「なんだお前知ってるのか」と納得される重要なギャグシーンに使われるのだ。本職の字幕なら「どのメイだよ？」という字幕に「メイナイ」というルビを振るのかもしれないけれど、テキスト字幕でルビを振るのは難易度が高い。なので同じ響きの駄洒落でごまかした。勘弁していただきたい。

Permalink | 記事への反応(1) | 20:36

2018-06-25

■

ゴミを聴くな増田や分かち書き増田は犯罪者にならないでくれよ

Permalink | 記事への反応(0) | 03:04

2018-05-14

■殴り返される覚悟のあるものだけ暴言を吐け

なんかさ、最近トラバつけるくせにすぐ消す小心者多すぎない？

ツリー上からは消えないからメッセージは(1行くらいまでだけだけど)読めるのに、

トラバ返せなくなるからブコメより言い逃げとしてタチが悪い。

この手法を積極的に常用してたの、分かち書き増田くらいだったと思ったけど随分広まった感じ。

Permalink | 記事への反応(2) | 00:57

2018-03-05

■anond:20180305072034

問題意識としては、効率性です。

日本語の現在の表記方法は、表記ゆれが多かったり、入力に手間がかかったり、学習コストが大きかったりと、問題が多いという認識がまずあります。

この認識が共有できないと、多分問題意識も共有できないと思います。

入力に関しては、コンピュータの入力ソフトの進歩によって、少しづつ改善していますが、まだまだ英語や韓国語などの変換のない言語に比べると、入力速度は体感できるほどの違いがあります。

日本語の入力システムは中国語に似ているというイメージがあると思いますが、実際には中国語の入力システムの方がシンプルな方法を採用していて、その分、母音を省略して入力できたり、スペルミスを自動修正してくれたりといった機能がよく整っています。（何がシンプルかというと、日本語入力ではまずローマ字がひらがなに自動変換され、そこから手動でかな漢字に変換するという二段階の変換システムになっているのに対して、中国語の入力システムでは、ローマ字から直接普通の中国語に変換される、一段階の変換システムだという点です。）

また、そのようにして入力された文章に関しても、違う単語が同じ表記になってしまう（例：「行った」）とか、曖昧性があったり（例：「この先生きのこる」）など問題が多いです。

これらの点を改善する方法としては、色々と考えられます。

単語の区切りを明示する（例：分かち書き）
違う単語が同じ表記になることが少なくなるように、単語ごとに綴りを定める（例：「いった」「おこなった」）

などの方法があります。

このうち、分かち書きはかな漢字のままでも可能です。

ローマ字を採用する利点があるのは、後者についてです。ローマ字は、ひらがなよりも使えるパターンが多いです。ひらがなで表現できるモーラのパターンはたった115です（参考: https://ja.wikipedia.org/wiki/日本語の音韻）。ローマ字であれば母音５種、子音２１と子音がないパターンで合わせて２２で、これだけで110になります。私がやっている方式では、母音にはアクセントがあるものとないものがあるので１０種類であり、さらに子音は２文字重ねるもの（shなど）があるので、使えるパターンは200をゆうに超えます。

一口にローマ字で表記するといっても、やり方によってその成果に大きな差が出ます。訓令式のローマ字をわかち書きするだけでは、違う単語が同じに表記されてしまうケースは減らず、むしろおそらく増えるでしょう。

そのため、どんな方法がいいかを探求するために、色々と考えたり試したりしているわけです。

今のところやっているのは

PCのローマ字入力を基本とする
ローマ字入力で訓令式とヘボン式両方が可能な時はヘボン式を優先する
「づ」はdzuと表記する
「ん」はnnと表記する
自立語にはアクセントいちを表示する

などで、まだ決めていないことはたくさんあり、例えば以下のようなことを考えています。

旧仮名遣いをベースに綴りを定めれば、違う単語が同じ表記になることが減るはずだ
複合語をどのように表記すべきか
アクセント位置の表示は、京阪式アクセントをベースにした方が都合が良い可能性もある
元々の濁音と連濁を区別し、連濁の場合は子音字の上に記号を打つことで濁音を表現すれば、「違う単語同じ表記問題」がさらに減るだろう（例："amak̇ása" vs. "amagása"）
和語の音、漢音、呉音、唐音、慣用音それぞれについて異なる子音体系を定めれば、「違う単語同じ表記問題」がさらに改善するだろう（例：和語はヘボン式、漢音は訓令式、などなど）

などなどです。

「違う単語が同じ表記になるケースがゼロ」の状態を「完全な表記法」とした場合、表記の完全性と学習コストはトレードオフになる場合があるので、どのへんがちょうどいい具合かも探っていく必要があると思います。

論点が散逸してる感があるのでまとめると、ゴールは次の二点です。

学習コストを減らすこと
違う単語が同じ表記になるケースを減らすこと

加えて

入力コストを減らすこと

があるのですが、これはローマ字を採用した時点でほぼ達成が約束されているので、割とどうでもいい扱いです。

Permalink | 記事への反応(2) | 07:59

2018-03-02

■anond:20180301221023

おめでとう！

おもわず頭の中にある神コピー本いろいろあげつらってしまったけど違うよね。２人くらいおもいついた・・

そうそう、連絡先といっても３０年前の同人誌だと住所がのっていた。

この方のはピクシブとかのことだとおもうけれど、

人によっては「ピクシブまだ登録してない（というかＰＣの前に座る時間が捻出できない）」とか

「もってたけど消してジャンル移動したばかりであまり知らせたくない」という方がいらっしゃるためこういうケースはままある。

できれば直接お知り合いになっておこうと自分も思ってる。

（あと一応いっておきますが、一応ですが、中綴じコピ本のｐ数は４の倍数になります

この方はイラストが６ｐ分しかないという書き方なので別に矛盾はない）

追記：

上で「あげつらって」と書いたことについてトラバがついたけど、私より前に「そのピクシブを教えろ」なんて怖いことを書いてる分かち書き人間さんがいたので念頭にあったためあえての誤用。

どうやってもネットで指名した時点であげつらいや晒し行為になる（本人が全くの善意でも）。元増田はそういうことはしないと信じている。

Permalink | 記事への反応(1) | 10:32

2018-02-25

■anond:20180223151356

漢字かな交じり文で普通は分かち書きの効果として十分なのだが、

いわゆるぎなた読みを回避するためには分かち書きを導入するのも有効だと思うよ

Permalink | 記事への反応(0) | 11:23

2018-02-24

■anond:20180223151356

きみ　分かち書きが　下手やなあ

Permalink | 記事への反応(0) | 21:41

■anond:20180223152424

漢字かな混じりが分かち書きの効果も兼ねていて

ひらがな onlyだと分けないと分かりづらいってことだね

Permalink | 記事への反応(0) | 20:58

2018-02-23

■anond:20180223152228

そういやあれ分かち書きだな

Permalink | 記事への反応(1) | 15:24

■日本語で分かち書きしちゃだめなの？

もし　その　方　が　読みやすい　なら　分かち書き　した　方　が　良いん　じゃ　ない　かなぁ？

Permalink | 記事への反応(12) | 15:13

2017-11-04

■分かち書きをするのって外国人？

このまえ出会い系サイトでネカマをやってたら、単語ごとにスペースをいてる人に絡まれた。

「彼氏　いない　歴　=　年齢　とは　処女　と　いうこと　ですか？」みたいにすごい基本的なことを質問してきて、日本語勉強中の外国人かなと思ったけど。

Permalink | 記事への反応(2) | 11:53

2017-09-29

■TechCrunch JP のタイトル から hiwa 氏の翻訳か否かを深層学習で推定する

追記 (9月30日 22:00)

Q : 本文も用いると更に良いのではないか
- A : 可能な限り氏が翻訳した記事を開きたくないため、タイトルだけを用いた
Q : 深層学習ではない手法との比較がない
- A : 追加実験を行った。登場する語彙の上位 12,000 個の bag-of-words を用いたところ
  - RandomForest (class_weight = 'balanced', n_estimators = 500) では精度 0.93 , 再現率 0.66, f値 0.78
  - LinearSVC (sklearn のデフォルトパラメタ) では精度 0.88, 再現率 0.81, f値 0.84 となり、深層学習とあまり差がないことがわかった。
Q : 理由は何か
- 単語の頻度足切りを変化させても精度が変わらないことから、特定の語に強く反応している可能性がある。または特定ジャンルの記事が氏によって重点的に翻訳されているのかもしれない。