「分かち書き」を含む日記 RSS

はてなキーワード: 分かち書きとは

2019-10-19

anond:20191019183452

自分機械学習に詳しいかどうかはわかりませんが,わかる範囲で書きます

質問テキストを投げるとそれに一番見合ったFAQページのリンクタイトルを表示してくれるチャットボット的なプログラム

チャットボット」はただの UI であるので

を実現する事が目的だと考えて話を進めましょう.

一般的にこのタスク類似文書検索と呼ばれていますブックマークコメントでは「ElasticSearchを使え」と言われています.ElasticSearch の More Like This Query 機能を使うことで類似文書検索が実現できるようです.あとはパラメータを調整することで思い通りの結果が得られるのではないでしょうか.

より高度なアプローチを取るのであれば,BERT と呼ばれるニューラルネットワークモデル活用した類似文書検索可能です.こちらのブログ (ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer) が参考になるでしょう.

しかしこれだけで終わると悲しいのでもう少し機械学習の話をすることにします.

機械学習的にこの問題に取り組むには順序学習 Learning to Rank という問題を解く必要があります.順序学習google 検索にも使われている機能です.

これは,「入力 x に対して N 個の候補 y_1, y_2, ..., y_N を類似している順に並び替えるようなスコアを出力する関数 f(x, y_i) を学習する」というものです.

More Like This Query 機能よりもこちらのアプローチが優れているのは,前者はどうパラメータチューニングしようと「類似している文書しか得られないのに対して,後者は(先程引用したような)「見合った」を明示的にデータとして与えてランキング学習できる,という点です.

学習データとして「この質問のに対してこの FAQ ページがもっとも見合っている」「この質問に対して A と B ふたつの FAQ ページがあるが,B より A の方が見合っている」「この質問に対して見合った順に全ての FAQ ページを並び替えたもの」といったデータを大量に準備することで,「見合った」を学習することが可能です.

しかこちらも ElasticSearch の機能に搭載されているようです.ありがとう ElasticSearch.お疲れ様でした.

もしあなたが ElasticSearch を使うのではなく, Python を使って再実装したいと考えているのであれば,目印として必要ライブラリ概念を書いておきます

2019-06-29

anond:20190629172847

あれはスペースというよりは、分かち書きという記法なんだよ。ワープロという機械を使って文章入力していた時代の人で分かち書き記法をする人が多い。つまりぶっちゃけ老人のしぐさ。

価格コムあたりでもおじいさんアイコン分かち書きでつらつらと怪文書を投下しているレビュワーがたくさんいるよ。

2018-12-30

私はこのままでいて欲しいと思っているのですが、そして

パパが家出しました の日から日記を書き続けてきたが、

いったん筆を置くときが来たようだ。

から連絡がきた。

父が戻ってきたという。

そして、こう続く、

「私はこのままでいて欲しいと思っているのですが、

 そして元に戻ってほしいと思っているのですが。」

おそらく根本問題解決することはないのだろう。また誰かが犠牲になり続けるのだろう。

それでも、

所詮かりそめであっても、

これが表面的なものに過ぎなくても、

いくら理性で批判してみても、

やはり、わたしは嬉しいのだ。

父と、母が、今一緒に、そこにいることが。

ようやく、分かち書きすることなく、両親と書くことができるようになったことが。


そう遠くない将来、また、この日記を再開する日が来るかもしれない。

けれど今は、とりあえず、何も考えず、わたしは少し休もうと思う。今年はいささか、色々ありすぎた。

たくさんのコメント、本当に本当にありがとう

どうか皆さま、

良いお年を

2018-11-28

anond:20181128143427

そのうちAI集合体にすりかわってるかもしれないから注意だ。

ゴミ音楽増田、KKO増田、すいすいすい増田分かち書き増田パンティうんこ

のうち1つくらいはAIでもおかしくねえよなー

2018-10-27

anond:20181027100533

まったくだよな。

人の文章落書きするスペース増田ってろくでもないやつだよ。

他人説教してばかりのくせに、自分説教されると焦って分かち書き忘れてやがんの。

2018-10-20

anond:20181020111709

スペース増田は多分増田しか活動してないかidとか分からん

読点使わず分かち書きをする増田のこと

トラバ専、タイトルを入れる、すぐ消す、などの特徴がある

2018-06-29

趣味の一環としての固有名詞翻訳

趣味の一環として映画字幕翻訳する、と言っても、そんなに難しいものではない。

DVDによっては耳の不自由な人向けの全セリフ入り字幕が入っているのでヒアリング能力は要らないのだ。字幕テキストファイルではなく画像ファイルで入っているのでOCR必要だが、試行錯誤していくうちに認識率の高いフリーソフトも見つかった。似た文字が多いから時々手動認識すら間違えることもあるし、稀に字幕のものが間違っていることもあるのだけど、google検索すれば一般的単語は「〇〇では?」とサジェストされるので、知識が少なくても誤字修正可能になる。IT技術バリアフリー万歳である。まあ全ての海外DVDバリアフリー対応ではない、というかそこまで字幕が入っているのは自分の興味のある国では1ブランドしかないのだけれど、その1ブランドが最大手なので全然困っていなくもある。

さて、そうしてIT技術に頼ったところで、翻訳に一番困るのは「固有名詞である。大体の場合辞書にはそれらは載っていないのだ。とは言え登場人物名前はそのままカタカナにしてしまえばいいから、เมย์ไหนはそのまま「メイナイ」にしてしまえばいいし、ป๋องはポンでいい(本当はポングなんだが日本人には最後のグはたいてい聞こえない)。เฟมはフェームで済ましてしまっていい、とかやっていると登場人物にเฉดとฉัตร、カタカナにするとチェットとチャット、1文字いかよ!みたいなことも出てきてさてどうしようか一瞬迷うがフィクション固有名詞なるたけ変えないのが自分ポリシーからそこは趣味に走ってそのままにして問題ないことにしている。

問題なのは例えば実在芸能人とか、店の名前とか、車種とかそういうやつだ。字幕にするのはだいたい現代舞台恋愛映画、早い話がトレンディドラマだ。そういうところでは現地の観覧者なら確実にわか固有名詞が山ほど、"ストーリーに絡まない、どうでもいい話題"として出てくるのだ。

おそらくここで「バード・トンチャイ」とカタカナ表記したところでその国で1,2を争うスーパー芸能人名前を把握できている人は少ないだろう、ましてTik Kanyaratと言われてそれが男か女か分かる人すら何人いるというのだ。Liab duanという場所自分も知らない、知らないがカラオケが楽しめる場所として有名らしい。Club FridayというTV番組がどの層にウケているのか、ホンダから日本ブランド名を変えて「JAZZ」という名の車が出ていることはどのくらいわかるのか、もうさっぱりわからない。

からないので、今やっている字幕翻訳に関してちょっと聞いてみた。具体的には先週から1週間ほど、首都にあるデパート名前カタカナ表記したものが何のブランドかわかるかTwitter上でアンケートしたのだが、7割以上の人が「何のことだかさっぱりわからない」との回答だった。これら高級デパートガイドブックには必ず書かれている有名デパートにも関わらずなのだ。まあ、現地駐在で働いているか年数回も同地に旅行に行くようなマニアでなければそんなものかもしれない。

固有名詞は現地のローカルブランドに限らない。アニメ「Ben 10」は日本ではカトゥーンネットワーク放送されているアニメ主人公名前でありアニメ名前でもあるが、そう言われただけで日本人のどのくらいの人がそのアニメを思い出せるだろうか。そう考えてみるとあの映画会社の映画には「スーパーサイヤ人」とか「ドラえもん」とかい言葉が何のエクスキューズもなく入り込んでいて、それだけでどれだけ現地の人にそれらが受け入れられているかがわかる。レベルの差はあれ現地では「Ben 10」もその枠に入っているわけだ。

ちなみにその辺が野良英語字幕だとどうなっているかというと、だいたい無視されている。デパート名前は服飾店のブランド(クリスチャン・ディオールとかな)に完全意訳されてたりした。日本で売られている数少ないDVDに付いてくる正規日本字幕もそういうのはやっぱりきついらしくて、現地アルファベット勉強法をなんとか英語風に訳したら「現地のことをわかってない、ひどい」とAmazonレビュー酷評されたりもしている。自業自得はいえあれは可哀想だ。こちらは、別に売ったり配ったりするものじゃないし、調べてなんとなく理解もしたか基本的にはあまり気にせずにそのまま残すのだが、流石に「JAZZ」は「フィット」に書き換えたし、Club Fridayは「週末のメロドラマ」にしたり、「Tik Kanyarat」は「ワイドショーの旅番組(そういう番組MCなのだ)」にしたりした。なんだよこんなのもわからないのかよと粋がってみても、自分が知らないものもいっぱいあってそれらは適当に書き換えてしまうのだ。

映画オリジナル固有名詞固有名詞で困ったことがある。そう名付けた理由があったりするのだ。เมย์ไหนは実はเมย์ ไหนと分かち書き可能で、固有名詞としてだけでなく「どのメイだよ?」という質問文にも読める。しかストーリーでは、犯人探しをしている主人公が「犯人はメイだ」と言われた時にそう質問しかえして「なんだお前知ってるのか」と納得される重要ギャグシーンに使われるのだ。本職の字幕なら「どのメイだよ?」という字幕に「メイナイ」というルビを振るのかもしれないけれど、テキスト字幕でルビを振るのは難易度が高い。なので同じ響きの駄洒落ごまかした。勘弁していただきたい。

2018-05-14

殴り返される覚悟のあるものだけ暴言を吐け

なんかさ、最近トラバつけるくせにすぐ消す小心者多すぎない?

リーからは消えないかメッセージは(1行くらいまでだけだけど)読めるのに、

トラバ返せなくなるからブコメより言い逃げとしてタチが悪い。

この手法積極的に常用してたの、分かち書き増田くらいだったと思ったけど随分広まった感じ。

2018-03-05

anond:20180305072034

問題意識としては、効率性です。

日本語現在表記方法は、表記ゆれが多かったり、入力に手間がかかったり、学習コストが大きかったりと、問題が多いという認識がまずあります

この認識が共有できないと、多分問題意識も共有できないと思います

入力に関しては、コンピュータ入力ソフト進歩によって、少しづ改善していますが、まだまだ英語韓国語などの変換のない言語に比べると、入力速度は体感できるほどの違いがあります

日本語入力システム中国語に似ているというイメージがあると思いますが、実際には中国語入力システムの方がシンプル方法採用していて、その分、母音を省略して入力できたり、スペルミス自動修正してくれたりといった機能がよく整っています。(何がシンプルかというと、日本語入力ではまずローマ字ひらがな自動変換され、そこから手動でかな漢字に変換するという二段階の変換システムになっているのに対して、中国語入力システムでは、ローマ字から直接普通中国語に変換される、一段階の変換システムだという点です。)

また、そのようにして入力された文章に関しても、違う単語が同じ表記になってしまう(例:「行った」)とか、曖昧性があったり(例:「この先生きのこる」)など問題が多いです。

これらの点を改善する方法としては、色々と考えられます

などの方法があります

このうち、分かち書きはかな漢字のままでも可能です。

ローマ字採用する利点があるのは、後者についてです。ローマ字は、ひらがなよりも使えるパターンが多いです。ひらがな表現できるモーラパターンはたった115です(参考: https://ja.wikipedia.org/wiki/日本語音韻 )。ローマ字であれば母音5種、子音21と子音がないパターンで合わせて22で、これだけで110になります。私がやっている方式では、母音にはアクセントがあるものとないものがあるので10種類であり、さらに子音は2文字重ねるものshなど )があるので、使えるパターンは200をゆうに超えます

一口ローマ字表記するといっても、やり方によってその成果に大きな差が出ます訓令式ローマ字をわかち書きするだけでは、違う単語が同じに表記されてしまうケースは減らず、むしろおそらく増えるでしょう。

そのため、どんな方法がいいかを探求するために、色々と考えたり試したりしているわけです。

今のところやっているのは

などで、まだ決めていないことはたくさんあり、例えば以下のようなことを考えています

などなどです。

「違う単語が同じ表記になるケースがゼロ」の状態を「完全な表記法」とした場合表記の完全性と学習コストトレードオフになる場合があるので、どのへんがちょうどいい具合かも探っていく必要があると思います

論点散逸してる感があるのでまとめると、ゴールは次の二点です。

加えて

があるのですが、これはローマ字採用した時点でほぼ達成が約束されているので、割とどうでもいい扱いです。

2018-03-02

anond:20180301221023

おめでとう!

 

おもわず頭の中にある神コピー本いろいろあげつらってしまったけど違うよね。2人くらいおもいついた・・

 

うそう、連絡先といっても30年前の同人誌だと住所がのっていた。

この方のはピクシブかのことだとおもうけれど、

人によっては「ピクシブまだ登録してない(というかPCの前に座る時間が捻出できない)」とか

「もってたけど消してジャンル移動したばかりであまり知らせたくない」という方がいらっしゃるためこういうケースはままある。

できれば直接お知り合いになっておこうと自分も思ってる。

  

(あと一応いっておきますが、一応ですが、中綴じコピ本のp数は4の倍数になります

この方はイラストが6p分しかないという書き方なので別に矛盾はない)

追記:

上で「あげつらって」と書いたことについてトラバがついたけど、私より前に「そのピクシブを教えろ」なんて怖いことを書いてる分かち書き人間さんがいたので念頭にあったためあえての誤用

どうやってもネット指名した時点であげつらいや晒し行為になる(本人が全くの善意でも)。元増田はそういうことはしないと信じている。

2018-02-25

anond:20180223151356

漢字かな交じり文で普通分かち書き効果として十分なのだが、

いわゆる ぎなた読み回避するためには分かち書きを導入するのも有効だと思うよ

2018-02-24

anond:20180223152424

漢字かな混じりが分かち書き効果も兼ねていて

ひらがなonlyだと分けないと分かりづらいってことだね

2018-02-23

日本語分かち書きしちゃだめなの?

もし その 方 が 読みやすい なら 分かち書き した 方 が 良いん じゃ ない かなぁ ?

2017-11-04

分かち書きをするのって外国人

このまえ出会い系サイトネカマをやってたら、単語ごとにスペースをいてる人に絡まれた。

彼氏 いない 歴 = 年齢 とは 処女 と いうこと ですか?」みたいにすごい基本的なことを質問してきて、日本語勉強中の外国人かなと思ったけど。

2017-09-29

TechCrunch JPタイトルから hiwa 氏の翻訳か否かを深層学習推定する

追記 (9月30日 22:00)

最近タイトルを読むだけで hiwa 氏が翻訳したものかどうかがわかるようになってきた。

例えば、「死んだはずのBlackBerryがソフトウェア企業として蘇生、業績も株価も好調」というタイトルは「死んだはずの」という挑発的な言葉遣いは hiwa 氏だろう(そしてそのような文句は元記事にはないだろう)と推測したり(確認してみると元記事タイトルは "BlackBerry, yes BlackBerry, is making a comeback as a software company" であり、「死んだはずの」や「業績も株価好調」といった文言は含まれていない)、「GoogleがAmazonのEcho ShowからYouTubeを突然取り去る、サービス規約への違反だそうだ」というタイトルでは「〜〜〜、〜〜〜」という独特な文の接続や、文末の「だそうだ」という物言いから氏であろうと推測している。

私が推測できるのだからアルゴリズムでも可能ではないだろうか? そう考え、機械学習の中でも特に深層学習を用いて推定可能である検証した。

タスク

タイトル文字列(本文情報は用いない)からその記事翻訳者が hiwa 氏であるか ( = 1) そうでないか ( = 0) を学習予測する二値分類問題

学習データ

TechCrunch Japan記事データ 11,993 件。うち 3,781 件が hiwa 氏が翻訳したものである

手法

入力文は vanillaMeCab [1] を用いて分かち書きを行い、それぞれの単語は「日本語 Wikipedia エンティティベクトル」[2] を用いて 200 次元に埋め込んだ。語彙数は 17,272 だった。

予測モデルは 32 次元の LSTM [3]。dropout 率は 0.5。文の最大長は 120 単語zero-padding を行い、バッチサイズ 32 の Adam [4] で最適化した。

LSTM の実装には keras 公式に用意されたもの [5] を参考にした。

結果

精度 0.85, 再現率 0.80, f値 0.82 とまずまずの精度で予測可能であることがわかった。

ちなみに、 CNN による推定では 精度 0.84, 再現率 0.80, f値 0.82 という同等の結果を得た。

結論

機械学習を用いることで、記事を開く前に hiwa 氏が翻訳したものであるか否かがまずまずの精度で分類できることがわかった。深層学習はすごい。

参考文献

[1] MeCab: Yet Another Part-of-Speech and Morphological Analyzer

[2] Long Short-Term Memory

[3] 日本語 Wikipedia エンティティベクトル

[4] [1412.6980] Adam: A Method for Stochastic Optimization

[5] keras/imdb_lstm.py at master · fchollet/keras · GitHub

2017-06-22

文節ごとにスペース空けてコメントしてる方来てください

英語みたいに文節ごとにスペース開けてコメントしてる人いるよね?(厳密に言えば英語単語ごとだか)

それって wikipediaに よると 分かち書きと 言うらしい こんな感じに コメントを してる方が 増田に よくいるよね

やたら 読みにくいし なんか 不気味 

もし今いらっしゃったら(それが一人とは限らないが)どうしてわかち書きをしているのか、気になってしょうがないので教えてください。

ログイン ユーザー登録
ようこそ ゲスト さん