「機械翻訳」を含む日記 RSS

はてなキーワード: 機械翻訳とは

2017-03-09

怪しい日本語翻訳文書≠非日本語母語話者による翻訳

翻訳仕事を片手間にやってる。単語文字数単位ではなく拘束時間単位で、多分単価は安いんだけど、本業の傍らでやってるだけだし、とりあえず実績を付けるためにやってるので待遇の面ではそれほど不満はない。が、泣きたくなるのは前任者の翻訳をリバイズしている時。何故かって言うと、私視点では「ありえないくらい」酷いから。流石に機械翻訳レベルではないが、英語がそんなによくわからないなりにテキトーに訳しているという感じ。

今覚えてる限りだとこんなんがあった。

Fall under the spell of ○○ → ○○の秋……

いやあ…fallは確かに「秋」だけどさあ、それだと意味おかしくなるでしょ…

で、だ。テキトーに訳しながらも、なんとか日本語に移し替えているのならまだ好感が持てる。まあ、日本語的に読める文章でも間違ってる部分はどちらにせよ全部直さないといけないので私は楽にならないんだが、これは実質的杞憂

なぜなら日本語としてもヒドイから。私も日頃日本語でコミュニケーションしてないから、文章力に絶大な自信があるわけではない。でもなあ、流石に仕事での翻訳に「子供っぽい」文体を使おうとは思わない。いや、誰もやらんとは思うけど、私の目の前に広がっているのはまさしくそんな「子供っぽい」翻訳文なんだ。

で、ね…この「お子様文体」で書かれた、原文が存在しない文章存在に私は本気で頭を悩ませてる。最高に厄介なのが、問題クライアント説明しにくいってとこ。日本語文の「子供っぽさ」を「公正」に他の言語翻訳できる自信は、私には、ない。スラングを使うことも考えたが、スラング必要以上に文体を歪めてしまうから問題なのはギリギリ許容されうる範囲内での言葉遣いの拙さであって、スラングのようにそもそも許容範囲外の拙さではないってとこなんだ。

はいえ、原文も酷いと言えば酷い。英語ネイティヴが書いてる(らしい)から文法的には間違っていないんだけど(ただしところどころにtypoが残ってて何故か私が指摘してる)構成がマズくてわかりにくい。

まず、虎頭蛇尾というか、文章の後半に関係代名詞や分詞構文(って言うんだっけか?)でアレコレ「本来の文とは関係が薄い内容」付け足すので、文として意味不明になっている。何とか意図想像して訳せないことはないが、できれば添削してから翻訳に回してほしい。

更に、内容的繋がりが薄い文章が一つのパラグラフに押し込められている。パラグラフの長さ的にはまあ許容範囲?とかそういう観点なの?うん、でもね、違う、そうじゃないんだ。内容があっちこっち行っちゃう文章は読むのが大変なんだよ。

本業が忙しくなってきたからこの仕事は辞めるつもりだけど、一つ得られるものがあったとすれば、それは「怪しい日本語翻訳文書が非日本語母語話者による翻訳とは限らない」という知見を得られたこと。

それまでの私は、日本語ネイティヴ翻訳を行うなら、当然ある程度の水準以上の文章を出力するものだと思っていた。ただ、様々な理由により、読むに堪えないレベル翻訳文書が、日本語ネイティヴから回ってくる、と言うこともあるのだということ。

これを防ぐには、(どこの馬の骨ともわからない)個人を直接雇用するのではなく、内部で品質チェックを行う(であろう)翻訳事務所を通すべきだと思う。

思うんだけどさ、そういえば大昔、これとは別件でクソみたいな翻訳文書をほぼ丸ごと添削して翻訳事務所に送り返したこともあったなぁという珍事を思い出した。

2017-03-08

http://anond.hatelabo.jp/20170308180625

2、30年で機械翻訳人間翻訳者に置き換わるレベルまで発達するとは思えんし

日常会話が出来るレベルですら怪しいと思うが



他教科の中学生以上向けのやたら難しい概念小学生理解するのは難しい(脳の発達段階というものもある)が

英語なんて幼児でも出来るわけで、別に小学生から教える事に不都合があるとは思えんな

5年生にもなれば基礎的な日本語力はついてるわけだし

5,6年だけだから、今のカリキュラムの中2の半ばくらいまでしか出来んだろ

小学生から先取りする事で中学カリキュラムに余裕を持たせたいんだろう

http://anond.hatelabo.jp/20170308180625

エクセル計算したのでは信頼置けないか

電卓計算し直すとかやってるところを見る限り、

機械翻訳では駄目という信条が優先されてしまう場がおおくて

どうにもならなくなるのではないか

もうさ20年後30年後には機械翻訳がすごいことになるのはわかりきってるじゃん

小学生英語教育とかやってる場合じゃないよな。

まあ、電卓コンピュータ時代になっても、習い事そろばんをやってたおかげで計算が速いとか言えるから頭の体操はいいかもしれんけど。

2017-03-05

ブクマが多い×コメントが少ない=良エントリ法則

ブクマが多いからと言っていいエントリとは限らない。読む価値のあるエントリには無言ブクマが並ぶ気がする。と書いてる増田をどこかで見かけた気がする。(ソースが見つからなくてごめん)

先月の増田検証してみたい。

2017年2月増田エントリ

コメント タイトル コメント数/ブクマ リンク
12.4% 読書に限らず、何か行動を起こしたいときには抵抗の順番に環境コントロ.. 172/1382 anond:20170214093727
13.8% Adobe/Adobe 代替のためのソフト+α (2017/2/06更新) 74/537 anond:20160319160526
17.3% Google翻訳オープンソースプロジェクトに使うのはダメなのか? 53/307 anond:20170225195916
19.2% 釣りむちゃくちゃな理由JASRACを勝たせた判例ベスト10(前半) 41/213 リンク切れ
19.3% ADHD管理職をやっている者なんだが 201/1042 anond:20170227161628
21.7% 息子に吃音症の兆候が 出ている 122/563 anond:20170218153941
23.1% 90%女性デートに誘い出す方法リークする 166/718 anond:20170214110304
23.4% セフレ無修正動画に出てた 121/518 anond:20170201191934
23.4% 自分の思う通りにいかなかったからでしょうね。 思う通りってのはつまり、.. 158/674 anond:20170218020456
24.0% 中学受験体験 255/1062 anond:20170206102543
24.0% 無能と思われたら職場を変えたらいい 582/2423 anond:20170204103326
24.9% 釣りむちゃくちゃな理由JASRACを勝たせた判例ベスト10(後半) 86/346 リンク切れ
25.1% 左遷先で狂い咲いてる人がいる 116/462 anond:20170203221134
25.9% 統合失調症の母をついに入院させた話 238/920 anond:20170203210126
26.5% Ubuntu機械翻訳おじさんの騒動を見ていて胸が苦しくなった 40/151 anond:20170225141347
27.0% 1人で初ラブホテルに行った 140/518 anond:20170214145614
28.1% 教育困難校勤務の国語教員から 239/852 anond:20170208200842
29.0% 学術論文文法 111/383 anond:20170203162721
29.7% 教師との恋愛という罪の告白 149/501 anond:20170211003031
29.9% 日本人投手メジャーリーグ登板数を集計したら感覚結構ずれていた 35/117 anond:20170214000243
31.0% 珍名さん 44/142 anond:20170215025002
31.6% 清水富美加のレプロ能年玲奈のレプロ話題になってるけど 66/209 anond:20170212011429
32.7% 日本社会の本格的な分断はこれから来る 184/562 anond:20170216121824
32.7% 弁当作りにハマってしまった 56/171 anond:20170225114511
32.9% x けものフレンズを観ているとIQが下がる o けものフレンズを観ていると我々.. 107/325 anond:20170211212558

悪くない感じ。



2017年2月増田ソエントリ(失敬)

コメント タイトル コメント数/ブクマ
73.9% トンカツ牛肉版があれば流行ると思う 209/283
73.2% 聖戦士になりたい 52/71
72.9% 子供の人権尊重している一方、老人の人権は平気で蹂躙されてしかるべきと考えているはてなーたち 151/207
71.8% 人が溺れています、誰を助けますか? 222/309
70.8% もうやめてほしいラノベ漫画表現 109/154
70.0% 四大有名 ○○○号 126/180
68.9% 悪い宗教と良い宗教があるのか 252/366
66.0% ヘレン!これが水なのよ!今触ってるのが水なのよ! 31/47
65.5% 一人称を「私」呼びする男性が嫌い 545/832
64.7% 降りてみたい行先表示駅 66/102
64.6% Amazon大好き楽天大嫌いな、はてな民 259/401
64.2% (ぉ とか(マテ の解説一覧がほしい 122/190
63.8% んふんふーん 44/69
63.6% 諸星といえば 119/187
63.6% 正しいでしょ。例えば、二桁の整数の和を返すプログラムなら簡単完璧に.. 157/247
63.5% 世の中の人ってそんなにテレビ見てないのかな? わたし結構見てるかもし.. 172/271
63.2% 三大うんこっぽい食べ物 74/117
63.0% 美人から奢ってくれるって言うけど違うだろ 324/514
62.5% かつて、菩薩と言われたキャラって何がある?(けものフレンズ 70/112
62.2% 女だけど女は子供産んだら会社辞めて欲しい 324/521
62.0% お前ら「まとめサイトくそ 235/379
62.0% みんな、どうしてテレビゲームに飽きちゃったんですか? 285/460
61.8% シュークリームを買ってくる上司殺意 188/304
61.2% 一週間カレー食わせたら嫁が切れた 350/572
60.7% いい加減男性から性的搾取が酷い 241/397

必ずしもダメと限らないけど読んで損した気分になる釣り記事が含まれてる気がする。

2017-02-25

http://anond.hatelabo.jp/20170225195916

そもそも、例の人物はどの機械翻訳を使いその機械翻訳ライセンスをちゃんと確認したのかという質問に対して明確に回答していないのが問題なのだ

正直、GoogleUbuntuを今回の件についてライセンス違反理由に訴えて来る可能性なんて現実的にあるとは思えない。法的根拠でも、政治的にも。しかし、ライセンス無頓着でそのことについて無自覚人物コミットプロジェクトの将来への禍根でしかないので、全部リバートせざるを得ないだろう。

Google翻訳オープンソースプロジェクトに使うのはダメなのか?

免責: これは法律専門家によるアドバイスではありません。この情報にしたがって行動した結果に対して責任を負うことはできません。

最近プログラマの間で

Web翻訳の結果をオープンソースソフトウェア(OSS)の翻訳に突っ込んではいけませんという話」

http://blog.goo.ne.jp/ikunya/e/37e5a52e10ab26fcbd4f7ff867e9eace

が、話題になってますね。

Ubuntu翻訳プロジェクトで発生したトラブルの話です。

この話では、「もちろん、利用規約的に問題なければWeb翻訳の結果をOSS翻訳に突っ込んでも*ライセンス的には*問題ありません。」という追記がされてます

ですが、プログラマの間で単にWeb翻訳OSSに使ってはいけないんだという認識が広まってるように見えます個人的には、この認識が広まってしまうのはいやだなと感じたのでこの文を書いています

どういう話かというと、自分個人で開発しているオープンソースソフトウェア(OSS)のドキュメントの日英訳をするにあたってGoogle翻訳を利用するか検討して権利まわりの情報をしらべた結果、これは白に近いグレーだろうという判断したので下訳に使ったという話です。(日英両方についてのドキュメント自体も、オープンソースライセンスで公開しています)



注意書き

念のため言っておきますが、これは元記事問題になっている人を擁護するようなものではありません。翻訳コミュニティの人たちが自分たちのものにグレーなものを入れたくないと思うのは当然でしょうし、権利問題以外にも翻訳クオリティやその他の問題行動の話もあります

コミュニティ思想にそぐわない人が、そのコミュニティの中で作業していくのは難しいでしょう。



Google翻訳利用規約について

もとの記事のとおり、Excite翻訳利用規約には私的利用を超えた利用についての禁止が明記されています。こういった明確に禁止されているものについての話はここではしません。

ここでは、Google翻訳に焦点を当てた話をします。Google翻訳利用規約はどうか?というと、Google利用規約については翻訳結果の利用についての記載がありません。

https://www.google.com/intl/ja/policies/terms/

記載がないということは、使用してよいのか?使用してはいけないのか?いったいどちらなのでしょうか?



GPLコンパイラの例

機械翻訳権利問題と似た構造の話に、GPLGNU一般公衆ライセンス)で許諾されたコンパイラによってコンパイルした結果の利用があります

GPLの本文には、GPLプログラムの出力結果自体GPLのものを含む場合にのみその出力結果にGPL適用されることについての記述がありますが、GPLのものを含まない出力結果についてどういう許諾がされているか記載はありません。

これについては、コンパイラによるコンパイル結果に対して、コンパイラ著作者はなんら権利を持たないと考えるのが一般的です。

GNU自体もそういう見解を持っています

https://www.gnu.org/licenses/gpl-faq.ja.html#GPLOutput

著作権法は人々があなたプログラムとかれらのデータを使って作った出力結果の利用に関して、あなたに何の発言権も与えていません。

コンパイラ機械翻訳ツールとの違いが、対象が人工の言語であるか、自然言語かので違いしかないと考えるならば、Google翻訳の結果をOSSに利用することも問題ないということになります



ウィキメディア財団見解

ウィキメディア財団法務チームは、Google翻訳した文書ウィキペディア内での利用についての見解を公開しています

https://meta.wikimedia.org/wiki/Wikilegal/Copyright_for_Google_Translations

これはアメリカ法律に基づく話ですが、CC-BY-SA 3.0やそれに類似するライセンスコンテンツGoogle翻訳翻訳してウィキペディア使用してもGoogle著作権侵害する可能性はとても低い(very unlikely)と結論づけています

要点をまとめると以下の通りです。

ウィキメディア財団見解には含まれていませんがアメリカ法律でいえば、さらにもう一つ「フェアユース」にあたるのではという話があります。これはGoogle自体がよく知っている話かもしれません。



Oracle vs GoogleJava API訴訟

これはAndroidAPIJavaAPIが流用されていることについて、OracleGoogle訴訟したものです。

これについて、Java APIについての著作権が認められたものの、Androidでの使用は「フェアユース」に該当するとGoogleは主張し、カリフォルニア州サンフランシスコ地裁では著作権使用料支払いの対象にはならないという判決が下っています

(この裁判自体はまだ続いているようです)

フェアユース」というのは、アメリカ著作権法上の概念で、以下の4要素を判断指針として考えて公正な利用と認められれば、著作権侵害とはしないと考えるものです。

Google翻訳結果のOSSでの利用をこれに当てはめると

ということになり、4つの要素どれをとっても、フェアユースであると認めることに対して有利に働きます。これは、AndroidJava APIの流用と比べても、さらにフェアな利用であるように見えます

さて、ここまではアメリカ法律での話でした。

(ちなみにGoogle利用規約には、「カリフォルニア州抵触法を除き、本規約または本サービスに起因するまたは関連するいかなる紛争に関しても、アメリカ合衆国カリフォルニア州法律適用されます。」と書かれています)



文化庁見解

今度は日本法律に基づく話です。

著作権情報センターサイトに、 コンピュータ創作物についての文化庁報告書記載されています

http://www.cric.or.jp/db/report/h5_11_2/h5_11_2_main.html

この報告書は、機械翻訳ユーザー機械翻訳システム使用するために行う原文の編集や出力の編集創作的寄与となりうることを認めている一方で、機械翻訳開発者翻訳物の著作者になるということについては否定的です。

なお、原文解析等のプログラム作成者及び汎用的な辞書データベース作成者は、一般的翻訳物の作成の精度、正確度等を高めることに寄与することとなるが、特定翻訳物の作成自体にかかわっているわけではないので、その著作者とはなり得ないと考えられる。

これは平成5年とかなり昔に書かれた報告書であり、それから機械翻訳技術は大幅に進歩しましたが、創造個性表現を目指して作られているもので無い機械翻訳であれば、やはり翻訳の結果の利用について問題がないようにみえます

これにしたがえば、単純に文章をそのまま機械翻訳に投げ入れた出力結果は、原文の著作者著作物機械翻訳に投げ入れる前や後に十分な編集をしていれば、加えてその編集した人間二次著作物になるということになりそうです。



白に近いグレー

これまで、どうしてGoogle翻訳の結果をOSSに使うことが白に近いと言っているか説明してきました。

では、どうしてグレーなのかというと、新しい種類の権利問題なので判例がないからです。実際に訴えられたら負けました、ということもまったくありえない話ではないでしょう。



グレーなものを作ることの良し悪し

だいたい、ここまでが話したいことの半分です。ここからはグレーなものの良し悪しの話をします。

著作権などの権利問題についてグレーなことをやっているOSSというのはそれほど珍しいわけではありません。

有名なところでいうと、Monoが思いつきますAndroidDalvikJavaAPIを真似したものであるのと同じように、MonoMicrosoft.NETフレームワークを真似しています。つまりMonoについても訴訟リスクはあっただろうということです。

しかし、OracleGoogle対立したのとは対照的な道をMonoはたどります

2016年Monoプロジェクト運営していたXamarin社は、そのMicrosoft自身によって買収されました。権利的にグレーだったMonoMicrosoft公認プロジェクトになったというわけです。

権利的にグレーだからといって、プロジェクトとして失敗に終わるわけではありません。



Ubuntu日本語化プロジェクトでの良し悪し

すこし元の記事に話をもどします。冒頭にも書いた通り、Ubuntu日本語化プロジェクトに対してWeb翻訳の結果を突っ込むという行為は、批判されるべきだと思っています

まずは質の問題です。現在Google翻訳などは、UI翻訳に向いていません。UIほとんどは、意味合い文脈依存する単語や短文です。UI翻訳は、実際にその機能を動かしながら、動作にあった訳語を割り当てていくべきです。

Google翻訳などを使って一括で、訳語を割り当てても良いUI翻訳はできません。

UIにとっての良い訳については、元記事のいくやさんがとても良い話を書いています: https://github.com/ikunya/howtotranslatelibo/blob/master/howtotranslatelibo.md#ふさわしい翻訳の考え方 )

次に、白に近かろうがリスクのあるものを入れることになるということです。Ubuntu日本語化ローカライズであれば、すでに多くのユーザー使用しているでしょうし、そういうものについてリスクのあるものを後から入れることになります

そういったことを独断で黙ってやるというのは、歓迎されたものではありません。少なくとも、コミュニティに対して事前に方針を聞いたりすべきだったでしょう。

まりクオリティが低い上にリスクのあることを黙ってやったわけで、もちろん批判されるべきでしょう。



自分場合

はいえ、OSSには個々の事情があります。次は自分場合の話をしてみます

まずは質の話です。

自分プロジェクト場合Google翻訳を使ったのはドキュメントです。日本語で書いたドキュメントをあたらしいGoogle翻訳に入れてみたところ、そこそこのクオリティ翻訳が出力されており、自分ゼロから翻訳するよりも、原文を翻訳やす修正したり結果に対して修正を加えていったほうが質と速さの両面でよいと判断したので、Google翻訳使用しました。

次にリスクの話です。

OSS企業権利問題訴訟されるということはめったにありません。OSS公益性の高いものなので、むやみに訴えれば社会からの反感を買いますし、ほとんどの場合は訴えても大した金になりません。

訴えられるとすれば、そのOSSが十分に儲かっている場合です。もしOSS大金が儲かったらGoogleから訴えられてしまう!どうしよう!と考えるのは、宝くじに当たったら強盗におそわれてしまう!どうしよう!と考えるのに似ています

まず宝くじは当たらないですし、宝くじが当たったらそのお金対策を行えば良いだけの話です。

実際Linuxでは、特許周りの対策としてOpen Invention Network(OIN)を設立していますLinuxなどソフトウェアに対して特許を主張しないことに同意した企業から特許を買収して、そういった企業に対してロイヤルティー・フリーで許諾を行っている会社です。

これによって、Linux関連のソフトウェアに対して訴訟をしてきた、いわゆる「パテント・トロール」に対して訴訟をやり返すなどの対抗手段を得ているわけです。

別の視点でのリスク

それにOSSにまた別の角度のリスクがあります

権利問題訴訟されたことによって失敗に終わったOSSというのはほとんどありません。多くのOSSは、作者が飽きたり、面倒な作業うんざりしたり、誰にも使われなかったり、競合に勝てなかったりしたことで、フェードアウトしていきます

そういったこともまた、OSSリスクなわけです。

結局のところ、自分場合Google翻訳をつかったところで、Googleにも、自分にも、ユーザーにも、世間にも不利益はなく、むしろドキュメントの質は上がって、Google翻訳改善するためのデータを得られます

わずかなリスクを避けるために、時間を割いた上、質を落とすというのはくだらないですし、そんなことに時間を使うくらいならコードを書いていたいものです。



Web翻訳の結果をオープンソースソフトウェアで使うべきか、そうではないか

結局、Web翻訳の結果をオープンソースソフトウェアで使うべきか、そうではないか?というのは個別の話でしかなく、ひとまとめにWeb翻訳の結果をオープンソースソフトウェア翻訳にいれてはいけないとか、使うべきとかそう簡単には言えません。

質が悪いしリスクがあるのであれば単純に禁止で済む話ですが、機械翻訳が向上して、質が良いがリスクのある例が増えると話はさらにややこしくなります

OSS翻訳者コミュニティ機械翻訳の利用についてそのプロジェクトで使って良いか方針を定めてやっていくしかなく、後からコミュニティに入っていくような人が機械翻訳を使いたい場合コミュニティ方針確認した上でやっていくしかないんだろうなあと思うところです。

Ubuntu機械翻訳おじさんの騒動を見ていて胸が苦しくなった

まあ、この辺の話

当初はよくあるネットの厄介な人なんだろうぐらいに思って、酷いやつが居たものだぐらいで調べていたのだけど、だんだん胸が苦しくなってきた。件の人物過去に幾つかのコミュニティちょっかい出しては飽きたり、拒絶されていたみたいなんですよ。fj時代揉め事もあったらしいですが、さすがにそれは調べ切れなかった。


件の人物、色々やっているけどコードも書けないし、文章に関してもお金になるレベルでは無いようなのですよ。それでもOSSになんとか関与したかったんだろうなと、90年代ぐらいからそういう層は一定数居て、初心者向けのTipsページやら翻訳程度ならと始めるのだけど、三日坊主で飽きちゃうしかし、時代が経て機械翻訳がそれなりのクオリティになったことで、本人は認めていないが片っ端から機械翻訳の結果を使うという方法を取ったのであろう数だけはこなせるようになってしまった。その結果、本人としてはこんなにもアウトプットがあるのに日本コミュニティ全然認めてくれない!と今回の騒動になったのだろう。

英語MLほとんど日本人同士とはいえ、やりとりしているし英語ができるじゃないかと思ったら、件の人の書く英語はよく読むと無茶苦茶なんですよね。私も英語は相当できない方なので、どうしても英文を書く必要が有るとき機械翻訳を使うけど、出てきた英文自分で改めて読んで合ってるかなと見直しから使っている。しかし件の人物英文は明らかにおかしい、中学生で習うレベル英語からみてもおかしい。それを訂正もせずに使っているだけみたい。

過去騒動も含めて本人の能力に原因を求めざるを得ないものばかりで、同情できないのだけど、Wikipediaのやたらと赤裸々な自己紹介Codezineの略歴を見ていたら他人事とは思えなくなってきた。私もこの業界で俸給をなんとか得られているが、実は英語コードサッパリである。ご覧の通り、日本語も怪しい。年齢も結構近い。私にも増田にこうしてポストする程度の承認欲求はあるし、件の人物のような行動に出るかはほんの僅かの差でしかなかったんじゃないかと。

はいえ、機械翻訳を使った結果をコミットたか否かの質問には答えるべきですね。

2016-11-25

言語ってなんだ、状態か?

まずは【お前自身機械翻訳駆逐されろ】"iwatani"の翻訳した記事が上がっていた。

GoogleAI翻訳ツール独自の内部的言語発明したようだ、そうとしか言えない不思議現象が>

http://jp.techcrunch.com/2016/11/23/20161122googles-ai-translation-tool-seems-to-have-invented-its-own-secret-internal-language/

http://b.hatena.ne.jp/entry/jp.techcrunch.com/2016/11/23/20161122googles-ai-translation-tool-seems-to-have-invented-its-own-secret-internal-language/

Zero-Shot Learningは分岐のない翻訳などではない。これは正しくOne-shot Learningの延長線上にあり、

ワンショット学習すらしないで(この場合対応ペアでの事前学習をおこなわず)、新規ペアでの処理を行うっていうことだ。

この語は翻訳に限った話でもない。だからほとんどの訳がおかしい。むしろ機械翻訳の方がマシ(背景を理解していない翻訳者より機械翻訳の方がマシという皮肉な状況)。

ワンショット学習っていうのは人間ができることでもある、極めて少ないサンプル(多くの場合サンプルでもいい)から学習する方法

(ちなみに実際に脳内でもOne-Shot Learningは繰り返し学習とは別パスなのではという示唆もある)

グーグル翻訳AIが「独自言語」を生み出したといえる根拠

http://wired.jp/2016/11/24/google-ai-language-create/

http://b.hatena.ne.jp/entry/wired.jp/2016/11/24/google-ai-language-create/

なんだ英語を介さな翻訳手法って。もうなんなの。

これらは古くから考えられてきた「基底となる」文法等を完備した「中間言語」などではない。

論文で触れられている「『Interlingua』な表現形式」は『semantic representations』とされていて、まさに多言語間で共通する「『意味表現』の表現空間」であり、

リー状に開かれてもいない。人が想像する構造化された言語などではない。

ただしその空間を共有していて、つまり共通意味表現を持っていることは論文(arXiv:1611.04558)で実験的に証拠提示されている。

今までも多対多の翻訳ネットワークを共有することでBLEUを向上できるという論文は出ていたが、今回のは、翻訳に関して言えば、十分普遍化した意味空間を内部的にもったネットワーク新規ペアをぶち込んでも能動的な転移学習すらせずにそれなりの結果が得られる、結果の向上だけでなく未知ペアを処理できるって事である

 そしてその効果汎用性↑↑、そして最大のメリットサンプルが少ない言語ペアもやりやすくなるぞ、マイナー言語にも早く適用できるかもって所だ。

One-shot Learning系(小サンプル)とDeep Learning系(巨大サンプル)によるネットワークについて、意味という(我々にも見えない)上位構造の下に配置された構造である言語」を扱う特別な例では、両方を一つで達成できる可能性が垣間見えた論文なのでもある。

2016-11-17

Google翻訳ってそんなにすごい?

はてぶでGoogle翻訳がすごいって話題をちらほらみて、購読してるポッドキャストでもこの話題がでて、会社ドキュメント人間をやとって翻訳させてるけどもう人間いらないとか言ってるのな。

そんなにすごいのならと、試しにギズモードとかワイアード記事を2,3翻訳させてみたけど、やっぱ機械翻訳って感じの訳だったわ。

あの程度なら人間訳者は安泰だと思った。

2016-10-23

ディラン選考委員話題元ネタニュアンスのある記事だったんだな

機械翻訳だとわかりにくい、うまく意味が取れない

挑発的な反論を感じる見出しで注目を集めるテク

直接的に褒めてはいないけど、肯定意図

こういうのをちゃんと訳すのは、まだまだ人間翻訳家仕事だなと思う

http://anond.hatelabo.jp/20161023023009#tb

2016-10-08

Apesnotmonkeyの誹謗中傷と「致命的」事実誤認について

http://d.hatena.ne.jp/Apeman/20161005/p1

■[メモ]歴史修正主義の手口を理解する手がかり

と題し、

布志市の「うな子」動画めぐり差別否認しようとする人々の振る舞いは非常に参考になります後者の方はわざわざ否認者が自らまとめてくれています

http://togetter.com/li/1030691

と書いているが、そもそも否認主義者ではないし、このまとめ主は慰安婦否定したことがない。なぜこんな嘘をいうのか。

 差別否認するという結論を維持するために、どれほど「証拠」の集め方やその解釈に歪みが生じるか、というところがポイントなのです。

 これも腰を抜かす発言だ。一体Apesnotmonkeyはどうしたんだ。歴史修正しているのはお前だ。

 これらはまとめ主が証拠として集めたのではない。ハフィントンポスト千田有紀記事ブログで紹介したものばかりだ。最初からすべて提示された証拠に基づいて書いている。

 嘘はやめていただきたい。

 あと一つ言っておこう。さすが「自動翻訳頼みで研究者に難癖かよw」という嗤われ方もしているようですが<さすがこのでたらめには引っかからなかった。なぜなら機械翻訳だろうと何だろうと最初から間違っている部分は自動翻訳ではないからだ。3日たっても間違いを指摘できない。そうだろうな。なぜならこのまとめの翻訳は誰がどうやっても千田ハフィントンポストが間違っているという結論しかならないからだ。

 

 

もう一度明記しておく

「致命的」事実誤認

差別否認するという結論を維持するために、どれほど「証拠」の集め方やその解釈に歪みが生じるか

という部分。「証拠」を集めたものハフポスト千田有紀だ。それで記事を書いている。差別を「肯定」するために認知のゆがみが生じているのは

ハフィントンポスト

千田有紀

Apesntmonkey

の三者である

ハフポスト千田有紀誤訳である理由

 少し理由説明しておくか。

 紹介した4つの記事はすべてハフや千田が紹介したものだ。このすべてがAFP引用している。

 そしてAFP最初とすると、あとの記事ビデオ描写が増えている。またビデオについての記述は増えたが、修飾語ネガティブではない。アトランティスから来た男まで引用したものがある。そしてBUT or Unfortunately という表現がつかわれ逆説で性差別云々という発言が紹介され、これに対する志布志市発言が紹介される。

 そして差別とされた例が続く。だがこの意見フォーリンポリシーではsomeとされ、他も冷たい。性差別とされた例にはBBCジョークまで使っている。

 つまり性差別なんて言う意見おかしい、ばかばかしい、くだらないということになる。

 なぜこんな結論になるか。当然ながらキーワードがある。それはサステナビリティだ。フォーリンポリシーには頻繁に出てくる。

 ネットではまた未成年拉致しているというシーンはサステナビリティを表しているもの説明し、これが海外に伝わっているし、支持されている。

 これを前後として象牙の話があった、またCOP21の話がある。日本人は持続可能性がわからないとされている。

 実際このCMに関する頓珍漢な評価の最大の欠点は、持続可能性の主張に弾圧を加えた、やはり日本人は駄目だってなる。

 フォーリンポリシーは持続可能性を説明するにはおそらくただしくない方法だったといい、BBCはこのCM動物人間に変身する初めてのCMではありませんと日本人CM削除の批判にあきれている、ということになる。

 この原文の流れと全体を把握した解釈のどこが否認主義者なのか。接続詞を見ろ。Someという単語を見ろ。海外でもCM批判されているなどと書くのがどこが正しいのか。

 CM批判されているどころか「日本ではこんなアカウント性差別と言っている」としてフォーリンポリシーでは思いっきさらものになっているではないか英語が読めるのか原文を読んだのか。

 ネトウヨもびっくりの歴史修正主義だ。

誤訳という批判の特徴

 1.部分だけ取り出す

 これを誤訳だと指摘するのは一語だけに絞ったり、自分に都合がいい批判の例が書いてあったりする部分だけに絞っている。とんでもないことだ。全体としてみればBUTで否定的性差別という批判が紹介され、なんでこんな変なことが起きるのか・・・それはこんなことが起きているから、という流れだ。このへんてこな批判はこんな例の連続として紹介されている。

 これはCMの「批判がとんでもないのでどんなに日本人はとんでもない批判をしているか」という例として紹介されている。

2.ありえない単語を補う

 英文日本批判したツィートの引用以外「全く」ポルノとかセクシズムというという表現はない。どこが海外批判されているのか。どこにもないじゃないか児童ポルノなんて書いてない。それは日本人だけだ。行間を読むどころか自分気持ち投影させているだけなのだ

 3.バイアス

 碧志摩メグ海外批判されてもいないし、児童ポルノ扱いされたこともない。嘘だと思うなら探してみるがいい。あってもそれはすべて日本では言われたという表現になっている。

 これを海外では批判けが紹介されるだけで批判は本文に見当たらないので海外では性差別だとされていない。碧志摩メグと聞いて海外性差別と考えるのは日本人だけしかいない。

 この結論自分に都合がいいとでも?

 つまりバイアスがかかっているのはハフポスト千田有紀やApesである

 4.単語力の不足

 推定するとフォーリン女性社会進出expressionを使っている。これを千田CM批判勘違いしている可能性が極めて高い。そしてこれは致命的な誤訳だ。これは社会進出ということになる。

2016-03-09

http://anond.hatelabo.jp/20160309141412

ホロン部も知らない癖に、ネトウヨ面すんなよ、オバサ

読んでて違和感を感じない程度の日本語力なら、こういう事に首突っ込むな



http://dic.nicovideo.jp/a/%E3%83%9B%E3%83%AD%E3%83%B3%E9%83%A8

ホロン部の特徴

満足に日本語が分からないくせに日本人のふりをする

助詞(てにをは)の使い方が変 (日本語朝鮮語助詞の使い方が違う)

句読点が無い(朝鮮語句読点がない)

時に、あからさまに機械翻訳

俺は正真正銘の日本人だけど(このタイプは総聯ホロンに多い)

右翼嫌韓嫌中などのふりをして珍奇な主張をする

ex.「俺はどちらかというとウヨだけど」「嫌韓の俺が言うのも何だけど」

誤字脱字がある

必死に話を逸らすが、内容が非常識

罵倒しかできない

日本語で書かれた簡単な計算ができない

ただし、ハングルで同じ問題を出せば普通に正解できる

でも、それを指摘されると何故か答えない

詭弁の特徴のガイドライン完全準拠詭弁披露する

お国自慢話題が一切無いのに突然地域分断工作に精を出す 

ex.「また犬阪か!」「また倒狂か!」「さいたまさいたま!」

わず「~は日本じゃないから」と言ってしま

ex.独島日本じゃねぇから」「梅田日本じゃねぇから

ついうっかり朝鮮語を使ってしま

日韓韓日と書いてしま

朝鮮半島韓半島と書いてしま

竹島独島と書いてしま

2016-02-11

あと2, 30年したらGoogle機械翻訳の性能が向上して

素人の精度の低い英語なんか太刀打ちできなくなる。

英語教育をうけていた小学生おっさんになっていて、いままで必死英語勉強したのはなんだったんだって思うようになる。

2015-12-31

台東区HP言語表記間違い探し

http://www.city.taito.lg.jp/index.html

http://www3.nhk.or.jp/news/html/20151229/k10010356241000.html

あくまで一部。探せばもっとたくさん間違いがあるはずで実際ここで指摘した以外にもおかしい文はあるので他の言語でもふるって指摘すべし。

やっぱ役所公式サイト機械翻訳使っちゃダメだよ。

2015-09-28

韓→日の機械翻訳は異様に精度が高い気がする

検索に引っ掛かったハングル語ツイートとかよく翻訳かけるんだけど、かなり自然文章になっててビビる

ハングル学んだことなからからないけど日本語に訳しやす言語なのかしら

2015-08-18

http://anond.hatelabo.jp/20150818000647

英語使えるのが常識になって機械翻訳わざわざ使わないと簡単な会話もできないとか池沼かよ。リアルでどうすんだ」って扱いになるから今の内に勉強しとけよ。

基礎の教育順序も理解してないアホが教えてるのは今のうちだけだぞ

小学生英語教育の必修化

あと30年もしたら機械翻訳の性能が上がって、まあまあ意思疎通ができる程度の中途半端英語力はぜんぜん価値がなくなって、今の小学生おっさんになるころには、あんなに時間を使って勉強したのは何だったんだってことになってる。

で、素で英語のできねえ奴はつかえねえとか言って若者老害あつかいされてるの。

英検三級にも合格できないおれの妄想

2015-08-15

[]よくある質問

今回は例え話関連。

真面目に答えず、出来る限り嘘と虚構を織り交ぜて答えていきたい。



Q.忍者いくら人気だからって、創作世界忍者で遊びすぎだと思います

最初のうちは皆マジメに忍者というジャンルに向き合っていたんだよ。

でも様々な要素を付け足したり、新たな視点から見てみることでジャンルは更に反映するのさ。

勇者魔王モノと同じだね。

私が知っている限りでは、若者ターゲットをあてて、登場する忍者を同じくらいの年齢にしているとか。

あとは、現代食べ物主食にさせたり、サーフィンとかやらせたりして親しみを持たせていた。

うそう、あくまフィクションというのを強調するために忍者人間じゃなくて、空想上の生き物というのもあったな。



Q.援助交際してそうなアニメキャラランキングというものがあるようですが、いくら架空キャラからといって、些か低俗下品ではないでしょうか。

学生時代クラスメイトとそういう下品な話をしたことはないかい

いわばその延長線上さ。

大人にもなってそういうことで盛り上がるのもどうかと思うかもしれないが、みんなどこかで「心の○○歳」を飼っているものさ。

もちろん私も心の小中高大それぞれ飼っている。

まあ、低俗であることは否定しないが。



Q.ローカライズって、ただの翻訳に感じるんですが、そんなに重要なのでしょうか。

重要だ。私は機械翻訳レベルからまり大層なことはいえないが。

ローカライズが酷いと、冗談抜きで作品のもの価値すら脅かすことになる。

ミュウツーの逆襲」が、米国では駄作扱いされているのが有名な例だな。

日本で好評価のものが他の国では低評価だったりするケースがあるが、これもローカライズの妙ということさ。

日本人に見る目がないという説もあるが、私としては認められるところではないね

2015-08-13

ロリポップ時代インターネット殺人事件URLをチェックしたら、いつのまにか「中性脂肪を下げるには何をすればよいの?」なるいかにも機械翻訳丸出しの業者サイトになっていた。

この業者は何を考えてこのドメインを選んだのか。中性脂肪がどうこうっていうのにインターネットキルは関係ないだろう。もっと普通ドメイン名でよさそうなものだ。

もしかしてドメイン売買評者に「ここは人気のドメインですよ」って騙されたのか。

いや嘘は言ってないけどさあ。

2015-08-01

かつてイタリア空港ジェット燃料の発注を忘れたことがある

1999年10月イタリアの空の玄関ローマ空港で、ジェット燃料の備蓄が0になると言う出来事があった。

当然、燃料補給する予定だった、航空機は、飛び立てず、ローマの空は大混乱で、

原因は、燃料の備蓄管理をする部門が無かったかららしい。

其れまでは、燃料の備蓄が、少なくなって来ていることに気が付いた部門が、

燃料を発注してきていたと言う話しで、その時は、気が付いた人はいても、

「まあ、誰かがちゃんとやっているだろう。」「誰かが、やっていたら、二重発注になるし・・・」で、

誰も発注していなかったらしい。

こんな事故を起こす、イタリア人が凄いのか、それとも、こんな体制1999年まで、

問題なく空港を維持できたイタリアは凄いと言うべきなのか・・・・・・

☆信じられないが、本当だ

http://www.sinzirarenai.com/

この話あまりにもすごすぎて半信半疑だったので調べてみた。

この事件はどこから発表されたのか

"carburante"、"esaurito"、"aeroporto"をキーワード検索したところ次のページが引っ掛かった。

話の出どころとしてはラ・レプッブリカ社のサイトのみたいだ。

機械翻訳だったからよくわかんないんだけど、本当に発注忘れてたみたい…。

Emergenza carburante a Fiumicino

http://www.repubblica.it/online/fatti/fiumi/benz/benz.html

イタリアのどこの空港でおこったのか

記事を信頼するとフィウミチーノ空港で起こったことらしい。

ちなみに"ローマ空港"という名前空港はないんだね。

ローマってつく空港複数あるみたいだ。

でも、イタリア語Wikipedia空港のページをみても1999年10月にそんなことがあったなんて記述がないんだよね。

もしくは書いてあるけど自分が読めてないだけか。。。

あと続報がないんだけど最終的にどうなったんだ…。

というかこれが事実さいことにも衝撃だ…。

どなたかご存知でしたら教えてください。

2015-05-01

人工知能出現はエライことになるのか否か?

http://tjo.hatenablog.com/entry/2015/04/30/190000

リンク先は「今世間では人工知能がとんでもなくもてはやされ(あるいは恐怖され)てるが、そうでもないよ」という話。

話の要旨は

けれども、世間の人々が期待しているのは「singularityに程なくして到達し得るほどのSF小説に出てくるような人工知能」であって、「莫大な種類のパラメータチューニングと果てしなく続く前処理の果てにようやくヒトが作業するよりも5%程度精度が高くなる機械学習分類器」ではないわけです*10。その見解のズレは、世間の人々が自ら機械学習とそのために必要数学や関連分野の学術を学ぶようにならない限りは、なくならないことでしょう。

ってな感じ。学者さんらしく「世間の人々の理解レベルが低いので幻想見てるんだよ」という結論です。

全体的に同意できる記事なのですが、結論というか着地点はずいぶん違うんじゃないかなあという印象。

というのも人工知能(ここでは機械学習)が「社会」に対して与えるインパクトは強烈だからです。例えば文章の多言語翻訳は、今後10年で常用可能なレベル機械翻訳が登場するでしょう。自動車の運転も(法的な規制さえ間に合えば)実現する可能性が高いです。画像認識による機械警備や、機器監視なんかも置き換わる可能性が高いです。記事先では「5%程度精度が高くなる機械学習分類器」なんてしょんぼり書かれていますが、一度実現してしまえば教育コスト無しで複製でき、大量生産コストダウンしていける、さらには24時間働かせても誰も訴え出ないこれらの機器は、該当分野の雇用状況を一変させるでしょう。

率直に言えば、社会を変革するにあたって「世間のみんなが夢想するような人間比肩するAI」なんてレベルのもの必要ないのです。

初期設定には人間の介添え(チューニング)を必要とし、狭い学習分野しか通用せず、人間より数%しか能力向上がなくても(あるいは能力が下でも!)、電力で動く機械であるというだけで、十分に社会を変革できるのです。そもそも失業率が1%上がった下がったで一喜一憂している先進国為替が1%上下しただけで冷や汗と笑顔が交差する企業において、「たかだか5%程度」なんてのは口が裂けても言えない数字です。

雇用に影響を与える」という一点において、人工知能の今後10年は、脳研究のそれとはまったく違った経過をたどるのではないでしょうか?

2015-04-14

その英文、「不細工」というレベルじゃないから迷惑から

http://anond.hatelabo.jp/20150414163947

スポンサー企業の中には外資系で、本社アメリカとかもありますね。

はい、そのときアメリカ本社メールします。

ただの迷惑だ。やめてくれ。

英語はできないので、機械翻訳ですが、こんな感じです。

It's mailed from Japan.

...

Japanese is being scolded.

Please scold Japan corporation from headquarters.

こんな英文メール、相手が意味を読み取ってくれるとでも思ってるのか?


このサイトの COMMENT ON THIS WEBSITE のところにアドレスがあります

かなり不細工英文ですが・・・

It's mailed from Japan.

Japan corporation of an American enterprise.

中学3年でも意味が取れないとわかるレベルであり、「不細工」とかいレベルじゃない。それすらわからないのなら、英語で何か書いて誰かに何かを伝えようなんて呼びかけるな。


スルーしようと思ったが、こういう「怪文書」は見たらつっこみを入れるようにしておかないと、どんどん広まるからな。


最初タイトルに入れたのが文字数が多すぎて変なところで切れてしまった。そのため、タイトル文字数を削減して書き直した。それゆえ、トラバ画面とここのタイトルに相違があるかもしれない。

ログイン ユーザー登録
ようこそ ゲスト さん