「ニューラルネット」を含む日記 RSS

はてなキーワード: ニューラルネットとは

2022-11-30

anond:20221130144431

数値誤差とかそういう概念機械学習系だとほぼ意識しないよな

誤差以前にそもそも確率的に最適化してて巨大なノイズが乗るし、とにかくデータ積み上げて計算着回せばいいんだよ!!!って感じで些末なこと考えても仕方ない

ただ最近は(第3波の)ニューラルネットネイティブ世代が増えてきていて、なんかコマンド打てば動くんですみたいな解像度で色々やっててそれはそれで怖い笑

anond:20221130144431

ニューラルネット自体計算精度が問題になりそうにない大づかみな考え方っぽいし、計算自体も誤差の累積で拡散ちゃう性質のものじゃないっぽいから、それでいいんだろうな。微分方程式の解法とはだいぶ性質が違ってそうだ。まあ分野によりけり問題性質によりけりってことか。

anond:20221130133752

ニューラルネットは単精度計算でやってるのが標準で、それで死ぬほど足し算とか掛け算とかしまくってるので数値誤差は酷いことになってるはず。

でもなんか問題ないっぽいからまあいいっしょで思考停止してそれ以上のことを考えてる人間専門家でもほぼいない。(たぶん真面目に考えても特に何も面白い結果は出てこないと思うが)

2022-11-14

国産半導体が売れるジャンルってあるのだろうか?

ロジックプロセス2nmを国産するということだが、数兆円市場を目指すとしているが、何を作るのかはまだ明かされてない。


スマホ向け

スマホ向けSoCだと

  1. CPU
  2. GPU
  3. 画像処理エンジンISP
  4. カメラインタフェース(MIPIなど)
  5. WiFi
  6. GPS
  7. 温度計
  8. UART
  9. ニューラルネットエンジン
  10. 5G RF

といったのが乗っており、色んな物を作らないといけないのでハードル高そう。


PC向けCPU

x86を作ったとして、パソコンの台数自体頭打ち

今のインテルAMDを超えるのを作れたとしても、競争は激しそうだ。

コンシューマ向けで日本人は期待する所だろうが、おそらくない。


PC向けGPU

NVIDIA1強になっているのはよくなさそうだが、DirectX対応GPUメーカーが淘汰された状態が今なので、おそらくない。

コンシューマとしてはゲームを期待すると思うのだが、

ゲーム販売方法自体が、高性能なハード赤字で売ってソフトで後で稼ぐモデルから変わってしまっているので、おそらくない。


軍事用途

TSMCF-35チップを作ってるというのは検索すりゃすぐに出てくる。

似たようなので兵器に使っているチップ国産したいっていう国のニーズはあるはずだ。

ただ数が出ない。


政府特殊用途チップを作りたいというのもあるはずだ。

例えば、特殊暗号チップを作り、国内の省庁間や、海外にある領事館との間で、重要通信に使う、

というのは考えられる。

こちらも数は出ない。


サイバー攻撃に対してのチップというのもあるかと思う。


宇宙用途

何かしら作りたいのだろうが、こちらも数が出ないだろう。


通信

通信データ量はドンドン増えていることと、安全保障観点で透明性が求められるので、

多少高くても国産、というのは出てきそうだ。


AI

AIも沢山あるが、例えば車向けとしても、車に載せるのではなく、社内のスパコン向けの方がいいのではないだろうか。

テスラが社内に使うスパコン自分達でチップから起こした、みたいなものだ。

なんで社内向けが重要かは、車に載せると多少コストがかかっても解析されてしまう。

GoogleAmazonなどが自社で作ったチップクラウドで使うとしているのは、他社、他国チップを解析されない、というメリットがある。


個人パソコンに挿せるAIチップが載ったPCIカードが出てくれば、国民としても身近に感じられるだろうが、

どうなるかはわからん


物理シミュレーション向け

GPUでも性能足りてない。

製造業兵器作るのには重要だが・・・

クラウドマイナンバーカードさえあれば、それなりに自由に使えるなら自分は使う。



追記

書いている途中で力尽きたので、上記だけだった。

以下、コメント返し

RISC-Vがこれから来る、というのは確かにそうなのだが、

ターゲットとするのは、もう半導体として機能向上を求めないところ(他の機械部分がボトルネックになるなど)だと思っている。

要はコストダウンのみで、チップが無いと困るが、もう新しく設計必要なく量産だけやってくれる方がいいってところの認識だ。


車載エンジン周りのマイコンは先端2nmはしばらく使わず

どちらかというと自動運転向けの画像処理か、車載にせず社内の画像学習向けの方が良いはず。

イメージセンサーに載るのは2nmは多分使わず熊本28nmの方使うはず。

センサーの後ろにつける画像処理用のISPは2nm使うのはあると思う。

8K,16K 24fps以上狙うと使わないと処理追いつかないはず。

2022-10-10

最近AIに使ってる深層学習ってニューラルネットやろ?

シリコンより人間の脳に演算させたほうが良くない?

植物人間大脳とかほとんど機能してないし計算機にできないのかな

2022-10-07

anond:20221007095809

的外れ

的外れ思い込み深読みし過ぎてるのはお前だろう。

俺は似ているとしか書いてないし、ニューラルネット自体大学研究室でやってたので普通に理解している。

2022-10-03

anond:20221003195941

それはそう。予測とか生成をする分にはいいんだけど、モデル解釈性は全くない。統計的学習理論なんかも滅茶苦茶大雑把にこういう感じのデータ関数空間)はニューラルネットが有利とか言ってるだけだし、未来永劫何も分からんのじゃないかと思うわ。

まあ生成に関して言えば、ピカソダリがどういうロジックでああいう絵を描いたのか説明できんのかって言われたところで、美術史家が半分妄想みたいな理論をこねくり回して後から理由らしきものを捻り出すのがせいぜいなのと同じだろうと思う。予測はもうちょっと何とかなって欲しいけどなあ。

anond:20221003192213

そういう細かいところがどうなって上手く行ってるのかは多分今のところ誰も分かってない(今後も分からなさそうな気が俺はする)。追ってないので分からんけど、なんか論文はあるかもしれない。

まあ現状のモデルは内部にアテンションモジュールが入ってて近傍整合性みたいなのを少しずつ適用していくような形にはなってるんだろうなと思うわ。その整合性基準学習に使った画像群ではあるだろう。でも別に学習に使った画像を丸ごと記憶しておくストレージみたいなもんは無いはずなので、一つまたは複数画像から取ってきてるって言ってもそれはニューラルネットパラメータとしてエンコードされた何かよく分からんものということになるはず。

2022-09-10

anond:20220910003351

一般線形モデルは基本中の基本なので、「暗に仮定」も何も、知ってて当然現れたらスッと解釈できて当然の内容だと思うんだけど。

いや、だからy=aφ(x)+b型回帰なんて一般線形モデルに限らないのになんで「知ってて当然現れたらスッと解釈できて当然の内容だと思うんだけど」なの?

俺は一般線形モデル普通に勉強したことがあるし解釈できるが、俺のコメントモデルが明示された後にそれを解釈できるかどうかを問うているのではなく「何も言及されていないのにφと書かれた関数だけをみて一般線形モデルだと判断できないだろう」ということを言っている

なおあなたがそれしか知らないから「基本中の基本だしわかるだろ」って言ってるだけで基本中の基本でこの形の関数なんていくらでもあるから

ガウス過程回帰かもしれないし、カーネル回帰かもしれないしスプライ回帰かもしれないし最近ならニューラルネットを使ってるかもしれない それこそどれも基本中の基本だ どれを想定しているかなんて神にしか分からんだろう

例えばX~Pって書かれたときに「Pは正規分布。これは基本中の基本なので、「暗に仮定」も何も、知ってて当然現れたらスッと解釈できて当然の内容だと思うんだけど。」とか言われたらあなた納得するの?

(書かれている文章レベル感的に本当に納得しそうだから怖いんだよな・・・

正規分布を使うときにわざわざ解説なんかしないのと同じレベルの話でしょ。

俺は一般線形モデル解説を求めているわけではなく断りなしに一般線形モデルをいきなり持ち出してくるのがおかしいって言ってる。

上にも書いたけど、X~Pって書かれたときに何も言及なくPは正規分布を想定するって言われたらそりゃ文句を言うでしょ 候補は他にもいくらでもあるんだから

「相関を持ち出すなんて平均しか考慮していない!外れ値や分散考慮していない!」とかご高説を垂れておきながらy=aφ(x)+bでは一般線形モデル以外の候補は想定しなくてよい、みたいなこと言っちゃうダブルスタンダードなんじゃないか

一般線形モデル非線形部分は決定論的な項の話なので、加法ガウスノイズ仮定しているならば非線形部分がどんな関数だろうと相関の強さは一意に定まる。

問題点がわかってないな・・・偉そうに上から目線でご高説を垂れてきた割にこのレベル感とか頼むよマジで

この人は専門ではないけど修論一般線形モデル周りだけ勉強して統計を使ってましたくらいのレベル感か?多分

リンク関数を一つ定めれば相関が定まるのはあなたがいうところの「当たり前」の話 その程度の話は問題にすらしていないことを文章から読み取れてほしい

読み取れてないならあなた勉強不足だよもう 単語の使い方も雑だし

ただ一般線形モデルリンク関数にどれを使うかで相関が変わるの。線形相関を使う場合ならリンク関数はφ(x)=xで定まっていて特に議論なく終えることができるけど、非線形を許容し始めると「どのリンク関数を使うのか?」で相関が変わってしまうのにいったいどうやってリンク関数を定めて、そのうえで「相関が強い」ということを示すつもりなんだということを聞いている。リンク関数の選び方によっては同じデータでも非線形相関を0にもほぼ1にもできたりするんだけど。

夜遅くまで返信返してくれてありがたいことだけど返信されていない俺のコメントを再度貼っておこう

他の都合悪そうなコメントについても何一つ返信ないですよ? 頼むでホンマ

2022-09-03

anond:20220903120543

ごめんfeature learningのことです

正式訳語を知らない ググってみたけど表現学習と訳すのが一般的なのかな

古のword2vecみたいなものなど一応あれも(議論はあるが)ニューラルネットを使っていることになっていて、入力に相当する部分をパラメータとみなして学習しているとも言える

電卓の話とinconsistentなのでやはり変ではある 何がおかしいかと言われると個別の話では「そうみなせる」みたいなのはありそうだけど、やっぱり言葉の使い方が一般的ではないよね

anond:20220902102400

入力学習対象とする場合もある(特徴量学習)から、そのときニューラルネット的なもの入力パラメータとみなしていることにはなる それはそのとおり

ただまぁ機械学習での慣例的には言葉の使い方に違和感あるよな 「特殊例だとそうみなすことがある」ってだけだし、そもそも電卓では予測モデルみたいなもの学習しないのでパラメータとかそういう言葉を使わない気がする

念の為書いておくけど情報科学の他の分野では呼び方が違ったりする場合があるし、あくまでも機械学習分野の論文とかでは普通そう呼ばないというだけです

anond:20220901184406

死ぬほど読みづらくて読んでなかったけど、「パラメータ」の意味おかしいというコメントがあったので該当部分だけ頑張って読んでみた。

AI(というか機械学習モデル)の文脈パラメータっつったらニューラルネットのウェイトなどの学習対象変数のことに決まってんだろ。何も分かってねーなこいつ。という内容だった。

2022-09-01

anond:20220901001522

ニューラルネット神のご機嫌を取りながらポンしてうまくいくよう祈るシャーマンのことを機械学習エンジニャーと呼ぶのだと思っていたが

最近学習済みモデルにどういう呪文を入れるといい感じの絵が出てくるのか?みたいな感じでファンタジー感が増してきた

2022-08-17

anond:20220817124354

しかいない」ということは無いだろうが、今どき洗練された家系は知能も身長も高い遺伝子持ちだから高身長が多くなるのはあるだろう。低身長でも突然変異的に知能の高い個体が生まれることがあるのでそういうのが東大に集まるだろう。

学会とかでも高身長か低身長二極化は多少感じないでもない。

端的に言うなら、身長突然変異で高くはなりづらいが、知能は突然変異で高くなりやすいということかなあ(なりやすいと言ってもあくま相対的にだけど)。知能の方は脳のニューラルネット微妙な結合バランスとかで大きく揺らいだりするもんなのかもな。カオスの淵みたいな微妙状態にあるから変動が大きいのではとか思わないでもない。身長もっと原始的で単純ゆえにロバスト遺伝子型で決まってるのは想像に難くない。

2022-03-15

M1 Ultra、同じチップを繋げたのは駄目だったのでは

今後、別構成チップが出てくる可能性はあるだろうが・・・


まず、あまり現時点では使い道が少ないニューラルネットの回路が倍になっても、意味がない。

ProRes周りの回路が増えたとしても、誰がそんな何本も流すんだ?という感じになっている。

クラウドで大量に処理したい動画がある場合はいいだろうが・・・

価格が安ければ、動かないダークシリコンがあったとしても納得するだろうが、価格が高いので納得感はない。


個人的には、GPUコアのみのダイを結合した方が使い勝手はいいように感じる。

Appleですら先端プロセス価格に苦労してそうなので、作れるかわからんが)

1つ目のダイCPUシングルコア性能アップとキャッシュアップ、GPUは最低限にする

2つ目のダイGPUのみにする

という構成の方がいいのではないだろうか。

GPUカードを挿す代わりに、GPUダイを選ぶ。

2022-01-01

ゲームやるよりゲーム作る方が楽しい

でも、ちゃんゲームとして完成させるのは超難しい

楽しいのは描画系とか、操作とか、シューティングだと色んな装備実装したりとか、そういうのは楽しい

敵の行動あたりから雲行きが怪しくなる

今でも敵の動作が単純な判断の積み重ねというか、

カッコよく言うならサブサンプションアーキテクチャというか、

要はパックマンとかスーパーマリオの延長線がなんだかんだ多いのではないか

シューティングなんか、同じ動作パターンの繰り返しであり、それが幾重にも積み重なる、

例えば、同じ画面内に様々な敵が登場するが、それぞれの敵の行動パターンは非常に単純であるが、

それがミックスされたり、自機に向かってどんな感じで弾を撃つとか、自機と無関係レーザーを放つとか、

そういう従来の方法でもまあ面白いんだけど、

結局は凝ったイライラ棒みたいなもんで、意外性がないというか面白くない

敵が、生きてるのではないか?と思うぐらいちゃんと考えてるように見せるというのは難しい

特にFPSにはそういう敵が要求される気がする

例えば監視兵士がいるとして、兵士巡回ルートを回りつつ、ときどき他の監視員とだべって、

しかし、プレイヤーが誰かに見つかると半数がプレイヤー位置急行する、

みたいなことをいちいち裏で計算してしまうと破綻してしまうし、

といっても、近接戦闘になって、目の前の敵が2Dシューティングのような動作をされても非常に機械的というか、

まあ、それでも初代doomみたいなのでも面白いっちゃあ面白いんだけど、

要はパズルゲーだから、初代doomとかquakeは、

敵が単純動作するという前提があって、それで敵を利用したり、ロードランナーみたいなところがある

でも、今の時代ちょっとしたニューラルネットとか使わないとつまらん気もするんだよなぁ

その落とし所というか、どうやったら面白くなるのか、が未だに分からない

そう、ゲームみたいなものを作るのは誰でもできるんだけど、どうやったら面白くなるのか、を実現するのは非常に難しい

レトロゲーでも、最初考えたルール実装したが面白くないのでルールを足した、

ルールを足したが矛盾が生じたので、最初ルールの一部を削った、みたいな試行錯誤が見えることがある

その結果としてできたゲーム面白いちゃんと新しいルールが成立している

特にレトロゲーは、ゲーム=新しいルール発明、みたいなところがあった

最近はそういう感じではなく、FPSならFPSを突き詰めていく方向になっている気がする

しかし、いずれにせよ、面白くなければならない

面白ければなんでもいいということでもある

ゲームを作るのは楽しいが、完成させるまでは非常に苦痛だ、困難な茨の道だ

一方でプロゲーマーとかゲーム実況というのは、他人の作った手の上で踊るだけではあるが、

フリーライドであり、楽な立場でカネがもらえるというか、

昨今の世の中は、そういういかに楽な立場でカネを得るかという方向に向かってるので、

何が言いたいのか分からなくなってきたが、

まあ、プログラムなんて書かない方がいいと思うんだよね

人生で他に大切なこともっとあると思うんだ

それしか選択肢がなかった人以外はやらなくていいと思うんだ

から子供プログラミング教育なんて必要ないと思うし、

それよりもプロゲーマー教育とかYouTuber教育の方が、特にDQNヤンキー系の親の子供とかは喜ぶと思うし、

仮にそれで人生が失敗しても、俺の知ったことではないし、

やっぱり人生は勝ち負けだし競争だし、端的に一言で言うならカネだと思うので、

まり子供プログラミング教育するぐらいなら、FIRE()とかほざいてないで大金稼げという話であって、

2021-12-25

統計学者を信用するな

タイトル釣りだが、統計学者たちが科学研究の「正しい」方法論について語りだしたら、即座に信用するのはやめたほうがいい。実際、論者によってその方法論がどうあるべきかについて差がある。統計学者は科学全般に物申すことが多いので、謙虚さのない統計学者はたちが悪い。(論者によって差があってどれが正しいか自明ではない場合があるのに、自分の信じる理論けが唯一正しいと主張して、ツイッターという道具を用いて影響力を行使するのは相当の傲慢さを感じる)

類推的ではあるが、物理学の分野でも狭いコミュニティの中で集団思考に陥っている。隠れた変数理論というのがあるが、量子の動きを正確に予測するニューラルネット学習するための実験データ収集方法確立すれば隠れた変数存在していることを示せるかもしれない、ぐらいのことは確か言われているが ( https://arxiv.org/pdf/2010.01324.pdf )、どういうわけか量子スケールにおいて決定論存在しないという見方多数派として固定化されてしまっている。

言いたいことは、フォロワー数が多い自称サイエンティストみたいな連中のツイッター上のマウンティングに刺激されたからといって、なんでもかんでも盲信するのはやめたほうがよいという話。盲信する前に、複数の異なる見解を持つまともな専門家論文を嫁。日本語情報だけに頼るな (もし科学について何か言いたいなら)。

2021-03-27

anond:20210327100148

30XX年。この時代にもう地上に AI存在しない。


1950年代に考案された最初AIであるニューラルネットワークは、1990年代には実用化した。

2000年代に多層ニューラルネット欠点を補完する深層学習誕生すると、

これも実用化が進み、その研究2040年代には終息した。

やがて民生用量子コンピュータが普及し始めると、AI の量子演算研究は当時のホットトピックとなった。

だが、高度に複雑化した量子化AI理論理解できる学者世界に数人しかおらず、論文査読に8年もかかったという。

その実用化にはさらに多くの年月を費やしたが、身の回りのあらゆる電子機器に搭載されるようになった。


量子化AI の導き出す結論は常に最善・最適なもので、人々は機器に言われるままに行動するようになった。

その方がいつも快適だし、無駄思考コストも要らないので当然のことである

電子機器の指示に従って暮らす人にとって、 AI は神であり、その言葉はご神託となった。

その昔、SF作家アーサー・C・クラークは、

「十分に発達した科学技術は、魔法と見分けがつかない。」

と言ったが、

「十分に発達した AI は、神と見分けがつかない。」

という世界が具現化したのだった。


考えてもみてほしい。

ものごころつく前から機器の指示に従うことが善とされ、それに逆らった人間には事故病気という罰が与えられる。

祖父母も両親も私もそうやって暮らしてきたし、将来産まれてくる子や孫もそうするだろう。



今、私に与えられている指示は「ロウドウ」だ。

畑を耕し、野菜を育てる。

自分で食べるもの自分で育てる。

当たり前のことだが、これは案外楽しいものだ。


私の担当トマトで、午前の担当区画では種まき、午後は別の区画で収穫をする。

水まきは週に1回なので今日は無い。

住人全員が食べる分のトマトを運ぶのはかなりの 運動 になる。

牧畜担当に憧れが無いわけでもないが、友人曰くミルクの運搬がかなりキツいらしい。


夕方には、その日食べられる食材を持ち寄って集計し、グループ単位調理して食べる。

食事は1日2回。朝はパンミルクだけの軽食なので、夕食が一番楽しい時間になる。

友人ともいっぱいおしゃべりできる貴重な時間






食後の片づけを終えたら、睡眠室に戻り、私は「メイソウ」をする。

正直に言うと、この2時間に具体的に何をすればいいのかよく分からない。

お母さんは、何でもいいか自分一人で考えることが大事というし、

お父さんは、妄想でもしとけばいいという。


おばあちゃんが生きてた頃に相談したら、

昔の人の暮らし想像するのだと言って、なぜか神話を語ってくれた。


人々は遠い昔、「チキュウ」という天界暮らしいたこと。

人々は神様のことが良く理解できず、勝手に悪い神様を創り出してしまたこと。

悪い神様のせいで「チキュウ」が壊れてしまい、

それを見かねた良い神様が「フネ」という新しい世界創造したこと

その「フネはいくつもあって、この「フネ」に宿る神様名前は…

ジー・・・

なんだっけ。一度はちゃんと聞いたんだけど、今はもう思い出せない。



ピピピピッ。

腕にはめられたリングが光り、「メイソウ 〇」の緑の文字が浮かび上がった。

すぐに「スイミン」の指示を示す青い文字へと変わった。

どうやら、今日の「メイソウ」も無事終えられたようだ。

昼間、体をたっぷり動かしたせいで、今夜もぐっすり眠れるだろう。

私は、どうしても思い出せない神の名を妄想しつつ、静かに眠りについた..。

.

2021-02-08

anond:20210208080457

全ての勉強ニューラルネットに絡めてやった人、って感じのする意見なんだよな。最近若い人はそういう人すごく多いけど。

アテンションがどうとか言ってるけど、そもそもモデルパラメータ画像座標と図形形状の直積に取れば位置情報は当然入る。単にそれだけの話なのに、わざわざ「アテンション」とか言ってしまうところが、ニューラルネットもっと言えば並進対称性をあからさまに入れた畳み込み演算が暗黙の前提になりすぎているといえる。

GANがどうと言ってる人も同一人物だろうなと思うけど、そもそも単なる教師あり学習human in the loopアクティブラーニング全然話が違うだろう。

ディープラーニングもいいけど、もっと基礎や、そもそもどういうことなのかということを考えた方がいいんじゃないかなと思う。

2021-01-29

anond:20210129211401

つの仮説だが、RNNやTransformerといった、ニューラルネット構成ばかりに気にしていて、

音声をよくよく観測できていないのではないか

音声全く詳しくないけど、これは間違いなくあるね。音声に限った話じゃない。

音声ほんとに知らないので的外れかもしれないけど思いつくありそうな理由を並べてみる。

AI使った合成音声ソフトについて

GoogleがWaveNetを出してから、合成音声も機械学習を使うようになった。

2021年では日本でも機械学習を使ったソフトウェアがいくつか販売される。

はてな的にはAIきりたんのNEUTRINOが話題となった。1/29に発表されたCevio AI記事を見た人も中にはいるだろう。


ここでは個人的感想を書いていきたいと思う。


個人的にはもっとクオリティが上がるものだと思っていた

人の歌声区別できないとニュースタイトルでは付いているが、個人的はまだまだ違和感がある。

人間ボーカルを録音してピッチ修正をしている人だと、Melodyneピッチ合わせすぎると機械っぽい音声になるから、わざと修正しないといったことを行うわけだが、

歌声合成ソフトでは「しゃくり」といった、わざと外して人間っぽさを出す。

実際にソフト開発側もわかっていて、マニュアル修正する手段を用意しているので、それに引きずられてしまうのだが、

それ以前のところで人間ぽさが必要だと考えている。


声は複数周波数を重ねてできたものであり、各周波数ごとに分解すると、基本周波数の2倍、3倍といった周波数の音が出ているのがわかる。

実際の人の声を分析すると、時間方向に微妙な揺らぎが存在するのがわかる。

また口を閉じた状態から声を出そうとすると、口が開くまでの音の変化など、ちゃんとした周波数が出ていない箇所がある。

機械音声の場合、ゆらぎがなく、〇〇周波数ピタッと出ており±15Hz揺らぐといったことがない。


ゆらぎについても、人間の声の場合、±50Hzから±15Hzへ変化するといったことが起こっているように見える。

見えると言っているのは、自分が声のデータを処理しているとなっているように見えているからであり、

これについて言及した文献を探せていない。


さきほど声には倍音があるといったが、倍音の数も人間の声では変化するが、機械音声ではずっと同じ数のままだ。

「あ~」のように伸ばした音の場合ピッチ調整で波打つようなのを手書きしたことがあるDAW経験はいるだろうが、

人の声を調べると倍音の数が徐々に変わっていたりする。

現行のソフトピッチ補正で波を手書きしても、元から上手く伸ばした声にならないといった苦労をした人がいると思うが、

この倍音が変化する機能がないからではないかと考える。


この辺りが機械学習解決しているかというと、あまりなっていないように感じている。

思っていたよりクオリティが低いのだ。


なぜか。


つの仮説だが、RNNやTransformerといった、ニューラルネット構成ばかりに気にしていて、

音声をよくよく観測できていないのではないか

何かしらかの演算で前処理を行ってからニューラルネット入力するわけだが、

前処理段階で捉えられていない特徴量があるのではないだろうか。

また統計処理を行う際に、計算精度によって丸めまれしまっているのではないだろうか。



使い込んでいくと、より良い結果を出してくれるわけではない

プログラミングであれば徐々に自動化をする箇所を増やせるが、音声合成ソフト自動化が出来ない。

何年経ったとしても、良くならないのだ。

この辺り、修正前と修正後のデータがあるのだから学習していってより便利になればいいのだが、そうはならない。



データも少ないのでは

スマートスピーカーが出たり、日常的に音声を聞いているわけだが、音声を合成しようとしたときに使えるデータは案外少ない。

ちゃんとしたスタジオで録音したり、無響音室での録音した音声はない。

マイクの配置などでも変わってしまう。

ずっと声を出していると最初最後で声も変わってくる。

日をまたぐと体調も変わってくる。


同じ条件でデータを揃えるといった場合、音声はデータが少ないんだろうなと思うのだ。


計算リソースも足りてない

自分で合成音声をやってみるとわかるが、学習計算リソースがかなりかかる。

日本語だと日本市場しかなく、しかも人の声のクオリティを超えているわけではないので、市場は小さい。

そのくせ機械学習には大量の計算リソース必要となる。

2020-08-15

ニューラルネットで好きなキャラセリフ上手く発音してくれるのってないの

歌うのは出てきてるみたいだけど。

トトリやロロナとか好きなんだが、そういった好きなキャラクタの声の上手くセリフ吐いてくれるのってまだなんだろうか。

Python見てても画像ばかりで、やってないわけじゃないけど少ない。

2020-03-23

意識自然言語を処理する多層ニューラルネットの上位レイヤに過ぎな

ならば、ことばをまともにアウトプットできないわたし意識存在しないのと一緒じゃないのか

ログイン ユーザー登録
ようこそ ゲスト さん