「コーパス」を含む日記 RSS

はてなキーワード: コーパスとは

2024-04-12

anond:20240412183443

全然平気だ」でコーパス検索するとかなり古い用例がそれはもう大量に見つかる

"想定・心配される事柄に反して"というのが「全然」の肝であり、形式的否定必須ではないのでは

2024-01-22

シェルドンクーパー語録コーパスから映画名&TV番組名を抽出するスクリプトを走らせてデータを保存したので、ここで抽出された作品アマプラで見ていく予定

2023-11-25

増田コーパスからword2vecを作って遊んでるけど1日で飽きたな

2023-10-14

[] モデルの作り方

1. コーパスを作る

2. コーパスの語録を適当なEmbedding(例えばlabseなど)でベクトル化しておく

3. ベクトル化されたもの適当機械学習アルゴリズム学習 (負例は匿名ダイアリー内のランダムな文)

4. 作成された分類器を任意の文へ適用

 

なお、他のバリエーションとしては以下の使い方があります

 

1. コーパスを作る。

2. 「以下の引用文を○○という方法分析して、コメントをください」などとAIに依頼する。

3. AIから様々なバリエーションコメントを貰う。

anond:20231014170818

コーパス取ってるって設定やめたの?あ、人力で辞書編集しないってようやく理解できたんだ、すごいね作業所なら受け入れてくれると思うよ。

2023-10-12

[] アノテーション基準

自称インテリ語録は自分コーパス作成のために行っています

意図は、箴言における「嘲る者(自分を賢いとみなし、他者を見下す傲慢な人)」を機械学習で見分けるモデル作成です。

以下はアノテーション基準です。

厳密なアノテーション基準はありませんが、アノテータがある程度の裁量判断します。

著作権侵害では?」と思われるかもしれませんが、差別社会的に相応しくないため、コーパス作成公益性があると判断し、また創作性のないものに絞っており、自己責任でやっております

元々は自分の「自称インテリ」の概念の精密化のために行っておりましたが、Bing AIによって様々な分析をさせることが可能であることがわかったため、自然言語資源を作るという目標に変わりました。

anond:20231012164145

アノテーション基準などはそのうち公開するかもしれませんが、とりあえず当面は暇なときアノテーションして、自分専用にコーパスとして使えるぐらいの量まで持っていきたいですね

2023-08-28

生殺与奪コーパス検索すると「我が国生殺与奪の権は〇〇帝国に握られている」とか

「我々の生殺与奪の権は医療機関に握られている」とか

出会出会えみたいな戦前の用例が出てきて今の政治と変わらんね

2023-08-06

anond:20230806015452

膨大なテキストデータの狩場がそこにあるなら、真面目なやつもコーパス欲しさに手をつけるだろ

そのぐらいの想像力を持てよ

2023-03-10

AI音声合成齧ってたので私見を述べる

論旨


演技音声の学習

無断で数千人の声優学習したというのは、恐らくMoeGoeのことを指していると思われますが、アクセント不安定で「演技泥棒」には程遠いです。

最新のモデルをもってしてもアニメの演技のような抑揚の大きい音声を学習させることは難しいことであって、実用レベルに押し上げるようなブレイクスルーもまだ起きていないのが現状です。


音声合成学習には、データセットとして音声とそれに対応する文章を合わせた音声コーパスと呼ばれるものを用います

演技というもの台本でいうところのト書きであって、文章に直接的に含まれている情報ではないことからも、文章から生成する音声に演技を付与させることの難しさが理解できると思います


データセットの問題

文章と音声があれば、即座にデータセットとして使えるかと言えばそうではありません。

文章で想定している(文章構文解析することによって得られる)読み方と、音声における実際の発音が異なる場合があります

音声合成は結局のところ文章の音素と音声を対応付けているだけなので、音声コーパス文章と実際の音声に乖離がある場合には学習の精度が下がる恐れがあります

加えて、現在音声合成ではアクセントなどの情報を用いることが多いですが、アクセント辞書から得られた情報と実際のアクセントが異なる場合も演技音声では散見されるでしょう。

上に述べた抑揚の問題や、音声にBGMなどのノイズが混ざっている場合など、音声自体データに適さな場合もあるため、それらの選別も必要です。

音声合成用に収録された音声コーパスであれば、読み方やアクセントノイズ等に細心の注意を払って録音されていますが、一般の音声は必ずしもそうではないのです。


このような読み方やアクセント等の修正は、残念ながら人力に頼らざるを得ません。そもそも台本がない場合は一から書き起こす必要があります

AIイラスト成功には、イラストへの人力でのタグけが寄与していることはよく知られていますが、果たしてAI音声という分野において人力による音声コーパスの整備が進むでしょうか?


声優との関係

AI音声合成ソフトの代表例とも言えるVOICEVOXはいまや多くの人気を集めており、多くのキャラクターが参加しています

また、COEIROINKのように音声コーパスを用意することで自らの声を学習させた機械学習モデルを共有できるような音声合成ソフトも登場しています

AIイラスト界隈における絵師との軋轢が援用されていますが、音声合成の分野においては多くの場合データ提供者たる声優相互理解のある関係を保ちつつ発展してきたことを強調しておきます


その他

動機付け

もともとナレーションの分野においては、既に十分な品質音声合成ソフトが存在します。

AIイラストと異なり、倫理的問題のある音声合成に手を出す動機付けが乏しいことが現時点において関心が集まらない要因となっています


ASMRにおける課題

そもそもASMRには、バイノーラルという特色があるわけで、AIが生成したモノラル音声がAIイラストほどの脚光を浴びるとは考えづらいです。


2023-02-26

anond:20230226005329

えらそーにコメしてる連中も、出所グレーなコーパス使って学習したLLM面白がって使ってそうだしなー

この界隈だけ異様に著作権煩いのが解せない

2023-01-13

anond:20230113162058

用法を調べたいのに定義を見るのはおかし

そういう時はコーパスを引いて

2022-11-26

酷い本にあたった

Kindle Unlimitedの読み放題で見たか金銭的な損害はないんだけど、酷い本にあたった。

ネイティブが使う順英単語」みたいな単語集。

ネイティブが使う順に数万語を掲載しているというのだが順番がおかしい。

vain が100位台、whilst が1000位手前と前すぎたり、

sellが1000位台、rainyが6000位台と後ろすぎたり、

twenty-threeが23という一つの単語として8000位台に登録されてあり、

PeterやWindowsといった固有名詞登録されてたり。。。

偏りのある自作コーパス電子書籍体裁に整形しただけだろって感じの酷い本だった。

2022-09-29

文学的インフラ

「その文書地域で何が起こっているのか?文書は人々からどのように受け止められているのか?文書の何が神経を逆なでするのか」について分析するという話を聞いたことがある。「文学的インフラ」とは、文学資源として活用し、たとえば何らかの現象予測するといった発想だ。物理現象予測できないかもしれなが、社会現象ならどうか。

こういうもの評価してテキストリスク判別するというプロジェクトに聞き覚えがある。ユルゲン・ヴェルトハイマーという人は「作家は、読者が即座に世界想像し、その中に自分自身認識できるような方法現実表現する」と述べている。

例えば、以下のアルジェリアの例がある。

何が言いたいかというと、増田コーパスを使えば何かしらの社会現象予兆を見つけることができるのではないか、ということ。

かに時間場所事象を非常に具体的なレベル予測」となると不可能かもしれないが、「特定政党支持率」「どのような哲学主義が好まれいるか」「どの国との関係性が良かったり悪かったりするのか」「自殺率が増加するのか減少するのか、凶悪犯罪はどうか」「博士課程に対する社会の許容度はどうか」といった大雑把なレベルなら予測できることがあるのではないか

2022-07-23

翻訳言い回し勉強するために、少納言ってコーパスサービスでちょいちょい言葉検索してるのだけど、文脈データベース執筆者や生年月日、性別って項目があって、ん~って考えておぢさんとお兄さんの書き言葉って違うわなってはっとなった。本人が変わってなくても世代差ってあるものね...

2021-11-13

日本語の合成音声が機械学習でもイマイチ使いやすくならない

機械学習の応用先として合成音声がある。

ただどうも期待していたより良くなってない。

1,2万でソフトが購入できるが、なんだかなという感じだ。


音声は従来のコーパス方式の方が綺麗だったりする。

学習データをできる限り少なくする方向だからなのか、不定期に音声が不安定になる。

そして不安定になった部分の調整がしにくいというか、直す手段がない。

1発で上手くいくときはいいが、上手く行かなかったときにどうしようもないのだ。


あと感情パラメータはあるのだが、パラメータを変更すると、どうも人が変わったように感じる。

2021-08-12

deepl翻訳がなかった時代英語論文作成

英辞郎 on the Webの例文と、自分の分野の論文コーパス作ってコロケーションツール検索してそれっぽい英文こさえてた

15年ぐらい前の話

学生の人うらやましい

2021-05-12

anond:20210512041647

この程度で明白って言っちゃうんだ

せめて国会議事録新聞記事データのようなちゃんとしたコーパスから用例取って議論しなよw

2021-02-18

anond:20210218092727

こういうとき情強の俺はGoogleではなくコーパスを参照する

すべて後醍醐の 耳に痛い ことばかりで、それを読んだとき不愉快になったが、後醍醐の秕政を的確に指摘していた。

森村誠一 太平記

―なんとも、 耳に痛い 、そして、嬉しい言葉だった。

遠野春日 封印された手紙

ログイン ユーザー登録
ようこそ ゲスト さん