「n-gram」を含む日記 RSS

はてなキーワード: n-gramとは

2024-10-27

anond:20241027163753

あの、まずですね、このご質問についてはですね、えー統計学正規表現、これがどう関係しているのか、という点についてですね、えーきちんと整理してお答えしようと思う次第であります

正規表現Regex)と統計学との関係ですが、これを具体的に申し上げますと、主にデータ処理と前処理において重要役割を果たすということであります特にですね、大量のデータを扱う上で、正規表現が役に立つ場面が多々あるというのはですね、統計学、ひいてはデータサイエンスの分野において、もはや共通認識と言えるのではないか、そう考えております

1. データクリーニングと前処理

えーまず、正規表現というのはですね、文字列パターン抽出したり、特定形式データを変換したりするためのツールでありまして。統計解析や機械学習モデルの構築においても、データ品質が結果に大きく影響する、これはご理解いただけると思います

例えばですね、あるデータセットに含まれる「住所」「電話番号」「メールアドレス」などのフィールド、これらにバラバラ形式が使われている場合正規表現活用してこれらのフィールド統一的な形式に変換することができるんですよ。具体的に言えばですね、正規表現を使って「-(ハイフン)」や「空白スペース」の除去や、国際形式への変換を行うわけであります

このようなデータ一貫性を確保するプロセスがですね、えー統計分析の前段階として必要不可欠であると。データサイエンス文脈で言えば、まさに「前処理(データクリーニング)」の重要性が高まっている中で、正規表現が非常に有用だ、そう申し上げたいわけであります

2. テキストマイニング自然言語処理NLP

続いて、テキストデータを扱う場合統計的な分析正規表現さらに深く関係してくるわけです。具体的にはですね、自然言語処理NLP)の一環として、テキストマイニングの分野において、正規表現が頻繁に用いられております

たとえば、SNS投稿レビューなど、構造化されていないテキストデータから特定キーワードパターン抽出する場合正規表現効果的であります。こうしたテキストデータからの特徴量抽出を行い、その後の統計的な処理(例えば、単語の出現頻度を集計してTF-IDFの計算を行う、あるいは共起ネットワークを構築する)に役立てるわけです。

さらに、テキストデータの中から、例えば日付や金額パターンを検出して数値データとして変換する、そういったケースでも正規表現は役立ちます。つまりですね、テキストデータ統計的に分析可能形式に整える上で、正規表現重要役割を果たすと言わざるを得ません。

3. 統計的な自然言語処理モデル正規表現

また、正規表現は単なる前処理にとどまらずですね、統計的な自然言語処理モデル(例えば、n-gramモデルやHidden Markov Model, HMMなど)を構築する際の前段階としても利用されることが多いのであります。これらのモデルテキストパターンや出現頻度をもとに構築されますが、ノイズ不要情報正規表現排除することにより、モデルの精度が向上するわけです。

言わば、ですね、ノイズ除去やフィルタリングという観点でも正規表現有効であると。えー例えば、HTMLタグを除去したり、特定単語フレーズを除外したりすることで、データセットをよりクリーン状態に保つ、こういった処理がですね、モデル精度に影響を与えるわけです。

4. 正規表現確率統計

さらにですね、正規表現自体統計モデル確率手法と直接的に関連することもあるんですよ。特に機械学習統計解析の中でパターン認識の一環として正規表現が使われるケースがあります

例えば、正規表現によるトークン化を用いたテキスト分析や、異常検知におけるルールベースの検出の一環として、正規表現で異常パターン定義し、それに基づいて確率的な推定や異常度の計算を行うといった手法です。こういったケースでは、正規表現フィルタ条件やルールベース確率手法連携して活用されるわけでありまして、まさに統計正規表現が融合した応用例と言えるわけです。

まとめ

最後にですね、まとめとして申し上げますと、正規表現統計関係データの前処理・クリーニング、特徴量の抽出、そして確率手法との連携という形で密接に関わっております。この点がですね、まさにデータ分析、あるいは自然言語処理の分野において、正規表現が欠かせないツールとなっている理由である、そう申し上げておきたいと思います

まぁ、そういった意味でですね、えー統計の結果の正確性や効率を高めるためには、正規表現効果的に使う技術、これも必要不可欠であると、このように考えております

2023-01-15

言語モデル頭脳関係があるのか

お前は人工知能より頭がいいのか?研究によると、パラメータの大きな言語モデルプログラム人間の知性を凌駕する可能性があることがわかっている。

Generative Pre-trained Transformer 3が、知能を測る一連の推論テストにおいて平均的な大学生を上回っていることが発見されている。例えばN-gram LMsはカウントベースマルコフモデルパラメータフィッティングを用いるが、GPT3はより巨大なパラメータを持つ。入力に対して人間のようなテキスト、つまり確率の高いものを出力する。GPT3はOpenAIが生み出した技術で、言語翻訳チャットボットなどのアプリケーションテキスト生成など、さまざまな用途がある。

1750億のパラメータを持つ、最大かつ最も強力な言語処理AIモデルひとつだ。

ではGPT-3は「天才」なのか?研究では、一般知識SAT試験スコアIQという3つの重要な要素において、プログラム人間匹敵する能力を持つかどうかを調べられた。プレプリントサーバーarXiv」で公開された結果によると、AI言語モデルは3つのカテゴリーすべてにおいて、人間よりも高いパーセンタイルでゴールしていることがわかっている。

実際のIQテストでのGPT-3の成績はどうか?平均的な大学受験生を相手に、様々な言語モデル分析的推論問題でどのような結果を出したかについての調査結果を発表された。AIが明らかに勝者となった。とのこと https://twitter.com/AiBreakfast/status/1607594052785930240

"GPT-3は、抽象的なパターン誘導に驚くほど強い能力を示し、ほとんどの場面で人間能力と一致するか、あるいはそれを上回ることが分かりました。我々の結果は、GPT-3のような大規模言語モデルが、広範な類推問題に対するゼロショット解を見つけるための創発能力を獲得したことを示しています"と研究者は言う。

同チームは、GPT-3が「明示的に訓練されていないにもかかわらず、生物学的知性がとるのとは根本的に異なる経路を経て、人間類推の基礎と考えられているものと同様のメカニズムを開発することを余儀なくされた」ことを付け加えている。

GPT-3は、すべての問題タイプにおいて、生成精度...および多肢選択精度ともに、人間参加者を上回った 。https://twitter.com/AiBreakfast/status/1607594057735278592

この研究によると、ほとんどの質問に答え、人の代わりに論文の下書きまでできるAIプログラムは、問題ゼロから解かなければならないときや、多肢選択式のテストから選択するとき人間を上回ったそうだ。

AI専門家作家アラン・D・トンプソン博士は、GPT-3が120以上のIQを示すことを示唆している。

結論: ということで、GPT所詮IQ120程度ってことだな。

anond:20230115221217

2009-01-03

http://anond.hatelabo.jp/20090103134806

いや、純粋プログラミング能力に限定したつもりはないよ。一般的な技術力の話。レイトレーシングだってFPGAだってコンパイラだって純粋プログラミング能力とはいえない。だいいちそういうのを連携させるというカリキュラムは実務的とは言わないまでもその辺の給料もらうためだけに書いてるだけのプログラマにはできない芸当をやっていることは確かでしょ(馬鹿にするわけじゃないが)。ギークとまでは呼べないかもしれない。ただそのへんのwebギークにすぐにできる芸当ではない。当たってるかどうか知らないが、私が知っていたadvancedなトピックとしてはフォトンマッピング、HW/SWコデザイン関数型プログラミング言語とかか。むしろページランク分かち書きN-gramも、web系のギークが得意な話題ではないかなとも思う。

話の流れとしてはどうでも良くて、、そういうことさえ経験できない他の大学(宮廷でもままある)の学部卒って使えないよねーという話になって、だからこそ東大IS羨ましーという話になるのです。まああんまり自分を卑下してT大を持ち上げてもしょうがないので私は似たような題材で切磋琢磨しましたが。

増田に張り付いてこんなに反論してる時点で私も時間の使い方がなってないよなー。

2008-10-02

Classic Texts in Computer Science

リブログです。

    http://www.zafar.se/bkz/Articles/ClassicCompScienceTexts

    http://www.zafar.se/bkz/wiki/view/43bafac8c8570f4f

    にあったけど、無くなっていたので

    http://web.archive.org/web/20060823143349/www.zafar.se/bkz/home/classictextsincomputersc.html

    から拾ってきた。

    でも書いてる途中に↓を見つけてしまったのでした。

    Classical Computer Science Texts

    2007-12-13

    http://anond.hatelabo.jp/20071213062012

    うーん、いったいどの検索サービスのことを言っているのかなあ。

    インデキシングに形態素解析は使わないよ。基本的にはn-gramだから繋がった”意味のある”文字列がぶった切られることはないよ。

    ただ、クエリーが”意味の無い”文字列だったので検索結果が見つからず、検索結果を増やすためにクエリーに入力したキーワード形態素解析してクエリーを作り直すってことはよく使われる手法だね。googleなら”意味のある”と増田が思っている範囲の文字列をダブルクオーテーションでくくればいいと思うよ。

    2007-11-02

    誰かGoogle N-gram元にして人工無能実装してくれないかなあ……

     
    ログイン ユーザー登録
    ようこそ ゲスト さん