「NLP」を含む日記 RSS

はてなキーワード: NLPとは

2024-06-07

anond:20240605124246

うーん

クソみたいなトラバばかりだから返事するか悩んだけど

データベクトルに変換して、それをインデクシングする

インデクシングが具体的にどうかは置いておいて

ベクトルというかテンソルに変換するのはAIというよりはNLPあたりの話であって

ANNKNNバリエーションだし

NNでやるかTreeでやるかはどちらもあり得るけど

NNでもTreeでもないなら具体的に何でやってるの?

そして元の質問

「向いてると言うならじゃあ確率で出せる方法示してみろ」

いやエキスパートシステムならできるけどね

それも最初から言ってる

2024-05-29

anond:20240529223637

読める!読めないけどなんか読めるぞ!

后端开发

JavaC++PHPPythonC.NETC#GolangNode.jsRubyGIS工程ERP技术开发游戏开发工程师音视频/图形开发全栈UE4编译器开发ErlangDelphiVBPerlASP

前端开发

WEB前端开发HTML5其他前端开发移动前端开发工程

移动开发

AndroidiOSU3DCocos2d-xWindows Phone移动开发工程

硬件

PCB工程师射频工程FPGA工程师单片机工程DSP工程师驱动开发嵌入式软件开发嵌入式硬件开发信号完整性工程硬件工程硬件测试工程硬件产品经理ARM

测试

自动化测试功能测试性能测试游戏测试软件测试移动端测试测试开发测试工程师测试经理/主管

数据

爬虫数据挖掘工程师数据分析师数据建模数据库开发工程师数据仓库工程师数据治理BI工程师ETL工程大数据开发工程师数据开发数据采集

人工智能

推荐算法搜索算法自然语言处理(NLP)机器视觉图像算法语音识别深度学习机器学习算法工程

运维/技术支持

运维经理/主管运维开发运维工程师DBA网络/信息安全网络工程师系统管理员系统工程IT支持工程师桌面支持IT总监/经理/主管配置管理工程硬件维护工程师系统集成工程师文档工程

通信

通信标准化工程师核心网工程师数通工程师无线通信工程师无线网络优化通信传输工程通信电源工程通信软件工程通信技术工程通信项目管理增值产品开发工程通信设备工程通信测试工程师电信网络工程师电信交换工程师电信/通讯工程

高端技术职位

CTO/CIO/技术VP数据科学大数据架构师大数据总监架构师安全专家运维总监技术合伙人技术/研发总监技术/研发经理

其他IT互联网技术

其他IT互联网技术职位

IT互联网产品

互联网金融产品经理电商产品经理数据产品经理移动产品经理商业产品经理硬件产品经理策略产品经理用户产品经理游戏策划师游戏制作人产品专员/助理产品经理产品总监产品VP/CPO

消费品/其他产品

快消品产品经理旅游产品经理教育产品开发保险产品开发/项目策划金融产品经理汽车产品规划机械产品规划其他产品职位

互联网运营

数据标注直播运营产品运营用户运营数据运营内容审核内容运营活动运营游戏运营策略运营新媒体运营社区/社群运营海外运营网站编辑网站运营运营专员运营经理/主管运营总监线下拓展运营网站营运管理网店运营网站策划

业务运营/其他运营

门店运营销售运营房地产运营其他运营职位

UE/视觉/平面设计

UI设计交互设计用户研究用户体验设计视觉设计动效设计网页设计品牌设计平面广告设计平面设计设计经理/主管美术/图形设计设计总监

工业/家居设计

家具设计家居设计玩具设计计算机辅助设计工程师工艺品/珠宝设计包装设计工业/产品设计

游戏美术设计

游戏UI设计游戏原画设计游戏3D角色/场景游戏动作设计游戏特效设计技术美术TA游戏主美

2024-05-18

[] 2024-05-18

githubでなにか作ったものアップロードするのは、自分向きではないことに気がついた。

私が仕事で作っているようなwebアプリケーションというのは、誰でも使える一般性の高いものではなく、もっと特定ビジネス依存した特殊ものである

から一般的な誰でも使えるようなものを作るというのにはあまり慣れていないのだ。

なにか作る場合はkaggleのほうが遊び場として向いていると思っている。

kaggleで「コンペ」に参加するつもりはないし、あれはBERTが出現したぐらいからは、少なくともNLP(自然言語処理)界隈は不毛な場となってしまった。

指標があれば不毛なハックがある。それが現実というものである

それに業務実用レベルで使えるモデルというのは、もっと運用のしやすシンプルモデルである

モンスターアンサンブルで精度がSOTAでーすピロローン!なんてことには興味がないが、コンペはそれを目指している。

ではなぜkaggleが良いかと言うと、データセットが転がっていて、notebookも簡単作成できるからである

「このデータをこうやって使うとこういうツールが作れる」「このデータをこうやって分析するとこういう知見が得られる」というのは、「web開発用のMVCフレームワークを作ります」よりも具体性がある。

そして特定データに対するモデリングをするために論文を調べるようなことになった場合は、勉強にもなる。

私は昔、自然言語処理ブログを書いていたが、実験したことコードを載せるタイプ記事が多かった。

ところが自称データサイエンティスト自称NLPエンジニアツイッター上で「ゴミのようなブログを書くな」と言っていて、自分が言われている気がして怖くなったのでブログを閉鎖した。

そういう「政治おじさん」との接触を最大限減らすには、ブログというフォーマットではダメだと思うわけである

私のマグカップには"Talk is cheap, show me the code."と書かれている。

これはリーナストーバルズの名言だが、政治おじさんが近寄らない場所というのは、具体的なコード存在する場所であると言えよう。

2024-04-01

だって

Aが関わっている業種は、テクノロジーまたはIT業界と考えられます。具体的には、ソフトウェア開発、インターネットサービスデジタルマーケティング、またはEコマースなどが含まれ可能性があります自然言語処理NLP技術を利用したサービスや、ウェブベースアプリケーション開発を行っている点からデータ駆動型のサービス製品提供する企業である可能性が高いです。


Bの業務内容から、彼が従事している業種もテクノロジーまたはIT業界であることがわかります。Bの経験スキルセットは、特にソフトウェア開発とインフラストラクチャ管理に関連しています

anond:20240401154909

俺の中というかMLやってる全員がパイプラインといったらデータとってくる部分だと認識してるしランダムフォレストなんか関係ないよ

言わなかったけどNLPとNNにxgboostあたりのフォレストは2年くらいがっつりやっとるんや

anond:20240401154449

で、なんのグループを出していてどのようなprocessingNLPNatural Language Processing)をどの段階でしているの?

anond:20240401153832

NLPで近似最近傍法というのは例えば何のグループを出してるの?近似最近傍法自体は単にMLだけどなぜそれがNLPなの?

anond:20240401153013

NLP系ってどういうこと?

フレームワークは?

データパイプラインは?

どういうプロセッシングなの?

2024-03-02

エクセルマクロのお作法計算用シートという諸悪の根源について)

前置き

この日記の内容は、会社の後輩から最近エクセルマクロ勉強し始めて(キラキラ)」という話を聞いて、先輩ムーブかますために話した内容になります

とにかくこれから説明する「計算用シート」が憎くて憎くてたまらず、ちょっと引かれるほど熱弁してしまいました。

ただ、他の方がどうされているのかや、逆に「計算用シート」を愛用する方の意見も聞きたくなり、増田に書いてみました。

増田の経歴

この記事趣旨

エクセルマクロのお作法とか書きましたが、要するにエクセルマクロで「計算用シート」って色々な意味でよくないよね、という話をしたいです。

3行でまとめます

〇 エクセルシートはユーザーインターフェースインプット)か出力結果(アウトプット)のためのものとすべき

〇 データ加工をする場合には、原則配列辞書配列連想配列)に格納して加工を行い、最後の結果だけシートに出力するべき

〇 何事にも例外はある。

計算用シートとは

この記事では、エクセルシートを下記の通り分類します。

エクセルマクロにも色々あると思いますが、今回は下記を想定します。

日付や人物名などを入力し、データベースや別のエクセルファイル、別のシートから取得したデータ入力された値を基に加工し、加工後のデータをシートに出力する

この場合入力欄があり編集可能なシートがユーザーインターフェース、最終的に加工されたデータが出力されるシートが出力結果です。

(もちろん、ユーザーインターフェースの別の欄(セル)に出力する場合もあるし、その場合ユーザーインターフェース出力結果が一体のものとみなします。)

また、データ用シートは同じエクセルファイル内に基となるデータが含まれ場合を想定します。

(これ自体が非推奨で、SQLデータベースかせめてAccessを使え、という意見はありますがそれは別にして…)

ではここで定義する計算用シートとはなにかというと、文字通り計算を行うためのシートです。

例えばイメージするのはこんなマクロです。

1.元となるcsvファイルエクセルに読み出してシートに格納

2.そのデータは日付が数値型になっているので、日付(数値型)の入った列を文字列に変換した日付(文字列型)列を新たに作成

3.その列をキーとして対象となるデータを取り出すvlookup関数を各行に格納した列を新たに作成

4.その列で特定された列をさらに加工した列を新たに作成し、…

これは極端な例ですが、とにかく変数配列定義せず(あるいはエクセルセルオブジェクト変数のように扱い)、エクセルに値を入力し、それを直接加工することで目的となるデータ加工をしたり、様々な処理をします。

その舞台となるのが、計算用シートです。

なんかこんな感じの処理をしているエクセルマクロ、どこの会社でも腐るほどあるんじゃないでしょうか。

ある程度マクロに慣れた気の利く人なら、このシートはロック非表示にして、ユーザーから触れないようにするでしょう。

・・・これ、やめたほうが良くないですか?

こいつが日本生産性を落とす諸悪の根源だと思います

駄目な理由

ある程度詳しい人なら同意してくれると思いますが、このやり方でダメ理由はいっぱいあります

後で説明する配列辞書配列連想配列)と比べると格段に処理が遅いです。

わざわざエクセル操作しているから当然ですね。

ちょっと詳しい人が知っている「画面更新非表示」を駆使しても、配列を使った処理からみれば止まったハエです。

(参考)VBAで作ったマクロの高速化① 配列を使う

  • 可読性が下がる

いったんエクセルシートにデータを格納して加工しているので、コードエクセルシートを両方見る必要があり、とても読みにくいです。

変数として命名されていないのも致命的で、処理の意図が余計に分からなくなります

計算用シートを事前に用意して、別のセル関数を格納しておき、マクロ関数を使ってデータ加工をするものも見たことがあります

これは懲役刑に処したほうがいいと思います

まり知られていませんが、セルの最大文字数は32,767 文字です。

セルの最大文字数を超えると自動的に隣のセルに値が入り、シートが滅茶苦茶になります

他にもエクセルの数値を丸め自動変換の仕様とか文字列→日付の自動変換とか、いくつものバグに苦しめられます

できる人だと、いちいち最大文字数が多い場合の処理を書いたり自動変換機能を殺したりしてくれますが、そんなことに手間をかけているか日本GDPは上がらないんだと思います

他にも、データが大きくなると処理が重くなり不安定になる、計算用シートを人が触ってしまリスクがある、などいくらでも理由は上げられます

(逆に利点は、目の前でガチャガチャ動いてスーパーハッカーになった気分になれるくらいしか思いつかない・・・

じゃあどうするの

配列を使いましょう。

配列とは何ぞや、という人はググってください。

配列データを入れて、データ加工は配列変数に対して行い、一番最後の出力だけセルに値を格納する。

他のプログラミング言語なら普通にやっていることです。

個人的オススメしたいのは辞書配列連想配列)で、うまく使うとデータ管理簡単になり、処理も爆速になります

(参考)【VBA】大量データから高速で値を検索【Dictionaryを使う】

csvファイルもなまじエクセルで開けるだけに別のブックやシートで開きがちですが、これは悪魔のささやきです。

直接ファイルを読み出してLine InputやSplitで配列に格納しましょう。

エクセルとして開くやり方はコード書くのは簡単でも、実行時間に天と地ほどの差が出ますエクセル開くと処理もめちゃ不安定です。

(参考)Excel VBAでCSVオープンするときのパフォーマンス比較

いや、冒頭のマクロを書く人の気持ちも分かるつもりです。自分コードを書き始めたころは全部シート上で操作していました。

冒頭のマクロのほうが直感的なんですよね。自分が手で書くことをマクロやらせる、というマクロ本来趣旨にはあっていますし。

途中の計算過程もすべて目の前で展開されるから分かりやすいです。

ただ、それではダメなんです。。。処理は遅いし挙動不安定だし後で改修・保守する人が死にます

あと、エクセルシートやセルは当然エクセルしかないので、エクセルマクロVBAから他の言語に移れなくなります

自分エクセルマクロの里の出なので、計算用シート脱却には苦労しましたが、苦労して会得した配列辞書配列連想配列)のスキルはそのまま他の言語に活かすことができました。

配列の中身を見る方法別にある(ローカルウィンドウやDebug.printを使うなど)ので、リハビリに取り組んでほしいです。

(参考)VBA デバッグの仕方

もちろん例外もあります

計算用シートを許容できる、使うべきケースもあると思います。。

個人的には、

最後のは、なんでも自分確認しないと気が済まない上司発注で、意味不明と思いましたしたがしぶしぶやりました。)

などの場合計算用シートを使ってもよいと思います

この場合インプットエクセルシートに直接加工するのは論外なので、計算用(加工用)のシートを用意してそこで操作を行うことは必要だと思います

他にも、こういうときは「計算用シート」があったほうが良い、という状況があれば教えてもらえると嬉しいです。

最後

そもそもツッコミとして、「データ加工するならエクセルマクロを使わずpythonとかRとかもっとまともな言語使えよ」という言葉が来そうな気がします。

ただ、個人的にはエクセルマクロVBA)は大好きですし、初心者にもおすすめしたいです。

自分のような非エンジニアだと、セキュリティ関係などでPythonの開発環境とかすごく用意しにくいんですよね。

(あと、コマンドプロンプトの真っ黒な画面が怖かった)

その点エクセルマクロは、開発環境の用意はプロパティでチェック項目を一つオンにするだけだし、入門書がたくさんあるし、セル挙動を追えば視覚的にプログラム理解できるし、初心者に優しいです。

(そのやさしさが上述したとおり悪魔の罠なわけですが。)

最初計算用シートに頼ってでもエクセルマクロからプログラミングを始めて、本格的なデータ加工をし始めたあたりで計算用シートという諸悪の根源から脱却する。

さらに本格的なデータ処理を行うために、PythonやRなど別の言語習得したり、エクセルからSQLデータベースやACCESSなどに切り替えていく、というプロセスがいいのではと個人的に思います

2024-02-21

日本のChatGDPは世界4位ですか?

「ChatGDP」という用語はおそらく誤りで、「ChatGPT」というAIに関する質問かもしれません。ChatGPTはOpenAIによって開発された言語モデルであり、経済的指標や国のGDPランキングとは直接関係ありません。

もし「ChatGPTがAI技術の中で世界で4位に位置するか」という意味であれば、ChatGPTは特定AI技術ランキングにおいて「4位」と簡単位置づけることは難しいです。AI技術進歩は非常に速く、多くの異なる領域アプリケーション存在します。ChatGPTは自然言語処理(NLP)において先進的な成果を示していますが、その影響や評価を他のAI技術システムと単純に比較することは複雑です。

もしご質問意図が異なり、正確な情報を求めている場合は、もう少し具体的にお聞かせください。

2023-10-29

NLP検索したら自然言語処理じゃなくて神経言語プログラミングが上に来てて怖くて泣いちゃった

anond:20231029122922

まあログ読んでNLPエラー予測だったので正直出せるニッチではあった

先行論文中国でこれはガチやばいと感じた出来事

2023-09-17

anond:20230917111029

何だかんだ各大企業毎に一つくらい何の役にも立ってないNLP部門あると思う

anond:20230917110814

そんな仕事日本10個くらいしかないやろ?

ラッキーだったね

GUI自動化ソフトウエアエンジニアとしては駆け出しでもできるけどNLPとは関係いからあれだけど

今まで投稿されたデータかには興味ないの?

内容もいきなり変わったら不自然だと思うが

anond:20230917110247

分野によりけりですが、私の場合情報検索や推薦システムNLPを利用しています

例えば検索の質を改善するためにlearning to rankを用いたり、概念検索実装するためにエンコーダと近似最近傍法を使ったり、推薦に感情分析パーソナリティ分析の結果を線型結合したりしま

とにかくアイデアがあればPoCをして、本番に堪えうる&結果を改善する可能性が高い場合はそのアイデアを導入しま

anond:20230917103448

きのうNLPを知らないやつはアホだの馬鹿だの間違った内容で俺におかしツッコミをしてきて速攻素人バレしたら消して逃亡したやつがいたな

[]垢買い

承認欲求が激しさを極めて、フォロワー2万人のツイッターアカウントを買ってしまいました(´;ω;`)

私は寂しいんです、かまってもらいたいんです

ただ、そのアカウント2008年から溜めてきた膨大な投稿(自動投稿されていた可能性大)を削除するのが面倒です

通常アカウントは一日に表示できる投稿数に限度があるため、何日かに分けて投稿を削除する必要があります

投稿自動削除するブラウザプラグインも見つけましたが、繰り返しやっていると新しいツイートロードされなくなるため、自動削除ボタンを押す→何秒か経ったら更新、というマウスシミュレーションをcneeで自動化する必要がありました

さて、このアカウント用途はどうなるでしょうか

用途としては、NLPプログラミング界隈の情報収集・発信として使おうと思っています

あとはロイターなどの事実性の高いニュース源はフォローしておく予定です

2023-05-02

メモ

https://arxiv.org/pdf/2305.00833.pdf

Learning to Reason and Memorize with Self-Notes

大規模な言語モデルは、限られたコンテキスト メモリと多段階の推論に苦労することが示されています

モデル自己メモを取ることを可能にすることにより、これらの問題の両方を解決するための簡単方法提案します。

->セルフメモってなんだ?

最近スクラッチパッド アプローチとは異なり、モデルはいつでも入力コンテキストから逸脱して明示的に考えることができます

これにより、モデルコンテキストを読み取りながら情報を想起し、オンザフライで推論を実行できるため、メモリ拡張され、複数ステップの推論が可能になります

複数タスクに関する私たち実験は、推論時に自己メモを取ることにより、トレーニング設定からより長く複雑なインスタンス私たち方法がうまく一般化できることを示しています.

1. イントロダクション

Transformers (Vaswani et al., 2017) および同様のバリアントは、シーケンスベースタスクで印象的な結果を示しています

特にGPT-3 (Brown et al., 2020) などの大規模な言語モデル (LM) はトランスフォーマー使用し、質問応答 (QA) などのさまざまな NLP タスク解決できます

LM を QA タスク使用すると、図 1 (上) に示すように、事実情報質問を含むコンテキスト プロンプトが与えられ、モデルが直接回答を生成します。 ただし、この自己回帰の「ワンステップ」アプローチは、複数ステップの推論タスクと格闘します (Austin et al., 2021; Press et al., 2022a; Creswell et al., 2023)。 これは、バニラ LM が各トークンに対して固定された計算を行い、現在コンテキストに応じてさらに「考える」オプションがないという事実から生じると主張します。 (2021) 図 1 (中央) に示すように、モデル質問に答える前に推論トークンを生成できるようにするスクラッチパッドの使用提案しましたが、完全なコンテキスト質問を読み取った後です。 同様に、一連の思考を促す方法 (Wei et al., 2022; Zelikman*Equal Contributor 1Meta AI. への対応: JackLanchantin <jacklanchantin@meta.com>, Sainbayar Sukhbaatar<sainbar@meta.com>.et al., 2022; Huang et al., 2022) は、モデルをプッシュして、一度に 1 ステップずつ答えを説明し、より首尾一貫した最終的な答えに導きます非線形タスク (Fan et al., 2020)、LSTM (Hochreiter and Schmidhuber, 1997) などの再帰型先行モデルが十分に備えられているもの。 Fan et al., 2020; Ju et al., 2022; Hutchins et al., 2022)、しかし、それでも与えられたプロンプトに対して一定量計算使用します。 推論と状態追跡メモリがより扱いやすくなります私たち方法である「Self-Notes」により、LM はオンザフライコンテキスト プロンプトから逸脱し、明示的な推論トークンを生成できます。 図 1 (下) に示すように、スクラッチパッドとは異なり、モデルは生成されたトークン入力コンテキストインターリーブできます。 このようなセルフ ノートは、明示的な中間推論ステップ状態追跡用のメモリの両方として機能します。 具体的には、推論ステップで 2 つの事実を組み合わせる必要がある場合、結果として得られる推論をセルフ ノートに書き込んで、将来の推論に使用することができます。したがって、中間推論ステップとして機能します。 たとえば、「アリスは箱を持っています」と「アリス公園にいます」が与えられた場合、「箱は公園にある」と推測してそれを自己メモに書き、将来のステートメント「鍵は in the box」で「鍵は公園にある」と結論付ける。 さらに、コンテキストトラバースしながらモデルエンティティの最新の状態を新しいトークンとして書き込むことができるため、SelfNoteワーキング メモリ形式として機能できます。 たとえば、プログラミング環境では、最初に x=5 を想定し、次に x を 1 ずつ増やします。モデルが x=6 をセルフ ノートとして正しく記述していると仮定すると、元の x=5 ステートメントをそのコンテキストから安全に削除できますモデルが x の値について問い合わせられた場合モデルは既に答えを持っています

私たち提案した方法と、スクラッチパッド (Nye et al., 2021)、思考連鎖 (Wei et al., 2022)、または内部独白 (Huang et al., 2022) などの以前の研究との主な違いは、モデル許可することです。 各コンテキストステートメントを順番に読み取るときに、複数メモを明示的に書き出す。 InarXiv:2305.00833v1 [cs.LG] 2023 年 5 月 1 日図 1: (上) ベースライン バニラ LM は、コンテキスト (C) と質問 (Q) が与えられると、回答 (A) を直接生成します。 (中央)スクラッチパッドを使用すると、モデル質問に答える前に中間推論トークンを生成できますが、コンテキストが表示された後です。 (下) 私たちの Self-Notes メソッドにより、モデルはいつでも推論してメモを取るために入力コンテキストから逸脱することができます。言い換えれば、私たちアプローチは、将来の推論に役立つ可能性のある情報コンテキストを補強するスクラッチパッドのインライン形式です。 私たちはこれを、人間が読む方法と同様に、明示的に述べられていない情報を推測するための行間の読み取り (および書き込み) の形式と見なします (van den Broek et al., 2009)。 以前の方法では、モデルが完全なコンテキストを読み取った後に反芻することができ、読み取っている間ではなく、最後に大量の推論を行うように強制されます

さらに、そのようなポストコンテキスト推論は、推論が開始される前に以前のコンテキストトークンモデルコンテキストウィンドウからすでに出ている可能性があるため、メモリとして機能できません。 たとえば、数週間または数か月の対話履歴を持つインテリジェント エージェントを考えてみましょう。 直観的には、最初から考え直すことなく、以前の対話で行った推論ステップ使用できることは理にかなっています自己メモを生成するようにモデルに教えるために、トレーニング中に、入力の一部としてグラウンド トゥルー自己メモ言語モデル提供することを検討します。 コンテクスト。 推論中に、トレーニング中に学習した特別トークンを生成する場合モデルコンテキストから逸脱し、SelfNote を生成できますモデルが Self-Note の生成を完了すると、元のコンテキスト トークンが引き続き供給されます。 これにより、モデル最後だけでなく、入力トークンの処理中にメモリを推論および作成できます。 また、Self-Notes をトレーニングするための半教師ありおよび教師なしの方法提案します。多段階の推論と状態追跡を評価するように設計された 5 つのテキスト データセットでこの方法テストします。 , 2020; Anil et al., 2022)、および 2 つの現実世界チェス ゲーム タスク (Toshniwal et al., 2022)。 私たち方法は、明示的なメモ取りを行わない微調整された言語モデルスクラッチパッドのベースラインの両方よりも優れています.2. 方法シーケンス内の次のトークン予測する自己回帰変換モデル M を考えてみましょう

2023-03-14

NLPとかレコメンデーションの分野がChatGPTにまとめて焼き尽くされたっつって大騒ぎしてるけど

あの辺はそもそも課題がふわっとしてて必然的評価尺度もふわっとしてるから何に向かって何やってんのかよくわかんねーなって昔からずっと思ってて

ふわっといい感じの答えを出してくれるパターン認識器で十分だったというのはさもありなんって感じしかしないけど

業界に知り合いがいすぎて表立っては絶対に言えないんだよなあ

俺はあの辺の分野は絶対やらねーって心に決めて遠巻きに見てただけだが

ログイン ユーザー登録
ようこそ ゲスト さん