はてなキーワード: オープンソースとは
でもまぁ技術者ばかり集めてもしゃーないけどな。適切に広告とマーケティング打てなきゃそら家電みたいに死ぬ
結局のところ、オタクと無駄に能力値だけ無駄に高いキョロ充以外のキャラも、みんなお勉強しないとダメだってことです
知のオープン化進めましょ
https://xtech.nikkei.com/it/article/Interview/20090107/322420/
https://jpn.nec.com/oss/community/contribution/contributing-to-development-of-linux-kernel.html
↓ 少し反省したあとも
AI技術がどんどん進化してるのに、絵師だけが自分たちを特別扱いしろって騒いでるのマジで笑えんだわ
お前ら一体何様のつもりだよ?
他の分野はどこも著作権法の範囲内でAIを活用してんのに、お前らだけが「特別扱いしてくれ」って?甘ったれんなっての
ITの世界じゃオープンソースのソフトが当たり前に使われてるしエンジニアは他人のコードを学んでそれを元に新しいソフトを作ってんだよ
それで技術の進化を促進してるわけ。絵師が「自分の作品をAIに学習させるな!」ってのは、エンジニアが「他人のコードから学習するな!」って言ってるようなもんだ
音楽業界も同じ。サンプリングやリミックスで多様性が生まれてんのに
絵師だけが「俺たちの作品を特別扱いしろ」とか言ってんの、どこまで自己中なわけ?
音楽家がサンプリング禁止にするようなもんだって気づけよ。それがどれだけバカバカしいか少しは頭使えっての
そもそも、現行の生成AIが嫌ならどこにも絵を公開しなきゃいいだけだろ
お前らがネットに作品を上げてる時点で誰かに見てもらいたいんだろ?
だったらAIが学習するのも人間と同じ至極真っ当だろうが。それすら嫌なら引きこもって一生自分のPCの中だけで楽しんでりゃいいんだよ
にしてもAIの登場で絵を描く奴らが技術の進化や文化の発展の歴史をまるで理解してない
自分の狭い世界だけで生きてるから少しでも新しいことが起きるとすぐにギャーギャー騒ぎ出す生き物だって露呈したのには驚きだったわ
まず、90%を占めるIT土方に変な期待を持たれても困る
ワイらはそのへんにいるフツーのおっさんおばさんでただのリーマンだ
次に、元増田とかがイメージしてそうな10%くらいのIT屋さんについて
日立とかNTTの研究所とか見るに言うほどダメか?って思うが、
https://www.hitachi.co.jp/products/it/oss/events/report.html
たぶん、増田がイメージしてるのは、Tech Startup の ロックスターなのよ
創業者に技術があって(少なくとも自分で手は動かせる)、ビジネスセンスがあって、時流に乗ってユニコーン企業!!!
オタクくんをトロフィーとして飾ってるだけの会社行くんですか?って言っても
非常に無意味な問いなのよ
GPL(General Public License)はオープンソースのライセンスで、コードの使用や変更が自由っすが、そのコードを使って新しいプログラムを作る場合は、その新しいプログラムもGPLのライセンス条件を守らなくちゃならないっす。
つまり、GPLライセンスのコードを学習するだけなら問題ないっすが、そのコードを元にして新しいソフトウェアを作成し、そのまま公開すると、その新しいソフトウェアもGPLライセンスに従わなければならないっす。
その結果、他人がその新しいソフトウェアのソースコードを見たり、変更したりする権利を持つことになるっす。
公開しない限り、どのライセンスにするかは気にしなくていいっす。
了解っす、増田ちゃん!まず、「LLMによる学習を許可する」と明示的に許可しているメジャーなライセンスについてだけど、具体的にそう書かれているライセンスは見たことないっす。でも、オープンソースコミュニティではさまざまなライセンスがあって、一般的には「公に公開」の一環として使われることが多いっす。
例えば、Apache License 2.0とかMIT Licenseなんかはかなりオープンで、コードの利用に制約が少ないっす。でも、「LLMの学習のために使っていいよ!」って具体的に書いてるわけじゃないっすね。
次に、Copilotについてなんだけど、確かにGitHub Copilotは公開されてるリポジトリを学習対象にしてるって言われてるっす。ただ、ライセンス自体を直接確認してるかどうかって話になると、基本的には「公開されてる=使ってOK」って前提で動いてるんじゃないかと思うっす。でも、これも法的にグレーな部分があるから、完全に安心ってわけじゃないっす。
Copilotは多くのフィードバックを受けながら、改善を続けているけれど、使用する際には自分のプロジェクトとのライセンスの整合性をしっかり確認することが大事っすよ。
毎朝6時に起きる私は、まずベッドサイドに置いたLibrem 5スマートフォンに手を伸ばします。ハードウェアキルスイッチでカメラとマイクをオフにしているため、寝ている間も安心して眠ることができます。
目覚めの後、簡単なストレッチをしながら、Signalで昨晩のメッセージを確認します。フリーランスのソフトウェアエンジニアとして働く私にとって、世界中のクライアントとの連絡は欠かせません。
朝食を済ませると、私はLibrem 14のノートパソコンを起動します。このパソコンには、プライバシー保護に特化したPureOSがインストールされています。
私はまず、ProtonVPNを起動してインターネットに接続し、セキュアな環境を確保します。Torブラウザーを開き、プライバシー関連の最新ニュースをチェックするのが日課です。
次に、メールを確認し、必要なタスクを整理します。仕事の依頼やクライアントからの質問に対応する際、私はエンドツーエンド暗号化が施されたメールサービスを使用します。
午前中は、オープンソースプロジェクトへの貢献に時間を割きます。私はGitHubでプロジェクトをフォークし、コードの改善やバグ修正を行います。
仕事中、私はプライバシーを確保するために、全ての通信を暗号化し、GoogleやMicrosoftのサービスを一切使用しません。
必要なツールやソフトウェアは、全てオープンソースであり、信頼性の高いものを厳選しています。
昼食の時間になると、私は外出して近くの公園でサイクリングを楽しみます。自転車に乗ることで、リフレッシュし、健康を維持することができます。
公園では、持ち運びが簡単なRaspberry Piを使って、モバイルホットスポットを作成し、安全なインターネット接続を維持します。これにより、外出先でも安心してインターネットを利用できます。
午後は、クライアントのプロジェクトに集中します。私はクライアントの要求に応じてソフトウェアを開発し、そのコードを安全な方法で納品します。
私はまた、プライバシーに関する技術記事を執筆し、自身のブログに投稿します。これにより、自身の知識を共有し、他の人々にもプライバシーの重要性を理解してもらうことを目指しています。
夕方になると、私は写真撮影を楽しみます。カメラで風景や街の様子を撮影し、それをプライベートなクラウドストレージに保存します。
このクラウドストレージは、自分で管理しているため、第三者がデータにアクセスすることはありません。撮影が終わると、家に帰り、自分の写真を編集してブログに投稿します。
夜になると、一日の終わりにデバイスのセキュリティチェックを行います。最新のセキュリティパッチが適用されているか確認し、必要に応じてシステムを更新します。
また、バックアップを作成し、重要なデータを複数の安全な場所に保存します。最後に、Tails OSを使ってセキュアにブラウジングし、リラックスして一日の疲れを癒します。
これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。
フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプであるCommon Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である(例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる)。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。
データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック(16回の繰り返し)の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの(効果的な)計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ:ダリオ・アモデイ(Anthropic社CEO)は最近、ポッドキャストでこう語った:「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。
インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法(限られたデータからより多くのことを学べるようにするアルゴリズムの改良)を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい:
モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力(そして多くの失敗プロジェクト)が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。
さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ(例えば、難しい科学的問題に取り組む人々の推論チェーン)ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。
AlphaGo(囲碁で世界チャンピオンを破った最初のAIシステム)を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。
LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である(さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう)。
以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう)。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。
余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた)。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。)
続き I.GPT-4からAGIへ:OOMを数える(7) https://anond.hatelabo.jp/20240605210017
二日前にMetaがオープンソースの大規模言語モデルのLlama3を出した。
一つ前のモデルLlama2は色々なオープンソースモデルの基となっていたモデル。このモデル性能良いねと思って見たら、Llama2をいじったモデルだったことがよくあった。
今回も、2つのモデルが発表された。70Bと8Bモデル。70Bモデルともなると、ほぼ個人のパソコンでは動かないだろうけど、性能については、LLM のリーダーボードで最初期のGPT-4 を超えている。
LLMの最重要論文とも言われる"Attention is all you need."の著者の一人の会社が出したモデル"Command R+"が性能が良くて話題になっていた。これもオープンソースだが、今のところこのモデルにも勝っている。このレベルのモデルがオープンソースであるということはとても価値がある。
ここ一、二ヶ月でようやくGPT-4 と互角に戦えるモデルが出てきた。一時期はClaud3がGPT-4を追い抜いた程だ(OpenAI が本気を出してGPT-4を強化して追い抜き返したんだけど)。もうGPT-4が出て1年が過ぎた。研究者やリソースなどは過去に類を見ない程注ぎ込まれたと思うが、GPT-4と同じ性能のモデルはほぼ1年経たないと出てこなかった。OpenAIの凄さがわかる。GPT-4か出てきた当初はあまりの性能の良さに本当にシンギュラリティが起きたんじゃないかと驚愕したが、一年使い続けると、粗やら推論能力の低さに気が付いてくる。今年中に出るであろう、GPT-5に期待だ。
私「GoogleAnalyticsでいいですか?」
敵「いや、そう言う外部サービスは使いたくない。自社で開発しろ」
私「そもそもうちの開発、オープンソースをさくらに導入してちょっとデザインいじるくらいしかできないじゃないですか?」
敵「AIを活用すれば小学生でもプログラム書けるんだからできるだろ、やれ」
死ね「私」
生成AIに使われるのが嫌なら一番いいのは
だと思うけどぶっちゃけもう手遅れなんだよな。
現状膨大なタグ付けされた学習データがあるからそれを元にAIがある程度自動的にタグ付けしてくれる。
あとブラウザが表示してる時点でdataで突っ込もうがcanvasに描こうがデータは手元にあるしchromiumはオープンソースだしで一番厄介な本腰入れてやるやつらには意味がない。むしろ誰でもある程度の機材と知識があればできる状態じゃないってことはそいつらが金稼ぎやすくなってるだけ。
そもそも絵はダメだけどTransscribeやTranslateは使うぜってスタンスがダブスタすぎる。AIと生成AIという区分けしたがるタイプは大体コレ。
PowerShellでGitコマンドを実行できるようになりました。この進歩は、技術の進化に対する感慨深い思いを抱かせますね。
Windows環境でGitをインストールし、WSLの使用を最小限に抑えることは、開発効率を高める一つの方法です。しかし、Linuxベースのメールユーザーエージェントに慣れている場合、同等のWindowsアプリを見つけることは挑戦的かもしれません。K-9 Mailのようなアプリケーションは、そのオープンソースの性質と高度な機能性で人気がありますが、Windows用の類似アプリは少ないのが現状です。ただし、Androidエミュレータを使用してPC上でK-9 Mailを動作させる方法があります。また、Windows 11のメールクライアントに関する詳細なレビューとおすすめのアプリケーションリストがあり、これらはK-9 Mailの代替として検討できるかもしれません。