はてなキーワード: 検索エンジンとは
今後、どうなるんだろうか?
自動車で得られる経済性の方が遥かに大きいから損失には目をつぶる
同じように諦めと妥協で収斂するのか
現在は検索エンジンがAIで真偽有益性を判定しページランクつける技術移行の最中
とはいえこれもすぐに破られるのではないか、あまり期待していない
FacebookもYAHOOもセカンドライフもやりたかったのはこれなんだが、ダメでしょ?
ネットの広大な世界に小綺麗な町を作っても自給自足の閉社会にはならんのよ
ここでも現実社会と同じストロー現象が作用して瓦解する、毎度これの繰り返し
娘は学校も勉強も嫌いで素行も悪く(布団にもぐってYoutubeを見たりこっそりお菓子を買って隠れて食べるなど)、絵を描くことだけは集中して努力できるというタイプだった
なかなか上手く描けないと言って試行錯誤しているのを微笑ましく見ていたものだが、先日その娘がAIイラストを生成しているのを見つけてしまった
「パパこれすごいよ! 自分で描かなくても超上手い絵ができるんだよ!」
娘は嬉しそうというか、興奮気味にそう言ってどんなプロンプトで生成したのか教えてくれた
拙い操作でYoutubeや検索エンジンを検索し、連日こっそり深夜までネットサーフィンを続けて(これは叱った)自力でプロンプトを身に着けたらしい
いやすごい、それはそれですごいよ
子供に使わせるブラウザや検索エンジンを気にするってのは非常にはてなー的な行動だな、と思うんだが、もしハテサならば Brave を使うというのは違和感がある。
Brave を起業した CEO の Brendan Eich は同姓婚反対派として献金した過去があり、それが理由で古巣の Mozilla での CEO 職を 11 日で追われたというのを知らないのか?
まあ、オレは同姓婚に反対でも賛成でもどっちでも良いけど Chrome or Firefox + uBlock Origin の方が優秀なので Chrome or Firefox + uBlock Origin を使ってるぞ。
https://en.wikipedia.org/wiki/Brendan_Eich#Appointment_to_CEO_and_resignation
https://github.com/gorhill/uBlock/blob/master/README.md
Google ChromeにuBlock Originでもいいんだけど、結局のところ広告屋が作ってるものだから信用ならない。
google検索の劣化について、首がもげるほど同意した。というか個人的にタイムリーすぎてびびった。
というのも月曜に、子供の自由研究みたいなの手伝って星のベテルギウスについて調べたのね。そしたら重さのところにkg以外にMみたいな記号があったから、なんやろって思ってiPadで「星の重さ M」でぐぐったら↓のサイトが2位ぐらいにひっかかちゃったのよ。(ほんとうはURL貼りたくないのだが)
https://planetariodevitoria.org/ja/espaco/quantos-quilos-tem-uma-estrela.html
で文章が変なのでAI生成くさいなと思いつつもちょろっとスライドしたら、brave(基本広告消してくれるブラウザ)で見てたのに隅の方に「私の口に〇液出したいですか?」みたいなエロ広告(画像自体は女性の口)がでてきて、えらいびびった。あーbrave貫通広告もあるのか、というかサイト自体が完全にアフィだったら1つや2つ貫通するわな・・・という新たな気づきを得ました・・・。
で、すぐ×ボタン押して消したんだが、このサイト駄目だねってなって他のマシなサイトを探した。(ちなみに答えは太陽質量といって、太陽の質量を1とした単位らしい。Mと変な記号(〇の中に点)をつなげて書く)
俺は表現の自由戦士だし、エロがダメって言いたいわけじゃなくてね。単に欲してないときに見たくないだけなのよね。で子供も本人が見たいなら止めないつもりだが、積極的に見せるつもりはないのね。だからpushで見せようとしてくる広告は本当に屑。そのアフィサイトを弾けない検索エンジンも屑だし。せめてbrave自体がアフィサイト自体を検索結果から弾いてくれればいいんだが、そこまではできてないもよう。
で、そのアフィサイトはgoogleだと出てくるのでデフォルト設定をbingに変えた。仕事で使ってる分にはbingよりgoogleの方がいい結果がある場合もあるんだが、今回の件で屑サイト率はbingの方が低いのではないかと思ってとりあえず様子見。
あとは、ホワイトリスト形式で*.jpだけ指定出来たら結構なアフィ対策(ドメイン代が高いのでアフィサイトが基本使わないはず。)になるんじゃないかと思うが、さすがに巻き添えで見えなくなるサイトが多すぎるかなと思う。
あとはブコメで挙げられていたBing Copilotとか有用そうなので今度使ってみたいと思う。
とりあえずBing Coplilotの厳密モードで調べるようになった。気楽に使えてノイズは少し抑えられる。
https://b.hatena.ne.jp/entry/4749236552742528576/comment/PerolineLuv
もしみんなのおすすめ設定があれば教えてほしい。
軽微利用のくだり、その解釈だと検索エンジンも普通に違法にならね?
検索エンジン側で持ってるデータベースにクロールしたデータを全文ぶち込んでインデックス作ってないとこんな検索速度出せないでしょ
まさか検索するたびにクローリング走らせて全文中に検索ワードとの合致あるか調べて結果返すわけでもあるまいし
https://public-comment.e-gov.go.jp/servlet/PcmFileDownload?seqNo=0000267588
パブコメ用に素案も読み返してたんだけど、検索拡張生成(RAG)についての文化庁の見解は新聞協会のそれとはそもそも大幅な食い違いがありそう
https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_17.pdf
というか問29に沿って考えれば、「情報解析によって時事情報(※ただの事実であって著作権によって保護されない)を表示する」が主であって、その過程における「既存の著作物を複製翻案等する」は従であるとも評価しうるのでは
どの条文かというと、「当該行為に付随して」というところと「軽微利用に限る」の部分。
社内向けに流布するネタバレサイトみたいになってるので普通にだめかと。
https://www.pressnet.or.jp/statement/20220215.pdf
Q6 言語の情報処理によって、記事の要約・抜粋といった加工は技術的に可能だが、そうしたものを外部に提供できるのか。
A 記事の抜粋については、Q4・Q5 で示した範囲・分量を超えた利用はできません。また、最近、人工知能(AI)技術の進展で、記事を自動で要約したり簡素化したりするプログラムがあるようですが、要約された記事によって、報道の目的や意図がゆがんだり、正確性が損なわれたりする可能性があり、これらを外部提供するなどの場合は必ず、事前に著作権者(各新聞社の知財担当窓口など)に相談してください。
ここで呼ばれているQ4とは
可能とされるのは、「必要と認められる限度」でかつ、結果表示に「付随して」「軽微なもの」といった要件をすべて満たす場合とされています。新聞記事の場合には、「新聞名」「日付」「見出し」「ごく短い本文一部表示(スニペット)」「サムネイル写真」が該当する想定です。
ただし、参考資料②(16 ページ)で紹介されているように、見出し等を表示させること自体を目的とするサービスについては、「別途不法行為による保護が図られる途がある」という意見が
Q5には
それだけで利用者の情報ニーズや視聴の欲求を充足し、オリジナルの著作物の市場に悪影響が及ぶような場合は、目的から外れます。サムネイル・スニペット表示が、新聞記事の代替とならない限度を保つこと
とある。
その記事は検索エンジン的に、元記事を読むように誘導するものではなくて
と言う手順になっている。要約・翻訳して投稿するところがメインで、軽微利用に限るための処理は入ってない。
47の5は過大解釈されがちだけど、ちゃんと基準があって、文化庁の解説などには結構明確化されていて
https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/
https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_17.pdf
47条の5が想定してるそれそのものみたいなケースで普通に合法だろ。文化庁が資料出してなかったっけ?
逆に聞きたいんだが、むしろ他のどの条文を根拠に「他人の著作物を無断で切り貼りして公衆送信する」検索エンジンが著作権侵害にならないと思ってたんだ?
関連性を定量化する試みは、道徳的・政治的優先順位を暗黙裡または明示的に仮定しており、客観科学などではない
Google崇拝厨はこの手の議論をあまり理解してない気はする
しかしこのような政治的偏向が確実に存在している検索エンジンの方が、SNSで検索するよりもはるかに(偏向度合いについては)マシである可能性がある
確かにGoogleは自分たちのやっていることを「政治だ」と正直に言わずに、客観科学であるようなフリをし続けるだろう
しかしSNSでは「いいね」「シェア」という拡散のための仕組みが組み込まれており、情報を中立的に扱うのと逆を行っている
「人気なものは価値がある」という前提では、政治的偏向がどこまでも悪化するだろう
検索してもなかなか出てこない情報の中に、検閲されたものがたくさん存在する
しかもただ検閲されているだけではなく、事実として信頼できる情報源である場合がある
結局、調査にエネルギーを費やさずに、ダラダラと本能に従ってネットサーフィンするのでは洗脳されるだけなのだ
SNSにも良い点はあり、シャドーバンの仕組みさえ存在しなければ、すべてのポストを検索できるということだ
イーロンマスクがTwitterを買収する前までは、私は登録するだけでシャドーバンの対象にされていた
SNSの悪い点は、ロシアンファイアーホースと呼ばれるように、複数の情報源を捏造して大量投稿し、特定の情報を信じさせようとする点である
こうなると、Xでポストを検索しても、似通った意見がざっと目につくようになり、ユニークな意見や事実は封殺されるかもしれない
コミュニティノートも、事実がなんであるかを判別するためのヒントとして機能する可能性はあるが、どのポストにノートをつけるか、誰がコミュニティノートに参加できるかという点に恣意性がある
要するに、私には「インターネットを良い場所に保ちたい」という願望があるが、インターネットサイエンスや諜報機関が何をしているのかについての歴史をもっと学んでおく必要がある
Hatelabo::AnonymousDiaryのトップページで表示されるエントリたち、ページの下にある人気エントリや注目エントリとなったものたち、はてなのトップページで表示されてしまったエントリなどを表としている
当たり前だが規定されている禁止行為はそれ自体がNGなのでやらないこと
エントリ作成時はひとこと増田などによる有象無象なエントリとして登録し、そこから1週間~1ヵ月程度放置する
有象無象なエントリを作るのは逆に難しいと思われがちだが、どうでもいいような一言は見向きもしないのでそれをやってしまえばよいだけである
ヒントの1つとしては、一度増田のトップを見て、その話題とは全く違う内容であればスルーされる可能性は高くなるぞ
言及0ブクマ0のエントリをコピペったり改変したとしても、再投稿警察が黙っちゃいないのでそれは非推奨
表からは最短でも1時間ぐらいで1ページどころか3ページからも居なくなることがあるが、検索エンジンなどのbotも考慮すると1週間放置が無難、話題になりそうなものについては1ヵ月程度放置した方が安全だ
(実際デカ文字のエントリーで1週間程度のものとかをやってみたら簡単に見つかってしまった)
期間後はそのエントリを編集してお気持ち表明をすれば表には現れずに静かに目標を達成できるが、その後に削除したら本当に誰も見れなくなるはずだ
一応、削除せずに放置していると数年後にブクマする世界でもあるので、発見されるリスクを考慮するなら1ヵ月程度を目途に削除すると安全だろう(2024年4月1日に増田の検索が使い物になってしまっているため、このリスクが高まっている)
とはいえエントリ編集しても、本文中に出てくる特定のキーワードによって見つかる可能性はあるため、これらのキーワードをマスキングする必要がある
増田の場合はキーワードマスキングの機能が弱いのだが、腐女子がやっている検索避けみたいに「 ミ ニ 四 駆 」とスペースを開けるだけでもキーワードから外れるので確認してキーワードを削除していけば見つかる可能性は減る
なおこのワードは増田によってはNGワード指定しているのも居るため、逆にどこかにねじ込んで表示させないという、爆弾の中に爆弾を仕込むという手段も取れなくもない
スクショ対策でfontタグを利用して白文字にしてしまうのもありだが、真っ白に見えるものだと逆に怪しいため白文字は一部とすべき
コメントは使えない可能性はあるのと、あんまり隠しすぎるとそれはそれで問題になるだろうから注意
当たり前だがこれは悪用厳禁で、ここに書いているということは運営にもこの手法が見えているということでもある
つまり使えないエクスプロイトコードということで開示しておいたので、以下のことを気を付けて人生を送りたまえ
"24/1/28 「生成AIの『学習』は学術用語だ」ということをそろそろちゃんと説明した方がいい"
https://saize-lw.hatenablog.com/entry/2024/01/28/210053
いまだにこのレベルの内容がバズってるのを見ると少し辟易させられるが
考えてみると、ちゃんと技術を理解してる人間すらこのレベルのことしか書けないのは
対話の場がなくお互いの言葉尻をとらえてる状況が悪いと思うので少し整理して書こうと思う。
・著作権をめぐる法理が日々変化しつつあることが理解されていない
という二重の難しさにある。
単に概念的に難しいというだけではなく、日本においては法制度の実装レベルですでに混乱が生じている。
とくに生成AIと著作権を語るにあたっては「フェアユースという発想に賛同するか否か」という観点が必要不可欠なのだが
一足飛びに機械学習だけ著作権法30条の4によってフェアユース的発想が導入されているという
非常に奇妙な状況になっている。
フェアユースとは何か、というのは非常に難しい。
「一定程度の公正さがあれば具体的な類型を列挙しなくても著作権を制限できるという考え」
とでも要約できるが、これだけでは意味不明だろう。
英国にフェアディーリングというものがあるが、こっちの「公正さ」はわかりやすい。
「非営利かつ研究や教育目的、批評、報道などの場合は著作権は制限される」ということ。
たとえばこれがなければ公営の学校や図書館は莫大な支払いに追われ成立しえない以上
「公正さ」のために著作権を制限してよいという発想はわかりやすく
近代以降の文明国でこれを否定するような法理はまず存在しえないだろう。
フェアディーリングそのものではないが、EUの情報社会指令第5条なども同じように
「公正さは基本的に非営利や少なくとも公益目的、かつ具体的にあらかじめ列挙される」という発想である。
「営利でも、今までに判例がなくても、抽象的な議論で公正さを主張できれば新しく著作権を制限できるケースを創れる」
ただし、元の著作権者の利益を「不当に」害さない範囲で。何が不当か?それはよくわからんので最高裁まで争いましょう。
一見すると無茶にも思えるが、現代人の多くはこの法理の恩恵を受け、著作権を制限することで利益を得る側だ。
フェアディーリングの発想だけでは、検索エンジンのサジェスト機能すら著作権的にアウトということになる。
それを「フェア」にしたのは、米国著作権法に組み込まれたフェアユースの発想なのだ。
サジェスト機能だけでなく、情報技術を用いた新サービスが興るたびに多くの裁判が発生している。
ただし問題点は、それがフェアユースだと認められたとしても、EUの法理で「いや、この機能は著作権的にアウトだ、金払え」ということも現時点ですら可能であるということだ。というか実際にそういう判決はそれなりの頻度で発生している。
だってフェアユースはあくまで米国を含む一部の国でしか確立していないのだから。
しかし、現実問題として、それなりに有用なwebサービスを立ち上げようと思えば、まずフェアユース的発想に頼らざるを得ないだろう。
そこでいわれている「引用」は基本的に紙媒体で実名の人物が著作で相互引用する低速で静的な状況を想定しており
インターネットでアルゴリズムやボットを含む様々なエージェントが高速で動的に情報をやり取りする状況は考慮外だ。
もちろん、法の運用上はそれらに解釈を加え、少しずつ判例を積み重ね、法的に許される状態を少しずつ拡張していくわけだが
その結果が「サジェストは権利侵害です」となるのと、「フェアユースなので許可」となるのとでは、新サービス市場の発展速度が圧倒的に違う。
これらは基本的に著作権侵害であるが、訴訟を起こす利益などが小さすぎるため放置されているに過ぎない。
しかし例えば、訴訟が大幅に簡素化・自動化され、二次創作やミームが不可能となる社会を人々は望むだろうか?
究極的には、「どちらを選びたいか」という話になってくる。
もちろん、自分でどちらかを選びたいからと言って、それが自分の国の法理として実装できるかというと、大抵はそれは別問題だ。
フェアユースの発想を頑として認めない米国民がいたとして、如何なロビー活動の天才でも、死ぬまでに合衆国法典第17編第107条を改正するにこぎつけるのはまず不可能だろう。
逆に欧州の新進気鋭の政治家がEUの現状を憂い情報社会指令第5条を全面撤廃・改正してフェアユース的発想を導入できるだろうか?
全政治生命を賭したとしても、やはり死ぬまでにやり遂げるのは無理だろう。
すでに著作権法30条の4が存在しているというのがそれを端的に示している。
しかもそれほど政治的な紛争もなくぬるっと成立した、としか言いようがない成立過程である。
これは「元の著作物に表現された思想又は感情の享受」以外なら、営利目的でも無許可で機械学習を行っていいとするものだ。
ただしここにはやはり「フェアさ」は必要で、その条件は「元の著作権者の利益を不当に害さない」という抽象的なものだ。
現時点では確固たる判例はないので、大型の訴訟が起きてから決まることになるのだろう。
前述したとおり、日本の著作権法にはもともとフェアユースの発想はない。
それにもかかわらずいきなりこれがぬるっと成立するというのは、ある意味特殊な日本の政治状況、法体系の面白さというほかない。
ぬるっと成立した以上、ぬるっと撤廃されることだってありうるのだ。
ともかく、日本においてはいろいろロビー活動の余地、法改正の可能性、政治闘争で結果が変わる余地が多分に残されている。
だが以下は整理しておくべきだろう。
・フェアユース的発想を認めたとして、生成AIの利用はどのような具体的なケースでどうフェア・アンフェアなのか?
これは非常に難しい問いだと思う。私が答えるなら
(1)
フェアユースは認める。そもそもインターネット時代にそれ以前の著作権法を解釈と判例でそのまま運用する発想は無茶。
二次著作物の利用や検索エンジンなどのwebサービスを「基本はアウトだが、訴訟コストが支払えないから事実上セーフ」という現状はいびつすぎるのはもちろんのこと、訴訟コストが簡素化されてそれらが制限される状況が公正とも思えない。
(2)
生成AIにおいて元著作物と生成物の市場での利用形態が完全に競合する場合はフェアユースを認めたとしても「不公正」といえる。そもそもフェアユースはあくまで「新しい市場の開拓」という米国的な大義名分があって初めて成立する。
イラストを売っている販売元と同じようなプラットフォームで再販売するような場合は市場拡大していないし不公正だろう。
逆にそうではないケース、元データの市場と新データの市場がバッティングしない場合にはフェアユース的発想で公正とされると思う。
というあたりになるだろうか。
Bing Copilotが便利すぎてGoogle検索全く使わなくなった。
Google検索だと検索結果のwebサイトを一つずつ読むのが面倒くさすぎる。
Bing Copilotは検索結果のサイトから回答を作成してくれてそれを読むだけというのが本当に楽で良い。
参考にしたサイトが脚注になってるので怪しい回答が出てきたらサイトを直接見れるのもGood。
そしてWindows 11のタスクバーからCopilotボタンで直接呼び出せるのも地味に便利。
他ソフト使いながらCopilotボタン開いて質問して、回答生成の待ち時間はそのまま他ソフト使うというのが便利でいい。
あと検索とチャットをシームレスに切り替えられるので検索エンジンもGoogleからBingに変えた。
そしてBingにして良かった点がもう一つあって検索するだけでポイントが貯まること。
1回の検索で0.35円分くらいのポイントもらえて、一定金額貯めるとアマギフに変えられるので3か月くらいするとちょっとしたお小遣いになる。
私は直接ウェブ検索を行うことはできませんが、あなた自身で関連するキーワードで検索エンジンを使用することができます。以下は、検索する際に使えるキーワードの例です:
"cloud smoke vortex art"
"mysterious swirling cloud illustration"
"smoke entering vortex central light"
"fantasy cloud swirl center"
"artistic representation of smoke entering central void in clouds"
これらのキーワードを使用して検索すると、あなたが表現しようとしているイメージに近いアートやイラストが見つかる可能性があります。画像検索結果から、目的に合ったものを見つけることができるでしょう。
以下はすべてメインで使ってるプラットフォーム・プロダクトです。
俺って異端だよね!!😆
わかってる。ここでLinuxをメインOSに使えてない時点で俺は中等半端なんだよ🥺
でもそれも含めて異端だよね!😆
Googleなどの巨大な検索エンジンが保守的な思想を検閲している。
Googleの代わりにプライバシー重視の小型検索エンジンDuckDuckGoを使うように、俺は今まで人々に勧めてきた。
だが、DuckDuckGoがサイト上でロシアの情報を最小限に抑えるなどといって検閲しているので、DDGも信用できなくなりつつある。
しかしそもそもDDGの結果はMicrosoftのBing によって提供されている。Bingの連中さえもが、ロシア国営通信社RTとスプートニクへのアクセスを制限する欧州連合の命令に従うと発表して検閲に乗り出している。
Googleだけでなく、DDGやBingは検閲政策を採用しているようだ。
俺は新しい選択肢としてswisscowsを提案する。みんなswisscowsを使うべきだ。