「検索対象」を含む日記

2019-10-19

■anond:20191019183452

自分が機械学習に詳しいかどうかはわかりませんが，わかる範囲で書きます．

質問のテキストを投げるとそれに一番見合ったFAQページのリンクとタイトルを表示してくれるチャットボット的なプログラム

入力 : 質問のテキスト
出力 : FAQ ページの集合から一番「見合った」 FAQ ページ

を実現する事が目的だと考えて話を進めましょう．

一般的にこのタスクは類似文書検索と呼ばれています．ブックマークコメントでは「ElasticSearchを使え」と言われています．ElasticSearch の More Like This Query 機能を使うことで類似文書検索が実現できるようです．あとはパラメータを調整することで思い通りの結果が得られるのではないでしょうか．

より高度なアプローチを取るのであれば，BERT と呼ばれるニューラルネットワークモデルを活用した類似文書検索も可能です．こちらのブログ (ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer) が参考になるでしょう．

しかしこれだけで終わると悲しいのでもう少し機械学習の話をすることにします．

機械学習的にこの問題に取り組むには順序学習 Learning to Rank という問題を解く必要があります．順序学習は google 検索にも使われている機能です．

これは，「入力 x に対して N 個の候補 y_1, y_2, ..., y_N を類似している順に並び替えるようなスコアを出力する関数 f(x, y_i) を学習する」というものです．

More Like This Query 機能よりもこちらのアプローチが優れているのは，前者はどうパラメータをチューニングしようと「類似している文書」しか得られないのに対して，後者は(先程引用したような)「見合った」を明示的にデータとして与えてランキングを学習できる，という点です．

学習データとして「この質問のに対してこの FAQ ページがもっとも見合っている」「この質問に対して A と B ふたつの FAQ ページがあるが，B より A の方が見合っている」「この質問に対して見合った順に全ての FAQ ページを並び替えたもの」といったデータを大量に準備することで，「見合った」を学習することが可能です．

しかしこちらも ElasticSearch の機能に搭載されているようです．ありがとう ElasticSearch．お疲れ様でした．

もしあなたが ElasticSearch を使うのではなく， Python を使って再実装したいと考えているのであれば，目印として必要なライブラリや概念を書いておきます．

類似文書検索について
- 入力および出力候補であるテキストは何らかの形で特徴量に変換する必要があります．これは MeCab を使った分かち書きによる単語集合 bag-of-words でも良いですし，単語集合に対して word2vec などの潜在表現を組み合わせて文章を潜在表現の集合として表現し， pooling 処理を行うのも良いでしょう．先程言及したよう BERT も利用可能です．
- 類似文書検索を行うには，特徴量同士の類似度を計算する必要があります．コサイン類似度を自ら実装するもよし，Numpy や Scipy や scikit-learn などのライブラリを用いるのも良いでしょう．
- そもそも類似度を愚直に計算せずとも，scikit-learn には近傍検索を行う NearestNeighbors が実装されています．これを使いましょう．
- 検索対象である FAQ ページの量が膨大である場合，近似近傍検索 Appropriate Nearest Neighbors (ANN) を検討するのも良いでしょう．ANN を行うライブラリは複数あり，ベンチマークも行われている(erikbern/ann-benchmarks: Benchmarks of approximate nearest neighbor libraries in Python)ので好きなものを選んでください．私の好みは FLANN です．
順序学習については詳しくないので IR の専門家にお願いします．検索した感じ LightGBM で実装するのが一番楽そうです．

Permalink | 記事への反応(0) | 23:07

2019-01-14

■Pubmedの検索とか犬猫 アレルギーとか

Pubmedの検索のやり方について

PubMed（パブメド）とは、MEDLINEなどを対象とした検索エンジンである。

MEDLINE（メドライン）とは、医学を中心とする生命科学分野の文献のデータを集めたオンラインデータベースである。

細かい話はググれ。

https://www.ncbi.nlm.nih.gov/pubmed

とりあえず医学論文を調べるだけなら、公式サイトのページ上部の検索窓に適当に単語をいくつか放り込むだけで良い。オートサジェスト機能もあるよ。

基本的に英語の論文を対象としているので、日本語で検索しても何も引っかからない。また、大文字小文字は区別しない。

半角スペースで区切った単語は基本的にAND検索となるが、大文字のANDで区切って明示的にAND検索することもできる。他にもORやNOTや()も使える。

検索語句が複数の単語からなるフレーズであると認識された場合はそういうものとして検索される。ダブルクォーテーションで囲むことで明示的にフレーズと解釈するようにもできる。例えばdog allergyなら5000件ほどヒットするが、"dog allergy"なら50件である。

検索対象となるデータは著者名・文献のタイトル・キーワード・雑誌名・その他となる。検索する単語の後ろに[タグ]とつけることで、単語を検索する場所を指定できる。例えば[ta]なら雑誌名だ。例えばdog allergy [ta]で検索すると"Allergyという雑誌の犬に関する文献"が189件ほど出てくることになる。

著者名で検索する場合はちょっと変わっていて、ラストネームをフルで記載してファーストネームとミドルネームはイニシャルを後ろに付ける。山田太郎ならyamada tだし、ルルーシュ・ヴィ・ブリタニアならBritannia lvだ。多分な。

検索窓の下のAdvancedからはさらに高度な検索のあれこれ（例えば小規模な症例報告に絞るとか）ができるんだけど、きりがないので興味があればググれ。Pubmed 検索とかでググって出てくるのを3つくらい読んだら大体分かる。

ちなみに検索結果のところにFree PMC Articleって書いてあったらその文献はタダで全文読めるぞやったな。

PATMを検索してみる

まずはPATMを"自分自身が皮膚から放散する化学物質によって，周囲の他人に対してくしゃみ，鼻水，咳，目の痒みや充血などのアレルギー反応を引き起こさせる体質"と定義しておこう。ちなみにこの定義の引用元は例の皮膚ガス測定の論文だ。

とりあえず、PubmedでPATMと検索したら91件ヒットする。これはphosphorylated ataxia-telangiectasia mutated（pATM）という全然関係ないものが引っかかるからだ。これがPATM Allergyだと3件になるんだけど、全て全然関係ない論文なので要するにこのアプローチは駄目だ。

そもそも普通の医学論文は実際に発症している患者サイドに視点を置いて書かれているものと期待できる。報告があるとしたら"ヒト由来の抗原によってアレルギーを発症した症例"についてのものになるだろう。PATMの定義からその病態は1型アレルギー、具体的にはアレルギー性鼻炎か蕁麻疹、ひょっとしたら気管支喘息に近い症状を呈すると予想される。じゃあそっちの報告でヒト由来の抗原で、もしくは抗原をくっつけた他者との接触が原因で発症したパターンを探せばいいんじゃないの？

そこまで決めたらタイトルか抄録に使われてそうな単語を思いつくままに入れて検索ボタンを押し、検索結果を上から順番に見て回る。それっぽいことが書かれたものを見つけたら、その抄録画面の右側を見てみよう。その文献に関連している他の文献へのリンクが張ってあるぞやったな。本文を読める文献なら末尾に参考文献のリストがあるはずだ。そこもチェックして関係ありそうなら読んでいこう。あとは芋づる式に当たりを探すだけだ。どう考えても関係なさそうな文献はタイトルだけでスルーしてかまわんぞ。

で、結論から言うと私が探した限りでは人体由来の抗原が他者にアレルギーを起こしたという報告は、母乳アレルギーで児がやられたとかしか見当たらない。これがPATMの正体ということはないだろう。

一方で"直接動物を飼っていない人が他者に媒介されて動物アレルギーを引き起こす"という話がある。これとか↓

https://www.ncbi.nlm.nih.gov/pubmed/26934742

https://www.ncbi.nlm.nih.gov/pubmed/29434523

個人的には微量の皮膚ガスよりも余程こっちの方がありそうに思うが、如何に。

日本人における何らかのアレルギー疾患を持っている頻度は30％を越えているが、逆に言えばどんなに最凶のアレルゲンを持ってきてもその辺の10人中3人くらいしかアレルギーの症状は起こさないだろう。PATMを訴える人がそれを超える頻度でアレルギー症状を振りまくのであればそれは大層画期的なことだ。

知り合いにPATMを主張する人が1人居るが、その人は風邪を引いている私の前に来てまず自分が臭くないかと聞き、それが否定されると次にPATMを訴え始めた。私はその人は典型的な自己臭症だろうと思う。そして私のはただの風邪だ。

Pubmedで調べた結果はないが、PATMの人の腸内細菌叢の変化を調べるという研究がある。

https://clinicaltrials.gov/ct2/show/NCT03582826

あとはまだ読んでないけどこのへんとかはどうなんすかね↓

https://www.biorxiv.org/content/early/2017/05/19/139014

とりあえずPATMについては以上です。

ところで話は変わるんだが

他人にアレルギー症状を起こさせる疾患「PATM（パトム）」は実在するか？ - NATROMのブログ
http://natrom.hatenablog.com/entry/20180928/p1
もちろん、論文がないからといってPATMという病気がないことにはならない。また、PATMとされている患者さんの苦痛は気のせいなどではなく実在しているものである。しかしながら、病気の真の原因について正しく認識できなければ、かえって患者さんの不利益になる。私はそれを危惧する。

これを読んで、

ニセ科学に陥るNATROM氏へ (ブコメ返信あり)
https://anond.hatelabo.jp/20190105145539
「Pubmedにない」のは当然であり、これを理由にこのような症状がない、とは言い切れません。

症例報告がなされていないものは実在しない（きわめてまれ）という事はありません。

つかそれ以前に↑に書いたようにPubmedに載ってない事が症状が無い理由とは言えないんだけどね。

こうなるとさすがにこいつは何を言ってるんだ？？？と言わざるをえない。

「AはBである」論なので論拠が必要ですが、論拠を求めるとNATROM氏は"データなどあるわけない"と逆ギレし、一向に論拠を示してくれませんね。

ほーん、どこかでなとろむ先生に論拠を要求したことがあるのかね。

まあ私はこの増田がなとろむ先生の記事のコメント欄でいちゃもんを付け続けてアクセス遮断された誰かであったとしても知ったことではないが。

他人にアレルギー症状を起こさせる疾患「PATM（パトム）」は実在するか？ - NATROMのブログ
http://natrom.hatenablog.com/entry/20180928/p1
PATMで苦しんでいる患者さんは、代替医療を行っているクリニックで今現在調子がよいならいいが、もし良くならないようなら、自己臭症を診る精神科医に相談してみるという選択肢も考えてみてはいかがだろうか。PATMを疑っている段階では、自費診療のクリニックよりも先に、精神科に受診することを強く勧める。

これを読んで、

というか勝手にNATROMが「Pubmedに無かった」ことを論拠に「PATMの症状は幻だ」って言ってるわけで（誰もPubmedで調べろとは言っていない）、

こうなるのはどう考えても論理的におかしい。

誰も幻だなんて言ってない……もしかして幻覚を見ているのでは？

普通は"無いことを証明せよ"とか言い出した時点でまともな議論は諦めて放置されるところなのだが。こんなのを長時間見てると科学的アプローチの概念が崩壊しそうだ。

あとがきによせて

私がこの増田を見た時に最初に気になったのは、この"調べ方"に対するこの異常なこだわりだった。

"調べたけど見当たりません"に対する最も簡単な反論は"こっちで調べたらありました"だ。そこに検索ワードが何であったかは全く何の意味もない。というかヒットしない検索ワードを聞くことの意義とは一体。

例えばこれがSTAP細胞の製造手法に関する質疑なら分かる。何故ならSTAP細胞は"ある"という主張だった。それならば間違ったやり方で検証しても意味がないし、検証にかかるコストも大きい。

しかしこれは単なる検索だ。思いついた単語をぽちぽち打ち込むだけだぞ？　検索ワードを知ることのどこに科学的アプローチが？

何故か頑なに自分で調べようとしないこの増田が、執拗になとろむ先生が使った検索ワードを知りたがる理由とは何だろうか。普通はなとろむ先生もいちいち覚えてないと思うけど。

私は当初"最大限好意的に見て"、能力的な問題で検索のやり方が分からないのではないかと考えていた。しかしどうやら違う。この増田は別になとろむ先生が見つけられなかったものを見つけたいというわけではないと言う。

ブコメに対する返答を見るにつけ、どうやらこの増田はなとろむ先生が間違っている"ということにしたい"だけなのでは、と思えてくる。そう考えると色々と腑に落ちる。例えばなとろむ先生の記述や、他人のコメントを無理矢理自分に都合の良いように解釈しようとすることとか、やたらと他人の属性を気にして連呼することとか。

つまるところお前、単にマウントとりたいだけちゃうんかと。

さて、馬鹿がクソリプするからもう一度俺の意見をまとめとく。
長々書いたが以下の２点だ。
①「PATMは無い」と医者が主張するなら科学的アプローチで主張すべき
②個人的にはPATMはあるかないか現時点ではわからない

②はどうでも良い。問題は①だ。

そんな主張をしているなとろむ先生は存在しない。幻覚を見ているのでは？

ただ、なとろむ先生と私はPubmedで検索してもPATMっぽい症例の報告を見つけられなかったから、そこで颯爽と1例見つけ出したらマウントくらいとれるんじゃねーの？知らんけど。

無駄に声がでかい人、間違いを認めようとしない人に指摘するのは大変です。全く。

せめて最低限の科学的アプローチはできるようになって欲しい。本当に。

最後に犬猫 アレルギーの間違いの話な

"可能性のある原因物質" なんて精液アレルギーの原因タンパク質も犬アレルギーの原因の大部分も、まだぜんぜん特定されてねーよ。

これでも読め↓

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3519933/

ちなみに精液アレルギーも分子量で大体の絞り込みができてたはずだよ。

で、

でもまぁ以前ネットの投稿で「ある人が近づいたら咳が出る」とか投稿されてたのはあったと思う（ソースは待ってくれ）。

我々はいつまで待てばいいんですかね？？

追伸

"犬に対する人アレルギー"みたいな意味不明な言葉には突っ込まないでおいてあげる。直すなら早めにこっそりな。

Permalink | 記事への反応(3) | 22:48

2018-11-18

■同僚に教えたい　検索がはかどるChrome ショートカット

仕事柄ネットでの調べ物が多くGoogleを多用するのだが、同僚をみているとどうも要領が悪い。気になったキーワードくらいさっと調べられるようになりたいものである。

ただ自分が口出しをすると「うっせーおっさんだな」と言われるのがオチなのでここに書きとめることにする。ブラウザはChromeを例にするが他のブラウザでも同様の操作はできるはずである。

コピー編

そもそも画面に検索対象が出ているのに、検索窓に自分で入力する人がいる。「そっちの方が早いから」が理由だが、絶対そんなことはないのでせめてコピペくらい覚えてほしい。

コピペにしても右クリックで「コピー」「ペースト」ってやる人がいる。「そっちの方が早い」と言い張るのだから諦めているが、ショートカット「Ctrl-C」「Ctrl-V」（Macの人はCtrlをCommandに置き換えてほしい）の方が早いと思う。あと、マウスをクリック＆ドラッグしてずるずるとテキストを引っ張る人がいるが、最近はある程度の日本語の形態素を解釈するので、ダブルクリックからドラッグした方が単語単位で選択できてよい。

検索編

URL欄でGoogle 検索できるようにしておく（これがChromeのデフォルトのはず）。なぜかBingとかYahooを頑なに使っている人がいるけど素直にGoogleでいい。

「Ctrl-L」を押すと検索窓にフォーカスが移ってURLが全選択になる。なので、本文中に検索したいキーワードがあったら選択して、「Ctrl-C/Ctrl-L/Ctrl-V/Enter」のコンボで一発で検索ができる

別タブで検索したい場合

今閲覧しているページはそのままにしたいこともあるだろう。そういう時は新規タブを開く「Ctrl-T」を使う。新規タブは検索窓に最初からフォーカスがあるので、「Ctrl-C/Ctrl-T/Ctrl-V/Enter」のコンボで新規タブでの検索ができる。同様のことをする拡張機能などもあるのだが、他人の環境だと使えなかったりするからここでは紹介しない。

タブを活用するなら、タブ移動コマンドや「うっかり閉じてしまったタブを復元（Ctrl-Shift-T）」なども覚えておくと便利であるが、あまり大量のショートカットを一度に覚えるとかえって効率が落ちてしまうのでここでは深追いしない。

英文を読む

単語を1つずつ調べている人がいるが、わからない単語が多すぎるなら素直に「右クリック＋T」で全文翻訳してしまった方が早い。ざっくり文意をつかんだら原文に戻す。そうすれば検索しなくてもだいたい読めるはず。

翻訳機能を使うのが恥ずかしい、あるいは、ほとんど辞書なしで読めるがわからない単語が稀にある程度なら

https://chrome.google.com/webstore/detail/mouse-dictionary/dnclbikcihnpjohihfcmmldgkjnebgnj

この拡張機能が便利なはずだ。マウスオーバーするだけで辞書が引けるスグレモノである。なぜ「はずだ」と書いたかというと、いちいちON/OFFをしなければいけないし、たまに調べるくらいなら前述のショートカットで十分間に合うので、インストールしたのはいいもののほとんど使っていないからである。

検索ワードもある程度コツがあるのだが別に紹介したい。「ググれカス」というのは簡単だが、文章にして説明すると案外面倒なものである。

Permalink | 記事への反応(3) | 15:14

2018-11-12

■anond:20181112104939

http://www.atmarkit.co.jp/news/200105/02/google.html
Googleは、ペタバイト級のストレージ1台にWebページ13億分のインデックスを持つ。「インデックスがペタバイトを必要としているからではない。1インデックスにつき数百のコピーを持つからだ」とGoogleのマネージャ Marc Felton氏は語る。
（中略）
大規模なWebサイトが、データ保存のストレージシステムとしてRAID システムやSANを用いているが、Googleでは典型的なディスク型のストレージシステムを用いている。その理由を「その方が速いから」とFelton氏は言う。
Googleのストレージデバイスの多くはMaxtorの80GBハードディスク・ドライブだ。Maxtorの製品は、ハードディスクドライブ1台につきコントローラを1台、PC1台につきハードディスクドライブ2台を持つ。

https://internet.watch.impress.co.jp/cda/event/2004/11/16/5430.html
Googleでは検索対象ページをこれまでの約40数億ページから、約2倍となる約80億ページに拡充したばかり。容量は1ページあたり平均10KB、合計で10TBにも達するという。

https://japan.cnet.com/article/20081099/
Googleは、比較的低価格のマシンを大量に購入することで、通常なら数千万ドルもかかるようなコンピュータインフラを、わずか数百万ドルで構築してしまった。

Permalink | 記事への反応(0) | 11:20

2018-09-21

■マイナーなものが好きな者の生き方

作品自体は人口に膾炙している場合でも、

その登場人物一人一人を見てみれば、

作者の造形の気合いや、世間での知名度や、フアンの人気には、当然大きな差がある(登場人物が多ければなおさらのことである)。

私のような、マイナーな人物のフアンはしばしば同志に飢えている。

なぜマイナーな人物にそこまで熱狂できるのか、それは自分にもよくわからない。

いわゆるフィーリングの一致なのであろうか。

もしくは想像と解釈がその広がりをもとめて要請する、作品における描写の少なさ、かきこみの粗さがあるからだろうか。

ただまあ、それは今は措くとして、

とにかく影の薄い人物はファンもつきにくいので輪をかけてマイナーのままになる。

況んや美形でなく悪い描かれ方がされている者をや。

熱弁を奮わずとも、私の好きなものとしてその人物をともに好いてくれる友達は、いる。

そのようや友達はいうまでもなく大切な存在ではあるが、

しかし、その好感には、明らかに私が介在したことによる補正がかかっている。

私は私の必死さに絆されたわけではない見ず知らずの人がその人物を好いていてくれるのを欲しているのである。

しかしいくら世界的名作とはいえ、

マイナーな奴はマイナーなのである。

リアルでの出会いには明らかに限界があるので、

私はやや妥協してネットの世界に繰り出すが、

検索対象を世界にまで拡張したところで、そう簡単には同志は見つからない。

しかし、

しかしである、

時として、同志は、私の目の前にその姿を、あるいはその愛好の痕跡を現すのである。

そういうとき、私は、一気に歓喜のピナクルに達し、

その身に積もるあらゆるマイナスのこと、

満員電車の疲れとか、両足の靴擦れの痛みとか、まだ火曜の夜であることとかを忘れて、脳内でドバドバと噴出している何かを喩へではなくして如実に感じとる。

往々にして、奇跡のその人自身とは、言葉を交わしたりすることは不可能なことが多いが、

それでも私はお宝を大切に握りしめて、

少なくとも一週間はピークからの緩やかな滑空を楽しみながら生きていくことができる。

さながらその場にへたりこんで、

ありがとうございます！

といったところである。

朝に死すとも可なり、などとは、

今の私にはとても曰えない。

私が、奇跡に面するたびに思うのは、

(これはややこの話の流れでは唐突だが、)発信することは大切ということと、

もう少し生きさせてください。

ということなのである。

Permalink | 記事への反応(1) | 14:06

2018-08-09

■いただけるでしょうか

依頼の文面で「〜（して）いただけるでしょうか」を使う同僚がいて、見るたびに違和感を覚えていた。

「書類を頂けるでしょうか」

「教えていただけるでしょうか」

「返却いただけるでしょうか」

などが用例。この人は会話でもこう言う。最後の例は「ご返却」としてほしい。

「いただけるでしょうか」ググってみたらそれなりに使われている。例えば「ご理解いただけるでしょうか」とか。これはなぜか違和感があまりない。しかしよくよく検索結果を見ると、依頼ではなく質問ばかりだ。あるいは、質問の体だけど答えは求めていない投げかけが多い。やはり依頼の「〜（して）いただけるでしょうか」は珍しいのではないか。

動詞の終止形に「でしょうか」が付いているから変なのかと思ったらそうでもない。

「まだ使えるでしょうか」

「雨は降るでしょうか」

これらには違和感がない。どちらも質問だけど。

自分は「〜（して）いただけますでしょうか」を使う。経験的に、他の人もよくこれを使っていると感じている。念のためこちらもググってみたら、誤用として複数のビジネスマナー指南サイトで紹介されているようだ。「ます」「です」が二重敬語なのだと。なるほど。

とはいえ、検索上位にくるのは薄っぺらなページばかりで、これなんて特に酷い。

https://www.rirekisyodo.com/study/doublehonorific-point.html

日本語も論理も内容もおかしい。こんな記事にとやかく言われたくない。

このページも酷い。

https://careerpark.jp/53907

「いただけますでしょうか」は二重敬語だから NG と言いながら、「よろしかったでしょうか」は相手への配慮だから OK とか。実際に NG か OK かは別としても、この論理でよく記事にできたなと思う。

そしてこの「専門家」とは誰なのか。その専門家に「いただけますでしょうか」について聞くことはできなかったのか。まあ、そこだけ何かを読んで適当にぼかして引用したのだろうけど。

ここで感じたのは、「〜（して）いただけるでしょうか」は、こういったゴミみたいなビジネスマナー指南に従って「〜（して）いただけますでしょうか」を避けた結果として使われているんじゃないか、という疑問だ。

以下について知りたいけれども、検索だけでは答えが出そうにない。

1. 依頼の「〜（して）いただけるでしょうか」は昔から使われていて、これがむしろ自然だという人がいるのか。

2. 依頼の「〜（して）いただけるでしょうか」は「〜（して）いただけますでしょうか」を避けた結果という仮説は正しいか。

3. 「〜（して）いただけますでしょうか」は、専門的にはどういう扱いなのか。

皆様のご意見、ご感想をお寄せいただけるでしょうか。

（追記）

そういえば便利な日本語コーパスがあったのを思い出した。

KOTONOHA 現代日本語書き言葉均衡コーパス

少納言

http://www.kotonoha.gr.jp/shonagon/

まず「ますでしょうか」で調べてみた。「いただけ」は二重敬語の指摘に関係ないので。検索対象からヤフーや国会会議録は除く。かなり例が出てくる。有名な執筆者のソースを幾つかピックアップしよう。

山本周五郎「人は負けながら勝つのがいい」1998

山﨑豊子「沈まぬ太陽」1999※

安部公房「方舟さくら丸」1984※

京極夏彦「本朝妖怪盛衰録」2003※

赤川次郎「人形たちの椅子」1992

村上春樹「東京奇譚集」2005

宮部みゆき「誰か」2003

曽根綾子「この悲しみの世に」1986

ここには、依頼でなく質問の「ますでしょうか」の例も含まれる（※印）。でも二重敬語が駄目なら依頼・質問の区別は関係ないだろう。

さて、「いただけるでしょうか」を検索したかったが、検索文字列は 10 字までということなので「けるでしょうか」で検索した。例はかなり少なく、依頼の用例はさらに少ない。とはいってもゼロではない。こちらも有名どころを挙げておこう。

瀬戸内寂聴「女人源氏物語」1999

陳舜臣「陳舜臣全集第1巻」1986

というわけで、ここまでの個人的な結論としてはこうだ。

1. 「いただけますでしょうか」は、文法的な是非はともかく、今後も自信を持って使っていいといえる十分な用例がある。

2. 「いただけるでしょうか」はそれなりに古い用例が存在するので、とやかく言うほどではなさそうだ。

Permalink | 記事への反応(2) | 18:43

2018-05-22

■最近 はてなブックマークはじめたのですが

ちょっと良くわからないところがあるので教えてください。

右上の検索ボックスに入力して検索を押しても全くヒットしない語句がたびたびあるのです。

検索対象をタグや本文に変更しても出てこないですし・・・。

いろんなSNSを使ってきましたがこんなの初めてです。

何か根本的な誤解をしているのでしょうか？

Permalink | 記事への反応(5) | 15:20

とある業務システム、過去案件の検索はボタン押してから表示されるまで10分くらいかかる

しかも検索結果が1件だろうが1,000件だろうがかかる時間はほぼ同じ

そして仕事上、1日に平均10回くらい検索する必要がある

(新規登録なら比較的短時間で2、3分、登録済みデータの変更だと5分以上かかるが、こっちは1週間に1、2回程度の頻度なので我慢は出来る)

クソ時間がかかるので、一度に何件も同時に検索が必要な場合は、「すみません、○○検索するんでPC空いてる人いますか？」と周囲に声を掛けなきゃならない

周囲の人達もこのシステムのクソさを嫌というほど知ってるので俺に対して協力的なのが唯一の救いだ

このシステムのクライアントはAccessなんだが、あるとき、データベースの認証情報がハードコーディングされている事に気付いた

そこで俺は一計を案じた

検索対象のテーブルを丸ごと俺のPCにCSV 形式で吐き出させるスクリプトを毎日深夜に自動実行するよう設定しておいた

検索する際はこのCSV ファイルを使うようにすることで、検索の所要時間は1/10以下になった

それから数ヶ月後、データベースが吹っ飛んだ

原因は俺ではなく、情シスの新人が操作ミスでテーブルを飛ばしてしまったようだった

社内は大混乱に陥った

バックアップは俺が派遣される前にファイルサーバーが故障してそれっきり放置されていたため、存在しないも同然だった

仕方がないので情シスの中の人に「俺こんなファイル持ってるんだけど」と申し出て、それを丸ごと流し込む事でその日のうちにテーブルは99.9%復旧し、社員らはいつもより少し長く残業する程度で済んだ

もちろん上司や監査部から呼びだしをくらった

「お前何勝手に毎日のように本番DB から社外秘データ全部抜いとんねん！万が一お前のPC盗まれたら新聞沙汰どころちゃうぞ！社長のクビ飛んどるぞ！」と、まあそりゃそうだ

俺はヘラヘラ笑いながら「いや～すんませんっした～」と言うしかなかったが、株価ストップ安レベルの重大事故を水際で新人の始末書一枚に抑え込んだ事も考慮され口頭注意で手打ちとなった

それから数日後、情シスからスクリプトの提出を求められ、それが夜間のバックアップジョブ 2世に生まれ変わった

情シスの部長から「検索するならこの共有フォルダのCSV ファイル使え」とこっそり耳打ちされた

Permalink | 記事への反応(0) | 20:20

2017-01-29

■Twitterの名前欄に一言 コメ書くやつ

あんたらのせいでTwitterの検索がまともに機能しないんだ。

好きな作品名？　好きなキャラ名？　好きな有名人？

あんたらの「好き」で、こっちの「好き」が探しにくくってならないんだよ。

同じものに情熱注ぐ仲間だろうよ。邪魔しないでくれよ。

はやくTwitterは名前欄を検索対象から外してくれよ。頼むよ。

Permalink | 記事への反応(0) | 20:54

2015-09-01

■http://anond.hatelabo.jp/20150901214152

ちゃんとヒットしたけど。

サイドメニューの「検索対象」のところが「本文」になってないか？

Permalink | 記事への反応(0) | 21:54

2014-11-28

■日本 未来 ネットワークとやらについて

選挙での「白票」を「社会を変える力がある」とミスリードする謎の集団「日本未来ネットワーク」のサイトが突如出現

http://buzzap.jp/news/20141127-mirai-senkyo/

http://mirai-senkyo.com/

ソースコードにあったJavaScriptの関数名「FirstEntryCookieManageOnUnLoad」はかなり特徴的。

HTML ソースやJavaScriptも検索対象としたサーチエンジンで検索すると、

https://meanpath.com/f/lr5WLM

https://search.nerdydata.com/code/?and_code[]=FirstEntryCookieManageOnUnLoad

GMOが制作したオンラインゲームのサイトしかヒットしない。

Whoisの結果も、ドメイン登録業者はGMO。

https://twitter.com/magonote/status/537618636492390401

偶然にしてはちょっと被りすぎっぽい。

どっちにしても例の小4よりはガードが硬い。

小4サイトでは発火点となった、.com以外のプライバシープロテクションが効かないドメインの同時取得などもしていない。

ページ内で使っている画像もクセの残らない素材画像ばかり。

http://www.apimages.com/metadata/MSIndex/-/62762947/4/0

http://www.shutterstock.com/ja/s/%E9%80%81%E5%88%A5/search.html?page=1

技術的な側面からは裏で指示している組織まではたどれなさそう。

自分の予想では製作者は幸福の科学。でも万が一自民が作ってたら「有権者は寝ていてくれれば」の再来。個人の発言以上に言い訳が効かないはず。

マスコミは追ってみる価値は十分にあると思うよ。

現時点で唯一たどれそうなGMO ルートにソーシャルハッキングするとか、いろいろと工夫してくださいね。

あとはサーバのIP から同居しているサイトがどんなのかを洗い出してみようかと思っている。

なんかあれば追記しますが、できればもう少しいろんな側面から調べたいので何か思いついた人は協力お願いします。

こんな有権者を完全になめくさった真似をほっとけるかって話です。

---

追記

同IPを使用しているサイト。

http://tobira.sakura.ne.jp/doukyo/203.189.109.62

専鯖ではないみたい。たぶんあまりヒントはないなあ。

---

追記(14/11/29 AM11)

https://twitter.com/kensonmusic/status/538473167673491457

https://twitter.com/kensonmusic/status/538473574755868673

「昨日のどこかの時点で微妙に書き変えられている」とのこと。与党支持への誘導部分が消えてます。

慌てて馬脚を引っ込めた感じ。

トラバから。使用フォントやデザイン上のクセからの分析。

http://lunar0t.tumblr.com/post/103827308786

Permalink | 記事への反応(6) | 10:24

2014-05-21

■vector.co.jp向けのはてなブックマークビューアー

ベクター向けのはてなブックマークビューアー

>>> 実装

コンセプト

ローカルで動くビューアーであること

コメントするとローカル領域に保存。アカウント不要（登録不要／パスワード不要と表記する）。

ホッテントリビューアー

ホッテントリを見るものなのでこれはただのニュースフィードリーダー。はてブカテゴリートップに表示される記事しか見れない。でもタグ検索して独自のカテゴリーを用意してもいい。タグ「hatena」カテゴリーとか。「凍てつく波動」カテゴリーとか。「うーむ」カテゴリーとか。非公式カテゴリーを公式カテゴリーと混ぜて一覧化。（ふーむはタグではないので抽出しづらい。実現するなら別のアプリになる）

カテゴリーの紹介文も適当に付ける。ベクターではこういう点が大事。

タグは表示から省く。その代わり発見したタグを自動的に集計。カテゴリー候補としてmyカテゴリー作成のそばに淡色で表示。クリックで見る、またクリックするとカテゴリー化。ダブルクリックでも右クリックからのコンテキストメニューからもカテゴリー化可能。機能としては「ピン留め」だけど、体裁はタブのほうが良さそう。

自分で検索した言葉もタブ化するか？→必要ない。そこで見つけたタグのほうをタブ化したほうがはてなブックマークに馴染める。

ブコメは敷き詰める。あるブコメが終わった同じ行の、次の文字から次のブコメを続けて表示。全ブコメをまとめてインライン表示。ブコメの集まりがlistではなく一つの自由律散文詩に見えるように。タグは含めない。

両脇に発言者のアイコン。誰がどの部分を書いたかは意識すればわかるように、アイコンとブコメの該当個所を同じ色の枠で飾ったり、関係線で結んだりしておく。ブコメに付けたローカルスターははてなユーザーと関連付ける。ブコメではなく人にスターを。集計を見たユーザーがはてなユーザー個人を意識するように。

無言ブクマは「…」。無言の多さも見て取れるように。

日記を書いて、それにあう記事を探すという使い方も

1. 日記を書いたらストック

2. 日記に合うブコメ探しは普通に

3. 相応しい日記記事にストックを貼り付け

つまりストックの機能だけ。

このアプリは日記とした方がいい？wDiaryが参考になる。

コレクションにコメントをするのが日記。それを日記のように見せるのならあり。

まずはWeb から離れること

ベクターで受けているのは自前のＰＣにすべてを保存するアーキテクチャーだ。

次にビューアーであること。ダウンロードとインストールまでした上に登録などベクターユーザの誰がするものか。よってアカウント不要の閲覧に機能を絞ることになる。

かゆいところに手が届く

ベクターでは良質ソフトウェアを評価するときによく「かゆいところに手が届く」という表現が使われる。ユーザのやりたい操作ができること（ユーザーの発想を広げないエクスペリエンス）と、技術的制約……ユーザから見て理由のよく見えない妙な制約が無いことの２点のこと。

見せ方

コメントをどう見せるかが鍵。世間の声？世論？ユーザーを指定してミュートできるとコメントできない不自由さを解消できるかも。

ブックマークされた記事よりも、ブコメと記事タイトルだけを見せたほうがいいかも知れない。そこからもう一手間かけて記事を読める。ブコメタグも意見のうち。表示するほどのブコメが無ければ「n人が注目」という表現でブクマ数を表示。

情報を見せる順序

1. 人気コメント

2. 記事タイトル

3. 記事

4. コメント全てとツイート

~~気を引く順。情報量が少ないもの順にもなっている。~~

記事タイトルならどこのニュースサイトでもやっているので、人気コメントを先に。

~~人気コメントは表示するけど、はてなスターは表示しなくていい。星が見えないのではてな村の星祭りは意味不明に見える。~~

スターは支持。演説の後援者のような立ち位置。

ブックマーク エントリー タイトルではなく最人気コメント

最初に見せるのはブックマークエントリータイトル（記事タイトル）の一覧ではなく、それに付いたコメントのうち最上位の人気コメント。発言者のアイコン付きで。エントリータイトルはその下に小さく表示。

リツイートを除外したTwitterのようなUXになる。

メインコンテンツははてなユーザー

このアプリのコメント機能は「はてなユーザーやそのブコメにコメントする機能」。お気に入りはてなユーザーを強調表示したり、非表示（ミュート）にしたり。

Web上の記事も読めるけど、中心になるコンテンツははてなユーザー。ブクマエントリーページを見ながらメタブを付けるのをローカルでやるようなものがこのアプリ。エクスポート機能によっていつかははてなブログへ移行。

強調表示は太字や色の変化や大承認の「キラ承認」のように。

非表示は二段階。網かけか淡色化で見えにくくするか、完全に非表示(collapse)にするか。検索など他のビューでも有効。

はてなユーザーに付けたコメントはそのユーザー IDが表示される場面全てでIDに併記される。ラベル（レッテル）貼り機能。ラベルの背景色も変えたい。ラベル内でも強調語やユーザー IDを消す機能を有効にしたい。

コメントには絵文字も使いたい。

はてブカテゴリーを見せかけのタブにするといい。更新があればタブに印。エントリーごとに既読/未読の表示をしたほうが分かりやすそう。人気/新着のラジオボタンをタブ内に置く。→最初から全カテゴリーを調べる。閲覧するまでは更新確認しても無意味なので省く。つまり更新マークの出ていないタブについて更新確認。
タブを使わず縦3列レイアウトでもいい。Chrome アプリ版はてブのように。でもWindows デスクトップぽくない。
起動時に前セッション終了時のビューを復元することはUX上重要。閉じたタブの復元も必要だけど、閉じるときの確認があれば代わりになる。

記事の人気をグラフで表示

数字よりも塗りの面積で見せる。

上限ははてブユーザーの感覚に合わせたいけどとりあえず1000usersで。それを超えることはあっていい。

機能

履歴

シングルウィンドウ・シングルドキュメントなぶん履歴を活用して利便性を補う。

検索

検索はローカル領域を。ユーザーが見てもいない情報は検索対象外。お気に入りユーザーのログは含めてもいいかも知れない。それでも一人分の全ブクマをダウンロードしてから検索。

気になる話題についてどんなコメントが寄せられているか調べるには？→ 検索は必要。新着/人気の両方を切り替えられないと話題は見つけられない。

印刷

印刷機能は重要。PDF化もここからなので。.docxにできればなおいい。

暗号化

コメントを保存する機能があるなら、暗号化すると受ける。履歴があるなら参照時にパスワードを設定するといい。あなたの心のセキュリティ。

そしてネットへ…

「完全版」としてb.hatena.ne.jpを宣伝する

「ご利用には利用登録が必要です」　「このソフトウェアと開発経緯について」ダイアログだけでいい。無意味に切り抜いた矩形でないダイアログで。スプラッシュスクリーンも無意味に切り抜くとちょっとすごい感を演出できそう。影付けて立体的なペーパークラフト感を出して。

日記・自分のコメントを書く

日記の日付は設定にある「日付の変わる時刻」を反映したものに。デフォルトは28:00(4:00AM)。12:00から36:59まで指定可能。「かゆい所に手が届く」機能。

はてブを読んではてなブログを書くために使う利用法も。（ブクマではなく）ブコメに星を付けるとコレクション。日別の日記記事になる。記事内は付けた星の色ごとにまとめ。ブコメを引用して自分の日記を書く。星の色はウィンドウズロゴの4色と黒。黒は非表示（ミュート）のスイッチ。

Webに移行

はじめはローカルで始めたユーザーがWebに移行できるように。移行したところでIDコールも有効になる。

インポート／エクスポート

自動エクスポート/インポートできればDropboxでも共有できる。インターネット越しにインポートしたい。

そのほか

特に速くなくていい。記事表示時などのナビゲーション開始から終了までをトランジション効果で隠すだけで「キビキビとした動作で快適」と評価されるので。

CC0

Permalink | 記事への反応(1) | 19:53