「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2019-03-21

横浜市「RPAの有効性検証の成果について」を読んで、仕事とは何かを思い知らされる - orangeitems’s diary

それはプログラマー寄りの考えですよ。

この3番目。

勤務時間集計事務

市職員の勤務時間を集計している事務。〇〇システムで出力されている帳票から対象職員手入力で集計表に転記している作業

・利用環境:〇〇システムExcel

マニュアル有無:無し

たくさんの報告書作成してきたから私から言わせると、「SAMPLE」はサンプルではないっ。絶対この仕事ずっとやってきた人いるでしょう横浜市!?主観)。勤務時間集計システムからクエリーして、Excelに勤務時間の集計を作成する仕事!。

このアウトプット労務管理必要なのはわかるし、〇〇システムカスタマイズする予算もないから、定期的に作らされていたんでしょうね・・。

もちろん、労務管理は立派な仕事なんですが、労務管理に行きつくまでにシステムをさわってExcelに転記するという仕事創造的な仕事では決してない・・ですよね。この業務長期間ハマっていた人がいると思うと。

じゃあ、RPAを使って○○システムExcelに転記するとしますよね

まず、問題なのは「○○システム使用に改変はないのか?」ということです

例えば、○○システムが外部のWebサービスだった場合HTMLの内容をちょこっと書き換えることは有り得ます

有り得ますが、RPAスクレイピングなどの自動化する側からすれば、DOM構成ちょっと変わっただけで、あれ?ということになります

ここで大切なことは異常検知や例外処理ですが、私が思うに大手RPAベンダーが売りつけてるシステムはその時点で怪しい

本当は今は綱渡りをして成功しているだけ、という気がしま

その他にも、WindowsExcel仕様変更も考えられます

Microsoft保守的からそれはないだろう、と考える方がいるかもしれませんが、表面的なGUIは変更されてなくてもAutomationIDが変更されている等は有り得ますし、日本語訳も滅茶苦茶です

担当日本マイクロソフト側のはずですが、電卓の要素のNameとか酷すぎます

MSDNも酷いですが

昔はCD数枚組で売ったりしていたころはMSDNも丁寧な訳がありましたが、最近機械翻訳文句があったら書け、みたいになってしまいました

まあ、これは仕方ないです

仕方ないですが、日本語で先に読んで意味勘違いして、英語を読むまで気付かないぐらいだったら、日本語訳いらないやん

話がそれましたが、RPAちゃんとやると採算が取れなくなる可能性があります

結局、大規模なシステムを開発以上の労力が発生している上に、多くの危険を孕んでおり、効果が怪しい

先ほどのDOMの変化にAI人工知能対処する例はすでにあり、ビジネスとして成立し始めていますが、それは納品時のテストなどの話であって、RPAでなんとなくは業務ですので間違いは許されず非常に危険です

人工知能機械学習を誤解している人がいると思うのですが、大抵は「機械にいい感じになんとかしてよ」というものであり、機械によるミスはありえます

自動運転もLIDARなどを使わない完全自動運転可能ではありますが、私は怖くてそんなの乗りませんよw

なんでもAI人工知能OCR機械学習ディープラーニングでなんとかなるでしょ?という人ほど、まったく理解していないのだから滑稽です

滑稽ですが、世の中は喜劇であり悲劇です

と、私は常日頃からそう思っているんで、まあ、その点はいいんですけどね

結局、RPAなんかやらん方がいい、という結論しかならない

現場の人たちがプログラミング習得して、最低限自分と同じぐらいのレベルだったら、まだ考えようがありますが、無理でしょう?

逆に、私が役所現場の人とか、総務の現場の人の代わりにすぐなれと言われたって無理なのと同じです

2019-03-20

破産者マップ

閉鎖する時にスクレイピングしたデータを全部公開したら面白かったのに

「正当な理由破産者の一覧を確認したい方もいると思いますので」とかテキトー理由つけて。

2019-03-13

anond:20190313113204

まず、2000文字云々はviとかvimのソースを読んでもらうとして、

マシンパワーが必要なのは行列計算なんですよ

何億x何億みたいな行列計算

当然、それを端折るわけです

でも、端折ると精度が下がります

から、大量のページをスパイダーというか何かにスクレイピングして、文章を何らかのベクトル化するとか、字句解析するとか、それを瞬時に取り出すDBみたいなもの必要ですし、

そこからグラフを作って、確率的な有行グラフ行列を解かないと、順位が出せません

思うに、Google作る前に、主テーマわっちゃいますリコメンデーションとか、そういう小規模から開発するのがいいのでは

2019-03-09

賃貸、やっぱ会社徒歩圏内は高いな

都内在住

徒歩圏内に住んでて、そっから引っ越したいがやっぱ会社徒歩圏内は高い

もっと具体的にいうと山手線圏内が高い

 

20年以内、30平米で14万位

20年以内、40平米で18万位かな

払えるんだけど初期費用しんどい

 

関係ないけど、SUUMOホームズも痒いところに手が届かないな

ピンポイントの条件で網を張りたいんだけど

なぞって検索の通知がないんだよね

かと言って自分プログラム組もうとするとスクレイピングになるんだけど

禁止してるし情報抜かれるのに神経質になってる

そもそもレインズかいう仕組みが謎

めんどくさい

 

23万くらいばーんと出せるようになりたいわ

いや出せるんだけど、流石に躊躇う

2018-10-15

[]2018年10月14日日曜日増田

時間記事文字数文字数平均文字数中央値
0012123030190.347
019413913148.048
02399534244.580
033010199340.043.5
04102934293.468.5
0571184169.160
0616138086.348.5
07213026144.165
08374091110.664
0911016476149.853
101401329695.035.5
1112920863161.746
121531010466.042
1314916612111.534
1417021599127.154
1516418782114.544
1611316822148.968
1710710718100.239
189712131125.147
1912018772156.451.5
202151743481.133
212172085096.155
2220428655140.555
2314923687159.046
1日2612336092128.747

頻出名詞 ()内の数字単語が含まれ記事

人(275), 自分(240), 今(142), 話(129), 男(102), 人間(102), 好き(99), 日本(95), 女(95), 仕事(94), 増田(89), 女性(86), 必要(82), 前(79), フェミニスト(77), 問題(77), 感じ(72), オタク(71), 相手(68), フェミ(66), 意味(66), あと(64), 頭(60), 最近(58), 気持ち(57), レベル(55), 時間(55), ー(54), 普通(54), 金(53), 理解(51), 気(51), 今日(51), 理由(51), 無理(50), 昔(50), 目(50), 男性(50), 存在(50), 関係(49), 勉強(48), 一人(48), 他(48), 会社(48), 世界(47), 言葉(47), 最初(47), キズナアイ(47), 子供(45), 手(43), 他人(43), しない(40), 漫画(40), 人生(40), 意見(40), 日本人(40), 勝手(40), 批判(39), ネット(39), 作品(39), 確か(38), 嫌(38), 結果(38), 別(38), 場合(37), 結局(37), バカ(36), 差別(36), 文章(36), 自体(36), 英語(36), ダメ(35), ただ(35), 馬鹿(35), 扱い(35), 発言(34), 顔(34), まとも(34), 嫌い(34), 正直(34), 心(34), 大学(33), コメント(33), 現実(33), 声(32), 興味(31), 人たち(31), 投稿(31), 個人(31), 本人(31), 全て(30), 記事(30), 表現(30), 最後(30), 絶対(30), 状態(29), 結婚(29), ブクマ(29), しよう(29), 子(29), 小説(29), 社会(29), 仕方(29), 一番(29), 性的(29)

頻出固有名詞 ()内の数字単語が含まれ記事

日本(95), 増田(89), フェミ(66), キズナアイ(47), ブクマ(29), アメリカ(28), じゃなくて(27), いない(25), はてブ(19), 腐女子(18), ブコメ(18), 可能性(18), PHP(17), わからん(17), IT(17), Google(16), ツイッター(16), 一人(15), SNS(15), Twitter(15), スマホ(15), 何度(15), Java(14), 中国(14), hatena(14), 10年(14), 韓国(14), 6時間(13), ツイート(13), キチガイ(13), 萌え絵(13), ラノベ(13), 普通に(13), Redmine(13), フォロワー(13), リアル(12), 東京(12), 富士(12), 耐久レース(12), 二次創作(12), 個人的(12), ワイ(12), なんだろう(12), …。(11), ブクマカ(11), 元増田(11), 1人(10), マジで(10), カス(10), カプ(10), お気持ち(10), w(10), 不快感(10), twitter(10), ネトウヨ(10), いいんじゃない(10), キモオタ(10), なのか(10), ネット上(10), s(10), A(10), Ruby(9), あいつら(9), ここに(9), ID(9), ブログ(9), イケメン(9), OK(9), モテ(9), 何回(9), AI(9), 好きな人(9), フリーランス(9), アレ(9), rci(8), 欧米(8), 自分たち(8), なんや(8), ありません(8), にも(8), 若い女(8), アプリ(8), 数年(8), キモい(8), セーラームーン(8), なんの(8), コナン(8), 価値観(8), マルクス(8), 100万円(7), yahoo(7), よね(7), zyzy(7), 私たち(7), 基本的(7), 新自由主義(7), キツ(7), 技術力(7), Amazon(7), B(7), パワハラ(7), 笑(7), 共産党(7), 出版社(7), アイコン(7), 会社員(7), NHK(7), 消費税(7), 被害者(7), 精神的(7), はてサ(7), マウンティング(7), ヤバい(7)

本日の注目単語 ()内の数字単語が含まれ記事

Redmine(13), スクレイピング(6), rci(8), パーマネント(3), 脳トレ(3), ジャッポス(3), しらべ(3), 神通力(3), 横乳(5), 私と私(3), アウトレット(3), なじら(3), 踏み切っ(3), ホー(3), もやしもん(3), 神頼み(3), PHP(17), 一人一派(16), カプ(11), 醤油(19), イノベーション(10), Java(14), zyzy(9), やりがい(9), 100万円(7), コナン(8), 不快感(10), カフェ(9), パック(9), フェミニスト(65), 蓋(7), 寿司(16), 拡散(12), 三次元(7), プログラマー(13), プログラミング(19), 腐女子(18), Google(16), 都内(13), パソコン(18), 返信(13), ついて(12), 商売(14)

投稿警察もどき日中に再投稿された本文の先頭20文字 ()内の数字投稿された回数

子供女性性を見て加害するのがロリコ(10), 富士6時間耐久レース 富士6時間(5), うんち (5), 富士6時間耐久レース 富士6時間(4), わかる (3), 富士6時間耐久レース 2018 (3), 再投稿は甘え (3), いや〜平均的な人間レベルより下だと(2), >彼女たちをフェミニストと呼ぶのはフ(2), 日本 セルビア 日本 セルビア (2), あってる? (2), 日本 セルビア 日本 セルビア (2), おっおう (2), (2), nederland duitsla(2), 今日も女は毒親叩き (2), 他のは読んだことないけどそれ町が入っ(2), 増田での営業行為は禁じられてますよ (2)

頻出トラックバック先(簡易)

■まともなフェミニストはこれをどう思うの /20181014112046(29), ■そのひとたちはフェミニストではありません /20181014141021(23), ■パック寿司の蓋を醤油皿にする女 /20181014203109(20), ■嫌いな小説書きの話 /20180925051542(15), ■喪女の苦しみ /20181014110541(15), ■SFでも恋愛ものでもスポーツものでも歴史物でもバトルものでもない漫 /20181013233433(14), ■君のためにホームラン打つよ!←打てなかった時はどう言い訳したら許してもらえるの? /20181013185521(9), ■俺の書いた小説が読まれない /20181014135446(9), ■男女平等の何が嫌いか説明しといてやる /20181013125559(8), ■「ネタタグ不快感やばい /20181013125548(7), ■それじゃ聞くけどオリンピック開会式にふさわしいアーティストって誰? /20181012092551(7), ■20年前から小説家を目指してる /20181014142444(7), ■FFTで好きなセリフ 選 /20181014175546(7), ■「NTTデータ女子顔採用、気が強いから嫁にすると大変そう」 /20181014180634(7), ■なんか最近はてブを見るのが辛い /20181014201158(7), ■オタク隔離すればいいんだよなぁ /20181014104258(7), ■外付けCPUって何でないの /20181014215610(6), ■医大の件、女性が声を全然上げない理由 /20181014223925(6), ■チンして /20181013171408(6), ■日本語ってなくすべきじゃね? /20181014231404(6), ■プログラムを学びたい /20181014003945(6), ■27歳男性だけど人生詰んだ /20181014151146(6)

増田合計ブックマーク数 ()内の数字は1日の増減

5706255(3692)

2018-10-14

anond:20181014213046

合ってるよ。商品情報自動でまとめられる機能があればなぁってずっと思ってて。

それがスクレイピングって名前なのもさっぱり分からなかったよ。

これが出来るとものすごーーーーーーーく助かる。

勉強は大変そうだけど、生活で役立つから頑張れるよー!

anond:20181014212954

んーん。広告とかではなくて情報が欲しかったんだー。

からスクレイピングを頑張るよー!

anond:20181014212820

いや、元増田がやろうとしてるのはスクレイピングではなくて、アドブロックの様なことなのでは?

2018-10-12

Pythonを150時間学んだ結果

プログラミング経験ゼロからPython勉強を始め同時にWEB関連の勉強もしたが未だにrequestとbeautifulsoupを使ったスクレイピングができない。挫折しそう。

2018-09-13

[]  第11話「今日は休む」

2018年9月13日 天気:俺はもう限界

昨日の釣果 5エントリー 0ブクマ

なんだけど、過去増田が伸びている……

こういうパターンの時に昨日の釣果システムでは辻褄が……

今週の釣果システムでも土曜日に書いた増田月曜日に伸びたりすると数字が……

このシステムそもそも間違っているのか?

増田分析スクレイピングして差分が発生した場合それを正確に反映すべきなのだろうか……

pixiv自分の絵についた点数に一喜一憂している絵師とかはどうしてるんだろうか

2018-08-08

高頻度のクローリングスクレイピングとは田代砲である

これは間違いないことなんだよ。

よっぽど鯖が頑丈なサイトに対して行う場合と、極めて健全方法を用いる場合以外は基本的無意味アクセスを繰り返して相手を痛めつけるだけの行為になる。

モラルのない人間や、知識のない人間が行うスクレイピングによって数多の鯖が殺されてきたのを我々は忘れてはならない。

2018-07-11

anond:20180711165459

ワンチャンどころかピコチャンくらいやぞ…>スクレイピングツール

PHPおじさんが敢えて語るべきことでもないが、スクレイピングだったりクローラだったりなんてゲーム開発者flappy birdクローン作るのと同じくらいの手慰みワークだからな…

2018-07-08

anond:20180708220140

検索にもキャッシュにも残ってないのにURLで指摘されたことある

ブラウザ履歴確認したら確かに合ってたので、スクレイピングでもしてるんだろう

そいつと再投稿した自分しか真実は分からないんだろうけど

Python = Webスクレイピング or 機械学習

Pythonって、アフィリエイトで稼いでる系の人たちにとってはスクレイピング用の言語で、エンジニア寄りの人にとっては機械学習用の言語っていう偏ったイメージがついている気がする。

自分2012年くらいに、みんながrubyrailsだ言ってるときに「はじめての言語Pythonだとコードをきれいに書く癖がついていい」という話だけで勉強し始めたんだよね。当時は2系と3系が混在してるときタイミングとしては好ましくなかったかも知れないけど、Python選んでよかったと思ってる。今ほどPythonPython言われるとは思ってなかったけど、純粋に書きやすいし、やりたいことは大抵できるし。

でも、だからこそ、スクレイピングならPythonだよ!みたいなブログとか見るとグッと来るんだよね。なんかもっと色々なことに使えるのに、それに終始しているのはなんかなぁ・・・

自分エンジニアじゃないし、機械学習なんてノータッチから、結局のとこと、スクレイピング文字列操作エクセル操作、あと種々の自動化くらいなもんだから偉そうなこという気はないんだけど、 https://employment.en-japan.com/engineerhub/entry/2018/05/18/110000 こういうのが3ヶ月に一回くらいはてブの上の方に上がってくるのを見るとげんなりする。もっとなんかないのかね。

2018-06-12

そもそも「引きこもってインターネットをやって賢くなろう」というのが間違い

地道に学んで、他人意見を付き交わし、人の役に立ったり、傷ついたり、そういった事を繰り返して人は賢くなる。

安全圏に閉じこもってスクレイピング効率を追い求めては上からマウントを取って気持ちよく射精してばかりいるうちはいつまで経っても馬鹿のままだよ。

2018-04-26

とある障害の話

これはLAN内で使っているだけの、しょっぱいエントリクラスサーバ1台障害の話だ、価値のある話ではない。

とある国内最大級の某グループウェア Office(パッケージ版)を使っている。

この某グループウェアは、従業員の「その日のタイムカードの一覧」を見ることができない。

CSVエクスポートすれば可能だが、営業マンは勤怠をガラケーメールで報告する運用であるため、

スマホ支給しろ 一覧+タイムカード修正画面へのURLリンク付きで

総務課の人にスクレイピングしてあげていた。

↓大雑把にこんな感じ

#!/usr/bin/env perl
use MY::Cybozu;

my $cb = MY::Cybozu->new;
$result = $cb->get_timecard( sprintf("%d.%.d%", $year, $month, $day) );

&send_mail( $result );

数年来やってきていたのだが、突然このスクレイピングデータが取れなくなった。

かにPerlを書けるだけで、他の言語将棋を指すようにしか書けない低能である

まず自分スクリプトを疑った。

ちょうど20日の月替りのタイミングだったので、スクリプトミスでズレたのか?

或いは、タイムカードHTMLtable構造で「trの何番目が何日目」という原始的な処理の方でズレたか

しかし、日付に関係なくダメになったのである

ほぼほぼデータを取れないのだが、たまに正常に取れたりもする。なんだこりゃ。

$mech->statusの結果はいつも200である

print $mech->contentの結果は、HTMLが途中で途切れていた。

スクレイプ対象の前で途切れたので、値を取得できなくなっていたのだ。

同じ場所で途切れる事が多いが、若干の増減はあった。

手元のWindowsマシン移植したところ、まったく問題ない。

どうやらスクリプトを動かしているLinux側の問題と思われる。

が、Webアクセスしてコンテンツが途中で途切れるって何だ?

どういう現象なのか?

そこまでの知識経験もなければ、調べ方も分からない。

からないなりに、とりあえずtcpdumpしてみた。

3WAYハンドシェイクはよく知られた話だが、正常な通信では、サーバから送られてきたパケットに対して

こちらは「ここまでのパケット受け取った」とACKを返し、最終的にサーバからFINこちらがRST返すのが見て取れた。

この異常をきたしたスクリプトでは、ある程度を過ぎると、こちらがACKを返す前にサーバからどんどんパケットが送られ、

突如としてこちらがRSTを連打し、切断してしまっていた。

なるほど、ステータスは200だけど、コンテンツは途切れているのだな。

悪いのは、いよいよこちら側である事は間違いない。

でもスクリプトじゃなくて、ネットワーク制御しているOSが悪いっぽい?

となると深刻である自動車に乗れても内燃機関構造など把握していないのだ。

唯一、tcp_abort_on_overflowでそれっぽい挙動をしそうだと分かったが、この機能は使われていない。

詰まった。

お手上げだ。

でも分かった。

端末からNASディレクトリへ、TAB補完しようとすると突如フリーズしたのだ。

他のスクレイピングは正常に動作してる。

httpdも正常に動作してる。

MySQLも正常に動作してる。

グループウェアへのスクレイピングNASへのTAB補完だけが動かない。

故障だ。

単にマシン故障だ。こういうヘンテコな挙動をするのは。

1.3万円で買って7年目の某ProLiantサーバから寿命なのだろう。

オチはないけど、最初から故障を強く疑っても良かったではないのか、と自省する。

そのマシンでのみ失敗し、しかも失敗したりしなかったり(比にして7:3程度)、結果も毎回変わっていたのだから

うーん無能

アーカイブ ヘルプ
ログイン ユーザー登録
ようこそ ゲスト さん