「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2018-09-13

[]  第11話「今日は休む」

2018年9月13日 天気:俺はもう限界

昨日の釣果 5エントリー 0ブクマ

なんだけど、過去増田が伸びている……

こういうパターンの時に昨日の釣果システムでは辻褄が……

今週の釣果システムでも土曜日に書いた増田月曜日に伸びたりすると数字が……

このシステムそもそも間違っているのか?

増田分析スクレイピングして差分が発生した場合それを正確に反映すべきなのだろうか……

pixiv自分の絵についた点数に一喜一憂している絵師とかはどうしてるんだろうか

2018-08-08

高頻度のクローリングスクレイピングとは田代砲である

これは間違いないことなんだよ。

よっぽど鯖が頑丈なサイトに対して行う場合と、極めて健全方法を用いる場合以外は基本的無意味アクセスを繰り返して相手を痛めつけるだけの行為になる。

モラルのない人間や、知識のない人間が行うスクレイピングによって数多の鯖が殺されてきたのを我々は忘れてはならない。

2018-07-11

anond:20180711165459

ワンチャンどころかピコチャンくらいやぞ…>スクレイピングツール

PHPおじさんが敢えて語るべきことでもないが、スクレイピングだったりクローラだったりなんてゲーム開発者flappy birdクローン作るのと同じくらいの手慰みワークだからな…

2018-07-08

anond:20180708220140

検索にもキャッシュにも残ってないのにURLで指摘されたことある

ブラウザ履歴確認したら確かに合ってたので、スクレイピングでもしてるんだろう

そいつと再投稿した自分しか真実は分からないんだろうけど

Python = Webスクレイピング or 機械学習

Pythonって、アフィリエイトで稼いでる系の人たちにとってはスクレイピング用の言語で、エンジニア寄りの人にとっては機械学習用の言語っていう偏ったイメージがついている気がする。

自分2012年くらいに、みんながrubyrailsだ言ってるときに「はじめての言語Pythonだとコードをきれいに書く癖がついていい」という話だけで勉強し始めたんだよね。当時は2系と3系が混在してるときタイミングとしては好ましくなかったかも知れないけど、Python選んでよかったと思ってる。今ほどPythonPython言われるとは思ってなかったけど、純粋に書きやすいし、やりたいことは大抵できるし。

でも、だからこそ、スクレイピングならPythonだよ!みたいなブログとか見るとグッと来るんだよね。なんかもっと色々なことに使えるのに、それに終始しているのはなんかなぁ・・・

自分エンジニアじゃないし、機械学習なんてノータッチから、結局のとこと、スクレイピング文字列操作エクセル操作、あと種々の自動化くらいなもんだから偉そうなこという気はないんだけど、 https://employment.en-japan.com/engineerhub/entry/2018/05/18/110000 こういうのが3ヶ月に一回くらいはてブの上の方に上がってくるのを見るとげんなりする。もっとなんかないのかね。

2018-06-12

そもそも「引きこもってインターネットをやって賢くなろう」というのが間違い

地道に学んで、他人意見を付き交わし、人の役に立ったり、傷ついたり、そういった事を繰り返して人は賢くなる。

安全圏に閉じこもってスクレイピング効率を追い求めては上からマウントを取って気持ちよく射精してばかりいるうちはいつまで経っても馬鹿のままだよ。

2018-04-26

とある障害の話

これはLAN内で使っているだけの、しょっぱいエントリクラスサーバ1台障害の話だ、価値のある話ではない。

とある国内最大級の某グループウェア Office(パッケージ版)を使っている。

この某グループウェアは、従業員の「その日のタイムカードの一覧」を見ることができない。

CSVエクスポートすれば可能だが、営業マンは勤怠をガラケーメールで報告する運用であるため、

スマホ支給しろ 一覧+タイムカード修正画面へのURLリンク付きで

総務課の人にスクレイピングしてあげていた。

↓大雑把にこんな感じ

#!/usr/bin/env perl
use MY::Cybozu;

my $cb = MY::Cybozu->new;
$result = $cb->get_timecard( sprintf("%d.%.d%", $year, $month, $day) );

&send_mail( $result );

数年来やってきていたのだが、突然このスクレイピングデータが取れなくなった。

かにPerlを書けるだけで、他の言語将棋を指すようにしか書けない低能である

まず自分スクリプトを疑った。

ちょうど20日の月替りのタイミングだったので、スクリプトミスでズレたのか?

或いは、タイムカードHTMLtable構造で「trの何番目が何日目」という原始的な処理の方でズレたか

しかし、日付に関係なくダメになったのである

ほぼほぼデータを取れないのだが、たまに正常に取れたりもする。なんだこりゃ。

$mech->statusの結果はいつも200である

print $mech->contentの結果は、HTMLが途中で途切れていた。

スクレイプ対象の前で途切れたので、値を取得できなくなっていたのだ。

同じ場所で途切れる事が多いが、若干の増減はあった。

手元のWindowsマシン移植したところ、まったく問題ない。

どうやらスクリプトを動かしているLinux側の問題と思われる。

が、Webアクセスしてコンテンツが途中で途切れるって何だ?

どういう現象なのか?

そこまでの知識経験もなければ、調べ方も分からない。

からないなりに、とりあえずtcpdumpしてみた。

3WAYハンドシェイクはよく知られた話だが、正常な通信では、サーバから送られてきたパケットに対して

こちらは「ここまでのパケット受け取った」とACKを返し、最終的にサーバからFINこちらがRST返すのが見て取れた。

この異常をきたしたスクリプトでは、ある程度を過ぎると、こちらがACKを返す前にサーバからどんどんパケットが送られ、

突如としてこちらがRSTを連打し、切断してしまっていた。

なるほど、ステータスは200だけど、コンテンツは途切れているのだな。

悪いのは、いよいよこちら側である事は間違いない。

でもスクリプトじゃなくて、ネットワーク制御しているOSが悪いっぽい?

となると深刻である自動車に乗れても内燃機関構造など把握していないのだ。

唯一、tcp_abort_on_overflowでそれっぽい挙動をしそうだと分かったが、この機能は使われていない。

詰まった。

お手上げだ。

でも分かった。

端末からNASディレクトリへ、TAB補完しようとすると突如フリーズしたのだ。

他のスクレイピングは正常に動作してる。

httpdも正常に動作してる。

MySQLも正常に動作してる。

グループウェアへのスクレイピングNASへのTAB補完だけが動かない。

故障だ。

単にマシン故障だ。こういうヘンテコな挙動をするのは。

1.3万円で買って7年目の某ProLiantサーバから寿命なのだろう。

オチはないけど、最初から故障を強く疑っても良かったではないのか、と自省する。

そのマシンでのみ失敗し、しかも失敗したりしなかったり(比にして7:3程度)、結果も毎回変わっていたのだから

うーん無能

2018-03-25

ハロワ求人をこの1年ほどスクレイピングしてて

特定できる会社を"常時募集""3ヶ月以内に再募集"でリストアップしてみたけど多すぎてダメだな

もっと的確にブラック分別できる技術を磨きたい

2018-03-13

Webスクレイピングで全自動更新エログ作ったったwwww

概要

よくある「完全放置!」「全自動更新!」「何もしなくても儲かる!」みたいなアフィがあるけど

おそらく、その1つである自動更新エログ作って一ヶ月近くたったからその結果を書く。

何かしら作品を作ったらQiitaかにアウトプット上げるけど、内容が内容なのでここで。

URLは多少内定自慢できるくらいの会社内定貰っているから伏せます><@バレなさそうなら晒す

・仕組み

サイト情報

お金の話

技術的な話

結論

仕組み

仕組みは簡単、いくつかの既存エロサイトWebスクレイピングをかけてウチのエログでも全く同じ情報配信する。

そんなエログに全く価値が無いと思われるが、既存エロサイトと比べてウチのエログを使うメリットはいくつかある。

メリットリスト

1. share-videosを使っているので削除されていても案外見れたりする。

2. 広告share-videos意外無い

3. エログ特有アクセストレードを行っていない(コピペなのでそもそもアクトレサイト申請出来ない)ため、色んなサイトを行き来せずにめっちゃやすい!

4. 「PageSpeed Insights スマホ 82 PC 93」「【GTmetrix】 PageSpeed Score 99 YSlow Score 87(CDN入れたら94)」平均読み込み4秒のエログの割に読み込みが早い

5. スクレイピングするエログ動画クオリティが高いサイトに厳選しているため良いネタがすぐに見つかってずく抜ける。(自分でも毎日使ってる)

事実友達に悪い点とかのフィードバックを頂戴とお願いしたが「特に悪い点は無い、、、むしろ使いやすい」と好評。セッション継続時間は平均4分でみんな動画ちゃんと見てるみたい^^

サイト情報

自慢はここら辺にして、アクセス結果とかサイト情報はざっくりを晒す

2月の総アクセスざっと2400くらいで、1日大体70〜100くらい。流入検索からアクセス100%

検索ワードjk 個人撮影みたいなワードからが割と多い。記事の数は10000件くらい。

直帰率60%、ユーザー当たりのセッションは4。

こんなものか?正直Web系ではあまりいから何をいえば良いかからない。GAで取っているからみたい値があれば追記で。

完全放置コピペかつ検索から流入100%で1ヶ月目にしてはじょうじょうかな?

お金の話。

儲かっているかというとこののままだと大赤字です。

鯖の無料枠で運営しているため向こう1年はタダで運営出来ますが、もっとアクセスを稼がないと厳しいです。(何せshare-videosしか収入がないから)

月極広告お話が来たら安定するのですが、スクレイピングでこの程度であれば来ないでしよう。

技術的な話

CMSとしてWordpress採用理由SEOとかプラグインで楽そうだから事実楽)(KUSANAGI存在を知っていれば使ってたのにと今更後悔)

WebスクレイピングGolang採用理由は速いから。並列処理でもっといから。あと書きやすい。てか。。。普通に好き。。。><

速さを求める理由はFunction as a serviceでスクレイピングを実行しているから。Python使おうと思ったけど、実行時間制限があるためある程度早くスクレイピングを終わらせなければならなかった。

鯖側で常駐かcronを使っても良かったけど、常駐はメモリ食べてパニックだし、cronは設定がめんどくさいから。FaaSだとWeb上で実行間隔を弄れて無料で最高。

こだわった所

Webスクレイピング抽象化

詳しい内容はウチのサイトの強みだから言えないが、他のエログURLリストに貼るだけで勝手に取得し投稿する。神。

結論

Webスクレイピングエログおすすめしない。手動で毎日更新したほうがアクトレで確実に儲かる。

黒字化するのであれば現行の方法ではなく、全自動日本中エログ全てのから記事を取得してshare-videosに張り替えて投稿するサイトかな。

ほんで長期運営ユーザーブクマしてもらえるような見やすサイトにでもしなければ収益化は無理。

2018-01-06

anond:20180106211107

マクロからだと少し話が飛躍するかもしれないがウェブサイトから記事テキストで抜き取るスクレイピングっていう技術がある

株価の動向をデータ管理して数字を見るとか,こういったはてなブログ記事適当な所だけ抜き取って記録していくとか,スクラップできる.

アマゾンセールとかで買い物かごに速攻で突っ込みまくる巡回ソフトもこういう技術だった気がする.

2018-01-05

増田機能、ここが足りない俺的トップ1

はてなの数あるサービスの中でもトップクラスPVがあると予想されるのに、いまだまともな検索機能実装されないところ。

あれですか、スクレイピングでも定期的に実行して自分検索してろってことですか?

有用記事ですらあとで検索しづらくて見つけづらくて辛い。

2018-01-02

うへー

Windows上でPython2系を使ってUnicode扱うのだるすぎつらい

未だにいい感じのIDE見つからん

ファイル開くときコンソール上に出すときと書き込む時で

それぞれ文字コードを設定せねばならぬ感あるし

Linux系の環境ができるまで スクレイピングは他の言語にしとこ…

2017-12-15

https://anond.hatelabo.jp/20171214232537

ダウト

11、そういえば、アトラクションの待ち時間が分かるアプリがあるからダウンロードしといてね!

アプリストアにあるのはTDR公式サイトスクレイピングしている非公式アプリだ。(海外パーク用のは米ディズニー公式で用意してる)

ディズニー及びオリエンタルランド公式TDR待ち時間アプリディズニーモバイル端末向けにしか用意されていない。

一般的な人」がディズニーモバイルなんて使ってないだろ。公式サイト案内しておけ。

http://info.tokyodisneyresort.jp/s/calendar/tdl/

GPSリゾート内にいればリアルタイムスタンバイ時間がわかる。

個人的に、こういうグレーゾーン的な野良アプリの紹介があった場合はその業者宣伝だと思うことにしてる。


ダメ出しだけでもあれなので

12トイレ場所は覚えとくとすごく有り難がられるよ!分かんなかったらキャストさんに聞くと教えてもらえるよ!

あと、ディズニー女性トイレはすごく混む。覚悟してね!

本気でトイレに困ったら、最終手段としてホテルに駆け込むのをおすすめしてる。

ランドならランドホテル、シーならミラコスタランチ終わりの時間帯にぶつかると厄介だが、大抵空いてる。

うんこしてスッキリしたら、ラウンジお茶でもしていけば良い。

2017-10-15

anond:20171015014103

http://oreero.x.fc2.com/

まず、自分web製作会社に勤めてる身なので、一通りの制作手順は知ってる。

で、なんでこのサイトを作ったかというと、

まあ、副収入がほしかったんだ。


そして、アダルトアフィリエイトサイトなるものを教えてもらった。


ちょうどその頃、仕事以外で勉強しているものがあったが

なんせ金にならん。(※webクリエイターは金など気にせずシコシコ勉強するのが大事


で、まずはアダルトサイトを作るにはサーバを借りねばならん。

といっても、お金はかけたくない。

できれば無料で。


そして、色々調べた結果、

やはり、アダルトサイトokFC2が一番しっくりきた。

いい評判はあんまり聞かないが割と普通に動いてる。


まあ、無料なだけあって、色々縛りはつくんだよね。

最初スクレイピングで、ほぼ自動化したサイト作ればいいんじゃね!

的なことを考えていたけど、FC2無料サーバだと致命的なことに、DBサーバサイド言語が使えない。


なんだろ、webも知らない人に伝えやすく言うと、

飛車角抜きで将棋しろとか、コンバイン使わず田植えしろとか言われてるようなもんかな。


なので、フロントエンド技術(html / css/ js)だけで、RSSとかの情報取得したりしてねー的なことをしないといけなくなった。

うーん、要はドラクエで言うなら、簡単呪文は使えるけど、ほぼ素手でたたかえって言われてるようなもんかな。


とりあえず、サイト体裁を整えるためにまずは、bootstrapサンプルを改変してベースを作った。

bootstrap便利。http://getbootstrap.com/


あとは、幾つかのアフィリエイトサイト登録してパーツを配置。

動画著作権アダルト動画を載せる際の調査をして、一通りの知識を得る。


あとは、どんなサイトにするか。


ぱっと思いついたのは、普通エロサイトよりもページ遷移を無くして、

どんどん動画を見やすいようにすれば、いろんなページから探し出す手間を省けるのではと思った。


なので、構成としては、クリックしてモーダルウィンドウの中で、動画再生する形に統一

動画採取場所DMM無料サンプルとXVIDEOSおk


サイトベースは一通り完成した。


で、1ヶ月運用してみると、シングルページの弱点を身を持って体験した。

SEOにクソ弱すぎる。



どうしよう流行りのシングルページ(なんちゃって)にしたのに・・・どんどん検索順位が下る。

そこで起用したのがpushState。

jsURLを書き換える技術。ただ書き換えるだけじゃなく、履歴のもの作成してくれる。


これをすると、グーグルさんのクローラシングルページのサイトでもうまいこと動いて順位があがった。

(若干iframeとの挙動問題はあるが、ないよりまし。まあいける・・・。うん。)

てな感じです。


収益化はまだ全然できてないけど、仕事サイト作るよりも自由だし、

変更もその場で思いついたこと試せるから面白い


後半眠くて、技術よりの話になった・・・

Webエンジニアはだまって、アフィリエイトしてみるのも面白いかもね。


という感じでした。。おそまつおそまつ


最近収益どうこうより、自分が作ったサイトに人が訪問してくれるだけで嬉しくて、

淡々と息を潜めるように更新してやす


↓まあ抜いていってくだせえ。

http://oreero.x.fc2.com/

2017-10-12

Googleにデコイを食わせろ!

「よろしい、ならば戦争だ」

Google検索と戦う方法を紹介します。

デコイ

デコイ(英: decoy)は、狩猟で囮に使う鳥の模型。これが元来の意味である

デコイ英語: decoy、Military dummy、囮とも)は、敵を欺瞞して本物の目標と誤認させる目的で展開する装備の総称

ネガティブSEO

リバースSEO」や「ネガティブSEO」とも呼ばれる逆SEO

逆SEOとは、特定サイト検索順位を下落させること

Matt Cutts氏が指摘するように、順位を下げるために付けたリンクが、期待とは正反対順位を上げる手助けをしてしまうこともあり得なくはありませんね。

リンクされているサイトではなく、リンク元サイトスパムかどうか判断していることをGoogleゲイリー・イリェーシュ氏がMarketing Landポッドキャストで明らかにしています

この説明にもネガティブSEOの具体例をあげて解説していることからペンギンアップデートネガティブSEO対策に力を入れていることがうかがえます

方針

  1. ネガティブSEOではなく、ポジティブSEO採用する。
  2. ポジティブSEOデコイを大量に投下する。

あなたプログラマーではない場合(手動)

  1. あなた名前を付けたブログTwitterアカウントを作る。(例:はてな次郎のダイエット日記
  2. 質の良い情報必要なので、趣味や特技を活かしたテーマ記事を書く。(例:スムージーオリジナルレシピを紹介)
  3. 業界有名人積極的メッセージを送る。(例:料理家・平野レミさんのちくわストローで飲むティスムージーレシピ感想を送る) https://twitter.com/Remi_Hirano/status/759208574694359044

 

目的は「はてな次郎」の文字列自分管理して、インターネット上に増やすこと。

 

  1. ブログ記事動画にして、YouTubeにアップする。(YouTuberビデオブログ
  2. ブログ記事書籍にする。(例:Amazon KindleAmazonオンデマンド印刷本)
  3. 書籍オーディオブックにする。(例:Amazon Audible

 

目的は「はてな次郎」の文字列を爆発的に増やすこと。

 

セルフプロデュースセルフブランディングするのがポジティブSEO王道です。

現在、「はてな次郎」をGoogle検索したら1万件ヒットする場合セルフブランディングした情報が3万件ヒットするぐらいを目指してください。

はてな次郎」に関する誤情報が、検索結果の10ページ以下に沈めばとりあえず成功です。

あなたプログラマー場合自動

はてな次郎」という文字列インターネット上で増殖させる作業を、手動ではなく自動で行うことも可能です。

 

  1. クローラー」を作り、Web上のデータ収集する。
  2. AI自然言語処理データを加工する。
  3. 加工したデータをもとにポータルサイトを作る。

 

(例)有名人応援するファンサイトを作り、各ページのタイトルやヘッダーに「はてな次郎」の文字列を入れる。

  1. Amazon商品データスクレイピングして、本=著者、CD歌手DVD監督俳優人物データベース作成する。
  2. その人に関する情報スクレイピングする。(DBディアAPI、あのひと検索スパイシーを参考にする)
  3. 日本語英語日本語の往復翻訳をするなどして、オリジナルデータを少し改変する。
  4. 人物に関するデータから、その人物の三行紹介を作成する。(マルコフ連鎖圧縮新聞のような記事を生成する) http://pha.hateblo.jp/entry/20071124/1195904502
  5. 自分が好きな歌手女優なら、自分で紹介記事を書いても良いです。(手動の作業も加えてOK

 

このような方法で、100万ページ程度のWebサイト自動的に作れます

データや加工方法を変えて、さらWebサイトを作れば「はてな次郎」の文字列インターネット上に1億個以上投下することも可能です。

いいね工場

アメリカ大統領選挙ロシア情報操作を行っていたと言われている「ロシアゲート事件」を参考にして、SNSデコイをばらまくことも可能です。

  1. 安いスマートフォンSIMカードを大量に用意する。
  2. SNS操作する専用アプリを作る。(DeployGateやTranspoterPadのようなデプロイツールを利用)
  3. はてな次郎」の情報自分で作ったブログWebサイトSNSアカウントなど)を拡散したり、いいねを送る。

 

ユーザー陳情を受付けないGoogle傲慢ですね?

やりたい放題のGoogleをブッ飛ばすには、プログラミング有効です。

頑張ってください。

 

追記

記事仮名が変更されたので本記事仮名も変更しました。(はてな次郎)

 

補足:

はてな次郎」の文字列自分管理

自分が書いた投稿なら、必要に応じて(自分権限で)表示/非表示を切り替えられるので管理上都合が良い、という意味です。

2017-09-19

増田テキストマイニングして投稿者パターン判別

https://anond.hatelabo.jp/20170918004847

続き

テキストマイニング勉強して増田に頻出する人間の種類をパターン化しようとしてるんだけど、方法が思いつかない

スクレイピングデータを取る→mecab形態素解析して頻出名詞データ化する→頻出名詞によって元増田がどのカテゴリーの属するのか判定する

最後カテゴリーを作るのがむずい。カテゴリー名前を人力でつけようとするから難しいのか。ある程度頻出名詞が似通ったら(閾値を作って似てるの基準を作る)適当に振った名前group1,group2等に放り込むか。頻出名詞が似てるかどうかを判定するのは何の理論を使うのか、もしくは何のライブラリを使ったらどれだけ似てるかの判定を簡単にできるのか

最後のどれだけ似てるかの判定が自分は分からないってことが分かった

こういうのはどこで質問したら良い回答が得られるかな

2017-08-30

https://anond.hatelabo.jp/20170830155706

自慢にもならんけど

1997年からネットPC使っててHTTPを人並に読めてgithubスクレイピングライブラリにプルリクエスト出すようなエロシコ二次裏ユーザーだがあのへんの魚拓の取り方は知らんぞ

とった後どうなるのかも知らん

とった後のページは何度か見たことがあるが

個々のWebサービスの利用知識というのは単にその特定Webサービスの利用の経験によるものであって、汎用の経験リテラシでは代替できない

できんもんはできんしそこまで手間かけたくないものの手間はかけたくはない

2017-05-29

http://anond.hatelabo.jp/20170528113521

んー、研究倫理の項にだいぶ漏れが目立つな。

言論表現の自由には愚行の自由も含まれるだろうから、こういうダメ研究も守るべきとなるのはわかる(私はシャルリーってやつね)。

が、学問研究としてみた場合は、特に倫理面でダメ研究はむしろ排除していかないとかえって学問の自由が阻害される状況もある。研究の質を保つ問題もあるし。

例えば小保方さんの問題になった論文は、それを著作物表現物としてみれば当然表現の自由として法に守られるべきだが、学問研究としてみた場合研究手法事実関係研究倫理等が厳しく糾弾されたり学会論文誌等から排除されるのはしょうがないよね、といえる。かつてのオボちゃん擁護勢もそうだったが、この両者を混同して前者の論理後者まで擁護しようとしてる人が大勢いて混乱に輪をかけている。

2017-05-12

製造業新卒で入って数年経過したけどもうダメかもしれない

新卒製造業に入った。

大学では工学部ではない理系だったので右も左も分からないなりにがんばってみようと思っていた。

悪く言えば自分能力絶望して夢を諦めることになり都落ちした気分での就職だったのでやぶれかぶれだったというほうが近いかもしれない。

相性というか、背景の差とか常識の差みたいなものがあって、自分から見ると無駄の多い職場だなあと感じて研修期間が終わり本配属された。

無駄が多いという感想は本配属後も変わらなかった。

本来業務はいわゆる故障解析で、歩留まりを上げていくのが使命だった。

せっかくだから色んな所に首を突っ込み改善できそうなところは提案をしたり、自動化したり、それらのドキュメンテーションを書いてみたりした。

プログラミング経験は皆無だったが、理論系卒が工学部に負けられんという謎のプライドVBAから、Rやら自社製品の解析用環境の割と珍しいタイプスクリプト言語など(特定されそうだからぼかすけど。)

とりあえず手が出せそうなものは何でも調べてみてありものを改造してみたり勝手作ってみたりして提案していた。

物怖じしない新人がぎゃーぎゃー騒いでいるぐらいのものだったと思うが、何にせよいくつかの改善が上手く実務にハマって成果として認められたりしだしたのが1年目。

この辺で気付いたことだが、製造業ITリテラシーは驚くほど低い。製造業一般化するのはフェアじゃないかもしれないから厳密に言えば弊社の、という意味だが。

なんせまともにプログラムを書いたことが無い新人半年で身に着けた程度のスキルで書いたプログラムで、1日かかってた仕事が1時間で終わったりするのだ。

ようするにMS officeの達人みたいなのがいっぱいいて、Ctrl+CとCtrl+Vが機能のすべてだと思っているということだ。

(そして彼らの口癖は「忙しい」だ、会議中も左手はCtrl+CとCtrl+Vを叩き続けている。)

2年目に気付いたのは、弊社エンジニアITリテラシーが低くとどまっている要員のひとつに、実はITインフラチームがことのほかマトモだということがある、ということだ。

製造中のセンサーデータやらテストデータやらETL的にはおそらくえげつない部分で、かなり優秀な人間が居て上手くぶん回し切っている様子だった。

無骨だが使いやすイントラ上のwebページが用意されて、グロテスクな部分を気にせずクリックだけで上述のデータを整ったものとして引っ張ることができた。

から逆に言えば下々の人間コピペでなんとか恰好を整えられるのだった。

彼らはモダンな発想があって、あるいはお偉いさんが「ビッグデータ」とか言い出したのかもしれないが、ともかく、HadoopやらAWSやらそういったものを導入しようと試みているらしかった。

私はそれに感動した。なんせWebスクレイピングみたいな方法他人が社内プラットフォーム社内WIKIに上げた報告をまとめたり、製造データと紐づけたり、それからグラフ描いたりみたいな業務が増えていたからだ。

それっぽく表現すればデータ分析屋さんということになるのだろうが、どぶをさらっているという表現のほうが近かったかもしれない。

何にせよそういったもの一気通貫自動化できるポテンシャルがあると感じられた。

SQLjavaも書いたことなんて無かったが、1年前やっていたことを考えれば同じことだ。何にせよ歓迎だった。しか管理IT持ちだ。餅は餅屋に頼むべきだ。それもできれば美味い餅屋に。

ところがその「ビッグデータプロジェクト人手不足か、資金不足か、あるいは生みの苦しみか、ことのほか時間がかかっていた。(あとで聞いた話、外部コンサルで外れを引いたらしい)

自分ドメイン知識からの助言とか想定される使い方についての意見を伝えていったし(有難迷惑だった可能性は否定できないが)、もう少し待てばモノになると信じていたし、実際そうなった。

具体的な話ができないのだが、客先で起こった不良の原因をつきとめ、その改善効果確認の為に数十億行のデータ活用された。彼らの力が無ければ常識的時間では終わらなかった仕事だった。

残念だったのは彼らの優秀さの割に一般エンジニアスキルがあまりに低かったということだ。つまりそのプラットフォームを使いこなせる人間が著しく少なかったのだ。

そして上述の足踏みをしていた期間に心象を悪くしていたという問題もあった。とっかかりが難しい割に不安定だというレッテルを張られてしまっていた。

このころ私は入社3年目に突入していたが、

もうすこし悪いことに、同時期に企業買収が起こった。我々は黒字を出していたが同業他社(厳密にはその親会社に)に買われることになった。

そういう時に起ることは不要冗長性の削減だ。子会社として存続する場合は知らないが、競合他社に吸収合併ということは、多くの部署にとってそのカウンターとなる部署相手側にも存在するということだ。

まりどちらにもある部署統合するか一方を無くすかという戦争が始まるのだ。IT例外ではない。(ITインフラ部署の無い会社はさすがに無いはずだ)

一方で製造業の本懐である製品を作り、売る」という部分は比較的守られる。それこそが根源的な資源であり、利益を生む仕組みであり、既存顧客への説明必要からだ。

そして私の仕事は歩留まり改善であり、故障解析であり、データ分析だ。何が起こったか

(ここで簡単のために旧弊社を(旧)A社、買収した側の競合他社を(旧)B社と呼ぶことにする。)

今の旧A社から引き続いている業務をB社のプラットフォームで行えるように転換せよという下命である

旧B社の製造データに対するアプローチはA社とまったく異なっていた。Web UIは美しく整っており、それっぽいグラフ簡単に表示され、A社側のお偉いさんからも好評を得ていた。

だがそのバックエンドは控えめに言って酷いモノだった。いくつもの情報を正常に保存できておらず、「それっぽい何か」を素早く返答することを第一義としているように見えた。

そして上述のように器用貧乏街道を歩んできた私に投げられたのは次の言葉

増田くん、B社のプラットフォーム使うことは決定事項だから、君が自動化してたやつ全部そっちで動くようにしといて。よくわかんないけどプログラムとかてきとうにできるでしょ?」

もちろんhtmljavascriptphpRoRも一行も書いたことが無いのが当時の私である

果たして旧A社のプラットフォームはB社のプラットフォームデータソースのような扱いを受ける羽目になり、私はjavascript本格入門を片手にB社の事業所に出向くことになった。

そこで散々「旧A社のプラットフォームは遅い・使いづらい・不安定」と貶されながらチマチマとグラフを表示するページを書いている。

クオリティの低いバックエンドを作る集団が書いているサーバーサイドphpの酷さは素人目にも分かるレベル筆舌に尽くしがたいものがあるが、

反面教師だと思って耐える日々だ。

最近分かったことは旧B社のバックエンドスクリプトデータを引っ張るついでに意図的に旧A社のプラットフォーム攻撃しているということだ。DDoSとまでは言わないが、悪意100%である

いわく旧A社のプラットフォームを畳むためには旧B社のプラットフォームが優秀であることを示す必要があるとのことである。(つまり旧A社プラットフォーム不安定かつ重くなることを意図しているらしい)

旧A社から継続されてる業務はまだそこ使ってるんですけど・・・

それはもちろん旧A社の上司に報告したが「見て見ぬふりをしろ」とのことだった。旧A社のITで何度もお世話になったひとに伝えると「知ってるけどね・・・」と悲しい目をして苦笑いしていた。

旧A社ITはその優秀さでそれらの攻撃をいなしつつあるようにも見える(私も素人に毛が生えたレベルだが、ソフトウェアエンジニアリングレベルが二回りぐらい違うように見える)

この不毛な戦いはいつ終わるのだろう・・・つらい・・・

そして私はいつまでソフトウェアエンジニアの真似事を続けてキャリアを消費していけばいいのか、もうダメかもしれない。

そもそも私はエンジニアなのだろうか・・・少なくとも職位にはそう書いてあるけど・・・

2017-04-24

http://anond.hatelabo.jp/20170424200836

昔は「エロサイト違法動画スクレイピングして表示するサイトつくりました」って増田URL貼ってアクセス稼ぐ犯罪者が多かったけどそれの亜種だな。

ログイン ユーザー登録
ようこそ ゲスト さん