2016-05-29

超映画批評のスコアをスクレイピングする

昨日だか一昨日だかに超映画批評をスクレイピングしてランキング化するサイトを作った的なホットエントリがあって（リンクはしない）、「他人様のコンテンツを勝手にぶっこ抜いてウェブサービス化するのはモラル的にあかんやろ・・・」と思ったりしたところ。

movie.maeda-y.com

厳密にアウトの線引きをしようと思うと意外と悩ましいところだけど、サイトの売りであるところの本文を前文だけとはいえ勝手に持ってきて表示して、結果的にアクセス機会を奪ってしまうような作りは流石にマズイんじゃないかと僕なりには思う。

じゃあまとめサービスとかで手動でランキング化したリンク記事は良いのかというとそれも微妙だけども。

それはそれとして、超映画批評は僕もちょくちょく覗いていて、「なるほどなぁ」と思ったり「それは違うよなぁ」と思ったり暇なときに観る映画の参考にしたりする。

で、確かにランキングが欲しいと思うことも少なくない。

スクレイピングの練習問題としては手頃だし実用的で面白い気もするので、自分で使う用にスクリプトを組んでみた。

（もしかすると人によってはダブスタに見えるのかもしれないけど、僕なりには個人の利便性の追求の範囲ならOK、というか本質的には止めようがないと思ってる）

2015-04-26

phantomjs-nodeでスクレイピングしてみる

コーディング Javascript Bitcoin スクレイピング

藤井太洋氏の小説『アンダーグラウンド・マーケット』を読んで興味を持ち、仮想通貨ってやつをちょっとかじってみようということでBtcboxに登録してみた先週。

blue1st.hateblo.jp

「儲けたいぜー」というよりは「ちょっと遊んでみよう」というスタンスではあるけれど、それでも手持ちのコインが値上がりすると少しワクワクしますな。

BTCボックス|ビットコイン取引所

ヘルプによるとAPIが用意されているらしく、確かにサンプルの通りに叩くとそれらしい値が返ってくるが、どうもBitcoinだけが対象でより単価の低いLitecoinやDogdecoinについては見当たらない。

サイトを確認するかぎりスクレイピング自体を禁止する規約は無さそうだった（拾った情報を使ったウェブアプリとかになると流石にNGぽい）ので、各コインの現在の状況を取得できるスクリプトを書いてみた。

使うもの

以前はCasperJSを使用していたものの、あれらはNodeとは独立して動く仕組みなため、取得してきたデータを活用するには「外部コマンドの形で呼んで戻り値として・・・」とか「ファイルを定期的に吐かせて・・・」とか何かしらの歪曲的な手段が必要になる。

blue1st.hateblo.jp

そんなわけで今回はNodeからPhantomJS使えるようにするブリッジphantomjs-nodeを使用してみた。

github.com

また、Hubotのスクリプトを書いていてフィーリングが悪くなかったCoffeescriptを使用してみた。

導入

PhantomJS自体とCoffeescriptをインストールした上でnpm install phantom cheerioで今回使用するphantomjs-nodeおよびcheerioをインストール。

記述

githubのReadmeを参考にCoffeescriptで記述する。

btcboxの各種値をスクレイピングするスクリプト。

引数として指定されたコインの種類のURLをpage.openで開き、取得してきたhtmlタグをcheerioに食わせてスクレイピングする。

phantomJSの説明は割愛。（一番上で挙げたエントリの方に書いた）

cheerioはjQueryを再実装したもの（らしい）で、つまり使い慣れたセレクタでhtmlの要素を取得したりできる。

よってChromeディベロッパーツールなんかで欲しい部分のタグを調べてそれを記述してやればよいのだ。

使用法

例えばLitecoinについて取得したければ・・・

$ coffee btcbox.coffee ltc
opened btcbox-ltc? success
価格 ￥169
高値 ￥172
安値 ￥169
売気配値 ￥169
買気配値 ￥168
出来高 668.244

てな具合。

Coffeescriptなんで当然のごとくコンパイルしてJavascriptにもできる。

$ coffee -c btcbox.coffee
$ node btcbox.js doge
opened btcbox-doge? success
価格 ￥0.0144
高値 ￥0.0145
安値 ￥0.0144
売気配値 ￥0.0144
買気配値 ￥0.0125
出来高 17756

今回のスクリプトだけだと特に何をするでもないけど、例えばこれをcronで動かしてストレージに貯めて長期的な値動きをみるとか自動取引に使うとか、何かしらのメッセージにより自分への通知として流すだとか、Nodeなんでそれなりに使いようはあると思う。

Coffeescript最初は目が慣れずに戸惑ったけど、書いていってみればなかなか合理的な文法で面白いですな。

Javascriptのコールバック無間地獄がかなり見易く書き易くなる。

コンパイルされたJavasciptも人間が読める記述になっているのは好印象。

AltJSはそんなに気乗りしなくてやるとしてもDartかなーと思ってたけど、これはちょっと始めてみても良いかなって気がしてきた。

つくって覚えるCoffeeScript入門

作者: 飯塚直
出版社/メーカー: アスキー・メディアワークス
発売日: 2013/05/29
メディア: 単行本（ソフトカバー）
この商品を含むブログ (1件) を見る

追記

と、ここまでやってきて、Githubに同じくbtcbox関連のプロジェクトを見つけて読んでみたら、何か普通にltcとかdogeとかも扱えそうな雰囲気。

もしやと思ってAPIの後ろにcoinパラメータ追加してみたら取れた！

https://www.btcbox.co.jp/api/v1/ticker/?coin=btc

https://www.btcbox.co.jp/api/v1/ticker/?coin=ltc

https://www.btcbox.co.jp/api/v1/ticker/?coin=doge

そういうのあるなら書いといてよー・・・

ヘルプ

まあそれはそれとして、Node&Coffeescriptでphantomjsを扱えたので、例えばHubot越しにページのスクリーンショットを取得するとか、もっと複雑なことをさせるとかできるわけだ。

応用は効きそうである。

2012-08-18

「日本人の名前の99%にサ行か濁音が入ってる」という噂を検証してみた。

Perl コーディングスクレイピング

Twitterで最近たま〜に流れてくる「日本人の名前の99%にサ行か濁音が入ってる」という噂。

言われてみれば確かに知ってる人名でそれに当てはまらない人は少ない気がするが、
僕は友達が少ないし、あまりテレビも見ないからちょっと確証が持てない・・・

そんなことを思っていたら、こんな検証を行なっている人を発見→「日本人の名前の99%にサ行か濁音が入ってる」って、本当？ - Togetterまとめ

ちょっと面白そうなのとPerlのお勉強も兼ねて検証用のスクリプトを組んでみた。

１．そもそも名前のリストをどっから取ってくるか

さきの検証ではAKBとか内閣の人の名前が対象だったから偏りがある気がするけど、
かと言って一般人の名前をどこから集めてくれば良いだろう？

このご時世、個人情報にもうるさいし・・・と思っていたら、好き好んで自ら人名を登録するサービスが世の中にはありました。
世界のFacebook！

Facebookの友達リストから人名とってくりゃ良いじゃん！ということで下記のスクリプトを作成。

流れとしては

1.→のサイトを参考にFacebookページにログインDeveloper On Line: Using Perl Against Facebook - Part I: Login

2.友達一覧のページのURLより人名を取得

3.2で拾った人名のページにアクセスしてして再度友達一覧のページを表示

のくり返し。

#!/bin/perl
use strict;
use warnings;
use LWP::UserAgent;
use HTTP::Cookies;
use HTTP::Request;
use Data::Dumper;
my $user_agent = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.6) Gecko/20060728 Firefox/1.5.0.6';
our @header = ('Referer'=>'http://www.facebook.com', 'User-Agent'=>$user_agent);
our $cookie_jar = HTTP::Cookies->new(file=>'fbkCookies.dat',autosave=>1, ignore_discard=>1);
our $response;
our $browser = LWP::UserAgent->new;
$browser->cookie_jar($cookie_jar);

&login;

my $names; 
my $name = '***.***.*'; #自分のFacebookページに行くと表示されてるURL末尾の名前（＋人によっては数字）を入力
&get_friends($name, 3); #自分から数えて何人分の関係性まで辿るか

foreach my $name (keys %$names){
	#名前っぽくなければスキップ
	next unless $name =~ /^([a-zA-Z]+\.[a-zA-Z]+)(\.\d+)?$/ ;
	print "$1\n"; #名前っぽい部分を出力
}

sub login{
	my $email = '***@***';#ログインに使ってるメールアドレスを入力
	my $password = '****'; #ログインに使ってるパスワードを入力
	my %postLoginData;
	$postLoginData{'email'}=$email;
	$postLoginData{'pass'}=$password;
	$postLoginData{'persistent'}=1;
	$postLoginData{'login'}='Login';

   $browser->get('http://www.facebook.com/login.php',@header);
   $response = $browser->post('https://login.facebook.com/login.php',\%postLoginData,@header);
}

#指定された範囲の友達の名前を拾ってくる
sub get_friends{
	my $name = shift;
	my $count = shift;
	$response = $browser->get("http://www.facebook.com/$name/friends" ,@header);
	my $html = $response->content;
	my @list;
    　push @list, $html =~ m{href="http://www\.facebook\.com/([^"?]*)" tabindex="-1"}g;
	foreach my $name (@list){
		next if defined $names->{$name};
		$names->{$name} = 1;
		&get_friends($name, $count - 1) if $count > 0;
	}
}

※どうも上記スクリプトだと、１ユーザーあたりアクセスした瞬間に表示される友達一覧の１６人分だけしか取得できないっぽい。
何かうまいことやって最終的に表示されてるページを取るか、あるいは雑に１ユーザーに対して何回もアクセスすることでもっと取れそうだけど、今回は正確に取ることよりも雑多にたくさん集めることが目的なので妥協。

※どうしてもハンドルネームや外人さんの名前が混入してしまうことについても、うまく弾く方法が思いつかなかったので今回は妥協。

2.拾ってきた人名から割合を算出

漢字表記の人名リストだったりすると難しそうだけど、幸いにして今回の方法ならローマ字表記の人名リストなので、
サ行→sが含まれるか、濁点→gzdbjが含まれるか
だけで判定できる。

そんなわけで下記のスクリプトで集計

ついでにアルファベットの登場回数の累計も出してみた

#!/bin/perl

use strict;
use warnings;
use Data::Dumper;
open my $fh, '<', $ARGV[0];

my $all = 0;
my $count = 0;

my $alp;

while (my $line = <$fh>){
    $all++;
    $count++ if $line =~ /[sgzdbj]/i;
    my @alp_list;
    push @alp_list,$line =~ /([^\.\n])/g;
    $alp->{$_}++ for @alp_list;
}

print "all : $all\n";
print "count : $count\n";
printf "rate : %f\n", ($count / $all) * 100;

print "$_ : $alp->{$_}\n" foreach sort keys %$alp;

そんなわけで、３人分巡って作った１９１人分のリストを解析したところが↓

all : 191
count : 157
rate : 82.198953
J : 2
K : 1
S : 2
T : 1
a : 400
b : 21
c : 22
d : 36
e : 96
f : 9
g : 32
h : 136
i : 260
j : 21
k : 188
l : 12
m : 114
n : 109
o : 204
p : 8
r : 90
s : 146
t : 116
u : 157
w : 24
x : 2
y : 75
z : 20

「サ行濁点を含む」人は191人中157人で82%ちょいぐらい。

↓４人分で作った1373人分のリストを解析すると

※さすがに外国人っぽい名前の混入率も上がってきてしまうけど・・・

all : 1373
count : 1119
rate : 81.500364
A : 1
H : 3
I : 5
J : 1
K : 5
L : 1
M : 1
N : 2
O : 1
P : 2
R : 1
S : 7
T : 5
U : 1
V : 1
W : 1
Y : 4
Z : 1
a : 3034
b : 136
c : 179
d : 225
e : 533
f : 70
g : 206
h : 979
i : 2099
j : 127
k : 1340
l : 34
m : 897
n : 622
o : 1430
p : 20
q : 1
r : 590
s : 1064
t : 873
u : 1152
v : 5
w : 188
x : 3
y : 623
z : 161