HTML::ExtractContent

はてブで使われてる本文抽出ライブラリ。
http://d.hatena.ne.jp/tarao/20090322#1237750634

本文っぽい、本文っぽくないでスコアリングするヒューリスティクアルゴリズム。

コメント(0)

コメントするにはログインが必要です

もしかして

他の人の「HTML::ExtractContent」

S eda1a14b50ee24bcab19b62f40858e76

無所属ソフトウェアエンジニア

akkun_choi pedia

(1722words)

最新

最新エントリ

関連ツイート