S eda1a14b50ee24bcab19b62f40858e76 HTML::ExtractContent

はてブで使われてる本文抽出ライブラリ。
http://d.hatena.ne.jp/tarao/20090322#1237750634

本文っぽい、本文っぽくないでスコアリングするヒューリスティクアルゴリズム。

もしかして

    他の人の「HTML::ExtractContent」

    S eda1a14b50ee24bcab19b62f40858e76

    無所属ソフトウェアエンジニア

    (1722words)

    最新

      最新エントリ

        関連ツイート