Haskellのテキストブロックからキーワードを抽出する方法

だから私はこれが一種の大きな話題であることを知っていますが、私はテキストの塊を受け入れ、そこから最も興味深いキーワードを抽出する必要があります。テキストはテレビのキャプションから来るので、テーマはニュースからスポーツ、ポップカルチャーの参考文献までさまざまです。テキストが表示される表示の種類を指定することは可能です。

私は何とか面白いと知っている用語の辞書とテキストを一致させる考えがあります。

どのライブラリがHaskellにとってこれを手伝うことができますか?

興味深い用語の辞書とデータベースを格納するデータベースがあると仮定すると、テキスト内のキーワードを一致させるための特別なアプローチがありますか?

私が考えていない明らかなアプローチはありますか?

ベストアンサー

私はその塊の中の言葉を抹消して、その辞書の中のすべての言葉を探します ただ2つのランダムなlibs:

stem http://hackage.haskell.org/packages/archive/stemmer/0.2/doc/html/NLP-Stemmer-C.html

search http://hackage.haskell.org/packages/archive/sphinx/0.2.1/doc/html/Text-Search-Sphinx.html

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です