百度Familia 開源項目包含文檔主題推斷工具、語義匹配計算工具以及基于工業(yè)級語料訓練的三種主題模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 支持用戶以“拿來即用”的方式進行文本分類、文本聚類、個性化推薦等多種場景的調研和應用。考慮到主題模型訓練成本較高以及開源主題模型資源有限的現狀,我們會陸續(xù)開放基于工業(yè)級語料訓練的多個垂直領域的主題模型,以及這些模型在工業(yè)界的典型應用方式,助力主題模型技術的科研和落地。
原文網址:https://github.com/baidu/Familia