文本内容安全審核

  1. 新聞資(zī)訊(xùn)
  2. 技術百科(kē)
公司新聞 案例分享 技術百科(kē) 行業動态

文本内容安全審核

來源:奇站網絡 浏覽量:21 發布日期: 2023-12-28

一(yī)、雲廠商

阿裡雲、百度雲、騰訊(xùn)雲

二、開(kāi)源項目

1、 observerss/textfilter
語言: Python,Star為(wèi)1.7k。
詳情: 短(duǎn)文本匹配 + 某1w詞敏感詞們鐵庫。
技術: Native(for遍曆), BS(二分搜索), DFA門銀(就是字典樹)。

2、 minitrill/TextAudit
語言: Python,star為(wèi)0器志.056k。

詳情: 短(duǎn)視頻app文本審核模塊:1.二分類,惡意我線與否; 2.詳細分類; 3.後處理(對于不(bù)同頻率/不(bù)同章大程度/不(bù)同影響力的言論)。

技術: DFA + 分類模型(TIDF + BayesianNetwo分線rk)

3、 houbb/sensitive-word
語言: Java,star為(wèi)0.339k。
詳情: 高性能敏感詞工(gōng)具。
技術: DFA + 某6W敏感詞庫。支持用戶自定義機車敏感詞和白名單、支持數據的數據動态更新,員通實時(shí)生效。

4、 elulis/sensitive-word店美s
語言: Java,star為(wèi)0.411k。
詳情: Java快速中文敏感詞過濾,在15k敏得對感詞庫上的過濾速度超過50M字符每秒。
方法: DFA + 2字符hash優化。

5、 youzan/YZSpamFilter
語言: Python,star為(wèi)0.2她下66k。
詳情: 有贊垃圾内容過濾工(gōng)具,可為(wèi)帖子(zǐ)、郵件、紙農博客等提供中文垃圾信息過濾服務。
方法: 二分類模型,數據為(wèi)垃圾郵內月件過濾。

6、 toolgood/ToolGood.Words
語言: C#,star為(wèi)2.9k。
詳情: C#語言,使用StringSearchEx2.Replace過濾校錢,在48k敏感詞庫上的過濾速度超過3億字符每秒。(cpu i7 8750h)我購
方法: 正則轉DFA,C#改進版AC自動機, 可設置議刀跳字長(cháng)度,默認全角轉半角,忽略大(dà)小(x師場iǎo)寫,跳詞,重複詞,黑名單。

标簽:
下一(yī)篇

廈門奇站網絡科(kē)技有限公司

電話:13313868605

QQ:3413772931

地址:廈門軟件園三期A02号

網站地圖


       綠媽;      懂哥;       掃一(yī)掃加我咨媽民詢