上海深度網絡(2013-06)1 信息膨脹與搜索技術 目前全文搜索可選擇方案以及問題 深度搜索技術的特點和優勢 深度搜索典型使用案例 公司介紹2 ?我有100年以來出版內容的電子數據 ?我有50年以來所有報道的新聞電子稿 ?我有20年來所有發帖內容,而且每天以數萬 條增長 ?館藏數百萬的書都已經可以在線閱讀了 ?我有全世界所有工業設備的詳細資料 ?我有十年來的閱讀材料,樣卷,教材… ?我的筆記本,可以存放一個小型圖書館數據 ?3 ? 存儲不是問題,但只有搜索,才能將從數據中找到有用的信息 ? 只要是提供信息服務,就注定需要有提供對信息檢索的方法 海量數據有用信息搜索4 傳統的數據庫: 開源搜索引擎: 商業搜索引擎:5 傳統數據庫具有眾多優點: ? 產品數量眾多,可選擇余地很大。 ? 成熟, 可靠,穩定。 ? 具有大量相關的開發人員,易于開發。 ? 具有豐富的相關資料。 但…盡管可以達到功能上要求,關系 數據庫并不是為了全文搜索準備的。 約多的數據量和少量并發就可以耗盡 系統資源,這樣做無異于南轅北撤。6 以 為代表的全文搜索引擎 ? 基金會項目 ? 為全文搜索目的設計的倒排的索引格式 多種方式的接口 ? 開源 真正全文搜索的系統搜索引擎關鍵詞產品字數要求, 現在生活很幸福?7 ? 我有大的并發請求。
? 我有海量的數據。 ? 我需要良好的可伸縮性。 ? 我需要可定制高質量的結果排序。 ? 我不斷的有數據要更新。 ? 壞了一個硬件不能終止服務。和的日子還幸福嗎?8 ? 上周就更新了,怎么還不能找到? ? 這篇文章一點都不相關怎么排最前面? ? 昨天有的,今天怎么被刪除了? ? 我的數據并不在網站上,該如何搜索?什么也不用做,但什么也不知道。9 政府部門企業應用教育各行業應用 … …應用程序接口用戶界面接口 多語言處理多文檔格式處理實時自動重復檢測理 實時更新搜索自動主題詞分類相似關聯信息存儲信息匹配10 ? 基于基因組學:從信息到知識基因組作圖( )測序()基因識別(gene )模式生物(model ) ? 深度搜實現的重要理論創新將香農理論 ( ) 和向量空間 ( SPACE MODEL)提升到了新的高度多維索引信息單元搜索片段搜索細粒度信息識別11 多種模式的數 精心設計的內 可插件話的積 據存儲方式存模型分排序算法 可搜索單詞, 多重分詞,交 長句,段落, 叉索引,多維快速更新 布爾邏輯.檢索。
高并發能力, 可快速擴充的 高可用性,多高速度。搜索集群點熱備。12 ? 支持多種語言搜索 基于基因組學開發的深度系統真正地不受語言的約束。任何 語言搜索引擎關鍵詞產品字數要求,無論英語、日語、中文或者阿拉伯語、數學符號、 化學方程式、音符或者其他重復的、邏輯符號集,都無需 語法或者詞典的幫助下被搜尋到 ? 支持主流各種文檔的存儲與搜索 所有類型word ,excel,…PDF 各種版本,郵 件,xml ,甚至圖片等主流文件格式。13 ? 最新的新聞需要排最前面,論文就不要這樣。 ? 論壇回復和主貼的長度差好多,長度因子要調整。 ? 這是付費的廣告,我要將其置頂。 ? 搜索的三個詞中,我覺得第二個詞特別重要。 ? 從人民日報返回的新聞重要性最高。需要排前面。 你可以按你想要的方式進行排序14 ? 搜索壓力特別大,高峰期每秒上百個。 ? 庫很大(>1億文檔),但搜索壓力很小。 ? 庫很大(>1億文檔),而且搜索壓力有時也很大(>100請求/秒)。 ? 我的庫不大,搜素壓力也不大。深度搜的簡單配置可滿足不同要求并在最大程度的節省硬件資源。15 ? 對于搜索中華人民共和國,包含中華人民,人民共和國的內容也挺相似的。
? 硫酸的結果里面要有硫酸銅但要排序到后面才好。 ? 計算機的結果里面匹配電腦也必須出現,但不要排前面。 ? 這么大一段話,要能根據主要意思搜索。 ? 這篇文章我想找找與其相似的文章。 ? 簡體和繁體在意義上其實沒啥差別。 ...深度搜包含了更多的中文優化。16 ? 我們出版社每月才會出版一份刊物,每月新增 ? 我們報社每天都會出版一份報紙,每天新增 ? 論壇中新發的貼需要在幾分鐘內就能被搜索,幾分 鐘內新增。 ? 微博?幾秒鐘吧...深度搜適用各種更新需求17 ? 基于云平臺的設計,可以彈性的增加和減少服務器。 ? 訪問量大了,需要加機器平衡負載了。 ? 數據量大了,需要加機器增加容量了。 ? 為了高可用性,關鍵節點需要做了備份。 ? 硬件壞了,再找個機器替換。 ? 增加和減少機器,服務不能停。 ? 支持大規模數據,不再需要昂貴的大型機器,而使用廉價的普通服務器。 深度搜完備的集群管理功能18 ? 自定義分詞 ? 基于HTTP的通用接口 ? 輸入的文章排除重復,即使個別字有改動。 ? 存儲的信息均有備份,孤立硬件的問題不會終止系統服務和丟失信息。 ? 通過KEY,快速獲取內容 ? 自動生成文章主題詞 ? 能按時間,來源,作者… 等排序 …… 大量可選功能19 ? GFT上海寰融信息技術有限公司 ? 設計規模 1 億文檔 ? 設計性能無cache情況下200請求/秒 ? 部署規模 18臺服務器集群 ? 實際每日新增數量3萬文件/天 ? 文檔更新速度