第一部份:初識(shí)搜索引擎,了解其技術(shù)架構(gòu)
1、按照各大搜索引擎商業(yè)公司使用的技術(shù)為依據(jù)對(duì)搜索引擎進(jìn)行時(shí)代劃分
2、講解搜索引擎的三大實(shí)現(xiàn)目標(biāo)
3、講解搜索引擎的三大核心問題及技術(shù)發(fā)展
4、詳細(xì)講解搜索引擎的技術(shù)架構(gòu)
第二部份:講解網(wǎng)絡(luò)爬蟲
1、講解通用爬蟲框架
2、講解通過哪些特征來判斷一個(gè)網(wǎng)絡(luò)爬蟲是否優(yōu)秀
3、詳細(xì)講解網(wǎng)絡(luò)爬蟲的抓取策略
4、詳細(xì)講解網(wǎng)絡(luò)爬蟲對(duì)網(wǎng)頁更新策略
5、詳細(xì)講解網(wǎng)絡(luò)爬蟲的暗網(wǎng)抓取
6、詳細(xì)講解分布式爬蟲
第三部份:講解搜索引擎索引
1、講解單詞--文檔矩陣、倒排索引基本概念、倒排索引簡(jiǎn)單實(shí)例
2、講解單詞詞典:哈希加鏈表、樹形結(jié)構(gòu)、
3、講解兩遍文檔遍歷法、排序法、歸并法、動(dòng)態(tài)索引
4、講解索引更新策略:完全重建策略、在合并策略、原地跟新策略、
5、講解查詢處理:一次一文檔、一次一單詞、跳躍指針、多字段索引
第四部份:講解索引壓縮
1、講解詞典壓縮
2、講解倒排列表壓縮算法
3、講解文檔編號(hào)重排序
4、講解靜態(tài)索引裁剪
第五部份:檢索模型與搜索排序
1、講解布爾模型
2、講解向量空間模型
3、講解概率檢索模型
4、講解語言模型方法
5、講解機(jī)器學(xué)習(xí)排序
第六部份:講解鏈接分析
1、講解web圖
2、講解隨機(jī)游走模型、子集傳播模型、鏈接分析算法之間的關(guān)系
3、講解PageRank算法
4、講解HITS算法
5、講解SALSA算法
6、講解主題敏感PageRank
7、講解Hilltop算法
第七部份:云存儲(chǔ)與云計(jì)算
1、講解云存儲(chǔ)與云計(jì)算概述
2、講解CAP原理
3、講解Google的云存儲(chǔ)與云計(jì)算架構(gòu)
4、講解google文件系統(tǒng)GFS
5、講解BigTable存儲(chǔ)模型
6、講解Map/Reduce云計(jì)算模型
第八部份:講解網(wǎng)頁反作弊
1、講解內(nèi)容作弊
2、講解鏈接作弊
3、講解網(wǎng)頁隱藏作弊
4、講解Web 2.0作弊方法
5、講解反作弊技術(shù)的整體思路
6、講解通用鏈接反作弊方法
7、講解專用鏈接反作弊技術(shù)
第九部份:講解用戶查詢意圖分析
1、講解搜索行為及其意圖
2、講解搜索日志挖掘
3、講解相關(guān)搜索
4、講解查詢糾錯(cuò)
第十部份:講解網(wǎng)頁去重
1、講解通用去重算法框架
2、講解Shingling算法
3、講解I-Match算法
4、講解SimHash算法
5、講解SpotSig算法
第十一部份:搜索引擎緩存機(jī)制
1、講解搜索引擎緩存系統(tǒng)架構(gòu)
2、講解緩存對(duì)象
3、講解緩存結(jié)構(gòu)
4、講解緩存淘汰策略
5、講解緩存跟新策略
第十二部份:講解搜索引擎的發(fā)展趨勢(shì)
1、講解個(gè)性化搜索
2、講解社會(huì)化搜索
3、講解實(shí)時(shí)搜索
4、講解移動(dòng)搜索
5、講解地位位置感知搜索
6、講解跨語言搜索
7、講解多媒體搜索
8、講解情景搜索
第十三部份:實(shí)戰(zhàn)講解怎么構(gòu)建一個(gè)搜索引擎01(使用Java開發(fā))
1、準(zhǔn)備搜索引擎開發(fā)環(huán)境、提取HTML文件內(nèi)容:結(jié)構(gòu)化信息提取、網(wǎng)頁架構(gòu)相似度計(jì)算、正文提取工具FireBug、NekoHTML的使用
2、提取txt、pdf、word、execl、PowerPoint等文件內(nèi)容、流媒體文件內(nèi)容提取(音頻文件、視頻文件)
3、Lucene中的中文分詞、Lietu中文分詞的使用、理解Lucene的索引庫結(jié)構(gòu)、設(shè)計(jì)一個(gè)簡(jiǎn)單的索引庫
4、自動(dòng)分類的SVM方法實(shí)現(xiàn)、K均值聚類方法、K均值實(shí)現(xiàn)、拼音轉(zhuǎn)換、語義搜索
第十四部份:實(shí)戰(zhàn)講解怎么構(gòu)建一個(gè)搜索引擎02(使用java開發(fā))
1、索引優(yōu)化、查詢優(yōu)化、實(shí)現(xiàn)時(shí)間加權(quán)排序、實(shí)現(xiàn)字詞混合索引、定制Similarity、定制Tokenizer
2、Lucene搜索接口、搜索頁面設(shè)計(jì)、實(shí)現(xiàn)搜索接口
3、實(shí)現(xiàn)關(guān)鍵字高亮、實(shí)現(xiàn)多維視圖、實(shí)現(xiàn)相似文檔搜索、實(shí)現(xiàn)AJAX自動(dòng)完成
4、使用Solr實(shí)現(xiàn)分布式搜索:Solr服務(wù)器端的配置與中文支持、Solr索引庫的查找、Solr搜索優(yōu)化、SolrJ查詢分析器、Solr的.net客戶端、Solr的php客戶端