從騰訊數(shù)據(jù)挖掘方向筆試題目看技術儲備

時間：2018-12-31 12:00:00 資料大全我要投稿

從騰訊（數(shù)據(jù)挖掘方向）筆試題目看技術儲備

　　筆試內(nèi)容：

從騰訊（數(shù)據(jù)挖掘方向）筆試題目看技術儲備

　　1.二叉樹遍歷：已知中序遍歷順序以及前序遍歷順序，求后序遍歷順序

　　2.SQL語句：找出QQset中最小的QQ號碼

　　3.encodeURI&URL傳播的轉義結果

　　4.36輛車，6條跑道，無計時器，最少幾次比賽可以選出前三

　　5.Windows/Linux下判斷遠程地址為某主機監(jiān)聽的某端口是都開放的命令是?

　　6.html 網(wǎng)站cookie

　　7.cookie功能

　　8.哈希沖突

　　9.哪些http方法對于服務端和用戶是安全的

　　10.二維數(shù)組內(nèi)存地址計算

　　11.附加題：推導線性最小二乘法過程

　　12.附加題：概率計算(這個相當簡單啦)

　　13.模型過擬合與哪些因素有關，寫出理由

　　3 從百度(數(shù)據(jù)挖掘工程師)筆試題目看技術儲備

　　一. 簡答題

　　1. new 和 malloc 的區(qū)別，

從騰訊（數(shù)據(jù)挖掘方向）筆試題目看技術儲備

。

　　2. hash沖突是指什么?怎么解決?給兩種方法，寫出過程和優(yōu)缺點。

　　3. 命中的概率是 0.25，若要至少命中一次的概率不小于 0.75，則至少需要幾次?

　　二. 算法設計題

　　1. 用C/C++寫一個歸并排序。

　　數(shù)據(jù)結構為struct Node{int v; Node *next};

　　接口為 Node * merge_sort(Node *);

　　2. 設計S型層次遍歷樹的算法，比如根節(jié)點是第一層，第二層從左至右遍歷，第三層從右至左遍歷，第四層再從左至右遍歷，以此類推。

　　舉例：應依次輸出 1 2 3 6 5 4 7 8 9。

　　3. 一個url文件，每行是一個url地址，可能有重復。

　　(1)統(tǒng)計每個url的頻次，設計函數(shù)實現(xiàn)實現(xiàn)。

　　(2)設有10億url，平均長度是20，現(xiàn)在機器有8G內(nèi)存，怎么處理，寫出思路。

　　三. 系統(tǒng)設計題

　　自然語言處理中的中文分詞問題，前向最大匹配算法(FMM)。

　　注：題目舉例說明了FMM的基本思想。

　　(1)設計字典的數(shù)據(jù)結構 struct dictnote。

　　(2)用C/C++實現(xiàn)FMM，可選接口為

　　int FMM(vectoriLetters, dictnode *iRoot, vector*oResults);

　　其中 iLetters 為待分詞的句子，比如 {“小”，“明”，“今”，“天”，“買”，“了”，“i”，“p”，“o”，“n”，“e”，“6”}，

　　iRoot 是字典， oResults 保存輸出結果，即分詞的位置。也可以自己設計接口。

　　(3)收集了一些手機品牌的字典，如{iphone, 諾基亞}。

　　現(xiàn)在要求查找包含這些手機品牌的網(wǎng)頁，比如包含 iphone6, 諾基亞 9973 等。

　　怎么修改FMM實現(xiàn)這個功能，可以寫偽代碼。

　　4 從搜狐(數(shù)據(jù)挖掘算法工程師)筆試題目看技術儲備

　　筆試

　　1，類的繼承

　　2，資源互斥下的死鎖

　　3，一維數(shù)組，元素為指針，指針指向一個參數(shù)為Int，返回值為int的函數(shù)

　　4，進程間的通信方式

　　5， Const標志符常量一定要?

　　6， String的普通構造函數(shù)，拷貝構造函數(shù)，賦值函數(shù)，析構函數(shù)

　　7， Strcpy函數(shù)

　　8， N個不同數(shù)的全排列，打印所有全排列

　　9， Sizeof(char name[]=”hello”)

　　10，繼承的轉換(子類可以轉換成基類，基類不能轉換成子類，多繼承下同一子類的基類間不能相互轉換)

　　5 從網(wǎng)易(數(shù)據(jù)挖掘研究員)筆試題目看技術儲備

　　筆試

　　1，字符串匹配的算法復雜度(主串N,字串M)N+M

　　2，排序算法的穩(wěn)定性(快速排序為非穩(wěn)定)

　　3，平衡二叉樹的插入

　　4， 20個億整數(shù)的兩個集合a與b,求a與b的交集，內(nèi)存為4Gb

　　5，在N個無序數(shù)中找K個最小值

　　6，頁面文件的邏輯地址位(8個1024字放內(nèi)32幀內(nèi)存里)

　　7，計算機網(wǎng)絡各層應用連接

　　8，哪一種模式不關心算法

　　Abstract Factory：提供一個創(chuàng)建一系列相關或相互依賴對象的接口，而無需指定它們具體的類。(使用得非常頻繁。)

　　Adapter：將一個類的接口轉換成客戶希望的另外一個接口。A d a p t r模式使得原本由于接口不兼容而不能一起工作的那些類可以一起工作。

　　Bridge：將抽象部分與它的實現(xiàn)部分分離，使它們都可以獨立地變化。

　　Builder：將一個復雜對象的構建與它的表示分離，使得同樣的構建過程可以創(chuàng)建不同的表示。

　　Chain of Responsibility：為解除請求的發(fā)送者和接收者之間耦合，而使多個對象都有機會處理這個請求。將這些對象連成一條鏈，并沿著這條鏈傳遞該請求，直到有一個對象處理它。

　　Command：將一個請求封裝為一個對象，從而使你可用不同的請求對客戶進行參數(shù)化;對請求排隊或記錄請求日志，以及支持可取消的操作。

　　Composite：將對象組合成樹形結構以表示“部分-整體”的層次結構。它使得客戶對單個對象和復合對象的使用具有一致性，

資料共享平臺

《從騰訊（數(shù)據(jù)挖掘方向）筆試題目看技術儲備》(http://clearvueentertainment.com)。

　　Decorator：動態(tài)地給一個對象添加一些額外的職責。就擴展功能而言，它比生成子類方式更為靈活。

　　Facade：為子系統(tǒng)中的一組接口提供一個一致的界面， F a c a d e模式定義了一個高層接口，這個接口使得這一子系統(tǒng)更加容易使用。

　　Factory Method：定義一個用于創(chuàng)建對象的接口，讓子類決定將哪一個類實例化。Factory Method使一個類的實例化延遲到其子類。

　　Flyweight：運用共享技術有效地支持大量細粒度的對象。

　　Interpreter：給定一個語言, 定義它的文法的一種表示，并定義一個解釋器, 該解釋器使用該表示來解釋語言中的句子。

　　Iterator：提供一種方法順序訪問一個聚合對象中各個元素, 而又不需暴露該對象的內(nèi)部表示。

　　Mediator：用一個中介對象來封裝一系列的對象交互。中介者使各對象不需要顯式地相互引用，從而使其耦合松散，而且可以獨立地改變它們之間的交互。

　　Memento：在不破壞封裝性的前提下，捕獲一個對象的內(nèi)部狀態(tài)，并在該對象之外保存這個狀態(tài)。這樣以后就可將該對象恢復到保存的狀態(tài)。

　　Observer：定義對象間的一種一對多的依賴關系,以便當一個對象的狀態(tài)發(fā)生改變時,所有依賴于它的對象都得到通知并自動刷新。

　　Prototype：用原型實例指定創(chuàng)建對象的種類，并且通過拷貝這個原型來創(chuàng)建新的對象。

　　Proxy：為其他對象提供一個代理以控制對這個對象的訪問。

　　Singleton：保證一個類僅有一個實例，并提供一個訪問它的全局訪問點。

　　State：允許一個對象在其內(nèi)部狀態(tài)改變時改變它的行為。對象看起來似乎修改了它所屬的類。

　　Strategy：定義一系列的算法,把它們一個個封裝起來, 并且使它們可相互替換。本模式使得算法的變化可獨立于使用它的客戶。

　　Template Method：定義一個操作中的算法的骨架，而將一些步驟延遲到子類中。Template Method使得子類可以不改變一個算法的結構即可重定義該算法的某些特定步驟。

　　Visitor：表示一個作用于某對象結構中的各元素的操作。它使你可以在不改變各元素的類的前提下定義作用于這些元素的新操作

　　9，數(shù)據(jù)庫系統(tǒng)的兩種語言(一種用于定義數(shù)據(jù)庫模式;另一種用于表達數(shù)據(jù)的查詢和更新)

　　10，數(shù)據(jù)庫的連接運算

　　11，建立索引的原則

　　在經(jīng)常需要搜索的列上，可以加快搜索的速度;在作為主鍵的列上，強制該列的唯一性和組織表中數(shù)據(jù)的排列結構;在經(jīng)常用在連接的列上，這些列主要是一些外鍵，可以加快連接的速度;在經(jīng)常需要根據(jù)范圍進行搜索的列上創(chuàng)建索引，因為索引已經(jīng)排序，其指定的范圍是連續(xù)的;在經(jīng)常需要排序的列上創(chuàng)建索引，因為索引已經(jīng)排序，這樣查詢可以利用索引的排序，加快排序查詢時間;在經(jīng)常使用在WHERE子句中的列上面創(chuàng)建索引，加快條件的判斷速度。

　　不應該創(chuàng)建索引的的這些列具有下列特點：第一，對于那些在查詢中很少使用或者參考的列不應該創(chuàng)建索引。這是因為，既然這些列很少使用到，因此有索引或者無索引，并不能提高查詢速度。相反，由于增加了索引，反而降低了系統(tǒng)的維護速度和增大了空間需求。第二，對于那些只有很少數(shù)據(jù)值的列也不應該增加索引。這是因為，由于這些列的取值很少，例如人事表的性別列，在查詢的.結果中，結果集的數(shù)據(jù)行占了表中數(shù)據(jù)行的很大比例，即需要在表中搜索的數(shù)據(jù)行的比例很大。增加索引，并不能明顯加快檢索速度。第三，對于那些定義為text, image和bit數(shù)據(jù)類型的列不應該增加索引。這是因為，這些列的數(shù)據(jù)量要么相當大，要么取值很少。第四，當修改性能遠遠大于檢索性能時，不應該創(chuàng)建索引。這是因為，修改性能和檢索性能是互相矛盾的。當增加索引時，會提高檢索性能，但是會降低修改性能。當減少索引時，會提高修改性能，降低檢索性能。因此，當修改性能遠遠大于檢索性能時，不應該創(chuàng)建索引。

　　12，事務的定義與特點，事務隔離的級別

　　事務(Transaction)是并發(fā)控制的單位，是用戶定義的一個操作序列。這些操作要么都做，要么都不做，是一個不可分割的工作單位。通過事務，SQL Server能將邏輯相關的一組操作綁定在一起，以便服務器保持數(shù)據(jù)的完整性。

　　事務的特性(ACID特性)

　　A:原子性(Atomicity)，事務是數(shù)據(jù)庫的邏輯工作單位，事務中包括的諸操作要么全做，要么全不做。

　　B:一致性(Consistency)，事務執(zhí)行的結果必須是使數(shù)據(jù)庫從一個一致性狀態(tài)變到另一個一致性狀態(tài)。一致性與原子性是密切相關的。

　　C:隔離性(Isolation)，一個事務的執(zhí)行不能被其他事務干擾。

　　D:持續(xù)性/永久性(Durability)，一個事務一旦提交，它對數(shù)據(jù)庫中數(shù)據(jù)的改變就應該是永久性的。

　　未授權讀取(允許臟讀取，但不允許更新丟失)，授權讀取(允許不可重復讀取，但不允許臟讀取)，可重復讀取(禁止不可重復讀取和臟讀取，但是有時可能出現(xiàn)幻影數(shù)據(jù))和序列化(事務序列化執(zhí)行，不能并發(fā)執(zhí)行)

　　13，專業(yè)題一數(shù)據(jù)挖掘的步驟

　　14， Pca的概念和處理過程(主成分分析)

　　15， K中心點聚類算法簡介

　　首先為每個簇隨意選擇一下代表對象，將剩余的對象根據(jù)其與代表對象的距離分配給最近的一個簇。然后反復地用非代表對象來替代代表對象，以改進聚類的質(zhì)量。判定一個非代表對象O是否是當前一個代表對象的O1的好的替代，對于每一個非代表對象p，下面的四種情況考慮。