- 相關推薦
C語言中壓縮字符串的算法
在C應用中,經常需要將字符串壓縮成一個整數,即字符串散列。下面是小編為大家整理的C語言中壓縮字符串的算法,歡迎參考~
比如下面這些問題:
(1)搜索引擎會通過日志文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255字節。請找出最熱門的10個檢索串。
(2)有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16字節,內存限制大小是1M。返回頻數最高的100個詞。
(3)有10個文件,每個文件1G,每個文件的每一行存放的都是用戶的query,每個文件的query都可能重復。要求你按照query的頻度排序。
(4)給定a、b兩個文件,各存放50億個url,每個url各占64字節,內存限制是4G,讓你找出a、b文件共同的url。
(5)一個文本文件,大約有一萬行,每行一個詞,要求統計出其中最頻繁出現的前10個詞。
這些問題都需要將字符串壓縮成一個整數,或者說是散列到某個整數 M 。然后再進行取余操作,比如 M%16,就可以將該字符串放到編號為M%16的文件中,相同的字符串肯定是在同一個文件中。通過這種處理,就可以將一個大文件等價劃分成若干小文件,而對于小文件,就可以用常規的方法處理,內排序、hash_map等等。最后將這些小文件的處理結果綜合起來,就可以求得原問題的解。
下面介紹一些字符串壓縮的算法。
方法1:最簡單就是將所有字符加起來,代碼如下:
unsigned long HashString(const char *pString, unsigned long tableSize)
{
unsigned long hashValue = 0;
while(*pString)
hashValue += *pString++;
return hashValue % tableSize;
}
分析:如果字符串的長度有限,而散列表比較大的話,浪費比較大。例如,如果字符串最長為16字節,那么用到的僅僅是散列表的前16*127=2032。假如散列表含2729項,那么2032以后的項都用不到。
方法2:將上次計算出來的hash值左移5位(乘以32),再和當前關鍵字相加,能得到較好的均勻分布的效果。
unsigned long HashString(const char *pString,unsigned long tableSize)
{
unsigned long hashValue = 0;
while (*pString)
hashValue = (hashValue << 5) + *pString++;
return hashValue % tableSize;
}
分析:這種方法需要遍歷整個字符串,如果字符串比較大,效率比較低。
方法3:利用哈夫曼算法,假設只有0-9這十個字符組成的字符串,我們借助哈夫曼算法,直接來看實例:
#define Size 10
int freq[Size];
string code[Size];
string word;
struct Node
{
int id;
int freq;
Node *left;
Node *right;
Node(int freq_in):id(-1), freq(freq_in)
{
left = right = NULL;
}
};
struct NodeLess
{
bool operator()(const Node *a, const Node *b) const
{
return a->freq < b->freq;
}
};
void init()
{
for(int i = 0; i < Size; ++i)
freq[i] = 0;
for(int i = 0; i < word.size(); ++i)
++freq[word[i]];
}
void dfs(Node *root, string res)
{
if(root->id >= 0)
code[root->id] = res;
else
{
if(NULL != root->left)
dfs(root->left, res+"0");
if(NULL != root->right)
dfs(root->right, res+"1");
}
}
void Nodes(Node *root)
{
if(NULL == root)
return ;
if(NULL == root->left && NULL == root->right)
root;
else
{
Nodes(root->left);
Nodes(root->right);
root;
}
}
void BuildTree()
{
priority_queue<Node*, vector
for(int i = 0; i < Size; ++i)
{
//0 == freq[i] 的情況未處理
Node *newNode = new Node(freq[i]);
newNode->id = i;
nodes.push(newNode);
}
while(nodes.size() > 1)
{
Node *left = nodes.top();
nodes.pop();
Node *right = nodes.top();
nodes.pop();
Node *newNode = new Node(left->freq + right->freq);
newNode->left = left;
newNode->right = right;
nodes.push(newNode);
}
Node *root = nodes.top();
dfs(root, string(""));
Nodes(root);
}
【C語言中壓縮字符串的算法】相關文章:
C語言中遞歸算法的剖析08-15
C語言中實現KMP算法實例08-09
深入解釋c語言中的遞歸算法07-17
C語言中返回字符串函數的實現方法09-19
C語言中字符串常用函數strcat與strcpy的用法10-12
c語言中用字符串數組寫菜單的代碼10-02
c語言中關于使用BF-KMP算法實例10-15
實現c語言中字符串和數字的相互轉換的代碼06-30
C語言中使用快速排序算法對元素排序的實例06-20
關于字符串的組合算法問題的C語言實現攻略10-21