= 查找 = == 概念 == 平均查找长度: 查找成功时的平均查找长度: == 线性结构的查找 == 查找结构: {{{#!cplusplus typedef struct{ int key; info_type otherinfo; }record_type; typedef record_type elem_type; typedef struct { elem_type elem[MAXSIZE]; int size; }seq_list; }}} === 顺序查找 === {{{#!cplusplus int seq_search(seq_list *r, int key) { int i; for(i = 0; i < r->size; i++) if(r->elem[i].key == key) return i; return -1; } }}} 查找成功时的平均查找长度:(n+1)/2 查找不成功时的平均查找长度:n === 折半查找 === 折半查找要求元素先排序 {{{#!cplusplus int bin_search(seq_list *r, int key) { int low = 0, high = r->size; while(low < high) { int mid = (low + high) / 2; if(r->elem[mid].key == key) return mid; else if(r->elem[mid].key < key) low = mid + 1; else high = mid; } return -1; } }}} 查找成功时的平均查找长度 == 树型结构查找 == === 二叉排序树 === 二叉排序树是一棵空二叉树或者满足以下条件的二叉树: * 左子树为空树或者左子树上所有结点的值小于根结点的值; * 右子树为空树或者右子树上所有结点的值大于根结点的值; * 左子树和右子树也是二叉排序树。 二叉排序树表示 {{{#!cplusplus typedef struct datatype { int key; }datatype; struct node { datatype data; struct node *left, *right; }; }}} 二叉排序树的插入 {{{#!cplusplus struct node *insert_bst(struct node *root, datatype elem){ if(root == NULL) { root = malloc(sizeof(struct node)); root->data = elem; root->left = root->right = NULL; return root; } if(root->data.key < elem.key) root->right = insert_bst(root->right, elem); else if(root->data.key > elem.key) root->left = insert_bst(root->left, elem); } }}} 二叉排序树的查找 {{{#!cplusplus struct node *search(struct node *root, int key) { if(root == NULL) return NULL; else if(root->data.key < key) return search(root->right, key); else return search(root->left, key); } }}} 二叉排序树的删除结点 === 二叉排序树的平衡 === AVL平衡 * LL旋转 * RR旋转 * LR旋转 * RL旋转 红黑平衡 === B树 === == 哈希表 == === 基本概念 === 设所有可能出现的关键字集合记为U(简称全集)。实际发生(即实际存储)的关键字集合记为K(|K|比|U|小得多)。 散列方法是使用函数h将U映射到表T[0..m-1]的下标上(m=O(|U|))。这样以U中关键字为自变量,以h为函数的运算结果就是相应结点的存储地址。从而达到在O(1)时间内就可完成查找。其中: 1. h:U→{0,1,2,…,m-1} ,通常称h为散列函数(Hash Function)。散列函数h的作用是压缩待处理的下标范围,使待处理的|U|个值减少到m个值,从而降低空间开销。 1. T为哈希表(Hash Table)。 1. h(Ki)(Ki∈U)是关键字为Ki结点存储地址(亦称哈希地址)。 1. 将结点按其关键字的散列地址存储到散列表中的过程称为哈希(Hashing) 散列表的冲突现象 两个不同的关键字,由于散列函数值相同,因而被映射到同一表位置上。该现象称为冲突(Collision)或碰撞。发生冲突的两个关键字称为该散列函数的同义词(Synonym)。 例:上图中的k2≠k5,但h(k2)=h(k5),故k2和K5所在的结点的存储地址相同。 冲突不可能完全避免 通常情况下,h是一个压缩映像。虽然|K|≤m,但|U|>m,故无论怎样设计h,也不可能完全避免冲突。因此,只能在设计h时尽可能使冲突最少。同时还需要确定解决冲突的方法,使发生冲突的同义词能够存储到表中。 冲突的频繁程度除了与h相关外,还与表的填满程度相关。 设m和n分别表示表长和表中填人的结点数,则将α=n/m定义为散列表的装填因子(Load Factor)。α越大,表越满,冲突的机会也越大。通常取α≤1。 === 散列函数的构造方法 === 散列函数的选择有两条标准:简单和均匀。 * 简单指散列函数的计算简单快速; * 均匀指对于关键字集合中的任一关键字,散列函数能以等概率将其映射到表空间的任何一个位置上。也就是说,散列函数能将子集K随机均匀地分布在表的地址集{0,1,…,m-1}上,以使冲突最小化。 假定关键字是定义在自然数集合上。 平方取中法 具体方法:先通过求关键字的平方值扩大相近数的差别,然后根据表长度取中间的几位数作为散列函数值。又因为一个乘积的中间几位数和乘数的每一位都相关,所以由此产生的散列地址较为均匀。  【例】将一组关键字(0100,0110,1010,1001,0111)平方后得 (0010000,0012100,1020100,1002001,0012321)  若取表长为1000,则可取中间的三位数作为散列地址集: (100,121,201,020,123)。 相应的散列函数用C实现很简单: int Hash(int key){ //假设key是4位整数 key*=key; key/=100; //先求平方值,后去掉末尾的两位数 return key%1000; //取中间三位数作为散列地址返回 } 除余法 该方法是最为简单常用的一种方法。它是以表长m来除关键字,取其余数作为散列地址,即 h(key)=key%m。该方法的关键是选取m。选取的m应使得散列函数值尽可能与关键字的各位相关。m最好为素数。  【例】若选m是关键字的基数的幂次,则就等于是选择关键字的最后若干位数字作为地址,而与高位无关。于是高位不同而低位相同的关键字均互为同义词。  【例】若关键字是十进制整数,其基为10,则当m=100时,159,259,359,…,等均互为同义词。 折叠法 相乘取整法 该方法包括两个步骤:首先用关键字key乘上某个常数A(0