问题描述
Top K问题指给你一堆数据,求最大或者最小的前几个。 例如:1000w个数字,求最大的100个。
解法
1.最小(大)堆
利用小(大)顶堆绝对是最好的办法。原理:先从1000w个数据里取100个,构建小顶堆。接下来就遍历所有的数据,遇到比堆顶数字大的值,就替换掉堆顶,重新构建小顶堆,直到数据读取完。 最后堆里就是要求的最大100个值。 算法实现:
public static int[] topK(int[] array, int k) { if (array == null || array.length == 0) { return null; } int[] result = new int[k]; for (int i = 0; i < k; i++) { result[i] = array[i]; } if (array.length <= k) { return result; } buildHeap(result); for (int data : array) { if (data > result[0]) { result[0] = data; heapify(result, 0, result.length); } } return result;}private static void buildHeap(int[] arr) { int length = arr.length; for (int i = length / 2 - 1; i >= 0; i--) { heapify(arr, i, length); }}private static void heapify(int[] arr, int parentIndex, int length) { int leftChild = parentIndex * 2 + 1; int rightChild = parentIndex * 2 + 2; int largest = parentIndex; if (leftChild < length && arr[leftChild] > arr[parentIndex]) { largest = leftChild; } if (rightChild < length && arr[rightChild] > arr[parentIndex]) { largest = rightChild; } if (parentIndex != largest) { int temp = arr[parentIndex]; arr[parentIndex] = arr[largest]; arr[largest] = temp; heapify(arr, largest, length); }}复制代码
建堆的时间复杂度是lgn,总共执行n此,所以时间复杂度是O(nlgn)。
2.利用冒泡排序的原理
为什么冒泡可以解决这种问题呢?有什么优缺点呢? 首先冒泡编码相当简单,变量k*n次可以找到TopK。缺点自然就是要把所有数据都加载到内存进行遍历,而且时间复杂度高。 算法实现:
public static int[] bubbleTopK(int[] arry, int k) { //ToDo: 参数校验 for (int i = 0; i < k; i++) { for (int j = arry.length - 1; j > i; j--) { if (arry[j] > arry[j - 1]) { int temp = arry[j]; arry[j] = arry[j - 1]; arry[j - 1] = temp; } } } return Arrays.copyOf(arry, k);}复制代码
3.利用快速排序的原理
用快排的思想来解Top K问题,必然要运用到”分治”。 与快排相比,两者唯一的不同是在对”分治”结果的使用上。分治函数会返回一个position,在position左边的数都比第position个数小,在position右边的数都比第position大。我们不妨不断调用分治函数,直到它输出的position = K-1,此时position前面的K个数(0到K-1)就是要找的前K个数。
public static int[] quickTopK(int[] array, int k) { //TODO: 参数校验 int index = partition(array, 0, array.length - 1); int start = 0; int end = array.length - 1; while (index != k - 1) { if (index < k - 1) { start = index + 1; index = partition(array, start, end); } else if (index > k - 1) { end = index - 1; index = partition(array, start, end); } } return Arrays.copyOf(array, k);}private static int partition(int[] array, int start, int end) { if (array == null || start >= end) { return 0; } int flag = array[start]; while (start < end) { while (start < end && array[start] < flag) { start++; } array[start] = array[end]; while (start < end && array[end] > flag) { end--; } array[end] = array[start]; } array[start] = flag; return start;}复制代码