博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
TopK 问题
阅读量:6615 次
发布时间:2019-06-25

本文共 3045 字,大约阅读时间需要 10 分钟。

问题描述

Top K问题指给你一堆数据,求最大或者最小的前几个。 例如:1000w个数字,求最大的100个。

解法

1.最小(大)堆

利用小(大)顶堆绝对是最好的办法。原理:先从1000w个数据里取100个,构建小顶堆。接下来就遍历所有的数据,遇到比堆顶数字大的值,就替换掉堆顶,重新构建小顶堆,直到数据读取完。 最后堆里就是要求的最大100个值。 算法实现:

public static int[] topK(int[] array, int k) {    if (array == null || array.length == 0) {        return null;    }    int[] result = new int[k];    for (int i = 0; i < k; i++) {        result[i] = array[i];    }    if (array.length <= k) {        return result;    }    buildHeap(result);    for (int data : array) {        if (data > result[0]) {            result[0] = data;            heapify(result, 0, result.length);        }    }    return result;}private static void buildHeap(int[] arr) {    int length = arr.length;    for (int i = length / 2 - 1; i >= 0; i--) {        heapify(arr, i, length);    }}private static void heapify(int[] arr, int parentIndex, int length) {    int leftChild = parentIndex * 2 + 1;    int rightChild = parentIndex * 2 + 2;    int largest = parentIndex;    if (leftChild < length && arr[leftChild] > arr[parentIndex]) {        largest = leftChild;    }    if (rightChild < length && arr[rightChild] > arr[parentIndex]) {        largest = rightChild;    }    if (parentIndex != largest) {        int temp = arr[parentIndex];        arr[parentIndex] = arr[largest];        arr[largest] = temp;        heapify(arr, largest, length);    }}复制代码

建堆的时间复杂度是lgn,总共执行n此,所以时间复杂度是O(nlgn)。

2.利用冒泡排序的原理

为什么冒泡可以解决这种问题呢?有什么优缺点呢? 首先冒泡编码相当简单,变量k*n次可以找到TopK。缺点自然就是要把所有数据都加载到内存进行遍历,而且时间复杂度高。 算法实现:

public static int[] bubbleTopK(int[] arry, int k) {    //ToDo: 参数校验    for (int i = 0; i < k; i++) {        for (int j = arry.length - 1; j > i; j--) {            if (arry[j] > arry[j - 1]) {                int temp = arry[j];                arry[j] = arry[j - 1];                arry[j - 1] = temp;            }        }    }    return Arrays.copyOf(arry, k);}复制代码
3.利用快速排序的原理

用快排的思想来解Top K问题,必然要运用到”分治”。 与快排相比,两者唯一的不同是在对”分治”结果的使用上。分治函数会返回一个position,在position左边的数都比第position个数小,在position右边的数都比第position大。我们不妨不断调用分治函数,直到它输出的position = K-1,此时position前面的K个数(0到K-1)就是要找的前K个数。

public static int[] quickTopK(int[] array, int k) {    //TODO: 参数校验    int index = partition(array, 0, array.length - 1);    int start = 0;    int end = array.length - 1;    while (index != k - 1) {        if (index < k - 1) {            start = index + 1;            index = partition(array, start, end);        } else if (index > k - 1) {            end = index - 1;            index = partition(array, start, end);        }    }    return Arrays.copyOf(array, k);}private static int partition(int[] array, int start, int end) {    if (array == null || start >= end) {        return 0;    }    int flag = array[start];    while (start < end) {        while (start < end && array[start] < flag) {            start++;        }        array[start] = array[end];        while (start < end && array[end] > flag) {            end--;        }        array[end] = array[start];    }    array[start] = flag;    return start;}复制代码

转载于:https://juejin.im/post/5cea44796fb9a07ef1615f24

你可能感兴趣的文章
16-11-10
查看>>
基于SSM&EasyUI的西服门店管理系统-java门店管理服装管理系统
查看>>
java之json转换
查看>>
Python之Subprocess模块
查看>>
gtk+学习笔记(六)
查看>>
其实主要涉及的就是分类,文章,摘要,博客自定义信息调用等方法
查看>>
页面的注释
查看>>
df 命令及 du 命令
查看>>
ubuntu搭建ftp服务器
查看>>
关于获取VMware软件各个版本的永久激活密钥(附虚拟机挂机再恢复后黑屏的解决方法)...
查看>>
15. 磁盘管理
查看>>
微会动活动场景互动平台作为首批会议技术服务产品入驻会链接会奖产业采购平台...
查看>>
Hanlp配置自定义词典遇到的问题与解决方法
查看>>
EOS Chain/Wallet RPC API的PHP开发包sdk
查看>>
通过iptables跳转上外网。
查看>>
【更新】CLion v2018.3发布(二):CPU Profiler和C++ Support
查看>>
部署Jenkins
查看>>
上海瀚示电子货位标签在智能物流的应用——AGV边拣边分
查看>>
垃圾分类成“全城热词” 上海科技节“巧妙支招”
查看>>
Hive 底层执行流程
查看>>