前段时间帮同事处理了一个把 CSV 数据导入到 MySQL 的需求。两个很大的 CSV 文件, 分别有 3GB、2100 万条记录和 7GB、3500 万条记录。对于这个量级的数据,用简单的单进程/单线程导入 会耗时很久,最终用了多进程的方式来实现。具体过程不赘述,记录一下几个要点:
- 批量插入而不是逐条插入
- 为了加快插入速度,先不要建索引
- 生产者和消费者模型,主进程读文件,多个 worker 进程执行插入
- 注意控制 worker 的数量,避免对 MySQL 造成太大的压力
- 注意处理脏数据导致的异常
- 原始数据是 GBK 编码,所以还要注意转换成 UTF-8
- 用 click 封装命令行工具
具体的代码实现如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 |
|
以上就是本文给大家分享的全部没人了,希望大家能够喜欢
原文链接:http://liyangliang.me/posts/2017/02/load-data-into-mysql-using-python-multiprocessing/
本文链接:https://my.lmcjl.com/post/14744.html
4 评论