累死累活

累死累活

折腾了一个晚上，打算关电脑睡觉了，突然想起好像今天自己的blog还没写。我把时间都耗在了什么地方呢？我正在校对其中一个老blog里的内容。之前，我的关注点纯粹是格式的转换，先从BlogBus的XML转化为WordPress的XML，然后再从WordPress的XML转化为一篇一篇的markdown。纯粹技术的东西我已经几乎完成了，余下来的问题，需要在不断的转换之中发现，然后修正。今天我花了一个晚上搞的是校对从前那个blog导出来的内容。不知道从什么时候开始，我发现里面有些文章的正 2023-10-15 0 Comments

折腾了一个晚上，打算关电脑睡觉了，突然想起好像今天自己的blog还没写。我把时间都耗在了什么地方呢？我正在校对其中一个老blog里的内容。

之前，我的关注点纯粹是格式的转换，先从BlogBus的XML转化为WordPress的XML，然后再从WordPress的XML转化为一篇一篇的markdown。纯粹技术的东西我已经几乎完成了，余下来的问题，需要在不断的转换之中发现，然后修正。今天我花了一个晚上搞的是校对从前那个blog导出来的内容。不知道从什么时候开始，我发现里面有些文章的正文是不存在的，是空白的，至于为什么，非常有可能是当时的文章我发布的时候其实没有成功，但是标题和其他内容已经有了，失败的纯粹只是正文。至于为什么不行，我当时也不知道。通常那些失效的文章，我都是批量手动粘贴发布的，可能是从一个网页，也可能是从一个word文档贴过去。在贴的过程中，自动带入了非常多的超文本格式，这个我之前已经吐槽过了。在格式转换过程中，我不得不费尽九牛二虎之力把那些转回来。其中那些空白的正文，这一次我想把资料填补回去。

昨天我的确好不容易找回了那些资料，也进行了填充，发现效果还不错，但是原始导出的那个BlogBus文件就不再原始了。接着，我发现那些有正文的文章其实也不完全可信，因为正文的内容不知道为什么只有一部分，不是全文。难道发布以后，我没有好好一个一个浏览过吗？还是说点发布之前，我看到的东西的确是完整的，BlogBus没有给我单篇文章字数的限制，但是实际上发布的只是部分。我的问题在于，有可能发布出去以后，我没有在前台校对一遍，但是也有可能我校对过了，当时看是没有问题的，但是当我在BlogBus后台把自己的东西导出的时候出了状况。一开始我觉得可能是我自己的问题，但后来我发现，断字断得好神奇，一个单词可能只剩下头两个字母，显然，如果是我复制错误的话，不会有这么低级的东西，顶多我会漏掉一些段落。现在搞清楚到底是我人为的错误还是BlogBus阉割了我的东西已经毫无意义。所以，我只能一篇一篇地校对文章的开头和结尾，确保是完整的。一些篇幅比较短的文章，暂时我还没发现断尾的现象，但是，对一些比较长的文章，断尾是必然的。纯文字有100K以上那些文章，通常BlogBus只留给我一半的内容，余下的那些消失了，而且还不告诉我。我记得从前选择BSP的时候，我知道有一些是对单篇文章的字数有限制的，到达一定程度以后就会告诉你，超过多少字了，请你重新修改，否则不能发布，但BlogBus没有这个限制，起码在一开始我选择他的时候没有。另一方面，我觉得之所以这样，会不会跟他们数据库的存储模式有关。如果他们数据库的某个存储单元顶多只能100K，我在那里输入了150K的文字。当然多出来的那些就不可能被保存下来，这纯粹只是我的猜测。几十上百篇文章，一个一个去检查头尾是否齐全，格式有没有乱套，这是相当累人的。虽然那些最原始的东西我还有，但绝大多数那些东西我都是保存网页的。现在那些网页已经不能在Firefox里打开了，用Chrome也不行，于是我只能使用IE，而且是兼容视图模式。我不觉得当年我用保存网页的方式把文字记录下来有什么毛病，我只是不明白为什么现在的浏览器不允许我打开那些老东西。

如果当年就有markdown这种这么神奇的东西，大概我就不需要走这么多弯路了。

本文链接：https://my.lmcjl.com/post/8601.html

展开阅读全文

4 评论

擅长工具开发、爬虫采集技术、大数据统计处理！
座右铭：皇天不负有心人。

4 评论

留下您的评论. Cancel reply

相关文章

4 评论

留下您的评论. Cancel reply