Midleading你好!请问如何上传大文件而不会停止?
User_talk:Midleading 中华文库
使用MediaWiki的分块上传,分块大小设小,我分900KB一块,上传开始后把filekey保存起来,上传中断凭此可恢复进度。当然,我用的不是pywikibot,是自己制作的上传工具。如果filekey失效了,去Special:上传藏匿看看最新的filekey是多少。当然,总有少数时候上传会失败,特别是MediaWiki正在更新到新版本的时候。有时filekey失效了,等一天再看又好了,可以继续上传。
我学校的服务器被勒索软件黑了,10tb的内容都加密打不开了。还好要上传的内容在网盘里,但我不会自己上传了。
没关系,辛苦您了,即使没有办法自己上传,帮助帮助整理上传列表让其它人上传也可以。
您有空吗?我把专用网盘的账号密码发给您。
郵件已發送
沒有收到。您還使用的以前的郵箱嗎?
是的,我還使用以前的郵箱
郵件已重新發送
我没有收到您发的邮件。我已经向您发了邮件。您收到了吗?
收到了,真是奇怪。
另外有信息文件,这就发给您。
发给您的文件的目的是从一个网站找到对应的信息,以在上传时加入。
excel表格中,sheet1是用来对应文件名和信息的,通过id。信息在另一个sheet里。
我本来是准备对应好全部再上传,可是用于电脑被勒索软件攻击,文件打不开也没心情这么做了。我已经做了对应的很多工作,上传时请充分使用。对于没有找到id的文件,您可以先不上传,也可以继续我的寻找对应的工作。有的标红的代表还需要再确认,您可以自行确认或者跳过。
强烈建议上传的标题用繁体原文。
您好,我上传了一本,作为参考。之所以把年作为标题,是因为一个纪年有多个县志的情况。还会有地点重名的情况。上传前请注意查重。
這些地方志中有沒有某些分冊版權沒有過期?
似乎有,但是数量极少。我只找到了两个,在表格中用XXXXX标记了。
授權协議全採用{{PD-old}}似乎不妥。
我给您的excel文件里面有日期,可以根据此信息判断。建议将所有的excel信息都加入information。
类别好像有问题,比如“通州志”的类别被归到江苏了,只好忽略这个属性,把所有文件先扔进“中国”分类里面。我的上传系统使用MySQL数据库管理,还需要进行一下转换。文件描述页的内容可能还需要与更多人讨论。
抱歉是我搞错了,就应该是江苏省。江苏省南通市和北京市都有通州。excel表格里可以看到两个省份信息,其中有一个会把海南等归到广州省,另一个不会。
对于您在邮件里提到的来源问题,网盘上说是中国国家图书馆,那么写成中国国家图书馆可以吗?我已经建好了模板,直接应用就行了。 https://commons.wikimedia.org/wiki/Institution:National_Library_of_China
我正在下载来自gdcloud189-person.oos-gz.ctyunapi.cn的文件
北京、上海、天津、臺灣、河北、河南、甘肅、湖南、山东、青海、蒙古、辽宁、安徽、福建、黑龙江、吉林、陕西、湖北、山西、新彊已全部下载。江西已中止至201册,后面无法下载。江苏已下载332册及之后。广东3-87/121册
无法下载浙江、江苏、广西、贵州
下午停止下载
经过估计,我以6MB/s的速度再下载,每天下载10小时,再下载4天能下载0.82TB,还有一定缺口,所以需要协助。
您收到Martin的邮件没有?他可以直接从服务器上传。
把文件从网盘下载回来才是问题,而Martin现在无法下载文件。只要下载回来了,上传不是问题,我多开连接同时上传能够达到很快的速度。
我制作了无人自动下载的程序,晚上也能继续下载了,不过仍然不确定能否赶在截止日期前全部下载。
由于网络原因,今日上传计划取消,同时今日总完成量约500GB,会员截止日期前无法全部下载确定无疑。有的文件来自cloud189-shzh-person.oos-gdsz.ctyunapi.cn且该机房未完成IPv6改造所以无法下载。
我今晚給您發去對照文件,請收到後按上面的內容上傳。
已發送。
現在上傳程式已準備就緒並上傳了兩本書,請檢查。
確實註釋還有些問題,我馬上電郵發新版本。
另外,我注意到了版權問題,中國和美國版權法規不一樣,有一些中國超過保護期的著作在美國還沒有。但也有metawiki:United_States_non-acceptance_of_the_rule_of_the_shorter_term#Statement_from_Wikimedia_Foundation允許維基做出例外,我已經提問。建議在收到可靠回答前,暫停上傳近期文獻。
反正在中国已经没有版权,要不先上传,若有偏执的管理员非要删除再说?
您上傳得好快呀!
另外 |Institution = Template:Institution:National Library of China這一項忘記加了,請加上。
File:通州志_-_萬曆六年_(1578).pdf 一文件已上傳,請勿重新上傳。
今日上傳完成蒙古、西藏、黑龙江、吉林後結束今日上傳,明日更新上傳軟體。
辛苦您了!上传好后,以后出去旅游,想看哪里的历史就都能看了。
最后冲刺 江苏
停止下載,剩下的絶大部分我都無法下載,以後有機會再上傳吧。
如果我再開通一個月会员,閣下能否下載完?
剩下的文件我無法下載,開通了會員也無法下載,要拎着電腦去咖啡廳才能下載,而且坐一天也下載不完。
請問哪些不能下載?
浙江,廣西,貴州,江蘇(部分),雲南, 四川,廣東(部分),江西(部分),我現在整理一個文件列表,檢查電腦上現在有什麼文件。
最終維基共享資源現在有11GB,還有939GB待上傳,一共完成了950GB。
有遺漏很麻煩,再上傳時還要挑。建議先不上傳有遺漏的,補全後再上傳。
建議將註釋文件裡沒有的文件放到一個文件夾裡,上傳到網盤(未加工的版本,上傳應該會是瞬間的),最後識別後統一上傳。
现在只上传了下载完整的文件夹。现在上传不稳定,filekey经常莫名其妙地失效。那个列表还是有点小问题,北京应该是下载完整的,有的文件内容完全重复了应该删除。
我已上傳安徽、北京、福建、甘肅、河北、黑龍江、湖北、湖南、吉林、遼寧、蒙古、青海、陕西、山东、山西、上海、臺灣、天津、新疆、西藏。
正在上傳河南。
👍👍👍
河南220册“0220汤阴精忠庙志(清).pdf”文件名含有敏感词被禁止下载,重命名后正常下载,河南已经完整可上传。
完整的文件夾除寧夏(用于測試)外已全部上傳,現正補傳上傳失敗的文件,約20GB。
感谢上传!
上海15冊「0015光绪南汇县志.pdf」可正常打開,刪除最後一頁時pdftk卡死,改用Acrobat刪除最後一頁,提示「文檔無法保存,讀取本文檔時出現問題(109)」。重新下載後仍有問題。
等过几天回家再说。
除示例263册外江苏已经全部下载,正在上传。
江蘇已經上傳,現正下載廣西,之後陸續下載上傳其它https://cloud189-shzh-person.oos-gdsz.ctyunapi.cn文件。當然,速度會比較慢。
2019年8月26日:廣西已上傳
今日上午10:30左右,Google的所有数据中心从教育网无法访问,无法通过Google Drive将超大文件送出墙。
Google又解封了。
你好,已发送邮件,以后可考虑上传。
收到了邮件,以后考虑上传,不过我从百度云下载的能力非常有限,进度会很慢。
有些掃描包括很多書籍,如果加上分類可便於用戶注意到。能否參與討論?
我觉得能通过搜索找到书籍就行了,没必要新建大量分类。
閣下能否使用{{SKchar}}的模塊套用到{{GJchar}}?只要列出Template:GJchar/字符表中頻數超過10的就行了。
江西已经完成,正在上传,现在还有云南、贵州、四川和浙江未完成,最后处理浙江。
牛!
今天教育网也部署了针对维基百科的SNI检测,谷歌数据中心前几天就屏蔽了443端口。大陆离全体VPN越来越近了。
请问有没有办法使用境外linux服务器下载网盘的可能?
只要有境外服务器,就可以设置VPN把文件送出国,没必要在境外下载。而且通过境外IP使用中国大陆的网络产品不仅速度慢而且在网站后台查水表时显得很可疑,可能会被要求进行手机认证。
只要IP没黑洞,没必要绕VPN。现在主要的工作是将剩余未识别的文件识别后上传。
请问电脑算力是否够,能否将剩余未识别的文件识别文件前后10页提取并压缩后上传发送给我,一起识别?
我發送了一封郵件,請回复。
请问现在上传的主要问题是什么?就差那600册没有信息的了吗?
我正在用维基linux服务器下载哈佛文献图片,之后转成pdf再上传。请问您觉得哪种上传方法最好用?
现在还有四川和浙江没有下载,我最近比较忙,等我有空了会尽快去下载,没有信息的那些我会尽快使用邮箱将摘要发送给您。如果您的服务器位于境外,可以直接使用url2commons等方式,在国内的话上传一般需要使用上传脚本或者上传程序。

感觉一个一个地下载很麻烦,以后还是探索别的方式吧。我看到您有file mover权限,是否可以先以临时文件名命名,之后我和其他用户在commons做标记,您再批量移动?
谢谢!
有种方式可以在我们之间轻松地传输许多文件,就是使用自由网,虽然有点慢,不过这个支持批量上传下载,只需要一直开着电脑最后都能传输完毕,安全性也很好,以我们目前的进展速度来看,这个方式应该还不错,而且在国内外都可以使用。
今天上传四川84GB,还剩浙江134GB需要下载。
您好,请问能否将上传脚本传给我用一用?谢谢!
剛剛已通過Google雲端硬碟分享了文件,請檢查。
谢谢!
请问如何操作?我在\UploadBot\bin\Release将info.txt更改为本地文件名☁上传文件名☁描述信息,之后打开UploadBot.exe选择文件夹。为什么在显示已选择C:\Users\*\*之后,没有反应呢?
這個程式會自動使用C:\Program Files (x86)\PDFtk\bin\PDFtk.exe把PDF文件的最後一頁去掉,然後再上傳,請檢查是否安裝了PDFtk。
您好,有禁止此功能的方法吗?我准备传些别的文件,不需要去最后一页。
如果不修改原始碼,可以在本地文件名前面都加上“pdftk”,這樣程式就會認為這個文件已經去掉過最後一頁。您也可以修改原始碼。
C:\Program Files (x86)\PDFtk\bin\PDFtk.exe早已安装,不论加不加pdftk都无法上传。请问是否需要key?
您需要重命名本地文件,info.txt不用修改,因為這個程式把pdf文件的最後一頁去掉後保存至前面有“pdftk”的文件,如果發生錯誤下次重新啟動時不用人工進行任何處理。
我就是这么做的。文件名:pdftk08011455.djvu。info.txt内容:08011455.djvu☁CADAL08011455_清代学术丛书·第一集·颜氏学记:卷七至卷八.djvu☁test。程序显示 登录成功1 登录成功0 登录成功2 已选择C:\Users\× 任务管理器看不到该程序任何网络交换。
好吧,這個程式只能上傳PDF文件(528行)。
以后有空还请阁下修改,我想上传CADAL数十万册的内容(有缺)。
試試把後綴改為PDF,info.txt中本地文件名的後綴也要改為PDF,但是維基共享資源文件名不要變,這樣傳上去以後在維基共享資源的文件後綴還是正確的。另外,程式上傳成功後會自動刪除本地文件。
好。已經成功了!
新建cred.txt內容為“賬號名☁密碼”能自動登錄。上傳時注意看看有沒有跟https://commons.wikimedia.org/w/index.php?target=MidleadingBot&namespace=all&tagfilter=OAuth+CID%3A+772&start=&end=&limit=50&title=Special%3AContributions重複的。
来源不同,我的这个更清晰 见 链接:https://pan.baidu.com/s/1xgN2ApvIbtSenzQs53m0RA 提取码:p968 和 的区别。
拆分也不一样。
您上傳的文件雖然下載後能打開,但在維基共享資源無法預覧。
很奇怪,瀏覽器測試上傳了一本就能預覽了。
midleading你好,感谢你的软件,现在已经上传了六万个文件了。
很多破损的文件在duxiu网站上都有。但是下载需要付费。我之前同这种方法成功下载过不少我自己阅读的书籍。我看到有人说“我在淘宝买了一个账户密码,还有全套的软件,一套有4个,再加上别人免费给我的软件,总共5个,还有软件注册码,这么多东西加起来19.8元,按卖家说法,可以下载180万本书,还是很划算的。”https://www.zhihu.com/question/23378996 不知道是不是真的。反正看到网上有很多骗子。不过我们也可以留心一下。
真是太感谢您了,最近不好的事情频频发生,腾讯微云又宣布要对以前遗留下来的非会员资源号进行清理封号了,防火墙也动作频频,我的带宽又不是很多,最近真是头疼。浙江间断了这么久今天又去下载了一次,目前已经下载442册,再来三次浙江就能完成了。
能让全世界的人都能更容易地访问中国古文献,我感到很棒。
请问您的腾讯微云有没有可以上传到维基共享资源的内容?
腾讯微云的事情我会自己处理,不用您担心了。现在维基共享资源已经乱成一锅粥了,需要好好整理,目前维基共享资源上面的文件组织方式连网盘目录都不如。
现在我知道的丛书,比较有价值的还有故宮珍本叢刊、中华再造善本、古小說叢刊、民国丛书、中国宗教历史文献集成没有导入,哈佛大学图书馆藏书有人人工导入了几本,InternetArchive里面的四库全书当初我没有导入,有人自己上传了几本,现在也挺混乱。
我准备下一个项目导入哈佛大学图书馆。我写了一个脚本,把高清晰度jpg从官网下载,在本地无损转换成pdf。在速度很快的维基toolserver已经下载了600G,但是由于同时用户太多,转换pdf失败,我已经将这些图片都删除了。我希望能有一个境外高速服务器,可是自己买挺贵的。
即日起.NET机器人程序需要在程序开始加入System.Net.ServicePointManager.SecurityProtocol = Net.SecurityProtocolType.Tls12
才可以继续使用。
請問怎麼加?現在沒法登陸了。
已發送郵件
所有文件已全部下载,您可以用这个账号干别的事情了。
Midleading您好,我上傳的語譯文皆是從路邊拾到的善書舊書寫上,請問有恢復的可能嗎?如果您認為不妥,請忽略。
如果譯文满足維基文庫的收錄標準且屬於公有領域或已獲自由授權,可以新建另一個頁面保存注本,否則可以存到維基教科書。
请封锁Special:Contribs/188.78.133.251,已在中文维基百科、词典和维基共享资源被封锁。
另外,百科和词典有相应的滥用过滤器处理这位破坏者,如果您觉得可以的话我在这里也设置一个。
另外Wikisource:方针与指引可能要半保护。
您好Midleading,在嗎?請問您能否幫我看一下為何要把我封禁?
不要在条目中进行无意义的编辑,不要创建除原始文献以外的其它任何原创内容。
請問我的哪個作品有問題?
謝謝
為何說我像破壞用戶?
《蜀道难》明明已经创建了,不要再次收录,也不要在这个页面加入任何不是由李白创作的资料。在条目中不要进行测试编辑,你可以点击预览按钮,直到结果正确后再保存。你目前创建的所有页面没有一个是符合收录标准的原始文献,希望你下次能够创建符合要求的页面。
Special:用户贡献/Command_day,看起來像破壞用戶
Xipuls,您好。您的理由呢?
您好,最近我正在進行維基文庫的維護(包括加入分類等等),需要使用到AWB。第一次使用的時候尚未設立CheckPage,直接就可以使用了,也因此後來發現Checkpage設立後就擅自加入自己的權限,十分抱歉。請問是否可以再次授予我使用權限呢?
您需要去寫字間提出申請並說明原因。
申請了沒人理,請問我是不是應該ping一下有權限的人…
维基文库就这样,耐心等待一下就行。其实我个人觉得没有必要为作品的每一个子页面都加入分类和新建数据项,因为具有子页面的作品有很多,而且目录页已经等于分类页。还有,加入分类可以使用小工具Cat-a-lot。
個人認為每首詩詞都是獨立的項目(機器人也會在wikidata上自動建立頁面並連結中文維基百科),而不是某本書籍的子頁面。還有咱說的分類和該項目所擁有的性質比較有關係,比如說宋詞、五言律詩、收錄於哪本書等等的。
您在wikidata上也十分活躍,希望能請教您一些問題:
請問我是否有辦法藉由Petscan等工具批量建立新的項目,同時那些項目都可以自動從中文維基文庫引入頁面名稱當成其標籤名稱?
類似地,P1476(標題)通常和維基文庫的頁面名稱相同,是否有通配符(或類似概念)的工具可以自動從zhws擷取自wikidata,而不需一一修改?
雖然您的使用者頁面上有一些代碼,但我真的看不懂QAQ
我一般使用自己編寫的機器人程式編輯維基數據。如果不使用的話,就使用QuickStatements,Petscan僅用於找到符合條件的維基文庫頁面。目前我針對作者 (P50)設計了導入程式,未來也會加入刊载处 (P1433)和性質 (P31)的導入,但是我沒興趣加入标题 (P1476),這個屬性和維基文庫頁面名完全相同,根本沒必要加入,就算加入其數據也未必比維基文庫頁面名更加準確,做維基數據查詢的時候也不會用。
我了解了,非常謝謝您的回覆。不知您是否方便線下連絡,我還有一些技術上的問題想要問您QAQ(目前會使用的東西還太少了…)
在这次调查中分享您的经验
V8k48cnsod6r0bmk您好:
还有几个星期的时间来参加社群见解调查! 我们30%接近了我们对于参与的目标。 如果您尚未参加调查,可以帮助我们实现目标! 通过这次民意调查,维基媒体基金会收集了关于我们如何支持您在维基上工作的反馈。 它只需15-25分钟即可完成,而这对我们提供的支持有直接影响。
请花15至25分钟在本调查中提供反馈。它有多种语言版本。
本调查由第三方主持并由这一份隐私声明管辖(英语)。
了解有关此项目的更多信息。 如果您有任何问题,或者您不希望收到有关参加此调查的未来消息,请电邮联络我们。
謹祝編安
RMaung (WMF) 2019年10月4日 (五) 17:04 (UTC)
在这次调查中分享您的经验
V7p4qom5946gq3af您好:
几周前,我们邀请您参加社群见解调查。 这是维基媒体基金会对我们全域社群的年度调查。 我们希望了解我们如何在维基上支持您的工作。 We are 10% towards our goal for participation. If you have not already taken the survey, you can help us reach our goal! Your voice matters to us.
请花15至25分钟在本调查中提供反馈。它有多种语言版本。
本调查由第三方主持并由这一份隐私声明管辖(英语)。
了解有关此项目的更多信息。 如果您有任何问题,或者您不希望收到有关参加此调查的未来消息,请电邮联络我们。
謹祝編安
RMaung (WMF) 2019年9月20日 (五) 19:14 (UTC)
在这次调查中分享您的经验
V7071wwrhd1lpq8v您好:
维基媒体基金会現正進行调查,以了解您在Wikisource和维基媒体的经历的反馈。 本次调查的目的是了解基金会对您于维基站點的工作的支持程度,以及我们未来如何改变或改进東西。 您分享的意见将直接影响维基媒体基金会当前和未来的工作。
请花15至25分钟在本调查中提供反馈。它有多种语言版本。
本调查由第三方主持并由这一份隐私声明管辖(英语)。
了解有关此项目的更多信息。 如果您有任何问题,或者您不希望收到有关参加此调查的未来消息,请电邮联络我们。
謹祝編安
RMaung (WMF) 2019年9月9日 (一) 14:34 (UTC)
我发现维基文库没有《虞初续志》,打算上传
清朝人编的书,但是实体书是1986年出版的,如果我仅仅根据实体书上传文字,会不会涉及版权问题?
倾向于认为无版权问题,因为实体书上的文字也是根据旧书来写的,没有原创性,所以没有版权。