一、R語言讀取csv文件時(shí),內(nèi)容帶有引號怎么辦
這其實(shí)是空行引起的,我的數(shù)據(jù)是個(gè)別字段包含的\xa0\r\r\n等引起空行的csv識別無能(encoding=LATIN1),重新下數(shù)據(jù)并在保存為Csv前清理這些特殊字段后,再讀入就沒有任何問題了??偨Y(jié),數(shù)據(jù)清理很重要。
以及按readLines讀入,一條條讀,用正則表達(dá)式 , grep取字段完整的行記錄也是OK的,再單獨(dú)處理那些有特殊字符的也可以,不過比較麻煩。
read.csv()也可以從帶分隔符的文本文件中導(dǎo)入數(shù)據(jù)。與read.table()相似,但也有區(qū)別。
語法如下:mydataframe<-read.csv(file,options)
其中,file是一個(gè)帶分隔符的文本文件,options是控制如何處理數(shù)據(jù)的選項(xiàng)。
延伸閱讀:
二、R語言是什么
R是統(tǒng)計(jì)領(lǐng)域廣泛使用的誕生于1980年左右的S語言的一個(gè)分支??梢哉J(rèn)為R是S語言的一種實(shí)現(xiàn)。而S語言是由AT&T貝爾實(shí)驗(yàn)室開發(fā)的一種用來進(jìn)行數(shù)據(jù)探索、統(tǒng)計(jì)分析和作圖的解釋型語言。最初S語言的實(shí)現(xiàn)版本主要是S-PLUS。S-PLUS是一個(gè)商業(yè)軟件,它基于S語言,并由MathSoft公司的統(tǒng)計(jì)科學(xué)部進(jìn)一步完善。后來新西蘭奧克蘭大學(xué)的Robert Gentleman和Ross Ihaka及其他志愿人員開發(fā)了一個(gè)R系統(tǒng)。由“R開發(fā)核心團(tuán)隊(duì)”負(fù)責(zé)開發(fā)。R可以看作貝爾實(shí)驗(yàn)室(AT&T BellLaboratories)的Rick Becker、John Chambers和Allan Wilks開發(fā)的S語言的一種實(shí)現(xiàn)。當(dāng)然,S語言也是S-Plus的基礎(chǔ)。所以,兩者在程序語法上可以說是幾乎一樣的,可能只是在函數(shù)方面有細(xì)微差別,程序十分容易地就能移植到一程序中,而很多一的程序只要稍加修改也能運(yùn)用于R。