Conner's profile☆ Conner Wang ☆PhotosBlogListsMore Tools Help

Blog


    October 07

    MP3文件格式[转载]


    一.概述:
    MP3文件是由帧(frame)构成的,帧是MP3文件最小的组成单位.MP3的全称应为MPEG1 Layer-3音频文件,MPEG(Moving Picture Experts Group)在汉语中译为活动图像专家组,特指活动影音压缩标准,MPEG音频文件是MPEG1标准中的声音部分,也叫MPEG音频层,它根据压缩质量和编码复杂程度划分为三层,即Layer-1,Layer2,Layer3,且分别对应MP1,MP2,MP3这三种声音文件,并根据不同的用途,使用不同层次的编码.MPEG音频编码的层次越高,编码器越复杂,压缩率也越高,MP1和MP2的压缩率分别为4:1和6:1-8:1,而MP3的压缩率则高达10:1-12:1,也就是说,一分钟CD音质的音乐,未经压缩需要10MB的存储空间,而经过MP3压缩编码后只有1MB左右.不过MP3对音频信号采用的是有损压缩方式,为了降低声音失真度,MP3采取了"感官编码技术",即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果.

    二.整个MP3文件结构:
    MP3文件大体分为三部分:TAG_V2(ID3V2),Frame, TAG_V1(ID3V1)

    三.MP3的FRAME格式:
    每个FRAME都有一个帧头FRAMEHEADER,长度是4BYTE(32bit),帧头后面可能有两个字节的CRC校验,这两个字节的是否存在决定于FRAMEHEADER信息的第16bit,为0则帧头后面无校验,为1则有校验,校验值长度为2个字节,紧跟在FRAMEHEADER后面,接着就是帧的实体数据了,格式如下:

    FRAMEHEADER CRC(free) MAIN_DATA
    4 BYTE 0 OR 2 BYTE 长度由帧头计算得出

    1.帧头FRAMEHEADER格式如下:
    AAAAAAAA AAABBCCD EEEEFFGH IIJJKLMM
    13个帧头字符的含义如下:
    Sign Length
    (bits)
    Position
    (bits)
    Description
    A 11 (31-21) Frame sync (all bits set)
    B 2 (20,19) MPEG Audio version
    00 - MPEG Version 2.5
    01 - reserved
    ID3V2 包含了作者,作曲,专辑等信息,长度不固定,扩展了ID3V1的信息量.
    Frame
    .
    .
    .
    Frame
    一系列的帧,个数由文件大小和帧长决定
    每个FRAME的长度可能不固定,也可能固定,由位率bitrate决定
    每个FRAME又分为帧头和数据实体两部分
    帧头记录了mp3的位率,采样率,版本等信息,每个帧之间相互独立
    ID3V1 包含了作者,作曲,专辑等信息,长度为128BYTE.
    10 - MPEG Version 2
    11 - MPEG Version 1
    C 2 (18,17) Layer description
    00 - reserved
    01 - Layer III
    10 - Layer II
    11 - Layer I
    D 1 (16) Protection bit
    0 - Protected by CRC (16bit crc follows header)
    1 - Not protected
    E 4 (15,12) Bitrate index
    bits V1,L1 V1,L2 V1,L3 V2,L1 V2,L2 V2,L3
    0000 free free free free free free
    0001 32 32 32 32 32 8 (8)
    0010 64 48 40 64 48 16 (16)
    0011 96 56 48 96 56 24 (24)
    0100 128 64 56 128 64 32 (32)
    0101 160 80 64 160 80 64 (40)
    0110 192 96 80 192 96 80 (48)
    0111 224 112 96 224 112 56 (56)
    1000 256 128 112 256 128 64 (64)
    1001 288 160 128 288 160 128 (80)
    1010 320 192 160 320 192 160 (96)
    1011 352 224 192 352 224 112 (112)
    1100 384 256 224 384 256 128 (128)
    1101 416 320 256 416 320 256 (144)
    1110 448 384 320 448 384 320 (160)
    1111 bad bad bad bad bad bad
    NOTES: All values are in kbps
    V1 - MPEG Version 1
    V2 - MPEG Version 2 and Version 2.5
    L1 - Layer I
    L2 - Layer II
    L3 - Layer III
    "free" means variable bitrate.
    "bad" means that this is not an allowed value
    The values in parentheses are from different sources which
    claim that those values are valid for V2,L2 and V2,L3. If
    anyone can confirm please let me know.
    F 2 (11,10) Sampling rate frequency index (values are in Hz)
    bits MPEG1 MPEG2 MPEG2.5
    00 44100 22050 11025
    01 48000 24000 12000
    10 32000 16000 8000
    11 reserv. reserv. reserv.

    G 1 (9) Padding bit
    0 - frame is not padded
    1 - frame is padded with one extra bit
    H 1 (8) Private bit (unknown purpose)
    I 2 (7,6) Channel Mode
    00 - Stereo
    01 - Joint stereo (Stereo)
    10 - Dual channel (Stereo)
    11 - Single channel (Mono)
    J 2 (5,4) Mode extension (Only if Joint stereo)
    value Intensity stereo MS stereo
    00 off off
    01 on off
    10 off on
    11 on on

    K 1 (3) Copyright
    0 - Audio is not copyrighted
    1 - Audio is copyrighted
    L 1 (2) Original
    0 - Copy of original media
    1 - Original media
    M 2 (1,0) Emphasis
    00 - none
    01 - 50/15 ms
    10 - reserved
    11 - CCIT J.17
    1)每帧的播放时间:无论帧长是多少,每帧的播放时间都是26ms;
    2)数据帧大小:
    FrameSize = (((MpegVersion == MPEG1 144 : 72) * Bitrate) / SamplingRate) + PaddingBit
    例如: Bitrate = 128000, a SamplingRate =44100, and PaddingBit = 1
    FrameSize = (144 * 128000) / 44100 + 1 = 417 bytes

    2.MAIN_DATA:
    MAIN_DATA部分长度是否变化决定于FRAMEHEADER的bitrate是否变化,一首MP3歌曲,它有三个版本:96Kbps(96千比特位每秒),128Kbps和192Kbps.Kbps(比特位速率),表明了音乐每秒的数据量,Kbps值越高,音质越好,文件也越大,MP3标准规定,不变的bitrate的MP3文件称作CBR,大多数MP3文件都是CBR的,而变化的bitrate的MP3文件称作VBR,每个FRAME的长度都可能是变化的.下面是CBR
    和VBR的不同点:

    1)CBR:固定位率的FRAME的大小也是固定的(公式如上所述),只要知道文件总长度,和帧长即可由播放每帧需26ms计算得出mp3播放的总时间,也可通过计数帧的个数控制快进,快退慢放等操作.

    2)VBR:VBR是XING公司推出的算法,所以在MP3的FRAME里会有"XING"这个关键字(现在很多流行的小软件也可以进行VBR压缩,它们是否遵守这个约定,那就不得而知了),它存放在MP3文件中的第一个有效FRAME里,它标识了这个MP3文件是VBR的.同时第一个FRAME里存放了MP3文件的FRAME的总个数,这就很容易获得了播放总时间,同时还有100个字节存放了播放总时间的100个时间分段的FRAME的INDEX,假设4分钟的MP3歌曲,240S,分成100段,每两个相邻INDEX的时间差就是2.4S,所以通过这个INDEX,只要前后处理少数的FRAME,就能快速找出我们需要快进的FRAME头,可参考下文:

    This system was created to minimize file lengths and to preserve sound quality.
    Higher frequencies generally needs more space for encoding (thats why many codecs cut all
    frequencies above cca 16kHz) and lower tones requires less. So if some part of song doesnt consist
    of higher tones then using eg. 192kbps is wasting of space. It should be enough to use only eg.
    96kbps.
    And it is the principle of VBR. Codec looks over frame and then choose bitrate suitable for its
    sound quality.

    It sounds perfect but it brings some problems:
    If you want to jump over 2 minutes in song, it is not a problem with CBR because you are able
    simply count amount of Bytes which is necessary to skip. But it is impossible with VBR. Frame
    lengths should be arbitrary so you have to either go frame by frame and counts (time consuming
    and very unpractical) or use another mechanism for approximate count.
    If you want to cut 5 minutes from the middle of VBR file (all we know CDs where last song takes
    10 minutes but 5 minutes is a pure silence, HELL!) problems are the same.
    Result VBR files are more difficult for controlling and adjusting. And I dont like feeling that
    sound quality changes in every moment. And AFAIK many codecs have problems with creation VBR in
    good quality.
    Personally I cant see any reason why to use VBR - I dont give a fuck if size of one CD in MP3
    is 55 MB with CBR or 51 MB with VBR. But everybody has a different taste... some people prefer
    VBR.

    VBR File Structure

    is the same as for CBR. But the first frame doesnt contain audio data and it is used for special
    information about VBR file.

    Structure of the first frame:
    Byte Content
    0-3

    Standard audio frame header (as descripted above). Mostly it contains values FF
    FB 30 4C, from which you can count FrameLen = 156 Bytes. And thats exactly enough
    space for storing VBR info.
    This header contains some important information valid for the whole file:
    - MPEG (MPEG1 or MPEG2)
    - SAMPLING rate frequency index
    - CHANNEL (JointStereo etc.)

    4-x

    Not used till string "Xing" (58 69 6E 67). This string is used as a main VBR file
    identifier. If it is not found, file is supposed to be CBR. This string can be placed
    at different locations according to values of MPEG and CHANNEL (ya, these from a
    few lines upwards):
    36-39 "Xing" for MPEG1 and CHANNEL != mono (mostly used)
    21-24 "Xing" for MPEG1 and CHANNEL == mono
    21-24 "Xing" for MPEG2 and CHANNEL != mono
    13-16 "Xing" for MPEG2 and CHANNEL == mono

    After "Xing" string there are placed flags, number of frames in file and a size
    of file in Bytes. Each of these items has 4 Bytes and it is stored as 'int' number
    in memory. The first is the most significant Byte and the last is the least.
    Following schema is for MPEG1 and CHANNEL != mono:
    40-43

    Flags
    Value Name Description
    00 00 00 01 Frames Flag set if value for number of frames in file is stored
    00 00 00 02 Bytes Flag set if value for filesize in Bytes is stored
    00 00 00 04 TOC Flag set if values for TOC (see below) are stored
    00 00 00 08 VBR Scale Flag set if values for VBR scale are stored
    All these values can be stored simultaneously.

    44-47

    Frames
    Number of frames in file (including the first info one)

    48-51

    Bytes
    File length in Bytes

    52-151 TOC (Table of Contents)
    Contains of 100 indexes (one Byte length) for easier lookup in file. Approximately
    solves problem with moving inside file.
    Each Byte has a value according this formula:
    (TOC[i] / 256) * fileLenInBytes
    So if song lasts eg. 240 sec. and you want to jump to 60. sec. (and file is 5 000
    000 Bytes length) you can use:
    TOC[(60/240)*100] = TOC[25]
    and corresponding Byte in file is then approximately at:
    (TOC[25]/256) * 5000000

    If you want to trim VBR file you should also reconstruct Frames, Bytes and TOC
    properly.

    152-155

    VBR Scale
    I dont know exactly system of storing of this values but this item probably doesnt
    have deeper meaning.

    四.ID3v1
    ID3V1比较简单,它是存放在MP3文件的末尾,用16进制的编辑器打开一个MP3文件,查看其末尾
    的128个顺序存放字节,数据结构定义如下:
    typedef struct tagID3V1
    {
    char Header[3]; /*标签头必须是"TAG"否则认为没有标签*/
    char Title[30]; /*标题*/
    char Artist[30]; /*作者*/
    char Album[30]; /*专集*/
    char Year[4]; /*出品年代*/
    char Comment[28]; /*备注*/
    char reserve; /*保留*/
    char track;; /*音轨*/
    char Genre; /*类型*/
    }ID3V1,*pID3V1;

    ID3V1的各项信息都是顺序存放,没有任何标识将其分开,比如标题信息不足30个字节,则使用'\0'
    补足,否则将造成信息错误.Genre使用原码表示,对照表如下:
    /* Standard genres */
    0="Blues";
    1="ClassicRock";
    2="Country";
    3="Dance";
    4="Disco";
    5="Funk";
    6="Grunge";
    7="Hip-Hop";
    8="Jazz";
    9="Metal";
    10="NewAge";
    11="Oldies";
    12="Other";
    13="Pop";
    14="R&B";
    15="Rap";
    16="Reggae";
    17="Rock";
    18="Techno";
    19="Industrial";
    20="Alternative";
    21="Ska";
    22="DeathMetal";
    23="Pranks";
    24="Soundtrack";
    25="Euro-Techno";
    26="Ambient";
    27="Trip-Hop";
    28="Vocal";
    29="Jazz+Funk";
    30="Fusion";
    31="Trance";
    32="Classical";
    33="Instrumental";
    34="Acid";
    35="House";
    36="Game";
    37="SoundClip";
    38="Gospel";
    39="Noise";
    40="AlternRock";
    41="Bass";
    42="Soul";
    43="Punk";
    44="Space";
    45="Meditative";
    46="InstrumentalPop";
    47="InstrumentalRock";
    48="Ethnic";
    49="Gothic";
    50="Darkwave";
    51="Techno-Industrial";
    52="Electronic";
    53="Pop-Folk";
    54="Eurodance";
    55="Dream";
    56="SouthernRock";
    57="Comedy";
    58="Cult";
    59="Gangsta";
    60="Top40";
    61="ChristianRap";
    62="Pop/Funk";
    63="Jungle";
    64="NativeAmerican";
    65="Cabaret";
    66="NewWave";
    67="Psychadelic";
    68="Rave";
    69="Showtunes";
    70="Trailer";
    71="Lo-Fi";
    72="Tribal";
    73="AcidPunk";
    74="AcidJazz";
    75="Polka";
    76="Retro";
    77="Musical";
    78="Rock&Roll";
    79="HardRock";
    /* Extended genres */
    80="Folk";
    81="Folk-Rock";
    82="NationalFolk";
    83="Swing";
    84="FastFusion";
    85="Bebob";
    86="Latin";
    87="Revival";
    88="Celtic";
    89="Bluegrass";
    90="Avantgarde";
    91="GothicRock";
    92="ProgessiveRock";
    93="PsychedelicRock";
    94="SymphonicRock";
    95="SlowRock";
    96="BigBand";
    97="Chorus";
    98="EasyListening";
    99="Acoustic";
    100="Humour";
    101="Speech";
    102="Chanson";
    103="Opera";
    104="ChamberMusic";
    105="Sonata";
    106="Symphony";
    107="BootyBass";
    108="Primus";
    109="PornGroove";
    110="Satire";
    111="SlowJam";
    112="Club";
    113="Tango";
    114="Samba";
    115="Folklore";
    116="Ballad";
    117="PowerBallad";
    118="RhythmicSoul";
    119="Freestyle";
    120="Duet";
    121="PunkRock";
    122="DrumSolo";
    123="Acapella";
    124="Euro-House";
    125="DanceHall";
    126="Goa";
    127="Drum&Bass";
    128="Club-House";
    129="Hardcore";
    130="Terror";
    131="Indie";
    132="BritPop";
    133="Negerpunk";
    134="PolskPunk";
    135="Beat";
    136="ChristianGangstaRap";
    137="HeavyMetal";
    138="BlackMetal";
    139="Crossover";
    140="ContemporaryChristian";
    141="ChristianRock";
    142="Merengue";
    143="Salsa";
    144="TrashMetal";
    145="Anime";
    146="JPop";
    147="Synthpop";

     

    五.ID3V2
    ID3V2到现在一共有4个版本,但流行的播放软件一般只支持第3版,既ID3v2.3.由于ID3V1记录在MP3文件的末尾,ID3V2就只好记录在MP3文件的首部了(如果有一天发布ID3V3,真不知道该记录在哪里).也正是由于这个原因,对ID3V2的操作比ID3V1要慢.而且ID3V2结构比ID3V1的结构要复杂得多,但比前者全面且可以伸缩和扩展. 下面就介绍一下ID3V2.3.
    每个ID3V2.3的标签都一个标签头和若干个标签帧或一个扩展标签头组成.关于曲目的信息如标题,作者等都存放在不同的标签帧中,扩展标签头和标签帧并不是必要的,但每个标签至少要有一个标签帧.标签头和标签帧一起顺序存放在MP3文件的首部.

    1,标签头
    在文件的首部顺序记录10个字节的ID3V2.3的头部.数据结构如下:
    char Header[3]; /*必须为"ID3"否则认为标签不存在*/
    char Ver; /*版本号ID3V2.3就记录3*/
    char Revision; /*副版本号此版本记录为0*/
    char Flag; /*存放标志的字节,这个版本只定义了三位,稍后详细解说*/
    char Size[4]; /*标签大小,包括标签头的10个字节和所有的标签帧的大小*/
    1).标志字节
    标志字节一般为0,定义如下:
    abc00000
    a -- 表示是否使用Unsynchronisation(这个单词不知道是什么意思,字典里也没有找到,一般不设置)
    b -- 表示是否有扩展头部,一般没有(至少Winamp没有记录),所以一般也不设置
    c -- 表示是否为测试标签(99.99%的标签都不是测试用的啦,所以一般也不设置)

    2).标签大小
    一共四个字节,但每个字节只用7位,最高位不使用恒为0.所以格式如下
    0xxxxxxx 0xxxxxxx 0xxxxxxx 0xxxxxxx
    计算大小时要将0去掉,得到一个28位的二进制数,就是标签大小(不懂为什么要这样做),计算公式如
    下:
    int total_size;
    total_size = (Size[0]&0x7F)*0x200000
    +(Size[1]&0x7F)*0x400
    +(Size[2]&0x7F)*0x80
    +(Size[3]&0x7F)

    2,标签帧
    每个标签帧都有一个10个字节的帧头和至少一个字节的不固定长度的内容组成.它们也是顺序存放在文件中,和标签头和其他的标签帧也没有特殊的字符分隔.得到一个完整的帧的内容只有从帧头中的到内容大小后才能读出,读取时要注意大小,不要将其他帧的内容或帧头读入.
    帧头的定义如下:
    char FrameID[4]; /*用四个字符标识一个帧,说明其内容,稍后有常用的标识对照表*/
    char Size[4]; /*帧内容的大小,不包括帧头,不得小于1*/
    char Flags[2]; /*存放标志,只定义了6位,稍后详细解说*/

    1).帧标识
    用四个字符标识一个帧,说明一个帧的内容含义,常用的对照如下:
    TIT2=标题 表示内容为这首歌的标题,下同
    TPE1=作者
    TALB=专集
    TRCK=音轨 格式:N/M 其中N为专集中的第N首,M为专集中共M首,N和M为ASCII码表示的数字
    TYER=年代 是用ASCII码表示的数字
    TCON=类型 直接用字符串表示
    COMM=备注 格式:"eng\0备注内容",其中eng表示备注所使用的自然语言
    2).大小
    这个可没有标签头的算法那么麻烦,每个字节的8位全用,格式如下
    xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx
    算法如下:
    int FSize;
    FSize = Size[0]*0x100000000
    +Size[1]*0x10000
    +Size[2]*0x100
    +Size[3];

    3).标志
    只定义了6位,另外的10位为0,但大部分的情况下16位都为0就可以了.格式如下:
    abc00000 ijk00000
    a -- 标签保护标志,设置时认为此帧作废
    b -- 文件保护标志,设置时认为此帧作废
    c -- 只读标志,设置时认为此帧不能修改(但我没有找到一个软件理会这个标志)
    i -- 压缩标志,设置时一个字节存放两个BCD码表示数字
    j -- 加密标志(没有见过哪个MP3文件的标签用了加密)
    k -- 组标志,设置时说明此帧和其他的某帧是一组

    值得一提的是winamp在保存和读取帧内容的时候会在内容前面加个'\0',并把这个字节计算在帧内容的大小中.
    附:帧标识的含义
    4). Declared ID3v2 frames
    The following frames are declared in this draft.
    AENC Audio encryption
    APIC Attached picture
    COMM Comments
    COMR Commercial frame
    ENCR Encryption method registration
    EQUA Equalization
    ETCO Event timing codes
    GEOB General encapsulated object
    GRID Group identification registration
    IPLS Involved people list
    LINK Linked information
    MCDI Music CD identifier
    MLLT MPEG location lookup table
    OWNE Ownership frame
    PRIV Private frame
    PCNT Play counter
    POPM Popularimeter
    POSS Position synchronisation frame
    RBUF Recommended buffer size
    RVAD Relative volume adjustment
    RVRB Reverb
    SYLT Synchronized lyric/text
    SYTC Synchronized tempo codes
    TALB Album/Movie/Show title
    TBPM BPM (beats per minute)
    TCOM Composer
    TCON Content type
    TCOP Copyright message
    TDAT Date
    TDLY Playlist delay
    TENC Encoded by
    TEXT Lyricist/Text writer
    TFLT File type
    TIME Time
    TIT1 Content group description
    TIT2 Title/songname/content description
    TIT3 Subtitle/Description refinement
    TKEY Initial key
    TLAN Language(s)
    TLEN Length
    TMED Media type
    TOAL Original album/movie/show title
    TOFN Original filename
    TOLY Original lyricist(s)/text writer(s)
    TOPE Original artist(s)/performer(s)
    TORY Original release year
    TOWN File owner/licensee
    TPE1 Lead performer(s)/Soloist(s)
    TPE2 Band/orchestra/accompaniment
    TPE3 Conductor/performer refinement
    TPE4 Interpreted, remixed, or otherwise modified by
    TPOS Part of a set
    TPUB Publisher
    TRCK Track number/Position in set
    TRDA Recording dates
    TRSN Internet radio station name
    TRSO Internet radio station owner
    TSIZ Size
    TSRC ISRC (international standard recording code)
    TSSE Software/Hardware and settings used for encoding
    TYER Year
    TXXX User defined text information frame
    UFID Unique file identifier
    USER Terms of use
    USLT Unsychronized lyric/text transcription
    WCOM Commercial information
    WCOP Copyright/Legal information
    WOAF Official audio file webpage
    WOAR Official artist/performer webpage
    WOAS Official audio source webpage
    WORS Official internet radio station homepage
    WPAY Payment
    WPUB Publishers official webpage
    WXXX User defined URL link frame

    参考网站:http://www.id3.org

    October 06

    推荐一个强大的音乐媒体管理工具

     
      The GodFather 让每首歌都存到该放的地方,对爱乐者来说,在因特网上可以找到各式各样的音乐,真正达到了音乐无国界的地步。但下载了成千上百的音乐之后,要替他们做好分类管理就变成了相当痛苦的一份工作。The GodFather 可以替你在 Freedb.org 及 allmusic.com 上搜寻 ID3 Tag 信息,并替你的音乐文件更名和分类归进文件夹中,方便好用的程度让你吓一跳!
      The GodFather,可以批量更改歌曲标签、歌曲文件名称、文件夹名称,根据歌曲标签组织文件目录,支持MP3、OGG、MPC、APE 格式,可播放 MP3、手动编辑单一歌曲标签、在线取得专辑相关资料...等等。

                                                                                    软件主页Home Page
    October 05

    基本音乐常识[转载]

     
    苏信东软件教程系列:自我音乐 自己动手(一)——抓轨篇

    世纪音频-苏信东
    作者授权本站刊登 未经允许请勿转载
      我经常流连 CD 店,为的就是在琳琅的货架上发现自己为之心动的音乐时那种激动和欣喜的感觉。自己喜欢的音乐要能随时听到,当然就是要将它们做成压缩音频文件,想听的时候便可随手掂来。
      要制作压缩音频文件,需要一个能从 CD 上把音乐提取出来的工具。通常这个过程我们称为抓轨。目前能进行抓轨操作的软件非常多,连许多播放软件也都提供了这一功能,像 Windows Media Player 、 Real One Player 以及 WinAMP 均内置了抓轨功能。工欲善其事,必先利其器。要找到适合自己使用的工具,还先要定下一些条件来筛选一下:
      1、应能方便地检索 CD 的信息,如歌手、歌名等信息,减少输入操作。
      2、应能支持生成常用的可被便携 mp3 播放器播放的压缩音频格式。
      3、应能调节压缩参数。
      4、应能调节抓轨参数。
      等等。这些条件从上到下对使用者的要求越来越高,大家可以参考自己的需求进行选择。
    ●Windows Media Player
      首先我们来看看 Windows Media Player (简称 WMP )。目前最新的版本号是 10 。 WMP 从版本 8 开始具备抓轨功能,但比较戏剧性的就是压缩 mp3 的功能曾经在版本 9 中被去掉,只提供压缩成为微软自己的 Window Media Audio ( WMA )格式。估计是竞争的力量迫使微软在版本 10 重新支持压缩 mp3 格式,因为其他的几个主流播放软件都支持压缩 mp3 。不过版本 10 只能安装在 Windows XP 上面,使用范围受到一定限制。幸好现在许多 mp3 播放器也都支持播放 WMA 格式,因此这一点缺陷问题还不算太大。微软的产品通常都是易用性最好的产品,具有华丽的界面;通过与唱片公司合作,在 CD 信息检索方面除了一般的歌手歌名之外还可以检索到歌词、乐评等其他信息。支持生成的压缩格式就只有 WMA 和 mp3 两种,算是最少的。压缩参数和抓轨参数都不是很多,相对符合对计算机音频技术了解不多的普通使用者。
    ●Real One Player
      Real One Player (简称 ROP )是另外一个比较流行的媒体播放器,目前最新的版本是 2.0 。它分为免费的基本版和需要付费的高级版本。由于抓轨功能包含在基本版本中,所以也是一个可用的选择。由于 Real Networks 公司推出了中文版本的 ROP ,使得易用性得到了极大的提高。它同样支持自动搜寻 CD 信息,但基于 CDDB 的搜寻只有歌名、歌手等基本信息。 ROP 支持的压缩格式稍微多一点,有 AAC 、 Real Networks 自己的 Real Audio ( RA )、 mp3 、不压缩的 WAV 以及微软的 WMA (当然,它对 WMA 的支持比 WMP 本身就少了许多选择)。抓轨功能的设置中具有一个自动测试功能,方便了普通用户的使用。其他抓轨设置也要比 WMP 要多,对于想对抓轨过程加以控制的用户是一个不错的选择。
    ●WinAMP
      不可不提的是老牌 mp3 播放软件 WinAMP 。从版本 5.0 开始支持抓轨功能。 WinAMP 也支持通过 CDDB 去自动搜索 CD 信息。压缩格式方面不多也不少,支持 WAV (压缩 / 不压缩)、 mp3 、 AAC 和开放源码的 Ogg Vorbis ,每种格式都提供了相应的压缩格式参数设置。比较意外的是版本 5 没有提供压缩微软 WMA 格式的支持,这反而在以前的 2.xx 版时是通过输出插件的形式提供了的。抓轨的设置就少得几乎没有,只有一个光驱读速度设置。使用 WinAMP 来抓轨最突出的问题是 WinAMP 在未注册时只能保存 AAC 格式的压缩音频文件,且抓轨速度被限制在两倍速。相对其他播放软件在这个功能上都是免费提供,我不推荐大家使用 WinAMP 来抓轨。
    ●Exact Audio Copy
      对于那些号称有“金耳朵”的音乐发烧友,他们需要最准确的抓轨软件,而最准确的抓轨软件就非 Exact Audio Copy (简称 EAC )莫属。由于这个软件抓轨结果准确的特点,是各音频音乐网站的主推抓轨软件。同时它也提供了对各种压缩格式的支持。 EAC 也已被汉化,在网上有不少关于这个软件的使用讨论和相关教程。这个软件虽然强大,但对于一般的用户来说还是稍嫌复杂,因此这里也不详细讲解,有兴趣的朋友可以到网上找一篇名叫《 EAC 拔苗助长》的教程看看。
    ●CDEX
      抓轨软件中功能比较适中的是 CDEX 。它是一个开放源代码的 CD 抓轨软件,支持 CDDB/freeDB 功能以查找 CD 曲目信息,通过开放式的接口支持几乎所有的音频压缩格式,提供详细的抓轨设置。除此之外,它还提供音频播放、录音以及音频格式转换功能。因此这个软件也是我平时抓轨的主力。一点不足是要进行 CDDB 需要使用已经在 CDDB 注册的 e-mail 帐号,否则无法检索信息;而使用 freeDB 则由于服务器上的 CD 信息数据较少,检索不到 CD 信息而需要手动输入的情况较多。但相比其优点这点小不足就显得不重要了。所以下面我重点介绍 CDEX 。
      抓轨之前应做好一些准备工作。用来抓轨的 CD 不应该有划伤的痕迹。有划伤的 CD 即使是在 CD 机里面播放听不到瑕疵,但由于电脑光驱对数据处理的方式不同可能抓轨的结果就是出现短暂的空白或爆音。光驱是第二个要准备好的工具,早几年的光驱对抓轨的兼容性还各有千秋,不过现在的光驱对抓轨的支持已经很完善,所以只要不是用太旧的光驱就行了。
      开始操作。首先找个软件站下载一个中文版的 CDEX 。我找到的是 Kii Ali 翻译制作的简繁英三语版。由于使用的术语习惯不同,抓轨被翻译为“剽取”,感觉有点偷的意思。安装后运行,先来看看软件提供的设置。在选项菜单下启动设置数值菜单项,在配置对话框中选择常规页。这一页的内容一般需要修改的是临时目录的位置,临时目录用于保存抓轨过程中产生的临时文件。由于抓轨的数据量也不算少,应选择一个有足够空闲空间的盘符。文件标牌(标记)选项可以选择嵌入到压缩文件中的标记的版本, ID3-V2 版本可以写入比较长的信息。常规化音量功能用于调节音乐的音量,一般不需要进行调整。
      文件名页用于定义抓轨后产生的数据文件的命名方式。 CDEX 提供了一些描述符,让用户可以按自定义格式命名。默认的设置适合大多数人。这里需要设置的是 WAV->mp3 和录制的音轨两个文件夹的位置选择。 CDEX 还支持同步产生播放列表,可以在下面的播放列表设置中进行设定。
      光驱页设置光驱在抓轨时的参数。一般情况下都不需要修改(经过反复试验发现即使修改了速度上也没有什么提高)。如果要修改,建议修改加速时间(也即启动时间,在抓轨前先让 CD 转动起来,可以避免由于 CD 未达到标准转速而导致音轨开头出现爆音), 2 秒钟即可。
      编码器页比较重要,这里选择的是使用什么压缩方式来压缩音频以及相应的压缩参数。 CDEX 通过一个开放性的接口去支持各种音频压缩方式,但实际上许多音频压缩方式由于版权或其他原因需要用户自己去安装进行压缩所需的压缩程序,然后设置由 CDEX 来调用压缩程序。 CDEX 本身在安装时自带的压缩引擎有自行开发的 mp2 、基于 LAME 的 mp3 、基于 Windows 自带 Codec 的 mp3 、基于早期版本的 WMA 、压缩 / 不压缩的 WAV 、开放源码的 Ogg Vorbis 、无损压缩的 Monkey’s Audio 。我觉得这里有一些欠缺的是 CDEX 应该提供压缩方式参数的预设,可以极大地方便一般的使用者在选择了压缩方式后对压缩参数的选择。由于篇幅关系,我简单介绍常用压缩方式的参数:
      首先是公共的设置。实时编码方式指的是抓轨时不在硬盘上生成抓获的音频数据的 WAV 文件,把抓到的数据直接压缩。对于现在主流电脑来说完全可以放心地选择这个选项而不用担心计算机处理不过来。
      mp3 编码:建议选择 LAME mp3 Encoder 。一般聆听用途可选择以下参数:版本 MPEG I/ 比特率最小 128kbps/ 模式为立体或者联合立体 / 私有、检查和等四个选项都不选 / 质量选常规或高 / 不使用 VBR 方式 / 输出采样率选自动。如果需要高音质,则可开启 VBR 方式,此时最小比特率可选 64kbps ,最大比特率可选 256 或 320kbps , VBR 方法选默认, VBR 质量选 2 。
      WMA 编码:选择 Microsoft WMA Encoder 。一般聆听用途可以选择 96kBit/s 。 CDEX 对 WMA 的支持只是到 Windows Media 8 ,因此许多在 Windows Media 9 里面才出现的编码设置都不提供。需要注意最好不要选择启动数字权利管理选项。这个选项的作用是给生成的文件上加上数字版权保护,但处理不当有可能造成音频文件无法跨计算机播放,如果丢失许可证则连自己都无法再播放。
      Ogg Vorbis :一般聆听用途可以选择质量设置为 0 (大约相当于比特率 64kbps )或者 2 (相当于 96kbps )。如果需要高音质则建议选择 8 (相当于 256kbps )。不建议使用比特率管理器。
      下来是本地 CDDB 页。用于将搜寻到的 CD 信息记录在本地硬盘上。一般不需要修改。如果你同时使用 WinAMP 来听 CD ,可以通过设置 Winamp in_cdda.cdb 路径(通常是 WinAMP 的安装位置下的 plugins 子目录),实现 CDEX 和 WinAMP 之间的信息互通。由于 WinAMP 使用 CDDB 而不是 freeDB ,因此查找到 CD 信息而无须输入的机会较大。通常我是先用 WinAMP 来查找,找到后再用 CDEX 引用 CD 信息。
      远程 CDDB 页,由于大多数人都没有在 CDDB 上注册登记( CDDB 的查找功能是付费服务)的电子邮件信箱,所以应选择 freedb ,然后填写你的信箱地址。这里建议填写真实的信箱地址,因为你可以将编写好的 CD 信息提交到 freedb 的服务器,提交若不成功会收到通知。一般情况下选择 80 端口的协议便可。
      好,现在我们来看看一个实际的过程。启动 CDEX 后放入 CD 。 CDEX 可以自动发现有 CD 插入并列出 CD 内容。然后我们可以通过 CDDB 菜单选择从何处获得 CD 信息。一般来说,都是选择读取远程 CDDB 项以从远程服务器上获得 CD 信息。另外,一些比较好的 CD 还支持 CD Text ,也就是已经将 CD 的歌手、歌名等信息存放在 CD 上了,那就可以通过读取 CD Text 命令来获取。还有就是前面所说的,通过读取 WinAMP 信息库命令从 WinAMP 的 CD 信息库中获取。获取后建议选择保存到本地 CDDB 以保存这些信息在本地 CDDB 库中保存备用。如果通过各种方法均无法查询到 CD 的信息,那就需要手动录入,直接在歌曲列表的名字栏输入歌曲名字等信息,写完后通过提交到远程 CDDB 命令提交上网,可以方便其他需要这些信息的人。
      在收集整理好 CD 的信息后我们便可以开始抓轨。按屏幕右边第二个按钮:抽取 CD 音轨为已压缩的音频。 CDEX 便会将选中的音轨抓取到硬盘上。抓轨的过程中应注意观察每一条音轨的抓轨操作状态,如果这个状态写着 Xn ( n 为数字)的字样,就表示该音轨在抓取过程中由于某种原因出现了错误,一般应重新抓取该音轨。如果想确切了解在那个地方出现了错误,可以按 F3 键查看详细的出错位置。我发现有相当一部分的 CD 会在歌曲的最后一秒钟出现一个或多个这样的错误,这种情况通常可以忽略。如果一切正常,很快就可以抓取一整张 CD 。
      除了抓轨功能之外, CDEX 的工具菜单下还提供了媒体文件播放器和从模拟输入录制(录音)功能。这些功能与抓轨的关系不大,就留给各位读者自己去体会了。
    ●附录信息:
    HDCD 能否有更好的音质?
      现在买 CD ,许多 CD 上都有如下的一个标记:  。这个标记表示这张 CD 是一张 HDCD 。 HDCD 的原理是利用 CD 音乐每一个信号中微弱的不容易被听到的部分来存放一些在播放过程中可以被支持的播放器所识别并用于调节播放音质的控制指令。据官方资料介绍,在支持 HDCD 的播放器上播放 HDCD ,可将音乐的动态范围从 96 分贝扩展到 102 分贝,增强了可听的细节,达到音质的提高;即使在不能识别 HDCD 的播放器上播放 HDCD ,也都可以通过这些精密安排的信号而获得大约 1~2 个分贝的分辨率提高。不过,由于目前所有的音频编码器都不能识别和利用这些这些控制指令,因此这些控制指令在编码后的数据中就不再存在。换句话说, HDCD 的好音质只存在于直接播放的时候。 WMP 支持播放 HDCD ,图为 WMP (版本 10 )在播放时若检测到 HDCD 会显示 HDCD 标记。
    DVD-AUDIO/SACD 等新格式能否抓轨?
      并不是所有的音乐载体格式都可以拿来抓轨。除了 CD 和 HDCD 之外,现在市场上还有一些比较少见的音乐载体格式,比如 DVD-Audio 和 Super Audio CD (简称 SACD )  。这两种音乐载体格式使用的都是 DVD 光盘来存放数据,但结构上与传统 CD 完全不同。由于要进行抓轨首先要看这种载体格式能否在计算机上播放, DVD-Audio 由于可以被一般的 DVD-ROM 所读取,因此可以抓轨(但由于严厉的版权限制,目前还没有出现可用的软件)。而 SACD 由于使用了特殊的格式,根本不能被计算机所识别并播放,也就无法进行抓轨操作。
    苏信东软件教程系列:自我音乐 自己动手(二)——压缩转换篇
        
    世纪音频-苏信东
    作者授权本站刊登 未经允许请勿转载
      随身一个播放器,音乐便可常伴左右,带给我们舒畅的感觉。但选择那种压缩音频格式才有好的效果,用什么制作软件才更直接方便,也是一件重要的事情。
      现在最流行压缩音频格式当然就是已经有十年历史的 mp3 格式了。没有那一个播放器不支持播放 mp3 格式的音乐文件。这是 mp3 格式最大的优点。但由于 mp3 的技术太旧,所以在众多压缩格式中它的音质是最差的。为达到更好的保真度,现在通常都把音乐压缩为 VBR 方式的 mp3 文件。所谓 VBR 方式是让编码器根据被处理的音乐的特点自动为音乐中的每一个片断选择一个合适的压缩比例,达到高品质的同时又能保持一定的压缩率。但 VBR 方式的 mp3 在便携播放器上播放可能存在问题,最常见的情况是歌曲的长度显示错误,或者播放中会出现跳跃的情况。要压缩 mp3 ,目前最好的软件是 LAME 。 LAME 是一个开放源代码的免费软件,命令行界面,通常需要一些称为“前端”的软件来配合使用以增加易用性。比如 RazorLame 就是一个不错的前端。类似的还包括 WinLamer 等。
      mp3 技术也不是一成不变的。研发 mp3 技术的 Fraunhofer-IIS 研究所在原来 mp3 的基础上也作了一些改进,比如与 CodingTechnologies 合作开发的 mp3PRO 技术,着重还原了 mp3 格式最缺乏的高音部分。并不是所有的播放器(无论是软件的还是硬件的)都支持 mp3PRO 技术,幸好 mp3PRO 是一种向下兼容的技术,在不支持的播放器上至少还能把 mp3PRO 文件作为普通的 mp3 文件来播放。当然,这种情况下的播放效果就是两回事了。
      另一个正在不断上升的压缩音频格式就是微软公司推出的 Windows Media 。经过微软公司的不断耕耘之后 Windows Media 终于在版本 9 得到用户认可,开始获得广泛使用。 Windows Media 9 的特点是可以提供全类型的音乐压缩方案:有损压缩、无损压缩以及面向语音的压缩都同时提供。市场上也有部分播放器可以支持播放 WMA 文件,但是否能支持所有的压缩方式就不得而知。
      开放源码方面的 Ogg Vorbis 由于进展一直都比较缓慢,一度几乎被遗忘。但由于 mp3 格式的发明人宣布对 mp3 压缩器和播放器都一律征收版权费,使世人又重新给予 Ogg Vorbis 极大的关注。这种音频格式的最大特点在于技术公开,软 / 硬件制造商在相应的许可下可以自由使用 Ogg Vorbis 而不需要缴纳任何版权费。因此, Ogg Vorbis 在 PC 上获得的支持非常多,大量的抓轨软件提供抓取为 Ogg Vorbis 文件的支持;相当多的播放器都支持播放 Ogg Vorbis 文件(不过 Windows Media Player 和 Real One Player 并未内置支持,需要安装一个解码 Ogg Vorbis 的 Directshow 插件);许多专业的音频编辑软件都支持读写 Ogg Vorbis 文件等。目前连英国 BBC 广播公司都使用 Ogg Vorbis 技术播放其在线节目,可以说在 PC 上 Ogg Vorbis 是前途光明的。至于硬件播放器方面,由于 Ogg Vorbis 的整数解码器刚出来不久,各 DSP 厂商推出的支持产品还不多。但支持的厂家包括了像德州仪器( TI )这样的巨头,相信很快就可以在播放器上进行播放。
      可能有朋友会问,那 Real Media (文件类型为 RM 或 RA )呢? RM 的音质也可以啊。但对于 RM ,大家可以发现,能播放 RM 的软件除了 Real One Player 之外就几乎没有。这是由于 RM 的技术授权限制非常多,具有排他性,因此在计算机上的支持一直都不广泛。还有就是要制作 RM 文件,也只能用 Real One Player 。如果要解码或修改 RM ,则也只有 Real Producer/Sound Forge 等少数几个软件。而硬件播放器就更可怜,至今我都还没有看到哪个播放器是提供支持的。所以, RM 就不适宜我们的便携播放了。
      其他的压缩格式还有很多,但由于各种原因就极少获得硬件播放器的支持。大多数都只能停留在软件形式了。不过值得一提的就是无损压缩格式 FLAC 。它目前已经加入到 Ogg 计划中(以后就是 Ogg FLAC )。 FLAC 也是一个开放源码的压缩格式。由于它的文件结构设计的比较好,比 APE 格式( Monkey’s Audio )的容错性要高,因此获得许多音乐发烧友的好评。并且由于其开放源码的特点,已经有硬件生产商提供对 FLAC 的支持。但由于它是无损压缩,对于普通的闪存型便携播放器来说,生成的音频文件就显得太大,所以也不适合便携播放。
      在我看来,音质好坏与便携播放的关系并不是很大。由于街头巷尾公车上等各处的环境都不会安静到哪里去,所以即使音质再好也很难听得出来。所以用于便携播放的音频格式还是应该以压缩比为前提。能在有限的空间里放下最多的歌曲才是王道嘛!在这一点上, mp3 就落后了:起码要 128kbps 。低于 128kbs 都有比较明显的变形。而其他较新的格式比如 Windows Media Audio 或 Ogg Vorbis 都能在 64kbps 的比特率下提供接近 CD 音质的效果。所以我把所有的歌曲都抓了两遍:一个是在 PC 上播放的,使用 256kbps (压缩质量值等于 8 )的 Ogg Vorbis ,另一个用于便携,使用 64kbps 的 WMA 。不过这种处理方法是以存放空间为代价的。为了节省存储空间,也可以只使用音质好的压缩格式和参数设置来抓取音乐并保存,在需要使用便携播放的时候再使用格式转换软件临时转换到播放器上。这种方法可以节省存放的空间,现在的计算机速度比较快,中间的转换过程也不会耗费很多时间。但这种处理方法由于涉及到不同压缩格式之间的转换,有可能会严重地影响音质,所以源格式就要以比较高的音质来保存,以避免转换后出来的是一堆垃圾。像我选择的 256kbps 的 Ogg Vorbis 格式,是公认可以与无损格式叫板的有损压缩配置,就适用于这种情况。类似的选择还可以包括 256kbps 的 WMA 、上限是 320kbps 的 VBR 方式 mp3 甚至用无损的 FLAC 格式等。
      好了,我们来看看有什么工具可以比较方便地进行音频格式转换这个工作。在网上找了一下,提供音频格式转换功能的软件实在不少,稍微比较了一下,发现有一个比较好的国产软件,叫音频转化大师。这个软件是一个共享软件。经过测试,发现这个软件支持多种音频格式之间的相互转换,既能处理 G721/G723/G726/GSM 等比较专业的编码,也能处理时下流行的 mp3/Ogg Vorbis/WMA 等编码。关键的一点是这个软件可以实现无须中间文件的直接格式转换,比如把 mp3 转换成为 WMA 这样。软件的界面很简洁美观,操作也很方便。你只需要选择需要转换的音频文件及转换的目标格式加入到任务列表中,点击立刻转化按钮便可。如果需要自定义转换目标格式的编码参数,可以通过选项菜单下的音质设置功能进行设置,设置内容包括有 mp3 、 Ogg Vorbis 、 WMA 等多种格式,可以参考抓轨篇中 CDEX 的设置进行修改。
      不过这个软件用起来还有一些问题:首先是帮助内容简单,由于音频转换操作涉及不少专业性的概念,应给用户比较详细的解释。其次是用于进行格式转换的核心是一个由另一家公司开发的组件,而这个组件在很多音频软件中都有使用,结果是在我的试用过程中由于卸载了使用到这个组件的其他软件而导致音频转化大师无法启动,不断弹出非法操作对话框,需要用任务管理器将音频转化大师进程杀掉。重装之后才恢复正常。希望作者能改进这一点。
      老牌格式转换软件 Awave Studio 也是一个可用的选择。它也是一个共享软件。这个软件支持的音频格式非常多,除了常见的压缩格式之外还支持许多乐器采样格式或者语音压缩格式。 Awave Studio 除了可以进行音频转换之外还可以对音频进行简单的编辑和效果处理。但 Awave Studio 也有一些缺点: 1 、它支持的那些乐器采样和语音压缩格式对于一般用户来说没有意义,反而增加了软件使用的复杂度; 2 、 Awave Studio 的发行包中没有捆绑一些必要的第三方软件,比如 Ogg Vorbis 的支持等,需要自行添加; 3 、功能很多,但都不是很精,部分功能(比如录音)甚至可以用简陋来形容; 4 、易用性不高:发掘型的功能界面(也就是需要右键菜单和层层嵌套的对话框)不够直观,缺乏必要的进度显示等等。因此,总体感觉不很好用。
      还有什么呢?开放源码的软件也有一个,名字叫 Sound eXchange (缩写 SoX )。这个软件的历史比较悠久,可以追溯到当年 AT&T UNIX/386 的年代,但由于主要面向 Unix/Linux 平台,而且是命令行界面的软件所以一直都不很为人所知。但它的功能很丰富,而且都很专业,比如它的采样率转换功能保真度就非常高。随着开放源码的蓬勃发展, SoX 也出现了一些前端,比如 Sound Studio 。 Sound Studio 通过调用 SoX 来实现包括录音 / 播放 / 格式转换等工作。 SoX 支持的音频格式包括 WAV 、 mp3 、 Ogg Vorbis 等。由于 SoX 是一个跨平台的软件,而 Windows Media 格式不能跨平台,所以 SoX 不支持 Windows Media 。可以在网络上找到 SoX 的源代码来自行编译使用(对于大多数用户来说是 Mission Impossible )或者直接使用已编译的运行文件。但许多已编译的 SoX 都没有将基于 Lame 的 mp3 支持和 Ogg Vorbis 支持编译进去(特别是已经编译的 Windows 版本 SoX ),这也使得其可用性大打折扣。
      如果觉得以上方法各有难处(有的要付费,有的不好用等等),你还可以选择通过一些音频编辑软件来进行转换,像后面将会介绍的 WaveCN 就是一个可用的选择。但由于音频编辑软件面向的是编辑而不是单纯的转换操作,因此操作起来相对会繁琐(不断地进行打开 / 另存为 / 关闭操作)而且速度会慢一些。
    ●附录信息:
    文件大小与音质的关系以及如何调整
    压缩音频文件的大小主要取决于进行压缩时使用的比特率 (bps ,每秒钟需要多少个二进制位的数量 ) 。对于一种压缩算法而言,通常比特率越高,压缩得到的音频文件体积就越大,但回放时的音质就较好。但是,有一些误区是要澄清的:
    1 、把已经压缩了的音频文件以比原来要高的比特率重新编码并不会得到更好的音质(比如把 128kbps 的 mp3 转换为 256kbps 的 mp3 )。道理很简单:有损压缩会把信息去除,失去了的东西就永远失去了。
    2 、通过质量较差的有损压缩方式得到的音频文件如果转换为使用高质量有损压缩方式的音频格式(比如把 64kbps 的 mp3 转换为 128kbps 的 Ogg Vorbis )可能会得到更差的音质。由于不同的有损压缩格式使用的压缩方法互不相同,它们对音频组成部分的取舍也不同,造成压缩格式的互相转换会丢失质量。因此不建议大家对一个文件进行两次以上的格式转换。
    3 、压缩音频时所使用的比特率与音频文件本身的采样率没有直接关系,压缩质量是两者相辅相成的结果。
    新压缩格式 / 多声道格式( mp3 Surround 等)介绍
      虽然市场上已经存在许多种音频压缩格式,但新的技术还是不断涌现。目前新的技术趋势在两方面,一是高采样频率和高量化位数;二是支持多声道。由于高采样频率和高量化位数(例如 192kHz/24bit )对于一般家庭用户意义不大,因此此项技术的发展比较缓慢。而多声道技术则随着家庭影院的不断普及而得到快速发展,相应地支持多声道技术的新音频格式也不断出现。首先出现的是微软的多声道 Windows Media Audio 技术,其次是 mp3 Surround 。目前多声道 WMA 已经可以支持最多 7.1 声道 / 每声道 96kHz · 24bit 的编码。 mp3 Surround 则是 5.1 声道 / 每声道最高 48kHz · 24bit 。但多声道音频并不适合便携播放是影响多声道音频技术发展的重要问题。目前已经有一些公司致力于解决这个问题,提出的解决办法从通过诸如立体声耳机这样的普通立体声播放设备来播放经过运算转换后的多声道音频到发明创造新的环绕声耳机等。但要市场广泛接受这些新技术还需要一些时日。
    苏信东软件教程系列:自我音乐 自己动手(三)——影迷篇
        
    世纪音频-苏信东
    作者授权本站刊登 未经允许请勿转载
      乐迷通常也是影迷,好的电影配乐令人回想戏中的情节,或者音乐本身也已经是精品(比如攻壳机动队的主题音乐),使人不禁想把音乐留在身边可以随时欣赏。这个想法可以实现吗?
      答案当然是可以。同样的道理也适用于 DVD 卡拉 ok 碟、音乐会的实况碟等,可以让你在电视上欣赏之余还能将音乐带在身边随处可听。
      要实现这个想法,我们首先要熟悉一下视频 DVD 上的音频。通常视频 DVD 上的音频都是与视频流混合在一起的。一般使用 DTS 或者 Dolby Digital 方式编码。两者都是有损压缩,音质也差不多。对于视频 DVD ,我们需要通过工具软件将混合在视频里面的音频分离出来,然后再转换为适合使用 PC 或便携播放器播放的格式。
      其实还有一种叫音频 DVD 的 DVD 。它才是真正用来播放音乐的 DVD 碟。由于 DVD 本身具有巨大的存储容量,所以它的首要特点就是高保真:最高达 96kHz (采样频率为 192kHz )的播放频率响应!这个数字已经完全超出了人耳的听觉范围( 22kHz~24kHz )。
      音频 DVD 可支持多种音频编码方式,其中最突出的是未压缩 PCM (脉冲编码调制,也就是最通常的音频编码方式)音频的存储能力。由于存储介质是 DVD 碟片,单层单面方式时可以存放 CD 格式的音乐长达 400 分钟,对于最高保真度的 192kHz/24 位音频可存放 74 分钟。同时还可以应用 MLP 无损压缩技术或 Dolby Digital/DTS 等有损压缩技术而进一步延长播放时间。
      音频 DVD 支持最高 6 个声道,且各声道的音频属性相互独立(比如前置声道采用 24/96 ,后置声道采用 16/48 ),达到进一步提高音质和临场效果,但又能节省存储空间的效果。若用户的器材不支持多声道,也可以通过播放器将各个声道重新混合成基本的双声道立体声输出。
      除了音质上的飞跃之外,音频 DVD 还能存储一定数量的图片、动态短片以及提供了可视的菜单,可实现选曲、显示歌词或曲谱甚至相册等。
      介绍了这么多,关键是这些新的音乐载体究竟在电脑上能否得到应用。视频 DVD 相信不用我说大家都清楚,而音频 DVD 由于缺乏相应的硬件和软件一直缺乏支持,同时音频 DVD 由于其高度保真的特点被唱片公司视为容易遭致盗版,每年推出的碟片少的可怜,从另一方面制约了它的发展。特别是索尼公司推出了号称无法盗版的 SACD 技术后 DVD-Audio 的支持更是落入低谷。在 PC 机上可供使用的播放软件就只有 WinDVD 和 PowerDVD 。直到创新公司推出 Audigy 声卡,提供了音频 DVD 的硬件播放支持(随卡附送试听 DVD-Audio 碟一张),音频 DVD 在电脑上才有了发展的基础。随着 Intel 推出的 HD-Audio 规范,音频 DVD 的硬件支持环境将会迅速普及( HD-AUDIO 支持最高 8 个通道以 192 kHz/32 位播放,该规格已经超越了 DVD-Audio ),届时音频 DVD 将可能得到新的发展。
      目前有一些软件工具可以将视频 DVD 的音频提取出来,但由于多声道音频格式才刚刚起步,且多声道技术与便携播放通常使用耳机这一两声道回放设备的矛盾仍未完全解决,因此提取后一般都是要将其转换为普通的双声道音频才适合保存和播放。所以我们的提取视频 DVD 的音乐的方法也是围绕着将其提取并转换为立体声音乐来进行。
      可以处理 DVD 上的内容的软件已经有很多了。其中相当一部份都是免费或者开放源码的软件。其中一个比较好的软件是 Gordian Knot (简称 GK )。 GK 是一个软件包,里面包含了许多可以将 DVD 的内容提取出来制作成 AVI 文件的工具。由于我们只对音频部分感兴趣,所以就只关注音频方面的功能。 GK 在各大下载站均有提供,下载安装后启动主程序,在第一次使用时会提示使用什么语言。由于许多 DVD 都是加密的,因此需要通过 GK 调用包含其中的 DVD Decrypter ,将 DVD 上的内容解密后存放在硬盘上成为 VOB 文件。由于 DVD 的存储容量比较大,因此你需要有足够的硬盘空间。然后,在 Gk 中启动 DXIndex 。它可以将 VOB 文件中的音频部分抓取出来成为一个 AC3 或者 DTS 文件,然后用 BeSweet 软件将 AC3 文件或 DTS 文件转换为最终需要的格式。
      另一方面,需要付费的共享软件也有许多,比如 ACE DVD Audio Extractor 也是一个比较方便的工具。而且由于此类软件不像刚才所说的 Gordian Knot 那样面向的是 DVD 音视频内容的同时提取,而是专注于 DVD 内容音频部分的提取,因此在易用性方面要好很多。但有一个现象,就是许多 DVD 音频提取的共享软件都存在着同质化的现象,不仅功能相同,甚至连软件里面的选项设置也都是一样。估计应该是使用了某些相同的第三方组件的原因。所以,你只需要其中一个就够了。
      下面我们就以捕捉著名电影《七宗罪》结尾的音乐为例,看看如何抓取。首先出场的是 ACE DVD Audio Extractor 。运行软件后选择 Open DVD ,选择 DVD 光盘上的 VIDEO_TS 文件夹(这里显得不够方便),便可列出 DVD 上的章节(见截图左侧)并可从中选择需要捕捉的章节(最后一章是第 37 章)。截图右上的 Input 框用于选择捕捉那个音轨。这张 DVD 是 D9 的,所以音轨非常多,从截图中可见共有 7 条。最前面两条是电影原声,一个是 AC3 格式,另一个是 DTS 格式。最后一条是预混合的两声道 AC3 ,以兼容不支持解码的播放器。其他的都是加了评论或者解说等等。 ACE DVD Audio Extractor 不支持对 DTS 音轨的解码,如果选择该音轨会给出警告信息。下面的 Output 框可选择输出格式、设置生成文件的标记以及选择输出位置,目前支持的格式分别为 WAV 、 MP3 及 WMA 三种。选择格式后可以通过旁边的锤子按钮选择输出格式的压缩参数。右下方的框为预览框,在选择章节的时候可以通过这个功能察看该章节的内容。一切设置好后按 Extract 按钮便可将选中章节的音轨以指定的压缩方式生成压缩文件。转换的速度大约在 2 倍速左右(我的电脑 CPU 是 PIII 1.1GHz ),还可以接受。
      如果改用 GK ,这个过程就稍微复杂一点,但由于 GK 里面捆绑的软件功能比较强大,因此可以对付一些比较棘手的场合,例如使用了区码加密或只有 DTS 音轨等情况。一般的操作顺序是这样的:使用 GK 软件包中附带的 DVD Decrypter ,这个软件可以忽略 DVD 上的区码加密而提取音视频流。启动 DVD Decryper ,打开 DVD 后可以在右上的 Input 框中选择需要提取的章节,在 Stream Processing 页中选择需要处理的播放流。我们只需要音频,因此可以不选中有 Video 字样的流,这样 DVD Decrypter 就不会将视频流提取出来。其他的音频流就像之前介绍 ACE DVD Audio Extractor 那样进行选择。媒体流列表框下面可以选择对媒体流的处理方式,选择 Demux 以解除媒体流之间的混合状态,分开为一个个独立的文件。选择好之后按界面上的那个 DVD 到硬盘的图形按钮便可开始提取。但此时提取出来的只是 AC3 或者 DTS 文件,还不是我们想要的最终结果。此时便需要使用 BeSweet 。启动 BeSweet GUI ,最简单的操作是通过界面上方的 Input 和 Output 按钮选择输入输出的文件名,然后选择中间的 Use AC3 Decoder 、 Downconvert Sample Rate 、 Compress Dynamic Range 。,在 Lame 下拉框中选择 LAME ,最后按界面右下方的 AC3 to MP3 按钮便可开始转换。有兴趣的朋友也可以尝试修改 BeSweet GUI 提供的各种参数选项以控制压缩过程以获得更好的效果。
    ●附录信息:
    Dolby Digital/ Dolby Prologic II /DTS 等多声道技术
      这几个名字指的都是多声道技术。传统的双声道立体声技术所营造的音场效果其实是很有限的,简单说,双声道只能在听众的前面形成音场,而不能营造一个将听众包围其中的音场。为达到更好的聆听效果,多声道技术便出现了。多声道技术中应用最广泛的有以下几种:
    DOLBY Digital
      Dolby Digital 是日本先锋公司与杜比公司联手发展的成果,又称 AC-3 。这是一种全数码录制和播放的环绕立体声系统。它具有 5.1 声道, 5 个声道即左 / 中 / 右 / 左后 / 右后,而 .1 声道是独立的超低音。该技术的应用常见于 DVD 碟片。
    Dolby Prologic II
      同为杜比公司的技术,通过运算将双声道立体声重新分配成 5.1 声道的环绕立体声格式。使 CD 等两声道音源也能产生出环绕音场。
    DTS
      DTS 是数码剧院系统的缩写,由美国 DTS 公司发明。它是一个完整的编码 / 解码系统,将 20 比特的数字化音频信息以 16 比特线性 PCM 方进行编码储存,在重播时通过 DTS 解码器将之分解为 6 声道音响,从而营造出环绕音场。
    DTS 与 DOLBY Digital (AC-3) 的分别
      两者都是有损压缩技术,但两者的压缩比率不相同。其中 DOLBY Digital 的压缩率稍高,因此可以腾出载体的空间以容纳更多的内容。至于听感方面两者都是 6 声道技术,并没有太大的不同。
    苏信东软件教程系列:自我音乐 自己动手(四)——音效篇之一:基本处理
        
    世纪音频-苏信东
    作者授权本站刊登 未经允许请勿转载
      音乐听多了,相信你也会一展歌喉,引亢高歌一曲。但独乐乐不如众乐乐,怎样才能把自己的歌声录下来,使能送给其他朋友一同分享?一个录音软件是肯定不能少了。但如果想做得更好一些,你就需要音频编辑软件。
      一般的音频处理,对于大多数人来说基本上就是这样的一些功能:录音,对录音内容进行剪辑,做做效果,混合两三个声音文件作一首卡拉 OK 。目前国内能提供录音功能的软件不在少数,但能同时提供方便的非线性编辑功能的就不多, WaveCN 是其中一个。 WaveCN 的全名是中文录音编辑处理器 WaveCN ,这个名字起得不怎样,就是够直接。软件是全中文的,包含了比较详细的使用帮助信息和音频处理教程。功能方面提供了包括音频编辑、录音、简单的效果处理、声音混合等。对于一般用途来说是基本足够了。因此这里我们也就以 WaveCN 作为我们的音频处理的基础软件进行说明。
      首先要解开蒙在音频编辑上的一些面纱。由于大多数人对着方面的了解都很少,所以一般都以为操作会很复杂。其实用电脑处理音频是非常简单的。对音频的编辑操作就跟对文本内容进行编辑一样。 WaveCN 处理音频时也是以文档为核心的应用程序,支持多文档操作。在进行其他处理编辑操作之前,你要做的第一件事就是打开希望处理的音频文档,或者使用录音功能录制一个新文件(录音功能在后面再介绍)。
    ●基本文件操作
      在 WaveCN 中,基本的文件操作包括新建,打开,保存,全部保存,另存,关闭,全部关闭等操作。, WaveCN 可以同时打开多个音频文件(当然在一个唯一的时间里,你只能处理其中的一个文件!),大部分的操作都是针对其中的“活动文件”进行的。可以通过主菜单中的文件列表菜单选择或者直接在文件名分页上点击来选择其中的一个文档作为“活动文件”。用鼠标右键点击文件名分页还可以弹出文件操作菜单,可以更方便地进行文件的保存和关闭等操作。
      无论在 WaveCN 中打开的是新文件还是已经存在的文件,一旦打开以后,在工作区中,你就可以进行各种编辑操作和效果处理。保存时可以选择合适的保存格式。 WaveCN 支持 WAV 、 MP3 、 Windows Media Audio 、 Ogg Vorbis 、 MusePack 、 FLAC 以及 Speex 格式。一般情况下,音频数据应该保存为 WAV 格式且不应该应用任何压缩。因为这样才能保证音质不会因为反复的打开 / 保存操作而降低。
    ●基本编辑操作
      在 Windows 下进行文件编辑操作,基本上都是一个样:通过剪贴板剪切,复制,粘贴操作,以及其他的一些附加操作。 WaveCN 的剪贴板功能也都一样。都是通过剪切、复制和粘贴这几个通用的基本编辑命令进行操作。 WaveCN 所使用的剪贴板还有一些自己的特点。通常大多数软件都只提供一个剪贴板,也就是说你新进行的复制 / 剪切操作就会把剪贴板中原有的内容冲掉。但 WaveCN 提供了 10 个剪贴板,可以用鼠标进行选择,也可以用键盘快捷键 Ctrl+1~0 来选择。每个剪贴板都有自己的预览图和属性显示,还可以播放其中的内容,这是许多同类软件所没有的功能。不过, WaveCN 的剪贴板与 Windows 本身的剪贴板是不相同的,因此你无法在 WaveCN 里面复制一段音频然后在其他应用程序中粘贴出来。
      剪切和复制这两个编辑操作是不同的。复制操作不影响所操作的数据,只是把操作内容复制了一份一模一样的到剪贴板中。剪切操作则是将操作的数据从原来的位置移动到剪贴板中,原来位置如果后面还有数据的话便会自动向前移动。
      粘贴操作有不同的实现方式。首先,你可以在文件中定位需要粘贴的位置,然后使用粘贴功能,这样剪贴板中的内容便会插入到定位位置。其次,你可以选择一段数据,然后使用粘贴功能, WaveCN 便会用剪贴板中的内容替换你选择的部分。在这里,我们牵涉到了如何在文件中进行内容定位和选择的操作,请看下文详细解释。
    ●定位
      直接用鼠标单击音频波形区域,便可以看到一条黑线。这条黑线便是定位线。定位的同时, WaveCN 界面下方的工作参数显示区域也会显示出目前的定位位置。你可以通过双击或者右击大数字定位位置区域来改变位置显示的格式。要移动定位线,也可通过键盘上的左右箭头键和 Home 、 End 键进行。
    ●选中区域
      要进行剪切或复制操作都应先选中区域。选中区域代表当前打开文件的一部分或全部内容。使用鼠标的左键在工作区的波形上某一点按住,然后拖住向左或向右,扫过的区域会用反相颜色显示(即高亮显示,亦称“反显”)。在你希望的位置松开鼠标左键,这段反显的区域就是选中区域。如果对选择的位置不满意,可以通过鼠标右键点击或拖动来修饰选择范围。鼠标右键在选择区域的中点左边操作则修改选择区域的起点,如果在选择区域的中点右边操作则修改选择区域的终点。以上操作也可以通过键盘进行,详见编辑菜单下面选择子菜单中的内容。同时,你还可以点击工作参数显示区域“选择”的三个小显示框,然后直接输入想设置的位置并按回车便可。如果希望选中整个文件的内容,可以选择“编辑”菜单中的“全选”命令,也可以直接双击波形显示或者按 Ctrl+A 。
    ●撤销和恢复
      无论何时,只要对做过的操作不满意,你都可以通过撤销和恢复这一对操作来进行还原或者重做修改。在 WaveCN 中,撤销功能是没有次数限制的,换句话说你可以一直撤销操作直到文件还原为最原始的状态。如果你的上一步操作是应用某一特殊效果,恢复时 WaveCN 将弹出对话框,让你重新输入滤镜参数以重新应用该效果。出于节省时间的考虑,当撤销数据的长度超过一定范围时, WaveCN 将向你询问是否存档恢复数据,如果你点击了“否”,那么对于当前编辑的撤销功能就无法进行。恢复功能只有在进行了撤销之后才能使用,可以重做刚才撤销了的操作。但如果你在撤销之后又进行了新的编辑操作,那恢复功能也就无法进行了。
    ●视图
      音频文件有短有长。一个长的音频文件在波形显示中很难表达出来,也很难进行精确的段落选择。这时候,我们需要对波形的可视范围进行操作。视图操作包括放大 / 缩小和移动。放大缩小可以通过视图菜单下面的相应功能进行,建议大家记住快捷键,通过小键盘进行操作就更加方便。视图的移动可以通过以下方式进行:拖动波形显示下面的标尺;拖动波形显示上面的显示区域比例图;右击波形显示上面的显示区域比例图。具体效果大家试试就知道了。顺便提一下的是, WaveCN 不适用于处理时间太长的音频,因为 WaveCN 是为短时录音优化的,因此在处理长时录音(比如 1 个小时)时会比较慢。
      以上就是 WaveCN 里面的一些基本操作,其他的编辑命令基本上就是从这些命令衍生出来的,这里就不啰嗦了。
    ●录音前的热身
      终于来到录音部分了。之所以要把录音放到这里,是因为其实录音并不是一件简单的事情。没有做好充足准备情况下的录音大多数可能是录到淹没在噪声的海洋中的一些朦胧不清的声音(当然有点夸张)。虽然大家都不是在封闭的录音棚里面录音,用的也不会是数千元一只的专业话筒,但正因如此,在录音前的准备工作便尤其重要。
      WaveCN 的录音功能在同类软件中也应该算是排得上号了。从 1.80 版本开始录音功能进行了大量的强化和调节,目前支持的特定包括: CD 播放同步录音、精确到 50 毫秒间隙的录音段落、声控自动录音、录音时间标记、直接录制为 WAV 文件。灵活的操作设置界面,可以方便地显示 / 隐藏录音设置。 2.00 版本更加增加了可任意编排的定时录音功能。下面,我们就用两个例子,分别是从麦克风录制和从 CD 录制来说明一下录音功能的使用方法。
    ●例 1 :从麦克风录制
    1 、录音之前的准备工作
      能录下声音没什么困难,但要录得好就并不是那么容易。因此这里我将会详细讲解。
      首先,大家要注意录音的环境是否太嘈杂。曾经有人寄了一段音频给我看能否从噪声中把人声提取出来。结果很显然是失败的:那段音频中噪声的音量比人声还要大,而且整段音频都严重地溢出(统计溢出的功能在效果菜单 - 数据分析 - 统计中),即使动用到了专业的音频处理工具(包括 SoundForge 等)都根本无法将两者分离开来。因此,大家可以从这个例子对环境噪音给录音带来的威胁的严重性有一个感性的认识。要降低环境噪音,除了找一个比较安静的环境之外,还可以在录音的环境里放置大量的多孔性材料比如海绵或纺织品等用于吸音。
      其次,麦克风的质量本身也是非常重要的。普通的十块八块一个的麦克风其频率响应范围是很窄的,用来录制人声也只是刚刚好。我建议为取得比较好的录音效果至少应该买一个唱卡拉 OK 的话筒,然后用一个大转小的转换插来插到声音卡上。但这种话筒大多数都是单声道的,双声道的比较贵。如果使用的麦克风或者话筒是双声道的,那还要注意它的左右声道阻抗偏差是否太大,如果偏差太大的话会造成一边大声另一边小声的现象。但这个指标就比较难以分辨了,因为没有办法找到足够好的参照,特别是在购买时。录音的时候要注意不要正对麦克风的拾音头,因为口中呼出的气流很容易造成“扑”的声音。可以适当地在拾音头上加多一层薄的海绵来减弱气流的影响。但太厚的海绵会造成收音的音量降低和音调发生变化,所以一定要加以试验。
      再次,声音卡本身的质量也是非常关键的,这也是为什么有专业声卡和普通声卡之分的原因之一。许多普通的声音卡录音功能都比较马虎:模数转换的精度不高,本底电流噪音较大,存在直流偏移,还有更甚的,本身的左右声道输入都是不平衡的。经本人测试的声卡不下数十种(当然,我这里不能说出那些声卡的名字),很多都存在这样那样的毛病。有条件的情况下尽量买好一点的声音卡,没条件的就只能在录音后加以处理来弥补了。
    2 、录音对话框介绍
      启动 WaveCN ,点击录音按钮打开录音界面,可以见到一个包含有7个功能模块组别的控制界面,以及右边的三个按钮:关闭-关闭整个录音界面;帮助-调用软件的帮助;最小化-把软件最小化,用于在后台进行录音,并且,如果录音在进行中,则小图标还会以动画方式显示,提示录音正在进行。下面逐一解释软件所提供的各个录音设置和控制功能:
      1 )录音设置,可以通过按 Ctrl+1 的组合键来快速显示 / 折叠。其它各组依此类推。录音设置中,音质设置选择的内容包括频率、通道数和采样位数;这些参数直接影响录音的音质,你可以通过右边的录音设置预设功能调用一些常用的设置,也可以通过该功能保存一些你自己独有的比较特殊的设置。至于频率、通道数和采样位数的详细解释可参考教程后面的术语解释或 www.WaveCN.com 上的文章。录音端口功能可以选择从声音卡的那一个输入端口进行录音,旁边的音量调节可以调整录音的音量。如果觉得这里提供的控制还不足够,可以通过系统混音器按钮调用 Windows 的混音器进行设置。通常,在录音之前都要先试录几次,以确定一个合适的录音音量设置。
      2 )录音方式,选择音频保存的方式,默认情况下是录音到临时文件,这样在录音完成关闭录音界面后 WaveCN 便会自动打开所录到的内容。若不关闭录音界面重新开始录音,会把之前的录音内容覆盖掉。对于需要多次录音的情况,也可以选择录制内容直接保存到 WAV 文件,并通过下面的浏览按钮选择保存位置和保存文件名。每进行一次录音,就应该修改文件名一次,否则会把之前的录音文件覆盖了。以后 WaveCN 还会支持直接录制为 MP3 和 OGG 等文件格式。
      3 )时间记录,可以在录音过程中记录下录音段落的信息。这个列表的内容可以手动添加,也可以在下面介绍的声控录音功能中或直接关联录音控制动作而自动添加。这些记录的作用是为了方便后期编辑和处理。
      4 )声控录音,这是很多需要付费的录音软件才提供的功能,可以根据设定自动判断是否需要进行录音,应用这个功能在某些情况下可以大幅度减少录音的数据量,而且由于总的录音长度减少,实际的效果比单纯的直接录音为压缩文件(比如 mp3 )还要好。
      选择 " 启用声控录音 " 后我们需要调节声控录音的设置,以适应录音环境。调节方法既可以通过在右边的声控录音预设中选择预定义的音量设置,也可以在中间的有 / 无声分辨设定中手动设置,更可以让软件自动计算音量:在第五组录音控制中按准备按钮,进入录音的准备状态,此时开始环境噪音测量按钮便成为可操作状态。按下此按钮软件便会自动计算所找到的最大环境音量。当然,计算过程中你应该尽量保持环境声音的嘈杂程度就是正常工作的状态,不要刻意保持安静,也不应制造大量的声音。待噪音电平显示相对稳定之后,再次按下此按钮(按钮上的文字会变为停止环境噪音测量)便可停止计算,且当前计算所得到的值会自动填入中间的有 / 无声分辨设定中。需要注意,这个数值是一个负数, 0 表示最大。至于无声片断保留时间的用途是避免打开声控录音之后声音的跳跃感太强烈而设。通常一般的人声录音在 200 毫秒左右效果较好。最后,我们只需要按下应用按钮便可使这个设置的内容生效。
      其它的选项包括:自动添加时间记录选择框可以使软件在每一次探测到需要录音和每一次录音暂停时都自动添加一个时间记录。使用百分比选择框可以使有 / 无声分辨设定的设置使用非专业的百分比表示方式。
      作者在这里建议各位用户应进行多次试验以确保声控录音的设置可以按你的设想进行工作,若设置不当可能会录下多余的内容,或错过需要录下的内容。
      5 )录音控制,直接控制录音的进程。左边的是功率表,显示录音信号的功率强弱。有些人问为何不显示波形或频谱,答案是在录音阶段只有功率是最重要的,可以直接判断录音内容是否过荷。监控选择框可以用于控制是否显示功率表。 CD 播放器可以用于控制播放 CD , CD 同步选择框可在按下 CD 播放器的播放按钮时自动开始录音。准备、开始、暂停、停止四个按钮用于控制录音过程,每个按钮都有一个快捷键,可以很方便地进行键盘控制。点击开始 / 暂停按钮时自动添加时间记录选择框可用于更容易地向时间记录中添加项目。录音控制快捷键设置为全局快捷键可以将上面四个按钮的快捷键定义为系统热键,这样即使 WaveCN 不是处于活动状态也可以控制录音过程,尤其适合 WaveCN 在后台特别是最小化状态下进行录音时使用。持续时间、文件大小、可用空间、可用空间比例是录音进行中的与录音数据量有关的一些显示。
      6 )自动控制,可以用于录音过程中的一些自动控制,以减少人手操作。自动停止录音可以设置一个自动停止录音的条件,这个条件可以是总的录音时间长度或者单个录音文件的数据量。自动分割文件功能必需选择录音方式为录制为 WAV 文件时才有效。分割条件根据阶段录音时间长度和单个录音文件的数据量。这两个功能都需要按应用按钮设置才能生效。需要注意的是,若选择根据录音文件数据量使用自动分割文件,则自动停止录音功能就不应选择数据量方式,否则有可能会根本不停:当分割文件的数据量设置小于自动停止的数据量时。
      7 )定时录音,可以设定多个录音时间段, WaveCN 会根据这个时间段自动录音,大大减轻人手的参与程度。录音时段可以不定义开始时间,表示马上开始;不定义结束时间表示一直录音不自动结束;但不能两者都不定义;最短录音时段不能少于 2 秒。可以通过读取和保存按钮将时间段的设置保存起来,保存的文件类型是 WSR ( WaveCN Schedule Record ),内容是 INI 格式,可以使用任意一个文本编辑器进行修改。定义好时间段后可以通过开始定时录音按钮进入定时录音状态,按取消定时录音按钮退出状态。定时录音进行时会通过列表框显示正在处理哪一个时间段。可以在定时录音进行中动态添加或插入时间段,当然,在正在处理的时间段之前进行时间段插入操作是毫无意义的。
    3 、录音过程
      其实到了这里应该大多数人都会使用录音功能了,不过还是简单说说:
      首先,我们把上面说的准备工作做好,进入录音界面,选择合适自己录音的设置,然后按“准备”按钮。此时录音功能启动,但只是处于准备状态,并不会将录到的音频保存。在准备状态下可以根据功率表调节录音音量和测量环境噪音强度。
      点击“开始”按钮开始录音。此时录到的音频将会被保存,同时不断显示录制的音频长度,磁盘空间的情况等信息。
      如果需要中途暂停录音,可以点击“暂停”按钮。此时录音进入暂停状态,录到的音频不会被保存。再次点击“开始”按钮可以继续录音。
      如果想停止录音,可以点击“停止”按钮。此时音频已经录制到磁盘上。如果你选择的录音方式是临时文件方式,则可以按“关闭”按钮退出录音功能,转到编辑状态。若不退出而再次按“准备”按钮开始录音,则原有的录音内容将会被消除,重新录制。如果选择的录音方式是直接录制为 WAV 文件的方式,可以修改文件名以继续进行其他录音(若不修改则原录音内容被消除)。若按“关闭”按钮则退出录音功能并自动打开刚才录制的文件进行编辑(若曾经录制多个文件, WaveCN 只会自动打开最后一个文件)。
    ●例 2 :从 CD 录制
      1 、录音之前的准备工作
      由于是从 CD 上录音,因此不需要考虑环境噪音的问题,但要考虑光驱的质量。当然,超出 WaveCN 范围的东西这里就不讨论了。如果使用 Windows2000 以上的操作系统,可以打开数字播放功能,大多数情况下可以获得较好的、较少干扰(据本人试验,某些光驱若与硬盘使用同一条数据线时,播放 CD 的同时如果有硬盘操作则会引入噪音)的音质。另外,光驱和声音卡的模拟音频连接线有两种连接接头,如果在安装的时候使用了错误的连接线,则会造成左右声道调换或只有一边声道有声音的情况。
      2 、录音过程
      这里最主要的就是与 CD 播放的同步。在录音控制设置组中的 CD 播放控制下面有一个选择框: CD 同步。这个选择框可以起到在按下 CD 播放按钮的同时开始录音,在按下停止按钮的同时停止录音。其他的事情就跟例 1 相同了。
    ●其它的一些与录音相关的说明:
      录音端口通常都有很多个,其中立体声混音 / 立体声输出 / 立体声 /Stereo Mix/Stereo Out 等等字眼的端口表示你的声音卡支持直接对立体声输出进行录音。这样一来就可以很方便地利用 WaveCN 录制任何经由你的喇叭发出的声音。
      端口名是线路输入 /Line in 等,可以用此端口接驳录音机,将磁带转录到电脑中。不过你需要找一条音频线,两头都是耳机插头的那种进行对联。如果你的录音机比较先进,还可能需要找其他的插头种类的音频线进行连接。这里无法一一列举了。
      端口名是麦克风 /Mic/Microphone 等,此端口可用于从话筒或者麦克风那里进行录音。不过前面也都说了,用计算机进行录音实在是干扰太大,而目前 WaveCN 未提供降噪音功能,因此如果你真需要录制麦克风的声音那可能需要找个比较好的麦克风,比如卡拉 OK 里面用的那种,然后通过转接头将其连接到你的麦克风插孔上,这样的得到的音质比较好。
      但凡录音一定要注意录音的信号不要太大。一般来说,通常都先要预录数次,反复比较以找到一个比较好的录音音量。
      WaveCN 目前没有设置任何录音的时间限制,但作者我不建议大家录制太长的声音(比如超过半小时),因为有可能于由于单个文件的数据量太大而产生无法保存文件或程序崩溃这样的错误。如果你发现 WaveCN 出现了这样的错误,尽量向作者报告并附上出错时候的屏幕截图。
    ●效果处理
      WaveCN 提供以下多种特殊效果处理操作,并会随着版本升级而不断增加。使用这些操作可以获得一些奇特的声音,或者在自然界不太可能获得的声音,或者可以强化声音的某方面特性。这些效果操作的介绍可以参加每个功能对话框的帮助说明。当然,说是没用的,找个声音文件来实战一下就一清二楚了。另外,大多数的效果功能都提供了预选设置,大家可以直接选择 WaveCN 提供的预选设置进行操作以增加感性认识。还有就是,每个效果操作都具备了帮助功能,如果在使用的时候对效果的设置不明白的话可以参考一下帮助内容。注意:如果选中了音频的一个段落,则效果操作在选中的段落上进行,否则默认在整个文件上进行。
    ●播放控制
      做了一大堆编辑和效果处理,当然想听听究竟出来什么效果。 WaveCN 的媒体控制功能其实就是播放控制,用过播放器的朋友都会熟悉。 WaveCN 可以从文件的开头进行播放,也可以从定位位置开始播放,更可以只播放选择的区域。提醒大家的是,空格键在播放时可以起到播放 / 暂停状态切换的功能,是非常方便的控制键。在播放的过程中也可以重新按下播放键以实现立即重播。
      在播放的同时,屏幕右方的功率表便会根据播放内容实时地跳动,可以告诉大家播放内容的功率有多大。这个功率表显示的是从音频数据直接计算得到的功率值,与声音卡的音量设置没有关系。可以通过用鼠标右键点击功率表,从弹出菜单中选择合适的功率表显示参数。
    ●音频混合
      最后是音频混合。其实这个功能在 WaveCN 中是非常简单的:它就是编辑菜单的“混合粘贴”功能。也就是 WaveCN 是通过剪贴板进行音频混合的操作。假设现在有两个文件需要进行混合,那这个混合步骤就是:
      1 、用 WaveCN 打开这两个文件,我们称之为文件 A 和文件 B ;
      2 、切换到文件 A ,全选并复制文件 A ;
      3 、切换到文件 B ,在音频显示上选择合适的混合起点,选择编辑菜单下面的“混合粘贴”功能。
      4 、播放混合后的音频内容看看混合结果是否满意。
      只是简单的四步操作便可以轻松地实现音频混合。也就是说你可以将音乐原声与你唱的人声进行轻松的混合,然后保存为 MP3 便可以发给你的朋友让他们来欣赏你的杰作!不过,这个混合操作过程还有一些事情是要注意的:
      1 )两个文件各自的音量不能太大。如果音量太大的话混合后会出现音频被“削峰”的现象,听起来会非常刺耳。应先利用 WaveCN 效果处理中的音量调节功能进行音频本身的音量调节,至于调整到多少为合适,一般可以通过效果处理中的统计功能来分析,看分析结果的峰值。若为一半的采样最大值一下就可以。
      2 )选择合适的混合起点可能需要将音频显示区域放大,这样才能获得精确的定位。
      所以,反复的混合 / 试听 / 撤销过程是很有可能发生的。为能尽快找到混合点,建议先复制文件 A 的开头一段进行试混合,找到合适的混合位置之后再将完整的文件 A 混合粘贴到文件 B 上。
      看到这里,相信你也对音频编辑有一定的了解了,那就快下载一个 WaveCN 来试一试,让你的歌声在网络上飘扬!
    解释一些音频编辑的术语:
      dB/ 分贝:是一个比值,常指声音的强度,也用于其他需要进行能量强弱比较的环节,如信噪比。
      Hz/ 赫兹:频率的单位,指波在 1 秒钟内的周期数。
      采样:对物理的声音记录其某一时刻时能量的强度值,称为采样。
      采样频率:根据一定的时间间隔进行不断的采样操作,在 1 秒钟内发生采样操作的次数。
      采样位数:记录每次样本值大小的数据的位数,采样位数越多,所能记录声音的变化程度就越细腻,所需的数  据量就越大,通常有 8-bit 、 16-bit 和 32-bit 三种。
      抖动:在一个强的信号(声音)上叠加一个微弱的、有固定规律的信号以增强听感的方法。
      淡入:声音从弱到强的过程
      淡出:声音从强到弱的过程
    苏信东软件教程系列:自我音乐 自己动手(五)——音效篇之二:高级处理
        
    世纪音频-苏信东
    作者授权本站刊登 未经允许请勿转载
      如果你对 WaveCN 提供的音频编辑功能不满足,那还有许多准专业 / 专业软件可以选择。 Cool Edit Pro ,被 Adobe 公司收购后改名为 Adobe Audition ,是一个准专业音频编辑 / 多轨混音软件。这个软件虽然是准专业软件,但功能上与许多专业软件相比毫不逊色。它的特性包括:
      1 、单轨音频编辑处理。除了基本的各种编辑功能之外,它对长时间段的音频的支持是不错的。另一方面,它提供了许多音频处理效果,特别是提供了降噪功能,可以去除音频中的各种噪声,在我的试验后觉得效果最好的是高频电流声的去除,比如消除磁带录音的嘶嘶声。
      2 、多轨的混音编排
      这里的混音与刚才讲解 WaveCN 时所提到的混合是两个概念了。 Audition 也提供音频混合,但这不是它的强项。混音才是它的重要功能。它可以支持最多 64 条音轨的同时混合播放,并可以在每条音轨上应用不同的效果。打个比方,你手头上有一首歌曲的立体声伴奏(音轨 1 ),然后你录了一段自己唱的声音(音轨 2 ),觉得不够过瘾再录了一段饶舌(音轨 3 ),最后便可以通过 Audition 把这 3 条音轨混合在一起播放,播放的同时还可以应用诸如音轨的左右漂移(某个声音左边跑到右边,再从右边又跑到左边),音量变化等效果。凡是能支持多轨编排播放的软件又称为音序器。但这些操作已经属于音乐工业的专业操作,对于一般用户意义不大,所以我在这里还是介绍它的一些处理功能。
      首先就是备受好评的降噪音功能。不过大家先要把这句话铭记在胸:再好的降噪软件也无法化腐朽为神奇,包括 Audition 。如果你的录音里面噪音音量比有用的声音还大,那即使能消除噪音,有用的声音也所剩无几。所以降噪音的第一要务就是把好录音环节这一关,然后再通过软件对录音中存在的一些细微的噪音和小缺陷进行修正。 Audtion 提供了多种噪音消除功能,包括: Click/Pop Eliminator (用于消除突发性的爆音)、 Clip Restoration (修剪恢复,补充音频中缺失的部分)、 Hiss Reduction (消除高频咝声)、 Noise Reduction (通用的消除噪音)。我介绍其中一个: Hiss Reduction 。 Hiss 指的是“咝咝”的噪音,比如从磁带录音机那种特有的噪音就属于这个功能可以对付的范围。从菜单中选择 Hiss Reduction ,出现一个比较复杂的对话框。是否感到有点头晕?没关系, Audition 也提供了预设功能,可以从中选择已经设定好了的处理设置。所以我们只需要选择其中一个设置,按 preview (预览)按钮试听效果,不满意则选择其他设置再试,或者尝试修改一下处理参数,直到满意为止才按 ok 按钮接受处理结果。如果想修改参数,建议修改的项目包括: FFT Size ,增加此值可以提高处理的准确度,但同时会降低处理速度。 Reduce Hiss by ,选择把检测到的噪声降低多少个分贝。 Remove Hiss/Keep Only Hiss ,可以选择是去除噪音还是保留噪音(即去除非噪音的声音),最大用处是可以知道处理设置会否把有用的声音都去掉了。 Auditon 的帮助内容也非常详细,不过充斥着一大堆专业术语且没有中文版,可读性实在不高。
      Audition 也同样提供音频混合功能,在编辑菜单下的 Mix Paste 功能便是(见截图)。 Audition 在这个功能中提供了混合时的音量设置和混合方式(插入 / 覆盖(混合) / 替换 / 调制)选择。四个方式中覆盖(混合)方式便是我们需要的混合功能,其它三个意义都不大。不过如果想创造一些特殊效果则可以选择调制方式。 Mix Paste 功能可以选择从 Audition 本身的剪贴板、 Windows 的剪贴板以及从文件获得要混入的音频数据。 Mix Paste 功能还可以通过选择 Loop Paste 并设置循环次数以一次操作便可重复混入同一音频数据多次。这些参数都极大地方便了混合操作。
      Audition 还提供了其他功能,比如图形均衡器。平常我们在播放软件或播放设备上常见的均衡器在 Audition 中是作为一个音频处理功能提供,用户可以通过图形均衡器去调节音频数据中各个频段的能量强度从而达到改变其听感的效果。 Audition 的图形均衡器非常专业,最大可提供 30 个频段,这在专业音频处理软件中也不多见。使用方面则非常简单,你可以直接拖动每一个频段对应的滑动条来设置相应频段能量强度的增强 / 衰减幅度,或者在 Presets 中选择预先设定的各种均衡调节方案。修改均衡设定的同时还可以在对话框上方的图形中观察到实际的音频均衡设定图,十分形象。这个功能也同样提供了预览,可以不断地修改均衡设置进行预览直到满意为止。
      除了音频编辑处理以及多轨编排之外, Audition 还提供了 CD 制作功能。不过个人觉得 Audition 完全没有必要去踩这趟浑水。因为 Nero 等传统 CD 制作软件已经深入民心, Audition 的这个附加功能意义不大。
      说了这么多好话,我们回过头来看看 Audition 有什么不适合做的事情:那便是录音操作。录音是 Audition 做得比较一般的功能,主要缺点是缺少附加在录音功能上的其它附加控制,比如定时录音等。当然,录音功能的简单化与其本身的功能定位有关,但这也预示着我们需要使用其它软件才能比较方便地进行录音操作。
      Audition 在同类软件中也只能算是一个入门级的多轨音频编辑软件。真正专业的软件包括有 Samplitude 2496 、 Sonic Foundry ACID Pro (已经被索尼公司收购)等。这些软件都是以专业的多轨音频编排著称,他们的特性一般都包括支持 64 条以上的音轨独立编排同时播放、支持专业声音卡的高采样率 / 高量化级数 /ASIO 驱动界面、基于 DirectShow 的实时音频效果过滤器、仿真硬件的操作界面(类似专业调音台,特别是 Samplitude 2496 )、外围硬件控制(比如支持 MIDI 的电子琴或者采样发生器等等。通过这些工具可以轻松实现真正的音乐工作室,在自己创意的引导下谱奏出属于自己的音符。
    October 04

    idx+sub图形字幕转成srt文本字幕[转载]

     

    先说说现在比较流行的字幕格式,分为图形格式和文本格式两类:

      由idx和sub文件组成的字幕是一种图形格式字幕。idx相当于索引文件,里面包括了字幕出现的时间码和字幕显示属性等,sub文件就是存放字幕本身了,注意是图片格式的,所以比较大,动辄10M以上了。idx+sub可以存放很多语言的字幕,提供了在播放的时候的选择。

      srt是最流行的一种文本格式的字幕。这种字幕比较小,一般大不过百来k。因为其制作规范简单,一句时间代码+一句字幕,使得制作修改就相当简单。配合上.style文件还能让srt自带一些字体上的特效等。

      文本字幕一般通过对图形字幕进行OCR或者手工制作生成,OCR英文字幕不难,毕竟英文识别难度小嘛,OCR中文难度就大一些,所用的软件个头也不小(SubOCR,30多M,带中文字库的subTosrt要50多M)。
     
    本文介绍由SubRip结合subTosrt来实现idx+sub图形字幕转成srt文本字幕。

    第一步:使用SubRip准备图片文件

    1. 本文采用《红猪》的字幕作为例子,一步一步教大家如何转换sub为srt或ssa。用熟了以后,过程是十分简单的。
    2. 首先安装SubRip 1.17.1,选择安装所有。


    3. 打开SubRip->文件->打开Vob文件

    4. 打开文件目录->选定sub->语言数据流选Chinese->右面操作里选字幕图片保存为4bit的BMP文件,以及在加时间和尺寸上打勾->开始

    5. 输入任意文件名->保存
    6. 预设里选I-Author->选取Custom Colors and Contrast->把颜色#1-4全部选择成白色(#1-4分别代表字芯、字框、背景、消除走样,每个字幕的#1-4所代表的都不一样)->一一测试哪一个为字芯,设为黑色,其他3项全部为白色,重要!(参看附图)->点选确定

    7. SubRip自动将每一幅图片保存为BMP,并且加上相应时间顺序
    输出格式->设置输出格式->Text Formats下的SubRip(*.srt)->转换成此格式文件->另存为->保存

    8. 关闭SubRip

    第二步:用SubToSrt将图片文件转换SRT或SSA格式
    1. 本软件为完全绿色软件,直接解压开即可使用。
    2. 运行SubToSrt.exe->文件->打开SRT或SSA文件->选取刚才保存的srt文件
    3. 图片处理->自动裁剪->确定(当图片过大时,推荐使用此步骤,可以使识别更快)
    4. 依照字幕调节空格检测设置、空格宽度设置、行高检测设置的灵敏度

    5. 识别->开始识别
    当遇到不认识的字时,会自动跳出小窗口要求丰富字库,输入该字,按回车即可

    当遇到半个字的时候,如图,按扩展(Alt+E),即可显示全字

    如果前面一个字打错,可以在小框中修改该字,程序会自动从该字所在行开始识别
    6. 识别完毕后,会自动替换已知错误词组。
    7. 这时,可以随便看一下字幕,如有需要,可以略做修改(如:原sub字幕中就是错误的)
    8. 文件->保存为SRT或SSA格式->推荐为ssa,自由度比srt更大

    常见字幕格式[转载]

      图形格式字幕:由idx和sub文件组成,有时也能看到ifo文件,不过这个现在已经不怎么用的上了。idx相当于索引文件,里面包括了字幕出现的时间码和字幕显示属性等,sub文件就是存放字幕本身了,注意是图片格式的,所以比较大,动辄10M以上了。idx+sub可以存放很多语言的字幕,提供了在播放的时候的选择。
      文本格式字幕:比较流行的文本字幕有srt、smi、ssa和sub(和上面图形格式后缀一样)格式(另外有一种音乐歌词形式的文本字幕lrc),因为是文本格式,所以就比较小了,一般大不过百来k。其中srt文本字幕最为流行,因为其制作规范简单,一句时间代码+一句字幕,使得制作修改就相当简单。配合上.style文件还能让srt自带一些字体上的特效等。几种文本字幕可以互相转换。文本字幕一般通过对图形字幕进行OCR或者手工制作生成,OCR英文字幕不难,毕竟英文识别难度小嘛,OCR中文难度就大一些,所用的软件个头也不小(SubOCR,30多M)。
      再看播放软件,其实一个软件就能搞定,就是大名鼎鼎的VobSub了。VobSub支持以上提到的各种格式,其工作原理就是在播放器打开avi文件(另外还有asf、mpg等)的时候,将字幕(如果有的话)进行load,然后配合影音文件一起播放。通常VobSub工作的时候会在任务栏上产生一个小的绿色箭头。右键点击这个箭头,就能在你所load的几个字幕中进行选择了。字幕文件的前缀要求和avi文件一样,位置要求放在avi同目录中(比较老的版本不支持中文目录),或者放在VobSub默认的“c:\subtitles”和“.\subtitles”中都可以。idx+sub,srt,smi等都可以放在一起让VobSub同时load,到时再进行选择即可。
      这里要说说VobSub的一些使用方法:开始-程序-VobSub-DirectVobSub Configure,或者在其工作时双击绿色箭头,就会出来配置窗口。几个常用的功能:通过Main标签下的Open可以打开自己所指定的字幕文件,Text Settings是针对文本格式字幕的,能设置字幕显示时的字体和大小等效果,我的习惯是设置成“黑体、常规、小二”,这样比较舒服。Timing标签下的Subtitle Timing可以设置字幕的延时,单位是毫秒。如果你觉得字幕快了1秒,就可以写上1000,要是慢了就是-1000,依此类推。Paths标签下可以设置默认打开那些目录下与avi文件名相同的字幕,上面所说的三个目录就是VobSub默认的,你还可以自定义。

    多媒体容器格式OGM和MKV[整理]

      
      最近在看Friends,下载的文件有avi,ogg,mkv三种格式的,出于好奇,到网上搜了OGM和MKV格式的介绍。
     
    OGM格式介绍
     
    OGM起源于一个互联网上的黑客想用ogg vorbis音频格式作为视频的音轨,然而他发现
    由于AVI的天生结构缺陷,使得声画难以同步,最后在尽力多次尝试之后,他终于得到
    了结果,不是把ogg vorbis并入到AVI中,而是把一个视频文件并入到ogg中,这最终导
    致了OGM格式的出现。
     
    OGM作为一个全新的多媒体容器,在视频上可以使用DivX/XviD的编码画面,音频上可以
    使用ogg vorbis/AC3/(CBR/ABR/VBR)MP3等,文本上可以使用srt字幕,支持Chapetr。
     
    尤为重要的一点是OGM可以方便的嵌入多个音轨和字幕,然后只要安装了相应的解码器,
    就可以使用wmp6.4无困难的播放,OGM在索引上要远快于AVI,拖动进度条再也不用像AVI
    情况下等上好一阵子,同时Chapter又可以把DVD中的章节信息完美载入。而且在声画同
    步上OGM做得更好,不用出现某些AVI情况下画面要快进才能赶上声音的场面,同时在制
    作上还能进一步节省为同步而占用的空间。
     
    OGM目前已经有一整套完整的工具支持
    Ogg Vorbis Direct Show Filters--wmp6.4需要用来回放OGM的插件
    Ogg subtitle filter--wmp6.4用来回放OGM内置字幕的插件
    HeadAC3he or BeSweet and OggMachine--用来将AC3转成ogg vorbis的工具
    Ogg Cutter--用于切割OGM的工具
    OggMux--用于制作OGM的工具
    同时线性编辑之王VirtualDub的一个特殊版本VirutalDubMOD也全面支持OGM格式。
     
    尽管OGM不会完全取代AVI,但是有理由相信古老的AVI格式被替代是不可避免的
     
    MKV(Matroska)格式介绍
     
    首先澄清一个误区,mkv不是一种压缩格式,DivX、XviD才是视频压缩格式,mp3、ogg才是音频压缩格式。而mkv是个“组合”和“封装”的格式,换句话说就是一种容器格式。
    举个例子的话就比较容易理解了,把只有视频的XviD和只有音频的mp3组合起来,然后以一种多媒体介质的形式出现,最常见的就是avi,其次就是ogm,还有mp4等不太常见的。
    avi的出现已经超过了10年,渐渐体现出老态了,除了近年通过VD可以拥有2个音轨,没有其他的改进。
    ogm的出现,标志着多音轨格式的出现,可以合成8个以上的音轨,音频上自然也多了ogg这个格式,重要的是可以“内挂”字幕,老外称为“软字幕”,可以任意开关,可以“内挂”8个以上的字幕,美中不足的是仅仅支持srt格式,并且不支持Unicode,对亚洲字符支持严重不足。
    还有一个就是Chapter功能,可以自定义段落,播放时就可以选择了。是不是越来越像DVD啦?但是当时的ogm源码是不公开的,就那么几个人在开发,自然进度慢了,前一阵几乎陷入了“死亡”。最近宣布公开源码,加入Open Source行列,重新开始开发。
    mkv就是在ogm停滞的那段时间出现的,由俄罗斯的程序员开发的,从一开始就是Open Source,因此得到了很多其他程序员的帮助,开发速度相当快。
    ogm有的mkv都有,另外还有很多独特的功能。其中最令人振奋的就是Gabest(开发vobsub的公司)开发的Plugin,不仅开发了专门的播放器Media Player Classic(俗称MPC), 这个东西的强大相信用过的人都有体会。还开发了很多的MKV用的Mux(合成器),尤其是Real格式的Mux。 Real的rmvb是封闭格式,官方的Helix根本就不支持多声道所以尽管算法很优秀,但在声效大片的再现上就无能为力了,只能乖乖让位给可以合成AC3和DTS的avi以及ogm了。
    但Gabest开发的Realmedia Splitter和mkv Mux可以让rmvb格式的视频和AC3、DTS合成mkv,从根本上克服了rmvb音频上的弱点。不仅如此,还开发了VSFilter.dll和SubtitleSource.ax这2个Plugin,宣布支持ssa和ass的格式软字幕。
    总结就是下面几条:
    1.支持多种格式的视频和音频,尤其是Real 
    2.支持多音轨,多达16条以上
    3.支持ssa,ass软字幕,多达16条以上
    4.支持段落选取(由制作人决定)
     
    处理工具VirtualDubMod
     
    我们可用VirtualDubMod这个软件把容器格式(包括ogm和mkv以外的格式)的媒体文件中的视频、音频、以及字幕等资源直接分离(不用再解编码)出来,强烈推荐。
    What is VirtualDubMod?  
    VirtualDubMod is a unification of several popular modifications of the famous video editing software VirtualDub by Avery Lee. It started out as a unification of three projects, VirtualDubMPeg2, VirtualDubOGM and VirtualDubAVS. But since then a lot of new features have been introduced. Among them:
    Matroska support
    Multiple (>2) audio stream support for all output formats
    Improved AviSynth integration
    ...
    由于专利问题,VirtualDub 一直拒绝直接支持 MPEG-2 文件的处理,但人们的需求是压缩 DVD,于是就有了一票修改版本们的出现,VirtualDubMod 便是其中的佼佼者,它除了支持 MPEG2 以外,还增加了支持 VBR MP3 等特性。
    October 03

    常见视频格式中采用的技术[转载]

      当PC开始拥有FPU(浮点处理器)后,PC如何处理多媒体信息的问题也被摆上台面。无数专家开始为音频视频编码技术运用在PC上开始忙碌了,视频技术也因此得到了飞快的进步。
      1、无声时代的FLC
      FLC、FLI是Autodesk开发的一种视频格式,仅仅支持256色,但支持色彩抖动技术,因此在很多情况下很真彩视频区别不是很大,不支持音频信号,现在看来这种格式已经毫无用处,但在没有真彩显卡没有声卡的DOS时代确实是最好的也是唯一的选择。最重要的是,Autodesk的全系列的动画制作软件都提供了对这种格式的支持,包括著名的3D Studio X,因此这种格式代表了一个时代的视频编码水平。直到今日,仍旧有不少视频编辑软件可以读取和生成这种格式。但毕竟廉颇老矣,这种格式已经被无情的淘汰。
      2、载歌载舞的AVI
      AVI——Audio Video Interleave,即音频视频交叉存取格式。1992年初Microsoft公司推出了AVI技术及其应用软件VFW(Video for Windows)。在AVI文件中,运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。构成一个AVI文件的主要参数包括视像参数、伴音参数和压缩参数等。AVI文件用的是AVI RIFF形式,AVI RIFF形式由字串“AVI”标识。所有的AVI文件都包括两个必须的LIST块。这些块定义了流和数据流的格式。AVI文件可能还包括一个索引块。
      只要遵循这个标准,任何视频编码方案都可以使用在AVI文件中。这意味着AVI有着非常好的扩充性。这个规范由于是由微软制定,因此微软全系列的软件包括编程工具VB、VC都提供了最直接的支持,因此更加奠定了AVI在PC上的视频霸主地位。由于AVI本身的开放性,获得了众多编码技术研发商的支持,不同的编码使得AVI不断被完善,现在几乎所有运行在PC上的通用视频编辑系统,都是以支持AVI为主的。AVI的出现宣告了PC上哑片时代的结束,不断完善的AVI格式代表了多媒体在PC上的兴起。
      说到AVI就不能不提起英特尔公司的Indeo video系列编码,Indeo编码技术是一款用于PC视频的高性能的、纯软件的视频压缩/解压解决方案。Indeo音频软件能提供高质量的压缩音频,可用于互联网、企业内部网和多媒体应用方案等。它既能进行音乐压缩也能进行声音压缩,压缩比可达8:1而没有明显的质量损失。Indeo技术能帮助您构建内容更丰富的多媒体网站。目前被广泛用于动态效果演示、游戏过场动画、非线性素材保存等用途,是目前使用最广泛的一种AVI编码技术。现在Indeo编码技术及其相关软件产品已经被Ligos Technology 公司收购。随着MPEG的崛起,Indeo面临着极大的挑战。
      3、容量与质量兼顾的MPEG系列编码
      和AVI相反,MPEG不是简单的一种文件格式,而是编码方案。
      MPEG-1(标准代号ISO/IEC11172)制定于1991年底,处理的是标准图像交换格式(standard interchange format,SIF)或者称为源输入格式(Source Input Format,SIF)的多媒体流。是针对1.5Mbps以下数据传输率的数字存储媒质运动图像及其伴音编码(MPEG-1 Audio,标准代号ISO/IEC 11172-3)的国际标准,伴音标准后来衍生为今天的MP3编码方案。MPEG-1规范了PAL制(352*288,25帧/S)和NTSC制(为352*240,30帧/S)模式下的流量标准, 提供了相当于家用录象系统(VHS)的影音质量,此时视频数据传输率被压缩至1.15Mbps,其视频压缩率为26∶1。使用MPEG-1的压缩算法,可以把一部120分钟长的多媒体流压缩到1.2GB左右大小。常见的VCD就是MPEG-1编码创造的杰作。MPEG-1编码也不一定要按PAL/NTSC规范的标准运行,你可以自由设定影像尺寸和音视频流量。随着光头拾取精度的提高,有人把光盘的信息密度加大,并适度降低音频流流量,于是出现了只要一张光盘就存放一部电影的DVCD。DVCD碟其实是一种没有行业标准,没有国家标准,更谈不上是国际标准的音像产品。
      当VCD开始向市场普及时,电脑正好进入了486时代,当年不少朋友都梦想拥有一块硬解压卡,来实现在PC上看VCD的夙愿,今天回过头来看看,觉得真有点不可思议,但当时的现状就是486的系统不借助硬解压是无法流畅播放VCD的,上万元的486系统都无法流畅播放的MPEG-1被打上了贵族的标志。随着奔腾的发布,PC开始奔腾起来,直到后来Windows Media Player也直接提供了MPEG-1的支持,至此MPEG-1使用在PC上已经完全无障碍了。
      MPEG-2(标准代号IOS/IEC13818)于1994年发布国际标准草案(DIS),在视频编码算法上基本和MPEG-1相同,只是有了一些小小的改良,例如增加隔行扫描电视的编码。它追求的是大流量下的更高质量的运动图象及其伴音效果。MPEG-2的视频质量看齐PAL或NTSC的广播级质量,事实上MPEG-1也可以做到相似效果,MPEG-2更多的改进来自音频部分的编码。目前最常见的MPEG-2相关产品就是DVD了,SVCD也是采用的MPEG-2的编码。MPEG-2还有一个更重要的用处,就是让传统的电视机和电视广播系统往数码的方向发展。
      MPEG-3最初为HDTV制定,由于MPEG-2的快速发展,MPEG-3还未彻底完成便宣告淘汰。
      MPEG-4于1998年公布,和MPEG-2所针对的不同,MPEG-4追求的不是高品质而是高压缩率以及适用于网络的交互能力。MPEG-4提供了非常惊人的压缩率,如果以VCD画质为标准,MPEG-4可以把120分钟的多媒体流压缩至300M。MPEG-4标准主要应用于视像电话(Video Phone),视像电子邮件(Video Email)和电子新闻(Electronic News)等,其传输速率要求较低,在4800-64000bits/sec之间,分辨率为176X144。MPEG-4利用很窄的带宽,通过帧重建技术,压缩和传输数据,以求以最少的数据获得最佳的图象质量。
      MJPEG,这并不是专门为PC准备的,而是为专业级甚至广播级的视频采集与在设备端回放的准备的,所以MJPEG包含了为传统模拟电视优化的隔行扫描电视的算法,如果在PC上播放MJPEG编码的文件,效果会很难看(如果你的显卡不支持MJPEG的动态补偿),但一旦输出到电视机端,你立刻会发现这种算法的好处。
      4、属于网络的流媒体
      RealNetworks RealVideo,采用的是 RealNetworks 公司自己开发的 Real G2 Codec,它具有很多先进的设计,例如,SVT (Scalable Video Technology);双向编码(Two—Encoding,类似于VBR)。RealMedia 音频部分采用的是 RealAudio ,可以接纳很多音频编码方案,可实现声音在单声道、立体声音乐不同速率下的压缩。最新的RealAudio竟然采用ATRAC3编码方案,以挑战日益成熟的MP3。
      Windows Media,视频编码采用的是非常先进的 MPEG-4 视频压缩技术,被称作 Microsoft MPEG-4 Video Codec,音频编码采用的是微软自行开发的一种编码方案,目前没有公布技术资料,在低流量下提供了令人满意的音质和画质。最新的Windows Media Encoding Utility V8.0将流技术推向到一个新的高度,我们常见的ASF、WMV、WMA就是微软的流媒体文件。
      事实上我们常见的MPG文件,也具有流媒体的最大特征——边读边放。
     
    二、常见的编码与常见的文件格式的对应关系及其常用用途
      1、Audodesk FLC
      这是一种古老的编码方案,常见的文件后缀为FLC和FLI。由于FLC仅仅支持256色的调色板,因此它会在编码过程中尽量使用抖动算法(也可以设置不抖动),以模拟真彩的效果。这种算法在色彩值差距不是很大的情况下几乎可以达到乱真的地步,例如红色A(R:255,G:0,B:0)到红色B(R:255,G:128,B:0)之间的抖动。这种格式现在已经很少被采用了,但当年很多这种格式被保留下来,这种格式在保存标准256色调色板或者自定义256色调色板是是无损的,这种格式可以清晰到像素,非常适合保存线框动画,例如CAD模型演示。现在这种格式很少见了。
      2、Microsoft RLE
      这是微软开发为AVI格式开发的一种编码,文件扩展名为AVI,使用了RLE压缩算法,这是一种无损的压缩算法,我们常见的tga格式的图像文件就使用了RLE算法。
      什么是RLE算法呢?这是一种很简单的算法,举一个很简单的例子:
      假设一个图像的像素色彩值是这样排列的:红红红红红红红红红红红红蓝蓝蓝蓝蓝蓝绿绿绿绿,经过RLE压缩后就成为了:红12蓝6绿4。这样既保证了压缩的可行性,而且不会有损失。而且可以看到,但颜色数越少时,压缩效率会更高。由于Microsoft RLE仅仅支持256色,而且没有抖动算法,在色彩处理方面,FLC明显的比Microsoft RLE要好很多。当然这也不表示Microsoft RLE一无是处,和FLC一样,Microsoft RLE在处理相邻像素时也没有色染,可以清晰的表现网格。因此同样可以优秀的表现单色字体和线条。只要色彩不是很复杂,FLC能做的,Microsoft RLE也可以做到。由于AVI可以拥有一个音频流,而且Windows系统给与了直接的支持,Microsoft RLE最常用的用途是,在256色显示模式下,通过配合抓屏生成AVI的工具制作一个软件的操作演示过程,以达到图文并茂,形声兼备的效果。
      3、Microsoft Video1
      这也是由微软提供的一个AVI编码,任何Windows系统都自带了了它的Codec,这个编码支持真彩,画面质量很不错,Microsoft Video1的压缩效率非常低下,编码后的文件庞大得让人受不了。这个Microsoft Video1究竟有什么用呢?一般被用在保存一些没有渐变的小型视频素材方面。
      4、Indeo video R3.2
      这个编码由intel架构实验室开发,对应的文件格式是AVI,相对之前的流行的编码,Indeo video R3.2最大的特点就是高压缩比(当然,比起现在的压缩方案,实在是不值得一提),intel声称压缩比可达8:1而没有明显的质量损失,解码速度也非常快,对系统要求不高,由于Windows9X中自带Indeo video R3.2的Codec,所以Indeo video R3.2一度成为了最流行的AVI编码方案。有不少游戏的过场动画和启动动画都是Indeo video R3.2编码的。Indeo video R3.2同样不适合高要求的环境,在要表现细线条或大色彩值变化的渐变时,Indeo video R3.2会表现得非常糟糕。如果画面的色彩值差异不是很大,也没有明显的色彩区域界限,Indeo video R3.2还是合适的,例如海天一色的场景。Indeo video R3.2已经基本被淘汰,如果不是为了播放以前遗留的一些Indeo video R3.2编码视频,恐怕Windows ME/2000都不会有Indeo video R3.2的Codec了。
      5、Indeo video 5.10
      这个编码方案同样也是intel架构实验室开发的,它继承了Indeo video R3.2的优点,对应的文件格式仍然是AVI,解码速度同样非常快。Windows ME/2000自带了Indeo video 5.1的Codec,很多游戏也适用Indeo video 5.10来编码自己的演示动画。在没有DivX普及前,这几乎是最流行的AVI编码了,由于微软和intel的同时支持,这种编码方案被广泛采用。
      6、None
      顾名思义,这是一个没有损失的视频编码方案,对应的文件扩展名为AVI。这种编码几乎是不压缩的,文件大得惊人!那么这种编码有什么用途呢?用途就是保存视频素材,因为是无损的,保存素材非常合适,代价就是大量的存储空间。
      7、MPEG1
      我们熟知的VCD就是MPEG1编码的,对应的文件扩展名为MPG、MPEG或者DAT。事实上MPEG1可以工作于非PAL制和非NTSC制标准下。它可以自由设置数据流量和画面尺寸,只是这样非标准的文件无法直接刻录成VCD。
      8、MPEG2
      DVD的视频部分就是采用的MPEG2,SVCD同样也采用了MPEG2编码。对应的文件扩展名一般为VOB、MPG。MPEG2的设计目标就是提供接近广播级的高品质输出。
    9、DivX
      DivX是近2年开始被大家认识的,DivX 视频编码技术可以说是一种对 DVD 造成威胁的新生视频压缩格式(有人说它是 DVD 杀手)对应的文件扩展名为AVI或者DivX,它由 Microsoft mpeg-4v3 修改而来,使用 MPEG-4 压缩算法。据说是美国禁止出口的编码技术。DivX最大的特点就是高压缩比和不错的画质,更可贵的是,DivX的对系统要求也不高,只要主频300的CPU就基本可以很流畅的播放了,因此从DivX诞生起,立刻吸引了大家的注意力。DivX拥有比Indeo video 5.10高太多的压缩效率,编码质量也远远比Indeo video 5.10好,我实在想不出Indeo video 5.10还会有什么前途。
      10、PICVideo MJPEG
      MJPEG是很多视频卡支持的一种视频编码,随卡提供了Codec,安装完成后可以象使用其它编码一样生成AVI文件。MJPEG编码常用于非线性系统,批上了一层很专业的外衣。MJPEG的编码质量是相当高的,是一种以质量为最高要求的编码,这种编码的设置比较复杂,可以得到很高的压缩比,但牺牲了解码速度,如果要保证解码速度,编码后的压缩比确不是很理想,如果您希望从专业的非线性系统上捕捉视频,然后自行进行处理,这种格式是很有必要去了解一些的。
      11、RealNetworks RealVideo
      REAL VIDEO(RA、RAM)格式由Real Networks公司开发的,一开始就定位在视频流应用方面的,也可以说是视频流技术的始创者。它可以在用 56K MODEM 拨号上网的条件实现不间断的视频播放。从RealVideo的定位来看,就是牺牲画面质量来换取可连续观看性。其实RealVideo也可以实现不错的画面质量,由于RealVideo可以拥有非常高的压缩效率,很多人把VCD编码成RealVideo格式的,这样一来,一张光盘上可以存放好几部电影。REAL VIDEO存在颜色还原不准确的问题,RealVideo就不太适合专业的场合,但RealVideo出色的压缩效率和支持流式播放的特征,使得RealVideo在网络和娱乐场合占有不错的市场份额。
      12、Windows Media video
      Windows Media video就是微软为了和现在的Real Networks的RealVideo竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式!由于它使用了MPEG4的压缩算法,所以压缩率和图像的质量都很不错。我们经常看到的ASF和WMV就是Windows Media video。Windows Media video的编码质量明显好于RealVideo,因为Windows Media video是微软的杰作,所以Windows系统给Windows Media video给与了很好的支持,Windows Media Player可以直接播放这些文件。

    三、有关音频编码
      自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。
      1、什么是采样率和采样大小(位/bit)?
      声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。
      2、有损和无损
      根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。
      3、为什么要使用音频压缩技术
      要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。降低指标是不可取的,因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样,各种音频压缩编码所达到的音质和压缩比都不一样,在后面的文章中我们都会一一提到。有一点是可以肯定的,他们都压缩过。
      4、频率与采样率的关系
      采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因,CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号,看来需要更高的采样率,于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率,这是不可取的!这其实对音质没有任何好处,对抓轨软件来说,保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一,而不是去提高它。较高的采样率只有相对模拟信号的时候才有用,如果被采样的信号是数字的,请不要去尝试提高采样率。
      5、流特征
      随着网络的发展,人们对在线收听音乐提出了要求,因此也要求音频文件能够一边读一边播放,而不需要把这个文件全部读出后然后回放,这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放,正是这种特征,可以实现在线的直播,架设自己的数字广播电台成为了现实。

    四、各种主流音频编码(或格式)的介绍
      1、PCM编码
      PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程,我们不需要关心PCM最终编码采用的是什么计算方式,我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。
      2、WAVE
      这是一种古老的音频文件格式,由微软开发。WAV是一种文件格式,符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头,这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念,我们拿AVI做个示范,因为AVI和WAV在文件结构上是非常相似的,不过AVI多了一个视频流而已。我们接触到的AVI有很多种,因此我们经常需要安装一些Decode才能观看一些AVI,我们接触到比较多的DivX就是一种视频编码,AVI可以采用DivX编码来压缩视频流,当然也可以使用其他的编码压缩。同样,WAV也可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,和AVI一样,只要安装好了相应的Decode,就可以欣赏这些WAV了。
    在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。
      3、 MP3编码
      据说MP3的由来是由德国某工作室在研究如何抓取CD音轨时衍生出的计算机文件格式。MP3本身是一种压缩与解压缩的计算方式,用来处理高比率的声音信息。它所生成的声音文件音质接近CD,而文件大小却只有其十二分之一。 MP3音频格式解析:采样率:
      数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的,实现这个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波进行采样,每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本。
      将一串的样本连接起来,就可以描述一段声波了,把每一秒钟所采样的数目称为采样频率或采率,单位为HZ(赫兹)。采样频率越高所能描述的声波频率就越高。 对于每个采样系统均会分配一定存储位(bit数)来表达声波的声波振幅状态,称之为采样分辩率或采样精度,每增加一个bit,表达声波振幅的状态数就翻一翻,并且增加6db的动态范围态,即6db的动态范围,一个2bit的数码音频系统表达千种状态,即12db的动态范围,以此类推。如果继续增加bit数则采样精度就将以非常快的速度提高,可以计算出16bit能够表达65536种状态,对应,96db 而20bit可以表达1048576种状态,对应120db。24bit可以表达多达16777216种状态。对应144db的动态范围,采样精度越高,声波的还原就越细腻。(注:动态范围是指声音从最弱到最强的变化范围)人耳的听觉范围通常是20HZ~20KHZ。
      根据奈魁斯特(NYQUIST)采样定理,用两倍于一个正弦波的频繁率进行采样就能完全真实地还原该波形,因此一个数码录音波的休样频率直接关系到它的最高还原频率指标例如,用44.1KHZ的采样频率进行采样,则可还原最高为22.05KHZ的频率-----这个值略高于人耳的听觉极限,(注: 可录MD,例R900的取样频率为44.1KHZ并且有取样频率转换器,可将输入的32KHz/44.1KHZ/48KHZ转换为该机的标准取样频率44.1KHZ的还原频率足已记示和真实再现世界上所有人再能辩的声音了,所以CD音频的采样规格定义为16bit。44KHZ, 即使在最理想的环境下用现实生活中几乎不可能制造的高精密电子元器件真实地实现了16bit的录音,仍然会受到滤波和声特定位等问题的困扰,人们还是能察觉出一些微小的失真所以很多专业数码音频系统已经使用18bit甚至24bit 进行录音和回放了。现有的采样方式:
      MP3:MP3的全称应为MPEG1 Layer-3音频文件,MPEG(Moving Picture Experts Group)在汉语中译为活动图像专家组,特指活动影音压缩标准,MPEG音频文件是MPEG1标准中的声音部分,也叫MPEG音频层,它根据压缩质量和编码复杂程度划分为三层,即Layer-1、Layer2、Layer3,且分别对应MP1、MP2、MP3这三种声音文件,并根据不同的用途,使用不同层次的编码。MPEG音频编码的层次越高,编码器越复杂,压缩率也越高,MP1和MP2的压缩率分别为4:1和6:1-8:1,而MP3的压缩率则高达10:1-12:1,也就是说,一分钟CD音质的音乐,未经压缩需要10MB的存储空间,而经过MP3压缩编码后只有1MB左右。不过MP3对音频信号采用的是有损压缩方式,为了降低声音失真度,MP3采取了“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。(另MP3PRO:mp3PRO编码器将音频的录音分成两个部分:mp3部分和PRO部分。mp3部分分析低频段(Low Frequency Band)信息,并将其编码成通常的mp3文件数据流。这就使得编码器能够集中编码更少的有用信息,获得更佳品质的编码效果。同时,这也保证了mp3PRO文件同老的mp3播放器的兼容性。PRO部分分析的则是高频段(High Frequency Band)信息,并将其编码成mp3数据流的一部分,而这些通常在老的mp3解码器里是被忽略的。新的mp3PRO解码器会有效地利用这部分数据流,将两段(高频段和低频段)合并起来产生完全的音频带,达到增强音质的效果。)
      MP3是MPEG 1 Layer 3的缩写,也就是MPEG-1 Audio Layer-3的缩写。而MPEG这名词的含义是动态影像压缩,它是Moving Picture Exp-erts Group的缩写。
      我们所了解的VCD就是使用MPEG-1技术,而DVD则是使用更进一步MPEG-2的技术。MP3是MPEG 里的一项技术分支,主要用来压缩声音。 一共分三个等级(Layer),分别是Layer-1(MP1) , Layer-2(MP2)和Layer-3(MP3)。
      MP3是利用 MPEG Audio Layer 3 的技术,将声音用1:10甚至1:12的压缩率,变成容量较小的文件。以一张光碟容量为650M为例,若以CD格式,它只能容纳最多74分钟的音乐;如果做成MP3格式,一张光碟就能放一百多首歌曲。由于MP3的体积小,音质有非常接近CD,所以在国际互联网上很快流行起来,也成为个人电脑上重要的音频格式。
      由于人耳只能听到一定频段内的声音,因此在人耳听起来,MP3与CD却没有什么不同。当然,MP3一种失真压缩,就像图形文件JPG一样,因为失真压缩,所以可以压得很多,也可以调整压缩比率,压得越多失真也越多。
    从技术层面来看,MP3是一种音频压缩技术的简称。由于这种压缩方式的全称叫MPEG AUDIO LAYER3,所以人们把它简称为MP3。MP3的音频压缩基于这样一种考虑:因为人耳只能听到一定频段内的声音,而其他更高或更低频率的声音对人耳是没有用处的,所以MP3技术就把这部分声音去掉了,从而使得文件体积大为缩小,但在人耳听起来,却并没有什么失真。
      MP3可以将声音用1∶10~1∶12的压缩率进行压缩。以一张光碟容量为650M为例,若以CD格式,它只能容纳最多74分钟的音乐;如果做成MP3格式,一张光碟就能放一百多首歌曲。由于MP3的体积小,音质有非常接近CD,所以在国际互联网上很快流行起来,也成为个人电脑上重要的音频格式。
      同时,MP3格式音乐的流行也带动了MP3专用播放装置的出现,并在近年来得到快速发展。目前市场上流行的MP3设备从功能和性能上已经远远超出了原来"播放器"的范畴,逐步发展成为集音频播放(包括MP3之外的音乐格式)、录音复读、文本阅读、移动存储、FM收音等功能为一体的多媒体掌上设备。有的高端MP3设备甚至还集成了音频编辑处理、电影播放等功能。
    MP3的优点
      由于大大压缩了文件的体积,所以相同的空间能存储更多的信息。由于没有机械元件,全部是电子元件,所以不存在防震问题,更加适合运动时欣赏音乐。另外,MP3可以随心所欲的进行音频编辑处理,编辑自己喜爱的歌。
    MP3的缺点
      MP3音频压缩技术是一种失真压缩,因为人耳只能听到一定频段内的声音,而其他更高或更低频率的声音对人耳是没有用处的,所以MP3 技术就把这部分声音去掉了,从而使得文件体积大为缩小。虽然听上去MP3音乐仍旧具有接近CD的音质,但毕竟要比CD稍逊一些。
      4、OGG编码
      网络上出现了一种叫Ogg Vorbis的音频编码,号称MP3杀手!Ogg Vorbis究竟什么来头呢?OGG是一个庞大的多媒体开发计划的项目名称,将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案!OGG的信念就是:OPEN!FREE!Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功,并且开发出了编码器。
      Ogg Vorbis是高质量的音频编码方案,官方数据显示:Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质!Ogg Vorbis这种编码也远比90年代开发成功的MP3先进,她可以支持多声道,这意味着什么?这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件(目前这种软件还没有)的支持下,可以对所有的声道进行编码,而不是MP3只能编码2个声道。多声道音乐的兴起,给音乐欣赏带来了革命性的变化,尤其在欣赏交响时,会带来更多临场感。这场革命性的变化是MP3无法适应的。
      和MP3一样,Ogg Vorbis是一种灵活开放的音频编码,能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此,它的声音质量将会越来越好,和MP3相似,Ogg Vorbis更像一个音频编码框架,可以不断导入新技术逐步完善。和MP3一样,OGG也支持VBR。
      5、MPC 编码
      MPC是又是另外一个令人刮目相看的实力派选手,它的普及过程非常低调,也没有什么复杂的背景故事,她的出现目的就只有一个,更小的体积更好的音质!MPC以前被称作MP+,很显然,可以看出她针对的竞争对手是谁。但是,只要用过这种编码的人都会有个深刻的印象,就是她出众的音质。
      6、mp3PRO 编码
    2001年6月14日,美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本,名称为mp3PRO,这是一种基于mp3编码技术的改良方案,从官方公布的特征看来确实相当吸引人。从各方面的资料显示,mp3PRO并不是一种全新的格式,完全是基于传统mp3编码技术的一种改良,本身最大的技术亮点就在于SBR(Spectral Band Replication 频段复制),这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码,与传统的编码技术不同的是,SBR更像是一种后处理技术,因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器(播放器)产生的,SBR编码的数据更像是一种产生高频的命令集,或者称为指导性的信号源,这有点駇idi的工作方式。我们可以看到,mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示,SBR技术可以改善低数据流量下的高频音质,改善程度约为30%,我们不管这个30%是如何得来的,但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平(注:在相同的编码条件下,数据速率的提升和音质的提升不是成正比的,至少人耳听觉上是这样的),这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。
      7、WMA
      WMA就是Windows Media Audio编码后的文件格式,由微软开发,WMA针对的不是单机市场,是网络!竞争对手就是网络媒体市场中著名的Real Networks。微软声称,在只有64kbps的码率情况下,WMA可以达到接近CD的音质。和以往的编码不同,WMA支持防复制功能,她支持通过Windows Media Rights Manager 加入保护,可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术,即一边读一边播放,因此WMA可以很轻松的实现在线广播,由于是微软的杰作,因此,微软在Windows中加入了对WMA的支持,WMA有着优秀的技术特征,在微软的大力推广下,这种格式被越来越多的人所接受。
      8、RA
      RA就是RealAudio格式,这是各位网虫接触得非常多的一种格式,大部分音乐网站的在线试听都是采用了RealAudio,这种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码,包括ATRAC3。和WMA一样,RA不但都支持边读边放,也同样支持使用特殊协议来隐匿文件的真实网络地址,从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要,在各方的大力推广下,RA和WMA是目前互联网上,用于在线试听最多的音频媒体格式。
      9、APE
      APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持,因此这就意味着压缩后的文件不再是单纯的压缩格式,而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式,但能够做到真正无损,因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种,APE是一种有着突出性能的格式,令人满意的压缩比以及飞快的压缩速度,成为了不少朋友私下交流发烧音乐的唯一选择。
      10、ACC
      AAC(高级音频编码技术,Advanced Audio Coding)是杜比实验室为音乐社区提供的技术。AAC号称「最大能容纳48通道的音轨,采样率达96 KHz,并且在320Kbps的数据速率下能为5.1声道音乐节目提供相当于ITU-R广播的品质」。和MP3比起来,它的音质比较好,也能够节省大约30%的储存空间与带宽。它是遵循MPEG-2的规格所开发的技术。
      12、ATRAC 3/ATRAC 3 plus
      ATRAC3(AdaptiveTransformAcousticCoding3)由日本索尼公司开发,是MD所采用的ATRAC的升级版,其压缩率(约为ATRAC的2倍)和音质均与MP3相当。压缩原理包括同时掩蔽、时效掩蔽和等响度曲线等,与MP3大致相同。ATRAC3的版权保护功能采用的是OpenMG。目前,对应ATRAC3的便携式播放机主要是索尼公司自己的产品。不过,该公司已于2000年2月与富士通、日立、NEC、Rohm、三洋和TI等半导体制造商签署了制造并销售ATRAC3用LSI的专利许可协议。

    视频文件格式介绍[转载]

    一、本地影像视频
    ●GIF格式:GIF是图形交换格式(Graphics Interchange Format)的英文缩写,是由CompuServe公司于80年代推出的一种高压缩比的彩色图像文件格式。CompuServe公司是一家著名的美国在线信息服务机构,针对当时网络传输带宽的限制,CompuServe公司采用无损数据压缩方法中压缩效率较高的LZW(LempelZiv & Welch)算法,推出了GIF图像格式,主要用于图像文件的网络传输,鉴于GIF图像文件的尺寸通常比其他图像文件(如PCX)小好几倍,这种图像格式迅速得到了广泛的应用。考虑到网络传输中的实际情况,GIF图像格式除了一般的逐行显示方式之外,还增加了渐显方式,也就是说,在图像传输过程中,用户可以先看到图像的大致轮廓,然后随着传输过程的继续而逐渐看清图像的细节部分,从而适应了用户的观赏心理,这种方式以后也被其他图像格式所采用,如JPEG/JPG等。最初,GIF只是用来存储单幅静止图像,称GIF87a,后来,又进一步发展成为GIF89a,可以同时存储若干幅静止图像并进而形成连续的动画,目前Internet上大量采用的彩色动画文件多为这种格式的GIF文件。
    ●Flic格式:Flic文件是Autodesk公司在其出品的Autodesk Animator / Animator Pro / 3D Studio等2D/3D动画制作软件中采用的彩色动画文件格式,其中,.FLI是最初的基于320×200分辨率的动画文件格式,而.FLC则是.FLI的进一步扩展,采用了更高效的数据压缩技术,其分辨率也不再局限于320×200。Flic文件采用行程编码(RLE)算法和Delta算法进行无损的数据压缩,首先压缩并保存整个动画序列中的第一幅图像,然后逐帧计算前后两幅相邻图像的差异或改变部分,并对这部分数据进行RLE压缩,由于动画序列中前后相邻图像的差别通常不大,因此采用行程编码可以得到相当高的数据压缩率。
    GIF和Flic文件,通常用来表示由计算机生成的动画序列,其图像相对而言比较简单,因此可以得到比较高的无损压缩率,文件尺寸也不大。然而,对于来自外部世界的真实而复杂的影像信息而言,无损压缩便显得无能为力,而且,即使采用了高效的有损压缩算法,影像文件的尺寸也仍然相当庞大。
    ●AVI格式:它的英文全称为Audio Video Interleaved,即音频视频交错格式。它于1992年被Microsoft公司推出,随Windows3.1一起被人们所认识和熟知。所谓“音频视频交错”,就是可以将视频和音频交织在一起进行同步播放。这种视频格式的优点是图像质量好,可以跨多个平台使用,其缺点是体积过于庞大,而且更加糟糕的是压缩标准不统一,最普遍的现象就是高版本Windows媒体播放器播放不了采用早期编码编辑的AVI格式视频,而低版本Windows媒体播放器又播放不了采用最新编码编辑的AVI格式视频,所以我们在进行一些AVI格式的视频播放时常会出现由于视频编码问题而造成的视频不能播放或即使能够播放,但存在不能调节播放进度和播放时只有声音没有图像等一些莫名其妙的问题,如果用户在进行AVI格式的视频播放时遇到了这些问题,可以通过下载相应的解码器来解决。
    ●nAVI格式:nAVI是newAVI的缩写,是一个名为ShadowRealm的地下组织发展起来的一种新视频格式(与我们上面所说的AVI格式没有太大联系)。它是由Microsoft ASF压缩算法的修改而来的,但是又与下面介绍的网络影像视频中的ASF视频格式有所区别,它以牺牲原有ASF视频文件视频“流”特性为代价而通过增加帧率来大幅提高ASF视频文件的清晰度。
    ●DV-AVI格式:DV的英文全称是Digital Video Format,是由索尼、松下、JVC等多家厂商联合提出的一种家用数字视频格式。目前非常流行的数码摄像机就是使用这种格式记录视频数据的。它可以通过电脑的IEEE 1394端口传输视频数据到电脑,也可以将电脑中编辑好的的视频数据回录到数码摄像机中。这种视频格式的文件扩展名一般是.avi,所以也叫DV-AVI格式。
    ●MPEG格式:它的英文全称为Moving Picture Expert Group,即运动图像专家组格式,家里常看的VCD、SVCD、DVD就是这种格式。MPEG文件格式是运动图像压缩算法的国际标准,它采用了有损压缩方法减少运动图像中的冗余信息,说的更加明白一点就是MPEG的压缩方法依据是相邻两幅画面绝大多数是相同的,把后续图像中和前面图像有冗余的部分去除,从而达到压缩的目的(其最大压缩比可达到200:1)。目前MPEG格式有三个压缩标准,分别是MPEG-1、MPEG-2、和MPEG-4,另外,MPEG-7与MPEG-21仍处在研发阶段。
    MPEG-1:制定于1992年,它是针对1.5Mbps以下数据传输率的数字存储媒体运动图像及其伴音编码而设计的国际标准。也就是我们通常所见到的VCD制作格式。使用MPEG-1的压缩算法,可以把一部120分钟长的电影压缩到1.2GB左右大小。这种视频格式的文件扩展名包括.mpg、.mlv、.mpe、.mpeg及VCD光盘中的.dat文件等。
    MPEG-2:制定于1994年,设计目标为高级工业标准的图像质量以及更高的传输率。这种格式主要应用在DVD/SVCD的制作(压缩)方面,同时在一些HDTV(高清晰电视广播)和一些高要求视频编辑、处理上面也有相当的应用。使用MPEG-2的压缩算法,可以把一部120分钟长的电影压缩到4到8GB的大小。这种视频格式的文件扩展名包括.mpg、.mpe、.mpeg、.m2v及DVD光盘上的.vob文件等。
    MPEG-4:制定于1998年,MPEG-4是为了播放流式媒体的高质量视频而专门设计的,它可利用很窄的带度,通过帧重建技术,压缩和传输数据,以求使用最少的数据获得最佳的图像质量。目前MPEG-4最有吸引力的地方在于它能够保存接近于DVD画质的小体积视频文件。另外,这种文件格式还包含了以前MPEG压缩标准所不具备的比特率的可伸缩性、动画精灵、交互性甚至版权保护等一些特殊功能。这种视频格式的文件扩展名包括.asf、.mov和DivX AVI等。
    小提示:细心的用户一定注意到了,这中间怎么没有MPEG-3编码?实际上,大家熟悉的MP3就是采用的MPEG-3(MPEG Layeur3)编码。
    ●DivX格式:这是由MPEG-4衍生出的另一种视频编码(压缩)标准,也即我们通常所说的DVDrip格式,它采用了MPEG4的压缩算法同时又综合了MPEG-4与MP3各方面的技术,说白了就是使用DivX压缩技术对DVD盘片的视频图像进行高质量压缩,同时用MP3或AC3对音频进行压缩,然后再将视频与音频合成并加上相应的外挂字幕文件而形成的视频格式。其画质直逼DVD并且体积只有DVD的数分之一。这种编码对机器的要求也不高,所以DivX视频编码技术可以说是一种对DVD造成威胁最大的新生视频压缩格式,号称DVD杀手或DVD终结者。
    ●MOV格式:QuickTime(MOV)是Apple计算机公司开发的一种音频、视频文件格式,用于保存音频和视频信息,具有先进的视频和音频功能,被包括Apple Mac OS、Microsoft Windows 95/98/NT在内的所有主流电脑平台支持。QuickTime文件格式支持25位彩色,支持RLE、JPEG等领先的集成压缩技术,提供150多种视频效果,并配有提供了200多种MIDI兼容音响和设备的声音装置。新版的QuickTime进一步扩展了原有功能,包含了基于Internet应用的关键特性,能够通过Internet提供实时的数字化信息流、工作流与文件回放功能,此外,QuickTime还采用了一种称为QuickTime VR (简作QTVR)技术的虚拟现实(Virtual Reality, VR)技术,用户通过鼠标或键盘的交互式控制,可以观察某一地点周围360度的景像,或者从空间任何角度观察某一物体。QuickTime以其领先的多媒体技术和跨平台特性、较小的存储空间要求、技术细节的独立性以及系统的高度开放性,得到业界的广泛认可,目前已成为数字媒体软件技术领域的事实上的工业标准。国际标准化组织(ISO)最近选择QuickTime文件格式作为开发MPEG4规范的统一数字媒体存储格式。
    二、网络影像视频
    ●ASF格式:它的英文全称为Advanced Streaming format,它是微软为了和现在的Real Player竞争而推出的一种视频格式,用户可以直接使用Windows自带的Windows Media Player对其进行播放。由于它使用了MPEG-4的压缩算法,所以压缩率和图像的质量都很不错(高压缩率有利于视频流的传输,但图像质量肯定会的损失,所以有时候ASF格式的画面质量不如VCD是正常的)。
    ●WMV格式:它的英文全称为Windows Media Video,也是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。WMV格式的主要优点包括:本地或网络回放、可扩充的媒体类型、部件下载、可伸缩的媒体类型、流的优先级化、多语言支持、环境独立性、丰富的流间关系以及扩展性等。
    ●RM格式:Real Networks公司所制定的音频视频压缩规范称为Real Media,用户可以使用RealPlayer或RealOne Player对符合RealMedia技术规范的网络音频/视频资源进行实况转播并且RealMedia可以根据不同的网络传输速率制定出不同的压缩比率,从而实现在低速率的网络上进行影像数据实时传送和播放。这种格式的另一个特点是用户使用RealPlayer或RealOne Player播放器可以在不下载音频/视频内容的条件下实现在线播放。另外,RM作为目前主流网络视频格式,它还可以通过其Real Server服务器将其它格式的视频转换成RM视频并由Real Server服务器负责对外发布和播放。RM和ASF格式可以说各有千秋,通常RM视频更柔和一些,而ASF视频则相对清晰一些。
    ●RMVB格式:这是一种由RM视频格式升级延伸出的新视频格式,它的先进之处在于RMVB视频格式打破了原先RM格式那种平均压缩采样的方式,在保证平均压缩比的基础上合理利用比特率资源,就是说静止和动作场面少的画面场景采用较低的编码速率,这样可以留出更多的带宽空间,而这些带宽会在出现快速运动的画面场景时被利用。这样在保证了静止画面质量的前提下,大幅地提高了运动图像的画面质量,从而图像质量和文件大小之间就达到了微妙的平衡。另外,相对于DVDrip格式,RMVB视频也是有着较明显的优势,一部大小为700MB左右的DVD影片,如果将其转录成同样视听品质的RMVB格式,其个头最多也就400MB左右。不仅如此,这种视频格式还具有内置字幕和无需外挂插件支持等独特优点。要想播放这种视频格式,可以使用RealOne Player2.0或RealPlayer8.0加RealVideo9.0以上版本的解码器形式进行播放。
    October 02

    认识lrc格式的歌词[转载]


    LRC 歌词是一种包含着“[*:*]”形式的“标签(tag)”的、基于纯文本的歌词专用格式。最早由郭祥祥先生(Djohan)提出并在其程序中得到应用。这种歌词文件既可以用来实现卡拉OK功能(需要专门程序),又能以普通的文字处理软件查看、编辑。当然,实际操作时通常是用专门的LRC歌词编辑软件进行高效编辑的。以下具体介绍LRC格式中的“标签”。

    时间标签(Time-tag)
    形式为"[mm:ss]"或"[mm:ss.fff]"(分钟数:秒数)。数字须为非负整数,比如"[12:34.5]"是有效的,而"[0x0C:-34.5]"无效。
    它可以位于某行歌词中的任意位置。一行歌词可以包含多个时间标签(比如歌词中的迭句部分)。根据这些时间标签,用户端程序会按顺序依次高亮显示歌词,从而实现卡拉OK功能。另外,标签无须排序。
     
    标识标签(ID-tags)
    其格式为"[标识名:值]"。大小写等价。以下是预定义的标签。
    [ar:艺人名]
    [ti:曲名]
    [al:专辑名]
    [by:编者(指编辑LRC歌词的人)]
    [offset:时间补偿值] 其单位是毫秒,正值表示整体提前,负值相反。这是用于总体调整显示快慢的。
     
    样例
    [ar:unknown]
    [ti:sample]
    [al:none]
    [by:me]
    [01:02.355][00:00]This line should be sung twice
    [00:05.7]And this one... once only.

    开发标准(供程序员阅读参考)
    以下列出了开发支持LRC格式的软件时应遵守的一些标准。  
    无论是否在行首,行内凡具有“[*:*]”形式的都应认为是标签。(注意:其中的冒号并非全角字符“:”)
    凡是标签都不应显示。
    凡是标签,且被冒号分隔的两部分都为非负数,则应认为是时间标签。因此,对于非标准形式(非“[mm:ss]”)的时间标签也应能识别(如“[0:0]”)。
    凡是标签,且非时间标签的,应认为是标识标签。
    标识名中大小写等价。
    为了向后兼容,应对未定义的新标签作忽略处理。另应对注释标签([:])后的同一行内容作忽略处理。
    应允许一行中存在多个标签,并能正确处理。
    应能正确处理未排序的标签。
     
    为歌词档案加入一种新的 时间标签 time tag,称为“字时间标签 Word Time Tag <mm:ss.xx>”。这种时间标签用“<”及“>”两个符号代表,很容易便可从旧的时间标签(A2 称为“行时间标签 Line Time Tag [mm:ss.xx]”)中分辨出来。这样,字 word(或 音节 syllables)便可拥有自己的时限 timing。
    因为 重复行 repeated line 内的字 word(或音节 syllables)可能会有不同的时限 timing 设定,因此 A2 决定删除重复行的格式。但 A2 仍会读取含有“行时间标签 Line Time Tag [mm:ss.xx]”的重复行歌词格式。
    为读取所有现存的 lrc 歌词档案,A2 决定将时间的准确度由 1/10 秒增至 1/100 秒。
    为了在歌词档案内储存更多资讯,A2 增加 3 个资讯标签:“版本 [ve:]”、“作者 [au:]”及“备注 [re:]”。
    因为 A2 媒体播放器有为所有时间标签同时加、减时间的功能,所以 A2 删除了资讯标签“[offset:]”。
     
    以下是详细的 Lyrics File (A2 lrc) 歌词档案格式:
    [ti:标题 Title][CR][LF]
    [ar:歌手 Artist][CR][LF]
    [au:作者 Author][CR][LF]
    [al:歌曲集 Album][CR][LF]
    [by:输入者 Enter by][CR][LF]
    [re:备注 Remarks][CR][LF]
    [ve:Version][CR][LF]
    [mm:ss.xx] <mm:ss.xx> 第一行第一个字 <mm:ss.xx> 第一行第二个字 <mm:ss.xx> ... 第一行最後一个字 <mm:ss.xx> [CR][LF]
    [mm:ss.xx] <mm:ss.xx> 第二行第一个字 <mm:ss.xx> 第二行第二个字 <mm:ss.xx> ... 第二行最後一个字 <mm:ss.xx> [CR][LF]
    ...
    ...
    ...
    [mm:ss.xx] <mm:ss.xx> 最後一行第一个字 <mm:ss.xx> 最後一行第二个字 <mm:ss.xx> ... 最後一行最後一个字 <mm:ss.xx> [CR][LF]
     
    为隐藏上一、二行歌词,或将下一行歌词推至上行 top line 或下行 bottom line 而加上的 空行 empty lines 的写法如下:
    [mm:ss.xx][CR][LF]
    [mm:ss.xx][CR][LF]
    ...
    [mm:ss.xx][CR][LF]
     
    与空行有同样效果的 资讯行 information lines 的写法如下:
    [mm:ss.xx] 资讯 [CR][LF]

    mm 代表分 minute,ss 代表秒 second,xx 代表 1/100 秒。并且,不容许有重复行格式。
    相关软件下载
    迷你歌词-MiniLyrics
    http://www.minilyrics.com/
    歌词秀-LyricsShow! for Winamp v1.2版
    http://www.51lrc.com/soft/lyricsshow.zip
    LRC(3.4版)歌词编辑器
    http://www.51lrc.com/soft/gslrceditor34.zip