目录
1. 研究背景及意义 1
1.1. 课题来源 1
1.2. 课题意义 1
2. 国内外相关研究的现状分析 2
2.1. 国外研究现状 2
2.2. 国内研究现状 2
2.3. 对比分析 3
3. 研究目标和内容 4
4. 关键技术和解决方案 4
4.1. 系统总体解决方案 4
5. 预期的研究成果形式及创新点 6
5.1. 研究成果 6
5.2. 技术指标 6
6. 论文工作计划 7
7. 主要参考文献 7
1.研究背景及意义
1.1.课题来源
根据世界旅游组织有关资料统计,旅游散客化、家庭化是如今旅游的一大趋势。而且,悠久的历史文化、美丽的自然风光、现代的都市文明吸引了大批外国人到中国观光、旅游、访问、投资。然而,在我国的旅游市场,长期以来游客在景区旅游时,可看的景点多,可了解的资讯却很少,属于低层次的观感旅游阶段;而对于外国游客来说,由于语言不通,不便于相互之间的了解、沟通,他们可了解的资讯就更少了。
因此,应用高科技IT技术开发一种掌上电脑导游产品为游客服务,将具有广阔的市场前景,它能有效地促进旅游业的发展。
本着对音频编解码实现的兴趣,因此最终决定以当今最先进的音频编解码技术为背景,设计一款可以应用于导游仪中的音频多媒体处理芯片,针对音频数据的特性,降低生产的成本, 加速并提高人们在音频信号处理方面的效率。
1.2.课题意义
随着以数字形式存储和播放音乐的MPEG Audio Layer3 (MP3) 格式的发展,个人数字播放机市场开始实行出现巨大的发展机会,非压缩的音频磁轨的MP3只有原来磁轨大小的1/10,能保持74分钟数字音频录音时间的650Mbytes 读写CD可以保持740分钟MP3压缩音频数据.
数字播放机的一般解决方案是采用软件形式(如基于Windows或其他OS基础上的“Internet Audio Player”或硬件形式(如“Portable MP3 Player”)。如Diamond Multimedia 公司的Rio PMP300和Rio PMP500 MP3)数字播放机分别采用Actel 公司的A40MX04和A40MX09 FPGA 实现其特殊应用功能。FPGA 能满足整个系统的价格、功耗和性能要求 A40MX04提供547个逻辑模块,它们可配置做为组合逻辑或273个触发器和实现接口逻辑的69个I/O。A40MX04和A40MX09很容易满足48MHz速度要求。它们灵活的结构使系统设计人员能在每种MP3播放机中最佳地实现各种功能。
2.国内外相关研究的现状分析
全球领先的一体化协作通讯解决方案提供商宝利通公司今天宣布,国际电信联盟(ITU)已批准Polycom Siren 14技术为14 kHz超宽带音频编码新标准。同时进入作为ITU-T建议的G.722.1 Annex C标准的最后征求意见(Last Call )阶段。
2.1.国外研究现状
全球领先的一体化协作通讯解决方案提供商宝利通公司今天宣布,国际电信联盟(ITU)已批准Polycom Siren 14技术为14 kHz超宽带音频编码新标准。同时进入作为ITU-T建议的G.722.1 Annex C标准的最后征求意见(Last Call )阶段。宽带音频标准G.722.1(Siren 7)等标准正在被多数厂家在实践证明。
2.2.国内研究现状
长期以来,作为数字音频产业核心技术的数字音频编码技术一直掌握在少数国际企业手中,中国在数字音频核心技术与标准的缺失,意味着国内只能充当“制造商”角色,在音频产业中缺乏自主权。
随着音频编解码技术的进步,其技术标准正处于更新换代的新阶段,中国企业和政府为抓住这一发展契机,2007年1月20日,信息产业部与广东省人民政府在人民大会堂新闻发布厅联合召开了“加快推进数字音视频产业化暨数字音频标准发布会”,正式发布了具有自主知识产权的中国数字音频电子行业标准——《多声道数字音频编解码技术规范》。
该标准于2007年1月1日起开始实施,编号为SZIP11368。“该数字音频标准和已经实施的数字视频标准AVS是数字音视频产业最重要的两个基础标准,必将在我国数字音视频产业图的整体部署中发挥重要的技术支撑保护作用。”
2.3.对比分析
从国内外的实现形式来看,对音频数据进行编解码运算的结构主要分为专用结构和可编程结构。专用结构是特定算法最密切的结合,它要求算法固定,经过算法和结构的最优化处理后,能获得最小的芯片面积开销和最佳的芯片性能。它的缺点是没有灵活性,算法变了,结构要重新设计。可编程结构具有较大的灵活性,但芯片面积和性能要逊于专用结构。它的实现方法有两种,第一种是由通用微处理器为核,加入存储器输入输出电路等,编程灵活性较大,但芯片面积也大。第二种是以适合音频编码特点的处理器为核所组成,考虑了某些高速算法和并行结构的结合,运算单元有较强的针对性,进行某些运算的处理速度要高于第一种,但编程的灵活性不如通用处理器。需要用专门的指令来编写程序,同时设计者还要考虑指令流水线冲突,包括数据冲突’控制冲突和资源冲突。 解决这个问题的方法是设计优化编译器,将各种处理任务进行平衡自动的分配。
通过以上的对比分析,在当今音频编解码格式比较混杂的情况下,设计一个具有可编程性的编解码芯片具有很强的实用性。本次研究的目的是能够在兼容多种最新音频编码的基础上,通过资源的充分调用,更灵活的兼容原先的音频编码格式甚至将来要出现音频编码格式。从某种意义上来讲就是针对音频数据的特点,设计一个并行的媒体处理器,对音频的编解码进行加速。 更好地适用于MP3导游仪的使用.
3.研究目标和内容
1.研究目标:
硬件实现一种适用于MP3导游仪的具有可编程性的音频编解码芯片.
2.研究内容:
1) 全部研究工作可分以下几个步骤进行:
i. 熟悉数字音频编码的基本思想和原理,学习编码理论和硬件描述语言设计,奠定开展课题的初步基础。
ii.学习MPEG Audio Layer3 (MP3)标准,并针对MPEG Audio Layer3 (MP3)部分算法通过软件进行仿真。
iii.重点研究MPEG Audio Layer3 (MP3)中的帧内/帧间预测算法,记录帧的基本信息,包括位率索引和采样率索引, 实现VBR(动态码率,Variable bitrate)技术和CBR(Constant bitrate)技术,并对算法的时间复杂度和空间复杂度进行详细地分析,进而选择相应的硬件实现手段。
iv.设计基于FPGA的编码器系统结构,利用Verilog HDL语言设计音频处理器模块并做验证,确保其逻辑功能的实现。
v.将系统各设计模块联调,验证系统设计的正确性。
2)经对音频数据特点的研究发现,对其中的帧内/帧间预测部分和DCT/IDCT部分采取并行结构的设计非常迎合编码算法的实现方式。本项研究的目的就是设计一种具有针对性地可编程结构,对帧内/帧间预测部分和DCT/IDCT部分实施硬件加速,尽量的以最小的芯片面积开销达到较灵活的可编程性,以适应现在多数音频变解码算法的要求。
4.关键技术和解决方案
4.1.系统总体解决方案
MP3解码原理:首选将MP3数据帧解包,解出帧头信息和边带信息;然后采用霍夫曼解码解出比特分配信息;接着在逆变换中利用频谱系数,在综合滤波器中将32位子带合并成一个宽带信号。18个频谱值执行32位IMDCT(逆改进型离散余弦变换),将生成的576个频谱值变换成长度为32的18个连续的频谱。通过18次运算,多相位综合滤波器将这些频谱转换到时域,完成波形重构,生成立体声PCM音频数据。
4.1.1关键技术及解决途径
在数字音频MP3中,通过DCT将编码后的时域表示的数据流转换成以频域表示的数据流,减少了数据的位数,达到压缩的目的。IDCT是指把频域表示的数据流转换成以时域表示的数据流,也就是输入是以频域表示的数据流,而输出是以时域表示的数据流,使数据流恢复为传输前的方式。以6点的IDCT为例子,其分析表达式为
其中Xk是输入的数据, xi是输出的数据, 0 i<n, n=12。
4.1.2实现方案
IDCT系统实现的机构图如图1所示,每一个输入数据Xk用8 bit表示,存入移位寄存器中; xi是输出的数据,每一个数据用16 bit表示,存入输出缓冲寄存器中,然后将计算出的并行的值转换成串性的方式再输出;余旋系数是固定的值,它是小数,采用Q11表示法将其定标为12位的整数后存入ROM中。第一个MA结构实现一个输入数据和余旋值的相乘,它将需要8个时钟周期,第二个MA结构将前一个MA的结果累加,由于是6点的IDCT,计算出一个IDCT的值需要6×8+1=49个时钟周期。状态控制器属于时序电路部分,在本设计中对状态分配采用的是独热码编码分配方式。由它产生控制在每一时钟移位寄存器、输出缓冲寄存器、6×8的ROM、2个MA结构这些组合电路的信号,从而保证整个系统有调不紊地运行。
图1 IDCT系统机构
在FPGA的设计中,由于输入输出均为固定数目的引脚,操作数采用整型数来表示,因此在设计中遇到有小数的情况,均需先将小数定标成整型数表
示,然后再进行其他代数运算。数的定标常用的有Q表示法,例如,小数0. 5,定标Q=11,则表示的定点整数为﹂0. 5×2048」=1 024,二进制表示即为010000000000。设计用RTL(寄存器传输)级的Verilog语言描述,然后用Synplify Pro综合,其顶层模块如图2所示。
其中din是输入的数据流, clk是系统时钟信号, reset是系统复位信号。next-in触发下一个数据流的输入,在本设计中,当next-in为高电平时, din开始输入。Start触发数据的输出,当start为高电平时,下一个时钟就开始输出数据流dout。
对于窗函数标记为短窗的6点的IDCT,计算一个IDCT的值需要49个时钟周期,即数据流输出频率为408. 2 kHz;对于窗函数标记为长窗的18点的IDCT,数据流输出频率为138 kHz,而MP3的采样频率是44. 1 kHz,完全可以达到实时的要求。
5.预期的研究成果形式及创新点
5.1.研究成果
现在为大家所共知的中国品牌MP3播放器主要有“朝华”和“纽曼”等等。以朝华MF658和纽曼M360为例,他们的主控分别芯片为SIGMATEL STMP3520和炬力的ATJ2085,这两款芯片主要是集当今多种优秀算法于一身的MP3编解码器的硬件,具有非常强的参考价值,充分发挥出了硬件编解码的优势,不仅可以实现MP3的播放还可以只能进行h.264编解码,也就是说进行视频的播放。
本次研究的目的就是对这样一个高效但不是很灵活的专用编解码器进行改进,是只能达到预期的目的—使之在具有高的灵活性的同时,保证设计具有足够高的效率,也就是保证足够高的硬件利用率。
5.2.技术指标
炬力的ATJ2085芯片的编解码芯片规格
ENCODER
DECODER
Technology UMC 0.18 μm 1P6M CMOS
Pad/Core Voltage 3.3/1.8 V
Core Area 7.68×4.13 mm2
Logic Gates 922.8 K (2-input NAND gate)
SRAM 34.72 KB
Operating Frequency 81/108 for D1/HDTV720P
Power Consumption 581/785 mW for D1/HDTV720P
Encoding Features All Baseline Profile Compression Tools
Max. # of Ref. Frames 4/1 for D1/HDTV720P
Max. SR (Ref. 0) H[-64,+63] V[-32,+31]
Max. SR (Ref. 1-3) H[-32,+31] V[-16,+15]
Technology TSMC 0.18 μm 1P6M CMOS
Pad/Core Voltage 3.3/1.8 V
Core Area 2.19×2.19 mm2
Logic Gates 21.743 K (2-input NAND gate)
SRAM 9.98 KByte
Profile Baseline
Operating Frequency 120/1.5 MHz for HDTV1024P 30fps/QCIF 15fps
Power Consumption 186.4/1.18 mW for HDTV1024P 30fps/QCIF 15fps